Tarea 4-analisis De Correlacion Y Regresion

  • Uploaded by: JUAN CAMILO ARIAS VARON
  • 0
  • 0
  • March 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Tarea 4-analisis De Correlacion Y Regresion as PDF for free.

More details

  • Words: 3,600
  • Pages: 19
Loading documents preview...
Tarea 4 Análisis De Correlación y Regresión

Presentado Por: Luisa Fernanda González Cód.: Carolina Yasno Ángel Cód.: 52534176 Oscar David Puentes Cód.: 1105681104 Maira Alejandra Escamilla Cód.: Carlos Andrés Cruz Cód.: 1110569124

Grupo:203018_9

Tutora: Jessica Almeida Braga

Universidad Nacional Abierta y a Distancia - Unad Especialización En Biotecnología Agraria Biometría Y Diseño Experimental Noviembre, 2020

1. Desarrollar el siguiente cuestionario, con sus respectivas citaciones en formato APA. a) ¿Cuál es el propósito del análisis de regresión y correlación? El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables concomitantes (o relacionadas). El análisis de correlación estudia el grado de asociación de dos o más variables (Universidad De Granada, 2014). Análisis de Regresión Una relación funcional matemáticamente hablando, está dada por: Y = f (x1,..., xn; θ1,...,θm) donde: Y: Variable respuesta (o dependiente) xi: La i-ésima variable independiente (i=1,..,n) θj : El j-ésimo parámetro en la función (j=1,..,m) f: La función

b) ¿Por qué se requiere la regresión lineal y múltiple? ¿En qué casos se presenta? Regresión lineal simple La regresión lineal simple supone que los valores de la variable dependiente, a los que llamaremos yi, pueden escribirse en función de los valores de una única variable independiente, los cuales notaremos por xi, según el siguiente modelo lineal yi=β0+β1xi Modelo lineal simple donde β0 y β1, son los parámetros desconocidos que vamos a estimar (Universidad De Granada, 2014).

Regresión múltiple El modelo de regresión múltiple es la extensión a k variables explicativas del modelo de regresión simple. En general, una variable de interés y depende de varias variables x1, x2, …, xk  y no sólo de una única variable de predicción x. Por ejemplo, para estudiar la contaminación atmosférica, parece razonable considerar más de una variable explicativa, como pueden la temperatura media anual, el número de fábricas, el número de habitantes, etc. Además de las variables observables, la variable de interés puede depender de otras desconocidas para el investigador. Un modelo de regresión representa el efecto de estas variables en lo que se conoce como error aleatorio o perturbación (Universidad De Granada, 2014). Un modelo de regresión teórico en el que las variables se pueden relacionar mediante una función de tipo lineal, podemos expresarlo de la siguiente forma: y=β0+β1x1+β2x2+…+βkxk+ϵ Expresión del modelo de regresión múltiple donde 

y es la variable de interés que vamos a predecir, también llamada variable respuesta o variable dependiente 

x1,x2,….,xk  son  variables independientes, explicativas o de predicción



 β1,β2,…,βk son los parámetros desconocidos que vamos a estimar



 ϵ es el error aleatorio o perturbación, que representa el efecto de todas las variables que pueden afectar a la variable dependiente y no están incluidas en el modelo de regresión. Ejemplos de modelos de regresión múltiple:



El consumo de combustible de un vehículo, cuya variación puede ser explicada por la velocidad media del mismo y por el tipo de carretera. Podemos incluir en el término de error, variables como el efecto del conductor, las condiciones meteorológicas, etc (Sanchez, 2014).



El presupuesto de una universidad, cuya variación puede ser explicada por el número de alumnos. También podríamos considerar en el modelo variables como el número de profesores, el número de laboratorios, la superficie disponible de instalaciones, personal de administración, etc (Sanchez, 2014).

c) ¿Qué tipos de correlación existe, cite un ejemplo para cada uno de los casos? Use ejemplos relacionados con el área de las Ciencias Agropecuarias. Hay tres tipos de correlación: positiva, negativa y nula (sin correlación).  Correlación positiva: ocurre cuando una variable aumenta y la otra también. Por ejemplo, la altura de una planta y el tamaño de sus hojas; mientras aumenta la altura, igual el tamaño de sus hojas también (Sanchez, 2014). 

Correlación negativa: es cuando una variable aumenta y la otra disminuye. El cultivo realizado en una zona y los nutrientes con los que cuenta esta zona, tienen una correlación negativa, ya que cuando más constante se cultive en esta zona, menos nutrientes tendrá la tierra (Sanchez, 2014).



Sin correlación: no hay una relación aparente entre las variables. Las personas realizado inspección y la altura de las platas, no parece tener ninguna correlación; mientras una aumenta, la otra no tiene ningún efecto (Sanchez, 2014).

d) ¿Qué es coeficiente de correlación y cuál es su interpretación? Según Sanchez (2014), es una medida de la asociación lineal que existe entre las variables x e y. Se define por

A continuación, se interpretan algunos valores extremos de este coeficiente. Aunque estos valores son poco habituales en la práctica, ilustran cómo interpretar este coeficiente.

e) ¿Qué es coeficiente de determinación y cuál es su interpretación? Para construir una medida descriptiva del ajuste global de un modelo de regresión se emplea el coeficiente de determinación, dado por

R2 representa la proporción de variación de y explicada por el modelo de regresión. Por construcción, es evidente que 0 ≤ R 2 ≤ 1.

 

Si R2 =1 entonces SCReg=SCT, por lo que toda la variación de y es explicada por el modelo de regresión. Si R2 = 0 entonces SCT=SCE, por lo que toda la variación de y queda sin explicar.

En general, cuanto más próximo esté a 1, mayor es la variación de y explicada por el modelo de regresión (Sánchez, 2014). Sin embargo, en regresión múltiple, el coeficiente de determinación presenta el inconveniente de que su valor aumenta al añadir nuevas variables al modelo de regresión, independientemente de que éstas contribuyan de forma significativa a la explicación de la variable respuesta. Para evitar un aumento injustificado de este coeficiente, se introduce el coeficiente de determinación corregido, que notamos por y que se obtiene a partir de R2 en la forma.

Este coeficiente no aumenta su valor cuando se añaden nuevas variables, sino que en caso de añadir variables superfluas al modelo, el valor de disminuye considerablemente respecto al valor del coeficiente R 2 (Sanchez, 2014).

2. Realizar los siguientes estudios de caso. a) ¿Cuál es la variable dependiente (y) respuesta y cuál es la variable independiente (x) o predictora en este caso? Variable dependiente (y) respuesta: PAI 2 Variable independiente (x) o predictora en este caso: Peso b) Realice el diagrama de dispersión asignando la variable respuesta e independiente según corresponda. ¿Qué sugiere la gráfica con respecto al modelo? Hay en correlación positiva de las variables considerando que ambas variables van en ascenso. 350 300

PAI 2

250 200 150

PAI 2 Linear (PAI 2)

100 50 0 500 1000 1500 2000 2500 3000 3500 4000 Peso

c) Identifique el modelo El modelo es regresión lineal simple, la influencia de una variable explicativa X en los valores que toma otra variable denominada dependiente (Y). d) Estime los parámetros del modelo e interprételos Ordenada al origen (intercepto) -72,12209655, esto quiere decir que se presenta un valor negativo con relación al inhibidor tipo 2 en los gatos recién nacidos Pendiente 0,095250958, nos indica que por cada gramo de peso de los gatos recién nacidos hay un incremento de 0,095250958 inhibidor tipo 2. e) Redacte las hipótesis que interesa contrastar en el análisis de varianza

H0= 0, la variable Y no es ajustada por el módulo de regresión. H1ǂ0, la variable independiente contribuye significativamente al modelo f) Especifique matemáticamente el modelo y especifique cada término y=a+bx, donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical El parámetro "b" determina la pendiente de la recta, su grado de inclinación. g) Verifique los supuestos para realizar en ANOVA y determine las hipótesis Normalidad la cantidad del inhibidor tipo 2 es igual para cada uno de los gatos recién nacidos Homocedasticidad la varianza en la cantidad del inhibidor tipo 2 es igual para cada uno de los gatos recién nacidos Linealidad de la cantidad del inhibidor tipo 2 es igual para cada uno de los gatos recién nacidos Hipótesis H0= ordenada de origen media poblacional de la variable resultante Y (peso de gatos al nacer) cuando la variable X (PAI 2) toma el valor de cero (0) H1= pendiente cambio en la media poblacional de la variable resultante Y (peso de gatos al nacer) cuando la variable regresiva X (PAI 2) aumenta. h) ¿Es significativo el modelo? Si es significativo al 54,4%

i) Realice la regresión con fórmulas en archivo Excel y con la herramienta “regresión de análisis de datos” de Excel. Resumen Estadísticas de la regresión Coeficiente de correlación 0,7379802 múltiple 6 Coeficiente de determinación 0,5446148 R^2 7 0,5256404 R^2 ajustado 8 65,354866 Error típico 7 Observaciones 26 ANÁLISIS DE VARIANZA

 

Grados de Suma de libertad cuadrados

Regresión Residuos Total

1 24 25

122596,409 102510,206 225106,615

Promedio de los cuadrados F 122596,40 9 28,7026426 4271,2586    

Coeficiente Estadístico Probabilida s Error típico t d 72,122096 1,8363682 Intercepción 5 39,2743102 5 0,07872157 0,0952509 5,3574847 Peso 6 0,01777904 3 1,6856E-05 j) Son significativos los coeficientes de regresión  

Valor crítico de F 1,6856E05   Inferior 95% 153,18028 9 0,0585568 1

Superior 95% 8,9360958 5 0,1319451

No, no son significativos debido a que la probabilidad es superior a 0,05<0,078721 k) Determine el valor de p para la prueba. 0,078721569

l) Construya el intervalo de confianza de 95% para p El intervalo de confianza 95% para β0. Podemos estar interesados en decir si el modelo debe o no incluir el intercepto β0, que se puede plantear como un contraste de hipótesis con H0:β0=0. Una forma rápida de hacerlo es notar que el 0 no está incluido en el intervalo de confianza 95%, esto nos sirve para rechazar H0 con una significancia 0.05. m) Como se cuantifica si el modelo explica una parte significativa de la variación de la variable respuesta El coeficiente de correlación lineal puede interpretarse como una medida de la bondad del ajuste del modelo lineal, concretamente, un valor del coeficiente igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para cuantificar la bondad del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina coeficiente de determinación lineal R2, que es la proporción de variabilidad de la variable Y que queda explicada por el modelo de entre toda la presente n) Redactar como si fuese para la sección de material y método y resultados de un artículo científico. El experimento se desarrolló en el laboratorio de producción animal con una muestra de 26 gatos recién nacidos, a los que se le tomo el peso (gr), para determinar los niveles del inhibidor tipo 2 del activador del plásminógeno (PAI2), el cual fue medido en ng/ml. Se acuerdo a análisis de correlación simple hay un interrelación alta de un 54%, que indica que a mayor peso mayor es el nivel de PAI 2. 2.2 La siguiente tabla presenta los resultados obtenidos en una investigación de suelos. Se deseaba conocer el efecto residual de fósforo en suelos donde previamente se cultivó maíz. Para esto se midió la concentración de fósforo inorgánico (X1) y orgánico (X2) en varios suelos calcáreos. Se midió el contenido de fósforo del maíz sembrado en esos suelos y se estimó el fósforo aprovechable por la planta (ppm) en suelos a una temperatura de 20 °C (Y). Datos adaptados de Martínez (1997).

a) ¿Cuál es la variable dependiente (y) respuesta y cuál es (son) la (s) variable (s) independiente (s)(x) o predictora (s) en este caso? La variable dependiente (y) para este caso es el contenido de fosforo en el maíz sembrado y las variables independientes (x) son la concentración de fosforo inorgánico y la concentración de fosforo orgánico en el suelo. b) Realice el diagrama de dispersión asignando la variable respuesta e independiente según corresponda. ¿Qué sugiere la gráfica con respecto al modelo?

El grafico anterior de dispersión nos muestra claramente que las variables X 1 y X2 que corresponde a la concentración de fosforo inorgánico y orgánico en el suelo respectivamente explica que aproximadamente en un 31% la respuesta en el contendió de fosforo en el maíz, está influenciada o relacionada a estas variables independiente, hay que tener en cuenta que al hacer el análisis de regresión con las variables individualmente el coeficiente de determinación R^2 de la variable X1 concentración de fosforo inorgánico en el suelo, representa aproximadamente el 50% de la respuesta a la variable Y contendió de fosforo en el maíz, esto nos indica que la variable X 1 representa una mayor relación con respecto a la variable X2 concentración de fosforo orgánico en el suelo que corresponde individualmente a un 13% de influencia en el contendió de fosforo en el maíz. c) Identifique el modelo. El modelo de regresión lineal múltiple es el siguiente: y = a0 + a1 . x1 + a2 . x2 + a3 . x3 + … + ak . xk + u d). Estime los parámetros del modelo e interprételos. Contenido de = ordenada al fosforo en el origen + maíz coeficiente.

Concentración de fosforo inorgánico +

Coeficiente. concentración de fosforo orgánico

Donde: Contenido de fosforo en el maíz = variable dependiente a0 = la ordenada al origen a1 = coeficiente X1 Concentración de fosforo inorgánico = variable independiente a2 = coeficiente X2 Concentración de fosforo orgánico = variable independiente e) Redacte las hipótesis que interesa contrastar en el análisis de varianza H0 Hipótesis nula: El contenido de fosforo en el maíz sembrado en esos suelos es igual para las dos fuentes de fosforo (inorgánico y orgánico) en los diversos suelos estudiados. H1 Hipótesis alternativa: El contenido de fosforo en el maíz sembrado en esos suelos es diferente con respecto a la fuente de fosforo inorgánico fosforo orgánico. f) Especifique matemáticamente el modelo y especifique cada término y = a0 + a1 . x1 + a2 . x2 + a3 . x3 + … + ak . xk + u Donde: Contenido de fosforo en el maíz = variable dependiente a0 = la ordenada al origen

a1 = coeficiente X1 Concentración de fosforo inorgánico = variable independiente a2 = coeficiente X2 Concentración de fosforo orgánico = variable independiente. g) Verifique los supuestos para realizar en ANAVA y determine las hipótesis Análisis de varianza de un factor RESUMEN Grupos X1

Cuenta

Suma

Promedio Varianza 11,944444 103,11555 215 4 6 42,111111 185,63398 758 1 7

18

X2 18 ANÁLISIS DE VARIANZA Origen de las variaciones

Suma de cuadrados

Grados de libertad

Promedio de los cuadrados

F

Entre grupos Dentro de los grupos

8190,25 4908,7422 2

56,729094 1 8190,25 2 144,37477 34 1

Total

13098,992 2

35  

 

Probabilid ad 9,5821E09

 

h) ¿Es significativo el modelo? Si es menor que 0.05 se rechaza a la hipótesis nula, es decir, el factor tiene un efecto significativo en el experimento. se rechaza la hipótesis nula se acepta la hipótesis alternativa dado que el f es mayor a 0,05 i) Realice la regresión con fórmulas en archivo Excel y con la herramienta “regresión de análisis de datos” Resumen Estadísticas de la regresión Coeficiente de correlación 0,4615667 múltiple 5 Coeficiente de 0,2130438 determinación R^2 7 0,1638591 R^2 ajustado 1

12,458578 1 18

Error típico Observaciones

j) Son significativos los coeficientes de regresión Según los resultados obtenidos en el análisis de regresión, podemos observar que el valor p para el coeficiente de la variable X1 corresponde a 0,005 siendo este valor menor que el nivel de significancia de 0,05, y el valor de probabilidad para el coeficiente de la variable X2 es de 0,8373, por lo tanto podemos decir que la variable X1 que en este caso es la concentración de fosforo inorgánico en el suelo, presenta diferencias estadísticamente significativas ya que su valor p es mucho menor que el nivel de significancia. Análisis contrario a lo que se observa para la variable X2 que es la concentración de fosforo orgánico en el suelo, el cual no presenta diferencias estadísticas significativas ya que el valor p para su coeficiente es mucho mayor que el nivel de significancia siendo este de 0,05. k) Como se cuantifica si el modelo explica una parte significativa de la variación de la variable respuesta Para cuantificar si el modelo es confiable o no se debe observar el coeficiente de determinación R^2, si este valor es cercano a cero se considera que el modelo no es confiable para realizar pronósticos, y si este valor se acerca a 1 significa que el modelo es confiable para realizar pronósticos usando las variables independientes consideradas en el estudio. l) Redactar como si fuese para la sección de material y método y resultados de un artículo científico. 1. A continuación, se presentan el análisis químico de una planta de leche que realizo a 23 fincas lecheras, donde se valoró los contenidos de proteína bruta (PB) y caseína (CA) en leche: No. Finca 1 2 3 4 5 6 7 8 9 10 11 12

PB

CA

2.74 3.19 2.96 2.91 3.23 3.04 3.08 3.23 3.11 3.11 3.1 3.25

1.87 2.26 2.07 2.09 2.28 2.04 2.18 2.3 2.17 2.15 2.16 2.33

No. Finca 13 14 15 16 17 18 19 20 21 22 23

PB

CA

2.95 3.08 3.14 3.22 3.14 3.15 3.2 2.95 3.19 3.12 2.99

2.04 2.16 2.16 2.22 2.22 2.24 2.22 2.07 2.25 2.23 2.16

a) Hallar el coeficiente de correlación utilizando la herramienta de Excel   PB CA PB 1 0,9344117 CA 5 1 b) Plantee las hipótesis Hipótesis alternativa (H1): Existe una correlación lineal estadísticamente significativa entre los porcentajes de proteína bruta y caseína en la leche. Hipótesis nula (H0): No existe una correlación lineal estadísticamente significativa entre los porcentajes de proteína bruta y caseína en la leche. c)Aplique la t de Student con la fórmula en Excel y determine si la correlación es significativa o no Prueba t para dos muestras suponiendo varianzas iguales   PB CA 3,0904347 Media 8 2,16826087 0,0158134 Varianza 4 0,0107332 Observaciones 23 23 0,0132733 Varianza agrupada 2 Diferencia hipotética de las medias 0 Grados de libertad 44 27,143882 Estadístico t 6 P(T<=t) una cola 2,0368E-29 1,6802299 Valor crítico de t (una cola) 8 P(T<=t) dos colas 4,0736E-29 2,0153675 Valor crítico de t (dos colas) 7   La correlación es significativa d)Interprete el resultado El p-Valor es inferior al nivel de significancia (α = 5% = 0,05), o sea que hay diferencia, por lo que se rechaza la hipótesis de correlación nula, y se concluye

entonces que Existe una correlación lineal estadísticamente significativa entre los porcentajes de proteína bruta y caseína en la leche.

2.3 Las siguientes mediciones se obtuvieron de 12 hombres con edades entre 12 y 18 años (todas mediciones están en centímetros). Longitud del radio (X1) 21 21,79 22,4 23 23,7 24,3 24,92 25,5 25,8 26,01 26,15 26,3

Estatura 149 152 155,7 159 163,3 166 169 172 174,5 176,1 176,5 179

Longitud del femur (X2) 42,5 43,7 44,75 46 47 47,9 48,95 49,9 50,3 50,9 50,85 51,1

a) Hallar el coeficiente de correlación múltiple utilizando la herramienta de Excel Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones

 

  0,997619785 0,995245236 0,994188622   0,778062584   12  

99,86% 99,52%

b) Plantee las hipótesis Hipótesis alternativa (H1): Existe una correlación multiple significativa entre los valores de Estatura y Longitud Del Radio y Longitud Del Femur. Hipótesis nula (H0): No Existe una correlación multiple significativa entre los valores de Estatura y Longitud Del Radio y Longitud Del Femur.

c) Pruebe la hipótesis nula siguiente: py.12=0. Si existe una correlación multiple significativa entre los valores de Estatura y Longitud Del Radio y Longitud Del Femur. Se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

d) Calcule los coeficientes de correlación parcial y pruebe la significación de todos los coeficientes. Sea a=0.05 para todas las pruebas. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones

0,997602215 0,995210179 0,994731196 0,740851166 12

Estadísticas de la regresión Coeficiente de correlación múltiple 0,996790632 Coeficiente de determinación R^2 0,993591563 R^2 ajustado 0,99295072 Error típico 0,856933963 Observaciones 12

e) Aplique la t de Student con la fórmula en Excel y determine si la correlación es significativa o no. Prueba t para dos muestras suponiendo varianzas iguales

  Media Varianza Observaciones Varianza agrupada Diferencia hipotética de las

Estatura 166,008333 3 104,171742 4 12 56,6255208 3 0

Longitud del femur (X2) 47,82083333 9,079299242 12

medias Grados de libertad Estadístico t P(T<=t) una cola Valor crítico de t (una cola) P(T<=t) dos colas Valor crítico de t (dos colas)

22 38,4716724 6 5,63326E-22 1,71714437 4 1,12665E-21 2,07387306 8  

La correlación es significativa

Prueba t para dos muestras suponiendo varianzas iguales

  Media Varianza Observaciones Varianza agrupada Diferencia hipotética de las medias Grados de libertad Estadístico t P(T<=t) una cola Valor crítico de t (una cola) P(T<=t) dos colas Valor crítico de t (dos colas)

La correlación es significativa

Estatura 166,008333 3 104,171742 4 12 53,7779935 6 0 22 47,3538304 6,15041E-24 1,71714437 4 1,23008E-23 2,07387306 8  

Longitud del radio (X1) 24,23916667 3,384244697 12

Referencias Bibliográficas Herrera, V. (2013). Métodos estadísticos alternativos de análisis con variables discretas y categóricas en investigaciones agropecuarias. Habana, CUBA: Editorial Universitaria. Recuperado de http://eduniv.reduniv.edu.cu/index.php? page=13&id=707&db=1 Carreño González, N. (2014). Diseño experimental Conceptos Colombia: Recuperado de http://hdl.handle.net/10596/11404 OVI Almeida, J. (2017). Diseño de http://hdl.handle.net/10596/11293

de

Bloques

al

azar.

básicos.

Recuperado

Henry Mendoza Rivera. (2016). Unidad 1: ASPECTOS GENERALES DEL DISEÑO EXPERIMENTAL. Investigación Experimental. Recuperado de: http://red.unal.edu.co/cursos/ciencias/2000352/html/casos/cont_05.html Mendoza, H, Bautista, G. (2002). Diseño Experimental. Universidad Nacional de Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2000352/. Licencia: Creative Commons BY-NC-ND. Sanchez, I. (2014). Metodos Estadisticos Por Ordenador. Recuperado de http://wpd.ugr.es/~bioestad/wp-content/uploads/Metodos-de-regresion.pdf

Universidad De Granada. (2014). Regresión y correlación. Estadística. Recuperado de: https://wpd.ugr.es/~bioestad/guia-de-r/practica-3/#4

Related Documents


More Documents from "Luis Mayhuiri"

March 2021 0
La Inteligencia Fracasada
January 2021 1
January 2021 1
February 2021 2