Loading documents preview...
BIOMETRIA Y DISEÑO EXPERIMENTAL TAREA 4 ANALISIS DE CORRELACION.
PRESENTADO POR: YEISON ANDRES SAMBONI ANDRES BLADIMIR CORTES ELISETH JANSASOY N.
PRESENTADO A ELIANA MARIA BAEZ
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Cuestionario. 1. ¿Cuál es el propósito del análisis de regresión y correlación? En muchos casos y diversas aplicaciones, más que conocer el comportamiento de una variable, es necesario identificar y conocer la relación que existe entre dos o más variables, ejemplo; relación entre producción y consumo; oferta y demanda; caudal de agua y diámetro de la tubería, en fin, sin número de casos que se pueden estudiar e interpretar. La palabra regresión es utilizada para identificar la estimación de una variable en función de otra (valor conocido o dado) que corresponde a la otra variable. Las técnicas de correlación y las de regresión están estrechamente relacionadas, aunque obedecen a estrategias de análisis un tanto diferentes. Por un lado, el coeficiente de correlación determina el grado de asociación lineal entre X e Y, sin establecer a priori ninguna direccionalidad en la relación entre ambas variables. Por el contrario, la regresión lineal simple permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X, asumiendo implícitamente que X es la variable explicativa o independiente Y es la variable respuesta o dependiente. La regresión lineal simple, examina la relación entre dos variables restringiendo una de ellas respecto a la otra, esto con el objeto de estudiar las variaciones de la primera cuando la otra permanece constante. La regresión es un método que se emplea para pronosticar o predecir el valor de una variable en función de los valores dados de la otra. 2. ¿Por qué se requiere la regresión lineal múltiple? ¿En qué casos se presenta? La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores (X1, X2, X3…). Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe analizar con cautela para no malinterpretar causa-efecto). Los modelos lineales múltiples siguen la siguiente ecuación: Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son cero. βi: es el efecto promedio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.
ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo. Es importante tener en cuenta que la magnitud de cada coeficiente parcial de regresión depende de las unidades en las que se mida la variable predictora a la que corresponde, por lo que su magnitud no está asociada con la importancia de cada predictor. Para poder determinar qué impacto tienen en el modelo cada una de las variables, se emplean los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo. La regresión múltiple se puede presentar en. Identificación de variables explicativas. Selección de variables que pueden influir en la respuesta, descartando las que no aporten información Detección de interacciones. Variables independientes que afectan la variable respuesta. Identificación de variables confusoras. Problema difícil el de su detección, pero de interés en la investigación no experimental. 3. Que tipos de correlación existe, cite un ejemplo para cada uno de los casos. Existen tres tipos de correlación, Positiva. Cuando una variable crece, la otra variable también crece. Ejemplo, cuando aumenta la población en determinada zona, también aumenta el consumo de alimentos en la misma. Negativa. Es cuando una variable aumenta y la otra disminuye. Ejemplo. Cuando aumenta la aplicación de vacunas en animales del sector rural, disminuyen las enfermedades y muertes en los mismos. Correlación nula, cuando las variables no tienen que ver la una con la otra. Ejemplo, rendimiento académico comparado con la talla de tu camisa. 4.
¿Qué es coeficiente de correlación y cuál es su interpretación?
De los diversos coeficientes de correlación que existen, el más popular y utilizado es el Coeficiente de Correlación de Pearson. Para su aplicación es indispensable que la correlación sea lineal. El Coeficiente de correlación es una medida que permite conocer el grado de asociación lineal entre dos variables cuantitativas (X, Y).
Interpretación
Determinar si ambas variables están correlacionadas, es decir, si para valores más bajos o más altos de una variable, los valores de la otra variable tienden a ser igualmente más bajos o más altos. Predecir el valor de una variable, tomando determinado valor de la otra variable. Estimar el nivel de correspondencia entre los valores de ambas variables.
5. ¿Qué es coeficiente de determinación y cuál es su interpretación? El coeficiente de determinación que se conoce también como r2, es un término utilizado en estadística, que tiene como función principal predecir el resultado de hipótesis. Esto es fundamental en cualquier estudio con fundamentos científicos y sus aplicaciones pueden tener un amplio, rango como en la economía, el estudio de los mercados o para determinar el éxito de algún producto Son muchas las utilidades que tiene esta fórmula, por ejemplo, en el caso de intentar la cantidad de puntos que anota un jugador de futbol o baloncesto con respecto a la cantidad de partidos que juega, partiendo de la suposición que mientras más partidos más puntos serán anotados. Tomemos en cuenta 8 juegos. Interpretación El resultado puede variar entre 0 y 1, esto significa que mientras más cerca esté del uno estará más ajustada a la variable que intentas probar, mientras que, en el caso contrario, es decir, cuanto más se acerca a 0 menos fiable será ya que estará menos ajustado el modelo. La grafica mostraría una línea inclinada, con una relación positiva, ya que como se esperaba mientras más partidos jugados más puntos fueron anotados, esta grafica mostraría un resultado por encima de cero, el cual como mencionamos antes probaría que está ajustado a la variable real. La bondad de la predicción depende de la relación entre las variables. Si dos variables no covarían, no podremos hacer predicciones válidas, y si la intensidad de la covariación es moderada, las predicciones no serán demasiado buenas. En consecuencia, hay que disponer de alguna medida de la capacidad de la ecuación de Regresión para obtener predicciones buenas (en el sentido de que sean lo menos erróneas posible). Esta medida es el Coeficiente de Determinación, que es el cuadrado del coeficiente de correlación de Pearson, y da la proporción de variación de la variable Y que es explicada por la variable X (variable predictora o explicativa). Si la proporción es igual a 0, significa que la variable predictora
no tiene NULA capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la proporción, mejor será la predicción. Si llegara a ser igual a 1 la variable predictora explicaría TODA la variación de Y, y las predicciones NO tendrían error. Los modelos estadísticos tienen como finalidad probar o explicar alguna variable aleatoria, esto se realiza a través de otras variables aleatorias que son conocidas como factores. Ya que se puede predecir una variable considerada aleatoria a través de su medida y que para este caso la varianza será el mismo error cuadrático medio, el máximo error cuadrático medio que se puede aceptar es la varianza.
Ejercicios (Estudio de caso).
1. En un ensayo sobre trigo se quiere cuantificar la relación que hay entre la disponibilidad de Nitrógeno en el suelo con la cantidad de Nitrógeno en la planta. Se obtuvieron datos para doce parcelas en las que se registró el contenido de nutrientes en el suelo (x) y los valores promedio de nitrógeno por planta (y).
N en el suelo x 0,42 0,45 0,50 0,55 0,68 0,69 0,70 0,73 0,80 0,90 0,92 0,94
Para estos datos realice:
N en la planta Y 0,13 0,15 0,16 0,17 0,18 0,18 0,19 0,20 0,20 0,21 0,22 0,23
a. ¿Cuál es la variable dependiente (y) respuesta y cuál es la variable independiente (x) o predictora en este caso Variable dependiente (y): Valores promedio de nitrógeno por planta Variable independiente (x): Contenido de nutrientes en el suelo b. Realice el diagrama de dispersión asignando la variable respuesta e independiente según corresponda. ¿Qué sugiere la gráfica con respecto al modelo?
N en la planta vs. N en el suelo 0.25 0.20 0.15 0.10
y = 0.1585x + 0.0756 R² = 0.9511
0.05
0.00 0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
Se observa que las variables siguen un proceso de regresión lineal, con los datos muy cerca de la línea de tendencia, lo cual puede arrojar una correlación fuerte entre ambas. c. Identifique el modelo Es un modelo de regresión lineal simple de la forma: Y=β0 +β1 X1 +ε d. Estime los parámetros del modelo e interprételos Se observa una relación positiva entre las variables, dado el valor del coeficiente β0 , que es de 0,0756. Dado un cambio de un punto en el contenido de nutrientes en el suelo, el valor promedio de nitrógeno por planta aumentará en 0,1585. e. Redacte las hipótesis que interesa contrastar en el análisis de varianza Hipótesis nula (H0 ): Las medias de los valores promedios de nitrógeno por planta y del contenido de nutrientes en el suelo son iguales.
Hipótesis alternativa (H1 ): Las medias de los valores promedios de nitrógeno por planta y del contenido de nutrientes en el suelo son diferentes. f. Especifique matemáticamente el modelo y especifique cada término Y=0.1585X+0.0756
Donde: Y = Valores promedio de nitrógeno por planta X = Contenido de nutrientes en el suelo g. Verifique los supuestos para realizar en ANOVA y determine las hipótesis.
h. ¿Es significativo el modelo? Si es significativo el modelo debido a que el estadístico F es muy inferior al nivel recomendado de 0,05. i. Realice la regresión con fórmulas en archivo Excel y con la herramienta “regresión de análisis de datos” de Excel. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0,975221375 0,95105673 0,946162403 0,006818805 12
ANÁLISIS DE VARIANZA Regresión Residuos Total
Intercepción Variable X 1
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F 1 0,009035039 0,009035039 194,318182 7,05694E-08 10 0,000464961 4,64961E-05 11 0,0095
Coeficientes 0,075628476 0,158509455
Error típico 0,008089139 0,011370995
Estadístico t Probabilidad 9,349384693 2,9344E-06 13,93980566 7,0569E-08
j. Son significativos los coeficientes de regresión. Debido a que los valor-p de los coeficientes son inferiores a 0,05 se puede afirmar que son estadísticamente significativos. k. Como se cuantifica si el modelo explica una significativa de la variación de la variable respuesta.
parte
l. Redactar como si fuese para la sección de material y método y resultados de un artículo científico.
Ejercicios (Estudio de caso). 2. En una investigación de suelos, se deseaba conocer el efecto residual de fósforos en suelos donde previamente se cultivó maíz, para lo cual se midió la concentración de fósforo inorgánico (X1) y el orgánico (X2) en varios suelos calcáreos. Además, se midió el contenido de fósforo del maíz sembrado en esos suelos y se estimó el fósforo aprovechable por la planta (ppm) en suelos a una temperatura de 20 °C (Y). Muestra X1 X2 1 0.4 53 2 0.4 23 3 3.1 19 4 0.6 34 5 4.7 24 6 1.7 65 7 9.4 44 8 10.1 31 9 11.6 29 10 12.6 58 11 10.9 37 12 23.1 46 13 23.1 50 14 21.6 44 15 23.1 56 16 1.9 36 17 26.8 58 18 29.9 51 Fuente: Datos adaptados Martínez 1997
Y 64 60 71 61 54 77 81 93 93 51 76 96 77 93 95 54 168 99
Para estos datos realice a. ¿Cuál es la variable dependiente (y) respuesta y cuál es (son) la (s) variable (s) independiente (s)(x) o predictora (s) en este caso? Variable dependiente (Y): Contenido de fósforo del maíz sembrado en suelos. Variables independientes: (X1): Concentración de fósforo inorgánico. (X2): Concentración de fósforo orgánico.
b. Realice el diagrama de dispersión asignando la variable respuesta e independiente según corresponda. ¿Qué sugiere la gráfica con respecto al modelo?
Y VS. X1 180 160
y = 1.8434x + 59.259 R² = 0.4808
140 120 100 80 60 40 20 0 0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
Y VS. X2 180 160
y = 0.7023x + 51.701 R² = 0.1256
140 120 100 80 60 40 20 0 0
10
20
30
40
50
60
70
c. Identifique el modelo Es un modelo de regresión lineal múltiple de la forma: Y=β0 +β1 X1 +β2 X2 +ε En el modelo de regresión lineal múltiple se supone que la función de regresión que relaciona la variable dependiente con las variables independientes es lineal, es decir: Y = β0 + β1X1 + β2X2 +···+ βpXp + ε La regresión lineal es una técnica estadística destinada a analizar las causas de por qué pasan las cosas. A partir de los análisis de regresión lineal múltiple podemos:
identificar que variables independientes (causas) explican una variable dependiente (resultado) comparar y comprobar modelos causales predecir valores de una variable, es decir, a partir de unas características predecir de forma aproximada un comportamiento o estado
d. Estime los parámetros del modelo e interprételos
La estimación de parámetros es el procedimiento utilizado para conocer las características de un parámetro poblacional, a partir del conocimiento de la muestra Intervalo de confianza Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza específico. Nivel de confianza Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza. Error de estimación admisible Que estará relacionado con el radio del intervalo de confianza.
e. Redacte las hipótesis que interesa contrastar en el análisis de varianza. Hipótesis nula (H0 ): Las medias de los valores del contenido de fósforo del maíz sembrado en suelos y los valores de concentración de fósforo inorgánico y orgánico son iguales. Hipótesis alternativa (H1 ): Al menos una de las medias de los valores del contenido de fósforo del maíz sembrado en suelos y los valores de concentración de fósforo inorgánico y orgánico, es diferente. f. Especifique matemáticamente el modelo y especifique cada término. Y=56.2510+1.7897X1 +0.0866X 2 +ε
Donde: Y: Contenido de fósforo del maíz sembrado en suelos. X1: Concentración de fósforo inorgánico. X2: Concentración de fósforo orgánico. g. Verifique los supuestos para realizar el ANAVA y determine las hipótesis?
h. ¿Es significativo el modelo? Si es significativo el modelo debido a que el estadístico F es muy inferior al nivel recomendado de 0,05. i. Realice la regresión con fórmulas en archivo Excel y con la herramienta “regresión de análisis de datos”. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0,694487466 0,482312841 0,413287886 20,67839868 18
ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F 2 5975,668532 2987,834266 6,987514067 0,007169774 15 6413,942579 427,5961719 17 12389,61111
Regresión Residuos Total
Coeficientes
Error típico
Estadístico t
Probabilidad
Intercepción 56,25102409 16,31073734 3,448711294 0,0035813 Variable X 1 1,789774116 0,556743415 3,214719868 0,005786774 Variable X 2
0,08664925 0,414942993 0,208822058 0,837396429
j. Son significativos los coeficientes de regresión Según la prueba t individual para evaluar la significancia de los coeficientes, se observa que el valor-p del coeficiente de X1 y de la intercepción son estadísticamente significativos, al ser inferiores a 0,05. Caso contrario al coeficiente de X2, que es mayor.
3. A continuación, se presentan el análisis químico de una planta de leche que realizo a 23 fincas lecheras, donde se valoró los contenidos de proteína bruta (PB) y caseína (CA) en leche: No. Finca 1 2 3 4 5 6 7 8 9
PB
CA
2.74 3.19 2.96 2.91 3.23 3.04 3.08 3.23 3.11
1.87 2.26 2.07 2.09 2.28 2.04 2.18 2.3 2.17
No. Finca 13 14 15 16 17 18 19 20 21
PB 2.95 3.08 3.14 3.22 3.14 3.15 3.2 2.95 3.19
CA 2.04 2.16 2.16 2.22 2.22 2.24 2.22 2.07 2.25
10 11 12
No de Finca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
PB 2,74 3,19 2,96 2,91 3,23 3,04 3,08 3,23 3,11 3,11 3,1 3,25 2,95 3,08 3,14 3,22 3,14 3,15 3,2 2,95 3,19 3,12 2,99
3.11 3.1 3.25
CA 1,87 2,26 2,07 2,09 2,28 2,04 2,18 2,3 2,17 2,15 2,16 2,33 2,04 2,16 2,16 2,22 2,22 2,24 2,22 2,07 2,25 2,23 2,16
2.15 2.16 2.33
22 23
3.12 2.99
2.23 2.16
Coeficiente de correlación 0,934411751 calculada en Excel
De acuerdo con el ejercicio: a. Hallar el coeficiente de correlación utilizando la herramienta de Excel Coeficiente de Correlación = 0,934411751 El coeficiente de correlación lineal r, es también conocido como coeficiente de Person, ya que el coeficiente oscila entre +1 y -1, de acuerdo a esto podemos estimar que la correlación de nuestro ejercicio es una correlación excelente 0.90
b. Plantee las hipótesis Prueba de hipótesis, Aplicación de la t de Student 𝑟
𝑇=
𝑇=
2
√1 − 𝑟 𝑛−2 0.9344
2
√1 − 0.9344 23 − 2
𝑇=
0.9344 √1 − 0.87 21
𝑇=
0.9344 0.078
𝑇 = 11.97
BIBLIOGRAFÍA OpenIntro Statistics: Third Edition, David M Diez, Christopher D Barr, Mine ÇetinkayaRundel An Introduction to Statistical Learning: with Applications in R (Springer Texts in Statistics) Linear Models with R, Julian J.Faraway
Lic. Rosa María Martínez Ortega. Calle E entre 7ma. y Paseo. Edificio 15059. Apto 3. Altahabana. Boyeros. Ciudad de La Habana, Lic. Leonel C. Tuya Pendás. Avenida 83 núm.11414 entre 114 y 116. Marianao. Ciudad de La Habana. Tomado de:http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017 ORTEGON, M. ESTADISTICA DESCRIPTIVA. Módulo Didáctico. Universidad Nacional Abierta y a Distancia UNAD. 2010
LAGUNA, C. IACS. INSTITUTO ARAGONES DE CIENCIAS DE LA SALUD. Correlación y Regresión Lineal. Recuperado de. http://www.ics-aragon.com/cursos/saludpublica/2014/pdf/M2T04.pdf ORTEGON, M. ESTADISTICA DESCRIPTIVA. Módulo Didáctico. Universidad Nacional Abierta y a Distancia UNAD. 2010 BARON, F. TELLEZ, F. APUNTES DE BIOESTADISTICA. Capítulo 6. Regresión Múltiple. Recuperado de https://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf ROSAS, A. ESTADISTICA DESCRIPTIVA E INGERENCIAL I. Correlación y regresión lineales. Fascículo 3. Recuperado de. https://www.conevyt.org.mx/bachillerato/material_bachilleres/cb6/5sempdf/edin1/edi1_f03.pdf