Loading documents preview...
UNIVERSIDAD DEL TOLIMA
Apuntes sobre
REGRESION Y MODELOS LINEALES CON UNA INTRODUCCIÓN A LOS DISEÑOS DE EXPERIMENTOS CLASICOS
JAIRO ALFONSO CLAVIJO MÉNDEZ
(DOCUMENTO EN PROCESO DE CREACION) Revisión: Agosto 7 de 2019
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
NOTAS DE CLASE
Por JAIRO ALFONSO CLAVIJO MENDEZ
(JACMEN) Profesor de Estadística en la Facultad de Ciencias de la Universidad del Tolima
IBAGUE, AGOSTO DE 2019
2
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
3
INTRODUCCION
La premura con la que debí asumir el curso de modelos lineales en la Carrera de Matemáticas con Enfasis en Estadística en la Universidad del Tolima, ante la ausencia del profesor que ostentaba esta cátedra, me obligó a desempolvar algunas notas que había escrito hace varios años sobre regresión lineal y que fueron usadas en unas jornadas promovidas por CEMFI, una organización estudiantil del antiguo programa de licenciatura en matemáticas y física (XI semana de Matemáticas y Física, 4 al 8 de Octubre de 1999). Acudí igualmente a unos escritos iniciados varios semestres atrás sobre modelos ANOVA, para formar con esos escritos una notas iniciales que me sirvieran como base para adelantar el curso de modelos lineales mencionado anteriormente. Estas notas fueron revisadas, actualizadas y complementadas con algunos ejemplos desarrollados con software más moderno. Específicamente R, SAS UNIVERSITY EDITION, Minitab, Infostat y Matlab. Es así como se logra este documento que ha servido de apoyo tanto a mí como a mis estudiantes en el studio de la asignatura. Los cálculos de los ejemplos en los documentos originales fueron hechos con los paquetes estadísticos que se mencionan a continuación: En primer lugar ESM-PLUS, un paquete de programas de computador desarrollado por el Autor y que hace algunos años se utilizó ampliamente en la Universidad del Tolima. En segundo lugar ASP (versión estudiantil), un programa que acompaña al texto de Mendenhall y Sincich, mencionado en la bibliografía y que podía ser usado por las personas que hubiesen adquirido dicho texto, lo que les otorgaba licencia de uso individual. En tercer lugar RELODI y RELOPO, dos programas elaborados por Luis Carlos Silva y Humberto Fariñas del Instituto Superior de Ciencias Médicas de la Habana (Cuba) y que, como en el caso anterior, se conseguían con la compra del texto, lo que otorgaba licencia de uso individual. Todos estos paquetes mencionados se ejecutan en ambiente DOS, una plataforma en desuso hoy en día. Por esta razón hubo necesidad de actualizar varios ejemplos y desarrollarlos con software ejecutable en la plataforma Windows de 64 bits. Este document consta de cuatro partes bien diferenciadas, a saber:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
4
1. Modelos de regresión lineal bajo el enfoque de mínimos cuadrados ordinaries. 2. Modelos de regresión bajo el enfoque de máxima verosimilitud. En particular, los modelos de regresión logística. 3. Bases fundamentales de los modelos de ANOVA. Esta unidad se complementa con un apéndice en el que se presentan de una manera muy sencilla los modelos más corrientes de Análisis de Varianza para diseño de experimentos. Este apéndice no forma parte del contenido programático de la asignatura. Sólo aparece aquí como tema complementario 4. Una presentación muy simplificada de los modelos lineales generalizados. Quiero manifestar mis agradecimientos al grupo de estudiantes del curso de modelos lineales, semestre A 2019, quienes muy diligentemente utilizaron el presente documento y ayudaron a su complementación, especialmente con la revision de algunas rutinas en R.
Jairo Alfonso Clavijo M Julio 9 de 2019
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
5
UNIDAD 1
GENERALIDADES En esta unidad se presentarán los conceptos básicos necesarios para una cabal comprensión de los métodos de regresión que se estudiarán en las unidades siguientes. Se llama experimento a cualquier acción tendiente a producir un resultado medible. Por ejemplo, lanzar un dado con el fin de observar el número que sale, o medir la cantidad de metal depositado en el cátodo durante 1 hora en una operación de galvanoplastia. Un experimento es aleatorio cuando no es posible predecir de antemano el resultado que se obtendrá. Por ejemplo, en el lanzamiento de un dado se sabe cuáles son los posibles resultados mas no el resultado específico que se obtendrá en el lanzamiento. En los experimentos de tipo estadístico (experiemntos aleatorios) se conoce por lo general el conjunto de posibles resultados, conjunto que recibe el nombre de conjunto muestral, y que denotaremos por . Por ejemplo, en el lanzamiento de un dado se tiene = {1,2,3,4,5,6} . Cada subconjunto de se llama un evento. Llamaremos probabilidad o medida de probabilidad a cualquier función p : 2 → que satisfaga las siguientes propiedades: 1. 2. 3.
p( A) 0
para todo A
i =1
i =1
p( Ai ) = p( Ai ) siempre que { Ai , i = 1,2,3,} sea una familia enumerable de eventos disjuntos. p () = 1
Evidentemente se cumple 0 p( A) 1 para cualquier evento A (En realidad la definición de probabilidad es algo más compleja: requiere de una -ál gebra. Pero puede ser restringida a la -álgebra 2 = () . Así se hace en el taller) Una variable aleatoria X es una función X : → que a cada subconjunto de asigna un número real. Cada subconjunto de se llama un evento. De esta manera las variables aleatorias asignan valores reales a los eventos resultantes de un experimento aleatorio. Las variables aleatorias pueden ser discretas o continuas, según que su imagen sea un conjunto enumerable o un continuo. En particular en este taller serán de
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
6
interés las variables aleatorias continuas y, en consecuencia, el resto de exposición se dedicará a este tipo de variables. Por un abuso de escritura, y con el fin de simplificar la notación, se usará la expresión X a para indicar {w / X ( w) a} . Evidentemente este conjunto es un evento ya que es un subconjunto de . Por tanto, este evento tendrá asociado un valor real en el intervalo [0,1], valor que será su probabilidad y que denotaremos por P( X a)
FUNCIONES DE DISTRIBUCION Se dirá que una función F : → es una función de distribución si F satisface las condiciones siguientes: 1. F ( x) 0 para todo x 2. F es monótona 3. F es continua por la derecha lim F ( x) = 1 4. lim F ( x) = 0 y x →
x → −
Una manera particular de construir funciones de distribución es utilizar ciertas funciones especiales, llamadas funciones de densidad, que son funciones f : → que satisfacen las condiciones siguientes: f ( x) 0 para todo x
1.
f ( x)dx = 1
2.
−
se construyen las funciones de distribución a partir de las funciones de densidad x
mediante la expresión
F ( x) =
f (t )dt
−
Diremos ahora que una variable aleatoria X tiene distribución de probabilidad F si para cada x se cumple P( X x) = F ( x) . Cuando F se define mediante una función de densidad, la expresión anterior se escribe x
P( X x) =
f (t )dt . Cuando
F sea la función de distribución de X, se escribirá
X
−
F y diremos que X se distribuye según F. Algunos ejemplos muy especiales de funciones de distribución se mencionan en seguida: 1. La distribución normal. Dadas cualquier constante y cualquier constante positiva la distribución normal de probabilidad se define mediante la función de densidad
REGRESION Y MODELOS LINEALES JACMEN
f (t ) =
070819
7
UNIVERSIDAD DEL TOLIMA
1 t − 2 1 Exp - 2 2
para t
la gráfica de esta función, para cada par de valores , , es una curva de Gauss y la probabilidad P( X x) = F ( x) es simplemente el valor del área bajo la curva desde − hasta el punto x (ver figura)
x
Afortunadamente no es necesario hacer un cálculo de la integral F ( x) =
f (t )dt
para
−
cada valor de y debido a que esta integral siempre se puede transformar al caso particular en que = 0 y = 1 , llamado normal estándar, mediante el cambio de x− z= variable . Los valores de la integral de la normal estándar para − 3.5 z 3.5 , de centésima en centésima, se encuentran tabulados (Tabla de la normal). Hoy en día las tablas han caído en desuso pues hay software que hace los cálculos con mucha más precision. Cuando una variable aleatoria X se distribuya normalmente con parámetros y , se escribirá X N( , 2 ) 2. Las distribuciónes t (de Student). Una familia de distribuciones de gran importancia está conformada por la sucesión de funciones {t n }nN donde cada función
t n se define como
REGRESION Y MODELOS LINEALES JACMEN
070819
8
UNIVERSIDAD DEL TOLIMA
n +1 1 2 1 tn ( x ) = n +1 n n x2 2 2 1 + n
para n = 1, 2,3,
donde (u ) = x u −1e −u du
para u 0 (función Gamma).
0
El índice n se conoce como Grados de Libertad (GL). Se puede demostrar (Cramer, 1968) que esta sucesión de funciones converge uniformemente a la normal estándar. 3. Las distribuciones Ji-cuadrado. Constituyen una sucesión de distribuciones de mucha importancia en estadística. Las correspondientes funciones de densidad son bastantes complejas (Cfr. Hogg y Tanis (1988), pag 270). Aunque están definidas para todo número real, su parte significativa (por ser mayor que 0) es el semieje positivo 4. Las distribuciones F de Fisher. Estas distribuciones constituyen otra familia infinita, dependiente de dos índices n, m, llamados grados de libertad del numerador y del denominador. Esto se debe a que, como se puede demostrar, si dos variables aleatorias U, V tienen distribuciones Ji-cuadrado con n y m grados de libertad U respectivamente, entonces la variable F = n tiene distribución F con n y m V m grados de libertad. Se pueden anotar sin demostración algunos resultados referentes a estas distribuciones:
N(0,1) entonces Z2
1.
Si Z
2.
Si X i
n2 entonces
3.
Si X i
N(i , )
4.
Si U
n2
Si U
5. 6.
Si X
X
i
2 i
2 n
i
entonces
12 (Ji cuadrado con 1 grado de libertad) donde = ni
a X i
i
y Z
N(0,1) entonces
y
V
entonces U + V
2 m
tn entonces X
N( ai i , ai2 i2 ) , X i indeptes
2
F1,n
Z U n
tn
U 2 n+m
y
V
n m
Fn ,m
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
9
Dada una variable aleatoria X con función de densidad f , se define la esperanza de X
como
E(X) =
tf (t )dt
y la varianza de X como V( X ) = E(( X − E( X )) 2 ) . La
−
esperanza se denomina también media de X A manera de ejemplo, se puede anotar que si X~ N( , ) entonces E(X) = µ y V(X) = 2 . Si X tiene distribución Ji-cuadrado con n − 1 grados de libertad entonces E(X) = n −1 POBLACIONES Y MUESTRAS – ESTIMACION Uno de los objetivos de la estadística es hacer inferencia de lo particular hacia lo general (al contrario de lo que hace la matemática). Este tipo de inferencia se conoce comúnmente con el nombre de “generalización”. La estadística examina unos pocos individuos y a partir de ellos saca conclusiones para todo un universo. Este tipo de inducción o generalización conlleva inevitablemente un error, pero este error puede ser medido o al menos controlado. Casi siempre lo que busca la estadística inferencial es estimar valores a los que no se tiene acceso directo y probar conjeturas acerca de tales valores que son desconocidos. La estimación y las pruebas de hipótesis son objetivos de la estadística que por lo general van juntos. Dada una variable aleatoria X se llama población (inducida por X) al conjunto de todos los valores que puede tomar X junto con su distribución. Es frecuente confundir la población con la variable aleatoria que le da origen. Dada una variable aleatoria X se define una muestra aleatoria de X de tamaño n a cualquier conjunto de variables aleatorias independientes, { X 1 , X 2 ,, X n } , tales que cada X i tiene exactamente la misma distribución de X. El conjunto formado por una realización concreta de cada X i es una muestra observada. Las muestras observadas son los datos con los que se hacen cálculos estadísticos. Con las muestras aleatorias la estadística construye estimadores que simplemente son funciones de las variables de la muestra las cuales proporcionan estimaciones de los parámetros poblacionales mediante valores particulares observados de tales variables. 1 n X = X i es un estimador para . Este estimador produce Por ejemplo: n i =1 diferentes estimaciones del parámetro dependiendo de los valores particulares x1 , x2 , x3 ,, xn que tomen las variables X 1 , X 2 ,, X n en una muestra observada. Cada una de tales estimaciones está dado por
1 x = xi . No debe confundirse la n
estimación con el estimador: aquella es un valor numérico mientras que éste es una variable aleatoria, por tanto, con una distribución, una media y una varianza. La raiz cuadrada positiva de la varianza de un estimador se llama error estándar del estimador.
REGRESION Y MODELOS LINEALES JACMEN
070819
10
UNIVERSIDAD DEL TOLIMA
~ Se dirá que un estimador ~ de un parámetro es insesgado si E( ) =
Resulta demasiado raro que una estimación coincida con el parámetro estimado. Aún más: aunque los dos coincidieran, nunca lo sabríamos ya que los parámetros son desconocidos. (Si no lo fueran no los estaríamos estimando!!). Por la anterior razón una sola estimación no puede considerarse como valor del parámetro. En consecuencia se hace necesario ampliar el concepto de estimación y construir el así llamado intervalo de confianza para el parámetro. Dado un valor pequeño , (generalmente comprendido entre 0 y 0.1) se define el intervalo del 100(1 − ) % de confianza para un parámetro , como aquel intervalo centrado en la estimación de , dentro del cual se encuentra el parámetro con probabilidad 1 − . El cálculo del intervalo de confianza exige conocer la distribución del estimador lo cual no siempre es fácil. Sin embargo en los casos clásicos de regresión tales distribuciones son normales, como se verá en la próxima unidad. El intervalo del 100(1 − ) % de confianza de un parámetro cuyo estimador ~ es insesgado, tiene distribución normal y del cual se conoce una estimación , está dado por la siguiente expresión:
(ˆ − z
z
2
2
ee( ), ˆ + z ee( ) 2
)
donde ee( ) = V( )
denota el cuantil bajo la normal estándar tal que P( Z z ) = 1 − 2
2
. Usualmente
se hacen estimaciones al 95% de confianza, en tal caso z = 1.96 . 2
PRUEBAS DE HIPOTESIS El otro objetivo de la estadística inferencial tiene que ver con la prueba de hipótesis. Una hipótesis es una conjetura que se hace acerca de uno o más parámetros, de una distribución o de una propiedad estadística. Por ejemplo, se puede lanzar la conjetura de que una cierta media poblacional vale 30, o de que dos medias poblacionales son iguales, de que cierta variable tiene distribución normal, etc. La hipótesis que va a ser probada se llama hipótesis nula (H0) y se contrasta contra otra hipótesis que afirme lo contrario y que se conoce como hipótesis alterna (H1). Se utiliza una muestra aleatoria como elemento de respaldo ya que H0 se presume verdadera y se utiliza la información aportada por la muestra para tratar de negar tal presunción. Se rechaza la hipótesis nula cuando la información muestral la desvirtúe claramente. Por el contrario, si la información consignada en la muestra no es suficiente para declarar la falsedad de H0 no se puede rechazar esta hipótesis y, en consecuencia, seguirá siendo plausible su veracidad, mientras una prueba más potente no demuestra lo contrario.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
11
Puesto que nunca se sabe con certeza si H0 es verdadera o falsa, al hacer la prueba se pueden cometer dos errores, a saber: a) Que se rechace H0 y que ésta sea verdadera (error tipo I) y b) Que no se rechace H0 pero que ésta sea falsa (error tipo II). Se fija un valor máximo de probabilidad para cometer error tipo I. Este valor se denomina nivel de significancia. Las pruebas estadísticas calculan un valor intrínseco de probabilidad para cometer error tipo I. Tal valor se denomina valor P. La probabilidad de cometer error tipo II se designa con , su complemento 1 − se llama potencia de la prueba ya que mide la capacidad de la prueba para detectar hipótesis falsas. Generalmente es el investigador quien decide de antemano cuál es el nivel máximo de riesgo que está dispuesto a correr para cometer error tipo I, es decir, el nivel de significancia de una prueba (con mucha frecuencia este nivel se fija en = 0.05) y calcula el tamaño mínimo de muestra que necesita para poder garantizar una buena potencia (usualmente superior al 90%). Cuando el nivel de significancia de la prueba esté por debajo del nivel máximo de riesgo asumido, se rechaza la hipótesis nula. El nivel de significancia de la prueba es calculado por los programas de computador a partir de la distribución de los estadísticos involucrados en la misma.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
12
UNIDAD 2
REGRESION LINEAL SIMPLE Consideremos la situación en la que una variable X ha sido planeada para que tome ciertos valores y supongamos que Y representa una variable de respuesta cuyos valores dependen de los valores que tome X. Si los valores de Y dependen en forma lineal de los de X, entonces un cambio en X produce un cambio proporcional en Y. Más exactamente, entre Y y X existe una relación funcional del tipo Y = 0 + 1 X En la práctica una relación lineal entre las variables dependiente (Y) e independiente (X) se detecta por medio del diagrama de dispersión que se obtiene al graficar en un plano cartesiano los puntos ( xi , yi ) correspondientes a las observaciones de una muestra. Esto es así porque en tal caso los puntos resultantes muestran una tendencia rectilínea acentuada. Los coeficientes 0 y 1 son parámetros desconocidos que deben ser estimados con los valores de la muestra, de esta manera se tendrá un modelo estimado Y = b0 + b1 x cuyos coeficientes son estimaciones puntuale de 0 y 1 . Puesto que hay diferencias entre el modelo teórico y el modelo estimado, para cada observación se puede escribir Yi = b0 + b1 x + i donde i es una variable aleatoria que representa el error entre el valor estimado de la observación y el valor teórico. Este valor no es medible pero sí puede ser estimado por ei = yi − yi donde yi = b0 + b1 xi es el valor estimado de Yi y
y i es el correspondiente valor observado. Cada ei se llama un residuo. El objetivo inmediato que perseguimos es estimar los coeficientes 0 y 1 del modelo. En principio hay dos maneras de hacerlo: construyendo estimadores de máxima
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
13
verosimilitud o mediante el método de mínimos cuadrados. Esta última forma es la más frecuente y así lo haremos en este documento. Se trata de minimizar la suma de los errores elevados al cuadrado. Puesto que no se puede usar directamente los errores, usamos los residuos, así que se buscará que la n
expresión SCE = ei2 tome un valor mínimo. i =1
Se tiene:
n
n
i =1
i =1
SCE = (y i − yi ) 2 = ( yi − b0 − b1 xi ) 2 = f (b0 , b1 )
De lo anterior, derivando parcialmente respecto a b0 y b1 , se obtiene: n f = −2 ( yi − b0 − b1 xi ) b0 i =1
y
f = −2 ( y i − b0 − b1 xi ) xi b1
igualando a 0 para minimizar y reordenando se obtiene el siguiente sistema de ecuaciones lineales:
nb0 + ( xi )b1 = yi
( xi )b0 + ( xi2 )b1 = xi yi sistema de ecuaciones con dos incógnitas, llamado de ecuaciones normales, cuya solución está dada por:
b1 = b0 =
n xi yi − ( xi )( yi ) n xi2 − ( xi ) 2
1 ( yi − b1 xi ) = y − b1 x n
expresiones que proporcionan estimaciones puntuales de 1 y 0 respectivamente.
EJEMPLO: Supóngase que en un experimento con ratones se ha experimentado con 5 animales a los que se aplican diferentes dosis de un medicamento. Se observa el número de pulsaciones por minuto durante una hora. Este valor comienza a descender hasta un valor mínimo a partir del cual tiende a normalizarse. La variable respuesta es el valor máximo de descenso del ritmo cardiaco durante el tiempo de observación. Se tiene la tabla siguiente:
REGRESION Y MODELOS LINEALES JACMEN
xi 0.5 1.0 1.5 2.0 2.5 7.5
070819
UNIVERSIDAD DEL TOLIMA
xi2 0.25 1.00 2.25 4.00 6.25 13.75
yi 5 8 12 13 16 54
14
xi yi 2.5 8.0 18.0 26.0 40.0 94.5
A partir de esta tabla se obtiene:
b1 =
x = 1.5
5 94.5 − 7.5 54 = 5.4 5 13.75 − (7.5)2
y = 10.8
b0 = 10.8 − 5.4 1.5 = 2.7
En consecuencia, la ecuación de la recta de regresión es: Dicho de otra manera:
y = 2.7 + 5.4 x
Descenso de ritmo = 2.7 + 5.4*Dosis
INFERENCIA EN EL MODELO DE REGRESION SIMPLE
Teniendo en cuenta que las X i son variables matemáticas y las Yi son variables aleatorias, podemos utilizar las ecuaciones vistas anteriormente para definir estimadores de 1 y 0 mediante:
B1 =
n xi Yi − ( xi )( Yi )
B0 =
n xi2 − ( xi ) 2
1 ( Yi − B1 xi ) n
Para obtener algunos resultados interesantes haremos un primer supuesto a saber:
Yi
N( 0 + 1 xi , i2 ) n
A partir de ésto se concluye que B1 = ci Yi (una combinación lineal de variables i =1
aleatorias normales) y, por tanto, B1 tiene distribución normal. Además
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
15
n
E( B1 ) = ci E (Yi ) = ci ( 0 + 1 xi ) = 0 ( ci ) + 1 ( ci xi ) i =1
= 1 ci xi = 1 (
xi − x ) xi = 1 ( xi − x ) 2
lo que nos dice que B1 es un estimador insesgado, cuya varianza vale:
V( B1 ) = ci2 V(Yi ) = ci2 i2 Aquí haremos un segundo supuesto: V(Yi ) = i2 = 2 para todo i = 1,2,3,..., n Este supuesto es conocido como hipótesis de homocedasticidad. De acuerdo con lo anterior, se tiene:
V( B1 ) =
2
c
2 i
=
2 n
(x i =1
i
− x)2
xi2 2 N 0 , n ( xi − x ) 2
De igual manera puede probarse que B0
Con el fin de simplificar la notación en desarrollos subsecuentes utilizaremos las siguientes convenciones: n
S xy = ( xi − x )( yi − y ) i =1 n
S xx = ( xi − x ) 2 i =1 n
S yy = ( yi − y ) 2 i =1
Se tiene ahora lo siguiente: SCE =
(y − b − b x ) = (y = [( y − y ) − b ( x − x )] 2
i
0
1 i
i
− y + y − b0 − b1 xi ) 2
2
i
1
i
= S yy − 2b1 S xy + b1 S xx = S yy − b1 S xy De aquí se deduce que un estimador de SCE es
S YY − B1 S xY = S YY − B12 S xx = (Yi − Y ) 2 − B12 ( xi − x ) 2
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
16
= Yi 2 − nY 2 − B12 ( xi2 ) − nx 2 Al tomar la esperanza a ambos lados se obtiene:
E( SYY − B1 S xY ) = (n − 2) 2 de donde:
S − B1S xY E YY n−2
2 =
En otras palabras: hemos encontrado un estimador insesgado de 2 , a saber:
SCE . n-2
Este valor se designa, como es usual, por S 2
Se puede probar que
SCE
2
= (n − 2)
S2
tiene distribución Ji-cuadrado con n − 2
2
grados de libertad y que es una variable independiente de B1 . De aquí se deduce que
( B1 − 1 )
B1 − 1 S S S xx tiene distribución t con n − 2 grados de libertad lo que permite construir intervalos de confianza para 1 dados por: S xx
T1 =
b1 t n − 2,
2
=
S S xx
De una manera completamente similar se puede probar que B0 − 0 T0 = tiene distribución Ji-cuadrado con n − 2 grados de libertad y de xi2 S nS xx aquí que los intervalos de confianza para 0 estén dados por
b0 tn − 2,
2
s2 1 x 2 + n − 2 n Sxx
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
17
Una vez estimado un modelo lineal de regresión viene una etapa de análisis para medir la bondad de dicha estimación. Si el modelo estimado no supera las pruebas se hace necesario volver a iniciar el proceso después de haber modificado el modelo o las variables. A continuación se expondrán los principales aspectos que deben ser examinados para juzgar la bondad de un modelo ya estimado. Las principales razones por las cuales un modelo puede no ser bueno son: a) De una parte, el modelo lineal no es el indicado o b) se está violando alguno(s) de los supuestos. El primer caso se examina mediante un análisis de varianza y el segundo mediante un conjunto de técnicas conocido como análisis de residuos. Veamos el primer caso: Puesto que S yy = b1 S xy + SCE se cumple:
(y
i
− y ) 2 = ( yˆ i − y ) 2 + ( yi − yˆ i ) 2
lo que comúnmente se expresa como SCT = SCR + SCE , es decir, la suma de cuadrados total es igual a la suma de cuadrados de la regresión más la suma de cuadrados del error. Se puede probar que
SCR
2
tiene distribución Ji-2 con 1 grado de libertad y que
tiene distribución Ji-2 con n − 2 grados de libertad. De aquí se concluye que
SCE
2 SCT
2 tiene distribución Ji-2 con n − 1 grados de libertad. Según esto, bajo el supuesto de que 1 = 0 (hipótesis nula), la variable SCR F=
1 SCE
2 =
2
SCR tiene distribución F1,n−2 S2
n−2
La falsedad de la hipótesis nula H 0 : 1 = 0 se traduce entonces en un cuantil grande bajo la F1,n−2 , o lo que es equivalente en un pequeño nivel de significancia intrínseca. Si no se puede rechazar H 0 : 1 = 0 , se concluye que el modelo lineal no está definido y, por tanto, que éste no es un modelo adecuado para ajustar los datos. El análisis de varianza suele resumirse en una tabla como la siguiente, con la cual se toma la decisión:
REGRESION Y MODELOS LINEALES JACMEN
070819
FUENTE SUMA DE GL VARIAC CUADRADOS Modelo SCR 1 Error SCE n−2 Total SCT n −1
CUADRADOS MEDIOS CMR = SCR/1 CME = SCE/( n − 2) -------------------
UNIVERSIDAD DEL TOLIMA
18
F VALOR CALCULADA P F = CMR/CME P -----------------------------
Se rechaza H 0 siempre que P sea pequeño (menor que y usualmenyte =0.05 ) En el modelo de regresión simple que estamos analizando, la tabla anterior es de poca utilidad. Realmente ella solo hace la prueba de la hipótesis H0 : 1 = 0 vs H1 : 1 0 Dicha hipótesis se rechaza cuando el valor F calculado con los datos es mayor que F1, n − 2, , lo que equivale a decir que el intervalo de confianza para 1 contiene al 0. En los modelos de regresión múltiple que se verán más adelante la tabla ANOVA anterior tendrá un uso muy importante. Las hipótesis sobre la significancia de los coeficientes del modelo pueden probarse también mediante los correspondientes intervalos de confianza obtenidos al estimar estos coeficientes. Un coeficiente es significativo dentro del modelo si el correspondiente intervalo de confianza no contiene el valor 0. La mayoría de paquetes estadísticos producen un valor t y el correspondiente valor P con el cual se rechaza o no la hipótesis correspondiente: H1(i ) : i = 0 vs H1(i ) : i 0 para i = 0,1 EJEMPLO: para ser analizado en clase. Chatterjee y Hadi, proponen como ejemplo, los datos correspondientes a las alturas del hombre y la mujer en 96 matrimonios recién celebrados. Puesto que es costumbre muy arraigada que el hombre es quien elige a la mujer como esposa, es lícito pensar que X, la estatura de los hombres, sea la variable independiente o regresora y que Y, la estatura de las mujeres, sea la variable respuesta o dependiente. Los datos correspondientes en centímetros, se presentan en la table siguiente, y han sido dispuestos en un archivo ASCII como una matriz de 96 filas (cada pareja) y dos columnas. La primera columna corresponde a la altura de los hombres mientras que la segunda corresponde a la altura de las mujeres.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
19
El programa que presentamos a continuación, para ser ejecutado en FREEMAT o en MATLAB, ha sido diseñado para observer los cálculos de las diversas formulas vistas anteriormente. El puede ser adaptado para otros ejemplos si se hacen las modificaciones pertinentes como se indica al comienzo del programa. Se sugiere ejecutar el código por segmentos, tal como se indica en las líneas de parada, para poder discutir los resultados parciales que se van obteniendo. Creemos que de esta manera se interioriza más profundamente el sentido de la técnica que se está estudiando. Posteriormente puede usarse un paquete estadístico profesional para realizer los mismos cálculos de una manera más eficiente.
% MODELO DE REGRESION LINEAL SIMPLE - EJEMPLO DE CHATTERJEE % SOBRE MATRIMONIOS % (Programa para práctica en clase, desarrollado por Jairo A. Clavijo) % % Este programa tiene por objeto ilustrar los diferentes pasos para % la estimación de un modelo de regresión lineal simple. Está pensado % para ser ejecutado como ilustración en clase. % Los datos deben encontrarse en un archivo ASCII a dos columnas. La primera % de ellas corresponde a la variable independiente X, la segunda a la variable % de respuesta Y. % % Se recomienda tener el código en un editor de texto y ejecutarlo por % sesiones que pueden ser discutidas a medida que vayan apareciendo los
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
20
% correspondientes resultados. Para ello copie (CTRL C) el código que % aparece antes de cada aviso de =======PARADA======== y luego cópielo % (CTRL V) y ejecútelo dentro de FREEMAT (o MATLAB). clear %% ATENCION ENTRADA DE INFORMACION PARA OTROS EJEMPLOS: % EL SIGUIENTE VALOR DEBE SER MODIFICADO SEGUN EL NUMERO DE OBSERVACIONES: % Valor t para confianza del 95% con n-2 Grados de Libertad es: t = 1.986; % TAMBIEN SE DEBE MODIFICAR LA RUTA DE LECTURA DE DATOS: load c:\datos\hwdatos.txt w = hwdatos; %% INICIO DE CALCULOS: x = w(:,1); y = w(:,2); x2 = x.*x; xy = x.*y; mx = mean(x); my = mean(y); n = length(x); tabla = [x y x2 xy ]; suma = sum(tabla); tabla1 = [tabla;suma]; % Esta tabla podría suprimirse de la presentación. Puede ser larga. tabla1 % ====================PARADA========================== % Diagrama de dispersion valores observados: disp(' PUEDE OBSERVAR EL DIAGRAMA DE DISPERSION DE LOS DATOS') disp(' Este gráfico aparece en una ventana diferente!!!') plot(x,y,'*') % ====================PARADA========================== Sxx = sum((x-mx).*(x-mx)); Syy = sum((y-my).*(y-my)); Sxy = sum((x-mx).*(y-my)); b1= (n*sum(xy) - sum(x)*sum(y))/(n*sum(x2)-sum(x)^2); b0 = my - b1*mx; coef = [b0 b1]; % Estimación del coeficiente de correlación entre las variables: r = Sxy/sqrt(Sxx*Syy); ttr = r*sqrt(n-2)/sqrt(1-r^2) disp(' COEFICIENTES DEL MODELO:') disp(' Intersecto b0: Pendiente b1:') coef
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
corr = [r ttr]; disp('Correlación estimada: Valor t de prueba:') corr disp(' NOTA: se rechaza <> si valor t es mayor que:') t % ====================PARADA========================== % ESTIMACIONES: yes = b0 + b1*x; e = y-yes; yh = yes-my; SCR = sum(yh.*yh); SCE = sum(e.*e); SCT = SCE + SCR; CMR = SCR/1; CME = SCE/(n-2); CMT = SCT/(n-1); % Estimación de la varianza: s2 y del Coef de determinación R2: s2 = SCE/(n-2); R2 = 1-(SCE/Syy); vajus = [s2 R2]; disp('Varianza y Ajuste R2:) vajus disp(' PUEDE OBSERVAR RESIDUOS CONTRA VALORES ESTIMADOS') disp(' Este gráfico aparece en una ventana diferente!!!') % Diagrama de residuos contra valores estimados: plot(e,yes,'o') % ====================PARADA========================== % INTERVALOS DE CONFIANZA PARA COEFICIENTES: eb0 = t*sqrt(CME*(1/n + mx^2/Sxx)); eb0i = b0 - eb0; eb0s = b0 + eb0; ICb0 = [eb0i eb0s]; eb1 = t*(sqrt(s2/Sxx)); eb1i = b1 - eb1; eb1s = b1 + eb1; ICb1 = [eb1i eb1s]; disp(' Intervalos del 95% de confianza para los coeficentes del modelo:') disp ('Para intersecto:') ICb0 disp ('Para la pendiente:') ICb1 % ====================PARADA========================== % Tabla ANOVA: SC = [SCR SCE SCT]'; GL = [1 n-2 n-1]'; CM = [CMR CME CMT]';
21
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
22
aov = [SC GL CM]; F = CMR/CME VF = [F 1 n-2] disp(' TABLA DE ANALISIS DE VARIANZA:') aov disp('Valor del estadistico F y grados de libertad:') VF % ====================PARADA==========================
ANALISIS DE RESIDUOS Junto a las estimaciones e inferencias realizadas con el material anteriormente visto, se hace necesario juzgar la bondad del modelo, esto es, el cabal cumplimiento de los supuestos bajo los cuales se valida la teoría de la regresión. Estos análisis se realizan comunmente usando los residuos. Hay un conjunto de técnicas que se resumen en los siguientes párrafos.
El análisis de residuos permite verificar el cumplimiento de los siguientes supuestos básicos: 1. Los errores i tienen media 0 2. Los errores i tienen varianza constante, 2 (homocedasticidad) 3. Los errores i no están correlacionados 4. Los errores i no están autocorrelacionados 5. Los errores i se distribuyen normalmente La verificación de los supuestos se hace mediante los residuos ei = yi − yˆ i o mediante los residuos estandarizados, dados por: di =
ei e = i CME S2
El análisis de residuos comprende la verificación de los siguientes puntos: • •
Los residuos tienen media cero y varianza constante. Si se emplea el método de mínimos cuadrados para estimar los coeficientes del modelo no es necesario verificar la nulidad de la media de los residuos. Los errores tienen distribución normal. La prueba puede realizarse mediante cualquiera de los tests de normalidad ya vistos (K-S, Geary, Shapiro, etc), aplicado a los residuos.
REGRESION Y MODELOS LINEALES JACMEN
• •
070819
23
UNIVERSIDAD DEL TOLIMA
Los residuos deben ser aleatorios. Esto puede ser probados mediante alguna de las pruebas de aleatoriedad (Rachas, Neuman, etc) Se debe realizar una gráfica de los valores xi contra los residuos ei . La presencia de tendencias y patrones curvilíneos en esta gráfica es síntoma de que la variable regresora (independiente), x , debe entrar en el modelo con una potencia diferente a 1. Esto nos puede llevar a modelos con más de una variable independiente.
Uno de los aspectos más difíciles de diagnosticar y remediar es la homocedasticidad (varianza constante) de los errores. Se han ideado numerosas pruebas pero casi todas ellas son aplicables únicamente en determinadas circunstancias particulares. Así, por ejemplo, se puede mencionar la prueba de Glejser. El método de diagnóstico más utilizado es un gráfico de dispersión de los residuos ei contra los valores estimados por el modelo, yˆ i . La presencia de tendencias o patrones no aleatorios en esta gráfica es síntoma de falta de homocedasticidad. La heterocedasticidad también puede ser detectada mediante otra prueba, conocida como test de Breusch – Pagan que se basa en la utilización de los cuadrados de los residuos para estimar la varianza del modelo. En efecto, puesto que la media de los residuos es cero, la media de sus cuadrados es una estimación de la varianza. Si esta media difiere significativamente de la varianza estimadamediante el cuadrado medio del error, se podría concluir que la varianza se relaciona de alguna manera con las variables regresoras del modelo lo que constituye una razón suficiente para la precencia de heterocedasticidad. Esta prueba está disponible en R. Una preocupación grande en un modelo no homocedástico es cómo remediar dicho problema. No hay sin embargo una receta única para hacerlo pues ello depende del tipo de heterocedasticidad presente. Se pueden ensayar transformaciones de variables, regresiones ponderadas por los inversos de las varianzas, etc. Otro problema grave en la determinación de un modelo de regresión es la presencia de autocorrelaciones en la variable independiente la cual se traduce en autocorrelaciones en los residuos. La prueba de Durbin y Watson ha sido propuesta para detectar autocorrelación de primer orden, es decir, para probar la hipótesis H0 : 1 = 0 versus
H1 : 1 0 en los residuos. La prueba de Box y Ljung, con muestras grandes, es también una buena herramienta para detectar autocorrelación de órdenes superiores. Cuando se detecte presencia de autocorrelación en los errores, el modelo lineal no es adecuado para realizar pronósticos, debiéndose entonces intentar una solución a través de métodos para datos autorregresivos, similares a las series de tiempo. La prueba de Durbin y Watson consiste en lo siguiente: se calcula el estadístico d (DW) n
dado por d =
( et − et −1 ) t =2
n
e t =2
2 t
n
2
. Si la correlación se estima por r =
e e t =2 n
t t −1
e t =2
entonces se
2 t −1
tiene la relación d = 2(1 − r ) lo que hace que d tome valores en el intervalo (0, 4).
REGRESION Y MODELOS LINEALES JACMEN
070819
24
UNIVERSIDAD DEL TOLIMA
Puesto que es estimado por r se cumple que d = 2 cuando = 0 y d = 0 cuando = 1 . Durbin y Watson tabularon una serie de límites d L y dU (inferior y superior, respectivamente, ver anexo 3) con los cuales se realiza la prueba de la siguiente manera: Si d d L rechace H0 . Si d dU no rechace H0 . El test no es concluyente cuando
d L d dU . Rara vez sucede que haya autocorrelación negativa en los residuos. Si esto llegase a suceder, se tendría que d = 4 cuando = −1 . Por esta razón, bastará construir unos límites simétricos dados por 4 − dU y 4 − d L respectivamente dentro de los cuales la prueba no es concluyente y los cuales muestran la presencia de correlación negativa si d 4 − dL Ante la presencia de autocorrelación de primer orden, es decir, cuando et = et −1 + ut , se puede intentar remover la autocorrelación mediante una transformación propuesta por Cochran y Orcutt en 1949: consiste en reemplazar cada yi por yi − yi −1 y cada xi por xi − xi −1 antes de volver a realizar la estimación de los coeficientes. Dado que n
es desconocido se emplea la siguiente estimación suya: =
e e t =2 n
t t −1
et2−1
. El nuevo modelo
t =2
* 0
produce ciertos parámetros estimados b
y
* 1
b
los cuales permiten encontrar
b0* y 1− b1 = b1* . Se debe examinar el nuevo modelo y si aún persiste la correlación de primer orden se puede emplear el mismo procedimiento con el nuevo modelo.
estimaciones de los coeficientes para el modelo original, dados por
b0 =
Finalmente es necesario hacer un examen de observaciones influenciales (outliers, puntos de apalancamiento, etc) pues ellos pueden introducir serias perturbaciones en el modelo, hasta el punto de hacernos adoptar modelos inadecuados o de cambiar radicalmente las estimaciones de los parámetros. Las gráficas siguientes muestran dos tipos de puntos influenciales muy frecuentes:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
25
Puntos influenciales en un modelo de regresión
En el primer caso un punto demasiado alejado (outlier) de los puntos que marcan la tendencia produce una desviación de la recta de regresión con lo cual el modelo construído no logra buen ajuste de los datos y, por consiguiente, producirá pronósticos erróneos. En el segundo caso un punto aislado en cualquier dirección (apalancamiento o leverage) produce una falsa recta de regresión: se encuentra un modelo cuando realmente no hay ninguno. Esto puede llevar a falsa conclusiones. Existen herramientas para detectar puntos influenciales. Por ejemplo, para detectar outliers se pueden medir las magnitudes de los residuos. Los puntos atípicos generalmente presentan residuos demasiado grandes al ser comparados con los demás. Un criterio muy usado consiste en declarar como tales aquellos puntos cuyos residuos son mayores que 3 desviaciones estándar ( 3s ). Hay otros criterios que se presentarán en el próximo capítulo. Usualmente el software para cálculo de regresión trae programadas herramientas de detección de puntos influenciales. Cuando se haya logrado un buen modelo o un modelo aceptable para nuestras necesidades, éste puede ser utilizado para hacer pronósticos. Un pronóstico es un valor y 0 calculado con el modelo, para un valor x0 que no es observación. Cuanto más cerca de la media x se tome el valor de x0 , tanto más exacto será el pronóstico. Cuando un pronóstico se hace para valores de x0 que estén por fuera del rango de variación de x, se dice que es un pronóstico hacia el futuro. Un pronóstico está dado por y0 = b0 + b1 x0 con intervalo de confianza:
y 0 t n − 2, + S 2
1 ( x0 − x ) 2 + n S xx
Un pronóstico futuro está dado por la misma expresión, pero su intervalo de confianza está dado por:
REGRESION Y MODELOS LINEALES JACMEN
070819
y 0 t n −2, + S 1 + 2
UNIVERSIDAD DEL TOLIMA
26
1 ( x0 − x ) 2 + n S xx
EJERCICIO: Hacer un análisis lo más completo posible a los datos siguientes que definen un modelo de regresión lineal simple:
El siguiente código en R hace un recorrido por los principals aspectos del análisis de regresión sobre los datos presentados por Chatterjee sobre las alturas de los hombres y mujeres cuando se unen en parejas. Los datos se encuentran en el archivo HWdat.prn. Se supone que el hombre es quien elige a la mujer como pareja, así que la variable H (husband) es la independiente mientras que W (wife) es la dependiente. Los datos están descritos en las páginas 54 y ss de Chaterjee y Hani. #LECTURA DE LOS DATOS (a partir del archivo HWdatos.prn en C:\datos) setwd("c:/datos") datos = read.table('hwdatos.prn', header=T) datos ## EXTRACCION DE VARIABLES: x=datos$H y=datos$W plot(y~x,col="red",main="diagrama de dispersión Husban vs Women" ,xlab="Altura hombres cm",ylab="Altura Mujeres cm",type="p",lwd=3) #ajuste de la linea de regresión regresión <- lm(y~x,data=datos)
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
27
abline(regresión,lwd=3,col ="blue") ### Dibuja la línea de regresión summary(regresión) ## información sobre resultados ## Construye Intervalos de confianza del 90 y 95% confint(regresión,level=0.90) confint(regresión,level=0.95) ## Muestra la tabla de análisis de varianza anova(regresión) ## Prueba gráfica de homogeneidad: estimados contra residuos residuos = rstandard(regresión) valores.ajustados = fitted(regresión) plot(valores.ajustados, residuos,col="blue",pch=19,type="p") abline(h=0,col="red") library(lmtest) bptest(regresión) #prueba de homogeneidad ## Prueba gráfica QQ de normalidad qqnorm(residuos,col="blue") qqline(residuos,col="red",lwd=2) ## Prueba analítica de Shapiro para normalidad de residuos shapiro.test (residuos) #prueba de normalidad ## independencia ##Autocorrelación DURWIN WATSON de primer orden library(lmtest) dwtest(y~x, alternative = "two.sided", data = datos) ## Detección de puntos influenciales par(mfrow = c(2,2)) plot(regresión) ## predición para una secuencia de valores seq(160,190,by=10) x=data.frame(x=seq(160,190,by=10)) predict(regresión,x)
La tabla siguiente da los límites para la prueba de Durbin y Watson algunos tamaños de muestra y máximo 5 variables regresoras (independientes). Es claro, sin embargo, que la tabla no es necesaria cuando se usa software espacializado como R, pues estos paquetes hacen la prueba Durbin-Watson en forma automática arrojando el valor P, con el cual se toma una decisión frente a la hipótesis nula.
REGRESION Y MODELOS LINEALES JACMEN
070819
28
UNIVERSIDAD DEL TOLIMA
Límites de intervalos para prueba de Durbin y Watson (p= # de independientes) Nivel de significancia: 0.05
p=1
p=2
p=3
p=4
p=5
N
dL
dU
dL
dU
dL
dU
dL
dU
dL
dU
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100
1.08 1.10 1.13 1.16 1.18 1.20 1.22 1.24 1.26 1.27 1.29 1.30 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.43 1.44 --1.48 1.50 1.53 1.55 1.57 1.58 1.60 1.61 1.62 1.63 1.64 1.65
1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.45 1.46 1.47 1.48 1.48 1.49 1.50 1.50 1.51 1.51 1.52 1.52 1.53 1.54 1.54 1.54 --1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.69
0.95 0.98 1.02 1.05 1.08 1.10 1.13 1.15 1.17 1.19 1.21 1.22 1.24 1.26 1.27 1.28 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 --1.43 1.46 1.49 1.51 1.54 1.55 1.57 1.59 1.60 1.61 1.62 1.63
1.54 1.54 1.54 1.53 1.53 1.54 1.54 1.54 1.54 1.55 1.55 1.55 1.56 1.56 1.56 1.57 1.57 1.57 1.58 1.58 1.58 1.59 1.59 1.59 1.60 1.60 --1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.70 1.71 1.72
0.82 0.86 0.90 0.93 0.97 1.00 1.03 1.05 1.08 1.10 1.12 1.14 1.16 1.18 1.20 1.21 1.23 1.24 1.26 1.27 1.28 1.29 1.31 1.32 1.33 1.34 --1.38 1.42 1.45 1.48 1.50 1.52 1.54 1.56 1.57 1.59 1.60 1.61
1.75 1.73 1.71 1.69 1.68 1.68 1.67 1.66 1.66 1.66 1.66 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 --1.67 1.67 1.68 1.69 1.70 1.70 1.71 1.72 1.72 1.73 1.73 1.74
0.69 0.74 0.78 0.82 0.86 0.90 0.93 0.96 0.99 1.01 1.04 1.06 1.08 1.10 1.12 1.14 1.16 1.18 1.19 1.21 1.22 1.24 1.25 1.26 1.27 1.29 --1.34 1.38 1.41 1.44 1.47 1.49 1.51 1.53 1.55 1.57 1.58 1.59
1.97 1.93 1.90 1.87 1.85 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.76 1.75 1.74 1.74 1.74 1.73 1.73 1.73 1.73 1.73 1.72 1.72 1.72 1.72 --1.72 1.72 1.72 1.73 1.73 1.74 1.74 1.74 1.75 1.75 1.75 1.76
0.56 0.62 0.67 0.71 0.75 0.79 0.83 0.86 0.90 0.93 0.95 0.98 1.01 1.03 1.05 1.07 1.09 1.11 1.13 1.15 1.16 1.18 1.19 1.21 1.22 1.23 --1.29 1.34 1.38 1.41 1.44 1.46 1.49 1.51 1.52 1.54 1.56 1.57
2.21 2.15 2.10 2.06 2.02 1.99 1.96 1.94 1.92 1.90 1.89 1.88 1.86 1.85 1.84 1.83 1.83 1.82 1.81 1.81 1.80 1.80 1.80 1.79 1.79 1.79 --1.78 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78 1.78 1.78
A manera de Ejemplo, se presentará enseguida un caso de observaciones de ventas realizadas en un almacen durante 15 días de ejercicio. En este caso se tomó como variable independiente, X, el número de clientes que visitaron el almacén cada día y como variable dependiente Y el total de ganancias (en miles de pesos) realizadas en el almacén durante el mismo día. Una graficación de los valores de X e Y muestran una gran tendencia lineal. Esto respalda la hipótesis de que los valores de Y se encuentran
REGRESION Y MODELOS LINEALES JACMEN
070819
29
UNIVERSIDAD DEL TOLIMA
relacionados con los de X mediante una dependencia funcional de tipo lineal que debemos estimar. DATOS: Día #Visit Gananc
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
12
14
16
20
21
10
15
24
32
30
23
28
26
15
18
600
660
720
920
960
580
720
1050
1400
1320
1070
1240
1160
750
820
Usted puede adaptar el programa visto anteriormente para hacer el análisis. Solo es necesario crear un archivo con los datos y modificar la parte correspondiente a la ruta de lectura de dicho archive así como el valor t, correspondiente al nivel de confianza que usted escoja para las estimaciones y al tamaño de muestra n = 15 en este caso.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
30
UNIDAD 3
REGRESION MULTIPLE
Los modelos de regresión múltiple constituyen la más inmediata generalización del modelo lineal simple, visto en la unidad anterior. En este caso se tiene un conjunto de p variables planeadas (no aleatorias) X 1 , X 2 ,, X p , de cuyos valores depende la respuesta Y , ésta sí, variable aleatoria. El modelo teórico múltiple es de la forma Y = 0 + 1 X + 2 X 2 + + p X p donde los coeficientes i (parámetros del modelo) son desconocidos y deben ser estimados. Suponiendo que se tienen n observaciones del modelo, cada una de ellas de la forma;
Yi = 0 + 1 X1i + 2 X1i +
+ p X pi + i
en forma matricial se puede escribir:
Y1 1 X 11 X p1 0 1 Y2 1 X 12 X p 2 1 2 + = Y 1 X X 1n pn p n n o simplemente: Y = Xβ + ε donde X es una matriz n k con k = p + 1 En lo sucesivo Y, X,β,ε, y sus transpuestas, denotarán matrices. Se hacen los siguientes supuestos: 1. E(ε ') = E(1 , 2 ,
, n ) = (0,0,
2. E(εε ') = I n 3. Cov(ε, X) = 0 4. Rango( X) = p
Homocedasticidad y no-correlación de errores Errores independientes de los predictores No colinealidad
2
,0)
REGRESION Y MODELOS LINEALES JACMEN
070819
31
UNIVERSIDAD DEL TOLIMA
Si se cumplen todos los supuestos anteriores los estimadores son insesgados y eficientes.
B = ( B0 , B1 , , Bp ) ' el vector de estimadores de β . A partir de SCE = ε ' ε = (Y − XB) '(Y − XB) se busca el “hiperplano” que mejor ajuste los puntos. Este será el que hace mínima la suma de cuadrados, SCE. Denotemos por
Mediante técnicas de minimización del cálculo se prueba que tal hiperplano queda determinado por las ecuaciones normales ( X'X)B = X'Y cuya solución está dada por
B = (X'X)−1 (X'Y) siempre que X'X sea invertible (no singular). Se cumplen varias propiedades. Entre ellas las siguientes: 1. B es estimador insesgado de β. Es decir : E( Bi ) = i
para todo i = 1, 2,3,
,p
En efecto: E(B) = (X'X)−1[(X 'E(Y)] = (X'X)−1 (X '(Xβ) = ( X'X) −1 ( X ' X)β = β 2. V(B)=(X'X)−1 2 . De donde V(Bi ) = cii 2 con cii el i-ésimo elemento diagonal de (X'X)−1 Además: Cov ( Bi , B j ) = cij 2 3. B ~ Nk (β, 2 ( X'X) −1 ) SCE 4. S 2 = es un estimador insesgado de 2 n−k De lo anterior se deduce que, si b = (b0 , b1 ,
ˆ es una estimación puntual de ,bp)' = B
β , el sustituir 2 por la estimación s 2 de S2 , los intervalos de confianza para los coeficientes del modelo están dados por bˆi tn −k , s cii de donde se pueden derivar 2
técnicas para determinar si cada coeficiente es significativamente diferente de cero o no.
Se puede probar que SCT = SCE + SCR
donde SCE ~ n2− k
y SCR ~ k2−1 y, de
aquí, que se pueda construir la tabla de análisis de varianza con el fin de probar la conveniencia del modelo lineal, mediante la hipótesis nula H0: 1 = 2 = = k = 0 (nótese cómo esta hipótesis (global) no incluye el coeficiente 0 ). Dicha tabla es: FUENTE Regresión (Entre) Error (Dentro) Total
SUMA CUADRAD GL CUADRADOS MEDIOS 2 SCR = B ' X'Y − nY k − 1 CMR = (B'X'Y − nY 2 ) / (k −1)
F CALC CMR F= CME SCE = Y'Y − B ' X'Y n − k CME = (Y'Y - B'X'Y) / (n − k ) -----SCT = Y'Y − nY 2
n −1
-------------------
------
REGRESION Y MODELOS LINEALES JACMEN
070819
32
UNIVERSIDAD DEL TOLIMA
El valor nY 2 que aparece en la tabla anterior se llama corrección por la media. El análisis de la bondad del modelo estimado se realiza con las mismas herramientas ya mencionadas en los modelos lineales simples. Sólo cuando un modelo estimado ha superado todas las pruebas y, por tanto, cuando estamos seguros de poseer un buen modelo de ajuste de los datos, sólo entonces tiene SCE sentido utilizar el coeficiente de determinación R 2 = 1 − como una medida del SCT porcentaje de variación explicada por el modelo. Aún así, tener el valor de R 2 como único criterio de la bondad de un modelo es peligroso ya que dicho coeficiente puede aparecer inflado, cuando hay presencia de variables extrañas. El análisis de los residuos de un modelo lineal involucra dos tipos de residuos como se verá a continuación: Una vez estimados los coeficientes del modelo, para cada i = 1, 2, , n se tendrá el valor estimado yˆi = b0 + b1 xi1 + b2 xi 2 + + bp xip . El vector de valores estimados será entonces ˆ = Xβ . Y La diferencia ei = yi − yˆi es el i-ésimo residuo. Denotaremos e = (e1 , e1 , vector de residuos. Resulta claro entonces que SCR = e'e y además que
, e1 ) ' al
ˆ = Y − Xβ = Y − X(X'X)−1 ( X'Y) = [I − X(X'X)−1 X']Y = [I − H]Y e = Y−Y siendo H = X(X'X)−1 X' = (hij ) p p . Esta matriz, denominada matriz HAT o matriz de proyección es simétrica e idempotente, es decir, matriz de proyección.
H2 = H ,
como sucede con toda
Es claro que e − E(e) = (I − H)(Y − Xβ) y de aquí V(e) = E ([e − E (e)][e − E (e)]') =
(I − H)E(ee')(I − H)' = (I − H)V(e)(I − H)' = (I − H)( 2I)(I − H)' = (I − H) 2 . De lo anterior se deduce que V(ei ) = 1 − hii , i = 1, 2,
,n
Igualmente puede verse que Cov(ei , e j ) = −hij
Los residuos vistos anteriormente son variables aleatorias con varianzas dadas por la fórmula anterior. En vista de ésto, podemos definir otros dos tipos de residuos de la siguiente manera: a. Residuos estandarizados: ri =
ei 1 − hii
REGRESION Y MODELOS LINEALES JACMEN
b. Residuos estudentizados:
070819
ri* =
(i )
33
UNIVERSIDAD DEL TOLIMA
ei 1 − hii
(llamados también externamente
estandarizados) La varianza (2i ) de la definición anterior corresponde a la varianza del modelo de regresión con una observación menos (observación borrada), resultante al eliminar la iésima observación del modelo original. Tanto 2 como (2i ) son desconocidas pero S2 =
se estiman con los datos de acuerdo con
SCE n−k
y
S(2i ) =
SCE(i ) n − k −1
respectivamente.
(n − k ) s 2 − Una estimación de (2i ) está dada por
s(2i ) =
ei2 1 − hii
n−k
(Draper & Smith, 3th
Edition, page 208)
Puntos Influenciales Los modelos de regresión pueden verse distorsionados por la acción de puntos que tienen un poder de influencia fuera del patrón común. Tales puntos influenciales pueden ser puntos atípicos (outliers) o puntos de apalancamiento con alto leverage. Un criterio empírico para determinar outliers es considerar como tales aquellos puntos que se encuentren a una distancia de más de 3s de la recta de regresión (Sincich). Otro criterio más técnico, muy utilizado para detectar valores atípicos, son las así llamadas distancias de Cook, definidas para cada observación por:
hii ri 2 hii ei2 Di = = 2 k 1 − hii (k + 1)CME (1 − hii ) donde los valores hii , conocidos como leverages, corresponden a la diagonal de la matriz Hat y están dados por hii = xi ( X'X)−1 xi ' para i = 1, 2, , n donde xi es la iésima fila de la matriz de diseño. Se consideran como atípicos aquellos puntos para los que Di 1 . Otro criterio, propuesto por Welsch y Kuh, consiste en utilizar los así llamados DFIT, definidos como:
DFITi = ri*
hii 1 − hii
REGRESION Y MODELOS LINEALES JACMEN
070819
34
UNIVERSIDAD DEL TOLIMA
Se declaran como influenciales aquellos puntos para los cuales
DFITi 2
k n−k
Finalmente, otro criterio propuesto por Belsley, Kuh y Welsch (1980) para detectar observaciones influenciales determina como tales aquellas observaciones para las cuales se cumpla s(2i ) 1 k siendo Cov = 2 = Cov − 1 3 s 1 − hii n Con frecuencia se suele realizar una prueba basada en la distribución Fk +1, n−( k +1) : un
Di Fk +1, n−( k +1) , 0.5 usualmente se toma como indicativo de que un punto es leverage.
Un problema que se puede presentar al estimar modelos lineales es la presencia de multicolinealidad, o alta correlación entre variables regresoras. Existen varias técnicas para detectar la multicolinealidad. Uno de ellos utiliza los factores de inflación de 1 varianza o VIF (dados por VIFj = ) que son los elementos de la diagonal de R −1 , 1 − R 2j siendo R la matriz de correlaciones de las variables independientes. Un VIF extremadamente alto indica colinealidad. En la práctica se assume que un VIF es alto cuando su valor es superior a 10. Otro procedimiento para detector variables redundantes, y por ende la presencia de multicolinealidad, es conocido como regla de Klein. Consiste en realizar un modelo lineal tomando cada variable regresora en función de las demás regresoras y examinar el valor del R 2j , j = 1, 2, , p . Si este valor es mayor que el R 2 del modelo original, se asume que hay multicolinealidad. EJEMPLO: Los datos siguientes (ChatIPs .txt) corresponden a mediciones hechas en una encuesta de Sicología Industrial a 30 empleados de oficina, en la que se evalúa la satisfacción en diferentes aspectos frente a los supervisores, en una corporación financiera. El problema está descrito en Chatterjee (Ejemplo 3.3). La última variable es la respuesta Y, las seis anteriores son regresoras. CFLTS PRIVI APRZJ ADEPO BDEPO AVCMT CLGEN
51 64 70 63 78 55 67 75 82 61
30 51 68 45 56 49 42 50 72 45
39 54 69 47 66 44 56 55 67 47
61 63 76 54 71 54 66 70 71 62
92 73 86 84 83 49 68 66 83 80
45 47 48 35 47 34 35 41 31 41
43 63 71 61 81 43 58 71 72 67
REGRESION Y MODELOS LINEALES JACMEN
53 60 62 83 77 90 85 60 70 58 40 61 66 37 54 77 75 57 85 82
53 47 57 83 54 50 64 65 46 68 33 52 52 42 42 66 58 44 71 39
58 39 42 45 72 72 69 75 57 54 34 62 50 58 48 63 74 45 71 59
58 59 55 59 79 60 79 55 75 64 43 66 63 50 66 88 80 51 77 64
67 74 63 77 77 54 79 80 85 78 64 80 80 57 75 76 78 83 74 78
34 41 25 35 46 36 63 60 46 52 33 41 37 49 33 72 49 38 55 39
070819
UNIVERSIDAD DEL TOLIMA
35
64 67 69 68 77 81 74 65 65 50 50 64 53 40 63 66 78 48 85 82
. El siguiente código en R permite realizar las estimaciones del modelo con los datos anteriores y aplicar la mayor parte de las herramientas descritas anteriormente para evaluar la bondad del modelo construido. # ESTIMACION DE UN MODELO DE REGRESION MULTIPLE #LECTURA DE LOS DATOS (a partir del archivo ChatIPsR.txt en C:\datos) setwd("c:/datos") datos = read.table('chatipsr.txt', header=T) datos pairs(datos) ## presenta diagramas de dispersión entre regresoras cor(datos) ## presenta correlaciones entre regresoras ## Estimacioón del modelo de regresión regresión <- lm(CLGEN ~ CFLTS+PRIVI+APRZJ+ADEPO+BDEPO+AVCMT,data=datos) summary(regresión) ## Presentación de resultados ## Construye Intervalos de confianza del 90 y 95% confint(regresión,level=0.90) confint(regresión,level=0.95) ## Muestra la tabla de análisis de varianza anova(regresión) ## Prueba gráfica de homogeneidad: estimados contra residuos residuos = rstandard(regresión) valores.ajustados = fitted(regresión) plot(valores.ajustados, residuos,col="blue",pch=19,type="p") abline(h=0,col="red")
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
36
##prueba de homogeneidad library(lmtest) bptest(regresión) ## Prueba de normalidad realizada sobre los residuos: ## Prueba gráfica QQ de normalidad qqnorm(residuos,col="blue") qqline(residuos,col="red",lwd=2) ## Prueba analítica de Shapiro sobre los residuos shapiro.test (residuos) ## Prueba de independencia (No autocorrelación de primer orden) ## Estadístico de Durbin-Watson: library(lmtest) dwtest(CLGEN ~ CFLTS+PRIVI+APRZJ+ADEPO+BDEPO+AVCMT, alternative = "two.sided", data = datos) ## Detección de puntos influenciales par(mfrow = c(2,2)) ## pone los gráficos en la misma ventana (2 filas y 2 columnas) plot(regresión) ## Prueba DCook para valores atípicos ## Debe tener instalado el paquete car car::influencePlot(regresión) ## Cálculo de los VIF para detectar multicolinealidad: Vif(regresión)
MODELOS CON INTERACCION: Ocasionalmente un modelo lineal podría tener otros términos diferentes a los considerados en los ejemplos anteriores. Por ejemplo, un modelo que inicialmente se X1 , X 2 podría tener términos mixtos plantea como de dos variables regresoras (interacciones) y tal vez términos cuadráticos, lo que nos llevaría a modelos de la forma:
Y = 0 + 1 X1 + 2 X 2 + 3 X1 X 2 + 4 X12 + 5 X 22 Un modelo así planteado no difiere sustancialmente de los modelos ya vistos. Se trata simplemente de otro modelo lineal múltiple con 5 variables regresoras el cual se estima y se analiza como tal. Lo único necesario es tener una matriz de datos con 5 columnas, la tercera de ellas igual al producto término a término de las dos primeras, la cuarta con los cuadrados de los valores de la primera y la quinta con los cuadrados de los valores de la segunda o tener un software que sea capaz de incorporar las nuevas variables dentro del análisis.
REGRESION Y MODELOS LINEALES JACMEN
070819
37
UNIVERSIDAD DEL TOLIMA
EJEMPLO: Generalmente el costo del envío de paquetes a través de un servicio de encomiendas depende tanto del peso del paquete como de la distancia al sitio donde debe ser llevado el paquete. Estos valores por lo general se fijan arbitrariamente sin que se tenga una fórmula preestablecida para calcular el costo de envío. Una compañía dedicada al transporte de encomiendas hizo un experimento para determinar el tipo de relación existente entre las variables mencionadas y determinar cómo es la dependencia del Costo respecto al Peso (W) de los paquetes y la Distancia (D) a la que deben ser transportados. Se quizo, sin embargo, incluir en el modelo, además de las variables regresoras D y W, la posible interacción DW y los cuadrados, tanto del peso (W2) como de la distancia (D2) La siguiente matriz de datos incluye las 6 columnas W D WD donde W está en libras, D está en Millas, Y (el costo) en (dólares)
W2
D2
Y
En estos datos, la columna WD es el product de las columnas W y D. La columna W2 corresponde a los cuadrados de la columna W y D2 a los cuadrados de la columna D. Se puede realizar la estimación del modelo correspondiente, usando el programa en R visto anteriormente, en el que solo se cambia la parte correspondiente a la lectura de los datos y a la formulación del modelo, que tendría el siguiente aspecto:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
38
setwd("c:/datos") datos = read.table('ex44mend.prn', header=T) datos ## Estimacioón del modelo de regresión regresión <- lm(Costo ~ W + D + WD + W2 + D2,data=datos) summary(regresión) ## Presentación de resultados
Al ejecutar el Código en R se obtienen los siguientes resultados:
Lo que nos dice que el costo de envio realmente está dependiendo del peso de la encomienda, de una combinación entre peso y distancia y del peso al cuadrado. Dejamos al lector el análisis de otras condiciones respecto a la bondad del modelo estimado. El mismo resultado anterior se logra si ejecutamos el Código siguiente: setwd("c:/datos") datos = read.table('ex44mend2.txt', header=T) datos ## Estimacioón del modelo de regresión regresión <- lm(Costo ~ W + D + W:D + I(W^2) + I(D^2),data=datos) summary(regresión) ## Presentación de resultados
leyendo el archivo Ex44Mend2.txt que tiene únicamente las columnas correspondientes a las variables W D y Costo
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
39
Lo anterior nos dice que para indicar una interacción en R se deben usar dos puntos (:) entre las variables que interactúan y para incluir una variable a alguna potencia distinta de 1 debemos incluir la potencia correspondiente dentro de I( ). Esto es necesario pues el símbolo de potencia (^) tiene otras funciones dentro del modelo de regression de R.
EJERCICIO Los datos siguientes corresponden a mg de inmunoglobulina (IgG) en cl de sangre en función del máximo de oxígeno absorbido por Kg como una medida de aptitud aeróbica en una muestra de 30 personas.
Usted debe examinar el modelo de regression correspondiente para IgG como variable independiente, verificando el cumplimiento de supuestos para juzgar la bondad del modelo (normalidad, independencia, homocedasticidad, no presencia de valores atípicos o influenciales, significancia de los coeficientes, etc). Debe justificar la decisión de declarar como influential alguna observación e introducir correcciones hasta lograr un modelo acceptable. Finalmente determinar la ecuación de éste ultimo modelo e interpretar los resultados obtenidos.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
40
UNIDAD 4
ALGUNOS ASPECTOS ADICIONALES En esta unidad se mencionarán algunos aspectos relacionados con la regresión y que generalmente forman parte de temas más especializados. Por esta razón serán tratados con un estilo diferente, haciendo menos énfasis en la parte matemática y más bien insistiendo en la interpretación y aplicabilidad de los mismos. Trataremos en primer lugar algunos aspectos muy sencillos relacionados con la inclusión de variables categóricas en los modelos de regresión y en segundo lugar dos procedimientos de selección de variables para lograr modelos óptimos desde el punto de vista de la parsimonia. Los modelos vistos hasta el momento incluyen únicamente variables numéricas como variables independientes (regresoras) pero es válida la pregunta de si un modelo lineal puede incluir variables categóricas como variables regresoras. Por ejemplo, una de tales variables podría estar indicando el lugar donde se observaron las demás variables del modelo; digamos, por ejemplo: A=En clima frío, B=en clima templado y C=en clima cálido. Evidentemente el coeficiente que acompañe a dicha variable en el modelo ya no puede ser interpretado como una constante por la que se ha de multiplicar la variable para medir su aporte al modelo. ¿ Cómo se interpreta entonces? Partamos de un ejemplo muy sencillo que nos permita introducir el tema. Supóngase que se tiene el modelo lineal Y = 0 + 1 X en el que X es una variable categórica con dos categorías 1=macho, 0=Hembra. Los códigos 1 y 0 son arbitrarios pero se convendrá en que estas variables dicotómicas se codifiquen siempre con 0 y 1, recibiendo entonces el nombre de variables dummy. Como en todos los modelos lineales, se busca estimar el valor promedio de la variable Y, es decir Y . Aquí se observa claramente que la esperanza de Y está condicionada por los valores de X, así: E(Y | X =1 ) = 0 + 1 y E(Y | X =0 ) = 0 . En otras palabras:
H = E(Y | X = H ) = 0 Lo anterior implica : 0 = H
y
y
M = E(Y | X = M ) = 0 + 1
1 = M − H
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
41
El anterior resultado tiene grandes implicaciones: de una parte ofrece una interpretación para los coeficientes del modelo en términos de los promedios teóricos de las categórías y de sus diferencias. Siempre 0 será el promedio de una categoría llamada categoría base o nivel base y 1 será la diferencia entre la media de la otra categoría y la media de la categoría base. De otra parte la significancia de los coeficientes del modelo permiten probar hipótesis acerca de las medias o de sus diferencias en las categórías. Por ejemplo, si 0 es significativamente diferente de 0, se concluye que el promedio de respuestas en el grupo de hembras es diferente de 0. Esta prueba se hace mediante el estadístico t correspondiente a 0 y su nivel de significancia. Análogamente si 1 no difiere significativamente de 0, se concluye que no existe diferencia significativa entre la respuesta media del grupo de machos y la respuesta media del grupo de hembras. Nuevamente la prueba se basa en el estadístico t correspondiente al coeficiente 1 . Consideremos ahora el caso de una variable categórica de tres niveles. Supóngase, por ejemplo, que X es una variable que representa el nivel socioeconómico del individuo que ha proporcionado la respuesta Y. Supongamos además que los niveles han sido codificados como A=Bajo, B=Medio y C=Alto. Se pueden introducir dos variables dummy definidas así:
1 Si estrato alto X1 = 0 Si no
1 Si estrato medio X2 = 0 Si no
utilizando las dos variables dummy, el modelo Y = 0 + 1 X
se transforma en el
nuevo modelo Y = 0 + 1 X 1 + 2 X 2 en el cual los coeficientes se interpretan así:
0 = E(Y | X =0, X 1
2 =0
) = A
(Nivel base)
0 + 1 = E(Y | X 2 = 0) = B 0 + 2 = E(Y | X 1 = 0) = C
de donde 1 = B − A de donde 2 = C − A
Resulta claro que la anterior situación es perfectamente generalizable para cualquier número r de categorías y que serán necesarias r − 1 variables dummy para resolver el problema. Estos resultados son muy usados en el diseño de experimentos cuando se quieren comparar varios tratamientos con un testigo usando técnicas de modelos lineales en cambio de los análisis de varianza. Examinaremos ahora el siguiente ejemplo en el que el cobro de tarifas aéreas de transporte para 15 artículos (por kilogramo) dependen de la naturaleza de los artículos que han sido clasificados en una de tres categórias: Frágil, Semifrágil y Dura. En el archivo de datos se han incluído las dos variables dummy X1 y X2. (Ver tabla en la página siguiente)
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
42
La estimación del modelo se ha realizado con el programa ESM, ya mencionado anteriormente. Es buen ejercicio para el lector relizar la correspondiente estimación usando otro software, por ejemplo R o Infostat. Los resultados son los mismos y la interpretación de los resultados aparecen dos páginas más adelante
COSTO Kg 1720 1110 1200 1090 1380 650 1080 1150 700 850 210 130 340 750 200
NATURALEZA Frágil Frágil Frágil Frágil Frágil Semifrágil Semifrágil Semifrágil Semifrágil Semifrágil Duro Duro Duro Duro Duro
X1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
X2 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0
A continuación pueden verse los resultados de la estimación del modelo correspondiente al ejemplo anterior: Modelo: 1.
Y = ß0 + ß1*X1 + ß2*X2 + á3*X3 + ... + ßk*Xk
ESTIMACION DE LOS COEFICIENTES DEL MODELO:
COEFICIENTES ESTIMADOS T( 12 GL) VAL P VARIABLE _______________________________________________________________________ ß 0 = 326.00000000 3.0318 0.01018 Intercepto ß 1 = 974.00000000 6.4051 0.00012 x1 ß 2 = 544.00000000 3.5774 0.00400 x2 _______________________________________________________________________ T = Estadístico para H0: ßi=0 H1: ßi <> 0 (Individualmente) 2.
INTERVALOS DE CONFIANZA DE 90, 95 Y 99% PARA LOS COEFICIENTES:
COEFICIENTE: 90% 95% 99%
[ [ [
COEFICIENTE: 90% 95% 99%
ß 0 :
[ [ [
ERROR ESTANDAR: 134.387348, 91.699232, -2.494193,
ß 1 :
ERROR ESTANDAR: 703.018789, 642.648676, 509.439057,
107.52674086 517.612652] 560.300768] 654.494193] 152.06577524 1244.981211] 1305.351324] 1438.560943]
REGRESION Y MODELOS LINEALES JACMEN COEFICIENTE:
ß 2 :
070819
ERROR ESTANDAR:
UNIVERSIDAD DEL TOLIMA
43
152.06577524
90% [ 273.018789, 814.981211] 95% [ 212.648676, 875.351324] 99% [ 79.439057, 1008.560943] ________________________________________________________________________ 3. TABLA ANOVA CORREGIDA POR LA MEDIA (No incluye Intercepto en H0) ________________________________________________________________________ FUENTE SUMA DE CUADRADOS GL CUADRADOS MEDIOS F Modelo 2382520.0000 2 1191260.000000 20.60647 Error 693720.0000 12 57810.000000 ***** Total 3076240.0000 14 219731.428571 ***** ------------------------------------------------------------------------F con 2 y 12 GL. Valor P: 0.000280 F = Estadístico para probar H0: ß1 = ß2 = ß3 = ... = ßk = 0
A = 326 , valor Como puede apreciarse, la media del nivel base (duro) es significativamente mayor que cero. De igual manera, B − A 0 es decir, B A y también C A Se pueden considerar dos o más variables categóricas en un modelo lineal. El tratamiento es exactamente el mismo: transformar el modelo introduciendo variables dummy –una menos que el número de niveles de cada variable categórica. La introducción de dos variables categóricas equivale a un diseño bifactorial. Tres categóricas equivale a un diseño de tres factores, etc.
CONSTRUCCION DE UN MODELO OPTIMO El segundo tema que se tratará en esta unidad tiene que ver con las técnicas de selección de variables para encontrar un modelo parsimonioso. En primer lugar describiremos el método STEPWISE o método “paso a paso”, llamado así porque el modelo se conforma introduciendo una a una las variables de mejor desempeño o retirando la de peor desempeño hasta cuando la medida de bondad del modelo deje de cambiar. Aunque existen variantes del método, en la mayoría de los casos se sigue el siguiente procedimiento (al menos éste es el que siguen los más importantes paquetes estadísticos que hacen regresión stepwise). En primer lugar se identifica la variable respuesta Y Luego se siguen los pasos siguientes: PASO 1. Se estiman todos los posibles modelos Y = 0 + 1 X i i = 1,2,…,p. Es decir, tomando una a una las p variables independientes. En cada caso se prueba la hipótesis H0: 1 = 0 contra la alteativa H1 : 1 0 . El parámetro significativamente distinto de cero que tenga el mayor valor t se declara como “el mejor” y la X i correspondiente a
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
44
dicho parámetro será la primera variable del modelo, notada X 1 (no necesariamente es la primera variable de la lista original). PASO 2. Se agregan una a una las p − 1 variables independientes restantes, para formar p − 1 modelos lineales de la forma Y = 0 + 1 X 1 + 2 X i y en cada uno de ellos se H0 : 2 = 0 contra H1 : 2 0 Nuevamente la variable prueba la hipótesis correspondiente al parámetro 2 de mayor valor t se retiene para el modelo. En este momento hay diferencias entre los paquetes. Los mejores paquetes vuelven a la variable X 1 y examinan el valor t. Si este valor ha dejado de ser significativo por estar por debajo de cierto nivel, digamos 0.5 (nivel de salida), remueven la variable X 1 del modelo y se reinicia una búsqueda entre las demás variables para introducir aquella que tenga un t mas significativo, comparado con un cierto nivel de entrada, digamos 0.5 Otros paquetes no hacen esto sino que simplemente van al paso 3. PASO 3. Se introducen una a una las p − 2 variables restantes para formar modelos lineales de tres variables independientes y se procede en general como en el paso anterior. Nuevamente puede haber o no una remoción de alguna de las variables previamente seleccionadas y su reemplazo por alguna de las otras variables. El procedimiento continúa hasta que no se encuentren más variables con valores t no significativos, es decir hasta que según los criterios de entrada y salida no haya más movimientos de variables en el modelo.
A manera de ejemplo, examinaremos el siguiente archivo de datos, usando ASP (versión estudiantil), un pequeño pero potente programa estadístico que se consigue con el texto de Mendenhall y Sincich (b), citado en la bibliografía (recomendable para estudiantes que prefieran textos en castellano) El número de horas-día que los trabajadores de un gran almacén laboran usualmente depende de varias variables, entre ellas: X1 = número de piezas de correo procesadas (abiertas, ordenadas, respondidas, etc) X2 = número de órdenes pagadas, certificadas, etc X3 = número de pagos por ventanilla o cajas X4 = número de transacciones de cambio procesadas X5 = número de cheques visados X6 = número de devoluciones atendidas Y = números de horas-día trabajadas en el almacén. Esta es la variable dependiente
Se toma la información correspondiente a 15 días y con ella se busca estimar un modelo lineal que describa la situación.
REGRESION Y MODELOS LINEALES JACMEN
Día Horas Tr 1 128.5 2 113.6 3 146.6 4 124.3 5 100.4 6 119.2 7 109.5 8 128.5 9 131.2 10 112.2 11 95.4 12 124.6 13 103.7 14 103.6 15 133.2
X1 7781 7004 7267 2129 4878 3999 11777 5764 7392 8100 4736 4337 3079 7273 4091
070819
X2 100 110 61 102 45 144 123 78 172 126 115 110 96 51 116
Utilizando un valor de 0.5 para valores de t 2 siguiente resumen del proceso:
45
UNIVERSIDAD DEL TOLIMA
X3 886 962 1342 1153 803 1127 627 748 876 685 436 899 570 826 1060
X4 235 388 398 457 577 345 326 161 219 287 235 127 180 118 206
X5 644 589 1081 891 537 563 402 495 823 555 456 573 428 463 961
X6 56 57 59 57 49 64 60 57 62 86 38 73 59 53 67
o F (es lo que pide ASP) se obtiene el
____________________________STUDENT_VERSION_OF_ASP_____________________________ FILE: WORK, NO. OF VARIABLES: 7, NO. OF CASES: 15 (MISS. CASES: 0) LABEL: Datos para aplicación Stepwise ________________________________________________________________________________ STEPWISE REGRESSION DEPENDENT VARIABLE: horas INDEPENDENT VARIABLES: 1. x1 2. x2 3. x3 4. x4 5. x5 6. x6 F TO ADD = 0.5, F TO DROP = 0.5, TOLERANCE = 1E-3 MODEL:
x5 x4 x3 x1 CNST
7. CNST
horas = 0.0380179x5 + -0.0380483x4 + 0.0278928x3 + 1.16654E-3x1 + 73.9816CNST
COEF. ----------0.0380179 -0.0380483 0.0278928 1.16654E-3 73.9816
SD. ER. --------0.0154859 0.0157585 0.013945 8.0316E-4 *********
t(10) ------2.455 2.41446 2.0002 1.45244 *******
P-VALUE PT. R SQ. --------- --------0.0339657 0.376054 0.0364048 0.368273 0.0733638 0.285755 0.177024 0.174208 ********* ********
R SQ. = 0.819972, ADJ. R SQ. = 0.747961, D. W. = 1.71477 SD. ER. EST. = 7.20644, F(4/10) = 11.3867 (P-VALUE = 9.64408E-4)
Como puede apreciarse, la primera variable en entrar al modelo fue X5, luego X4, X3, X1. No entraron en el modelo ni X2 ni X6. Se observa que la variable X1 no resulta significativa en este modelo lo que implica que seguramente hace falta una nueva estimación subiendo el valor para los criterios de entrada y salida.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
46
Existen otros procedimientos para seleccionar el mejor grupo de variables para un modelo lineal entre los cuales podemos citar el criterio C p , el criterio MSE o del R 2 ajustado. Mencionaremos únicamente el criterio PRESS, basado en el estadístico del mismo nombre, por ser uno de los más efectivos aunque exige numerosos cálculos, siendo, por tanto, realmente útil cuando se estudian modelos de pocas variables. Se define el estadístico PRESS (Prediction Sum of Squares) para un modelo lineal , mediante la expresión
y
2 i
− yˆ (i )
donde
yˆ ( i ) denota el valor estimado para la i-
ésima observación mediante el modelo obtenido con las n − 1 observaciones restantes al eliminar la i-ésima observación de la muestra. El procedimiento para aplicar el criterio PRESS es simple pero engorroso: estimar todos los modelos con una sola variable independiente, todos los modelos con dos variables independientes, todos los modelos con tres variables independientes, y así sucesivamente hasta llegar al modelo formado por las p variables independientes. En cada caso se calcula el estadístico PRESS del modelo correspondiente y finalmente se elige como mejor modelo aquel que tenga el menor valor PRESS. El PRESS también se puede calcularse de una manera más rápida mediante la e expression PRESS = i i =1 1 − hii n
2
Los paquetes estadísticos más importantes ponen a disposición los dos métodos stepwise (paso a paso) mencionados anteriormente en sus dos versiones: Forward (partiendo del modelo sin variables y agregando en cada paso aquella variable que más aporte) y Backward (que parte del modelo completo y en cada paso elimina la variable que menos aporta)
Funciones linealizables Existen algunos modelos funcionales para describir curvas de ajuste que, aunque no presentan la forma de un modelo lineal, y = 0 + 1 x , mediante transformaciones de variables pueden ser llevados a esta forma y, en consecuencia, mediante una muestra observada podrían estimarse sus coeficientes. Algunos ejemplos de funciones linealizables son: 1. y = x que se transforma en Ln(y ) = Ln( ) + Ln(x) al tomar logaritmos en ambos miembros. El modelo transformado puede escribirse como y* = 0 + 1 x* donde y* = Ln( y) , 0 = Ln( ) , 1 = y x* = Ln( x) . 2. y = Exp( x) que se transforma en Ln( y ) = Ln( ) + x
REGRESION Y MODELOS LINEALES JACMEN
070819
47
UNIVERSIDAD DEL TOLIMA
x 1 1 1 . Se cumple = + . En consecuencia, podría hacerse y* = y x+ y x 1 y x* = con lo cual el modelo podría escribirse como y* = + x* x Exp( + x) 4. y = . Esta función, de gran importancia estadística, se conoce como 1 + Exp( + x) función logística y será estudiada en la unidad siguiente. Se puede tomar y * y* = Ln con lo cual el modelo se transforma en y = + x 1− y 3. y =
EJEMPLO Los procesos de crecimiento o decrecimiento de poblaciones biológicas son ejemplos típicos de fenómenos que pueden ser descritos por el segundo modelo linealizable dado en la lista anterior. Los datos siguientes representan el número de bacterias sobrevivientes (en centenares) después de que han sido expuestas a rayos X de 200 kilovoltios durante 1 hora y media, haciendo el recuento de bacterias vivas periódicamente cada 6 minutos (Chatterjee, 1977)
Per Bac
1 355
2 211
3 197
4 166
5 142
6 106
7 104
8 60
9 56
10 38
11 36
12 32
13 21
14 19
15 15
Datos para el ejemplo
La gráfica siguiente, correspondiente a los datos anteriores, muestra una típica curva de crecimiento negativo de poblaciones que, en forma directa, no puede ser estimada mediante un modelo lineal. Nuestro objetivo es utilizar la muestra para estimar los coeficientes del modelo.
Diagrama de dispersión de datos (ESM v8)
REGRESION Y MODELOS LINEALES JACMEN
Si se supone el modelo
070819
y = e1x se tendrá
48
UNIVERSIDAD DEL TOLIMA
y* = 0 + 1 x donde
y* = Ln( y) y
0 = Ln( ) Si Se toman los logaritmos naturales de los valores de y y se grafican los nuevos valores se obtiene la gráfica siguiente que, como se ve, tiene mayor ajuste a una línea recta.
Diagrama de dispersión con los logaritmos de los datos (ESM v8)
La estimación de los coeficientes en este modelo produce los resultados siguientes, como puede comprobar el lector: 0 = 5.9732 , 1 = −0.2184 y el modelo satisface todos los supuestos. Se concluye entonces que Ln( y ) = 5.9732 − 0.2184 x . Puesto que = Exp( 0 ) = e5.9732 = 392.76 , se tendrá y = 392.76e−0.2184 x ecuación para modelar el decrecimiento de la población de bacterias.
como
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
49
UNIDAD 5
REGRESION LOGISTICA Hasta el momento los modelos de regresión que hemos examinado se han caracterizado porque la variable de respuesta Y es de tipo mumérico con distribución normal y las variables independientes han sido numéricas o categóricas. Pretendemos ahora presenter otro tipo de modelos en los que algunos de los dos supuestos anteriores deja de cumplirse. En primera instancia estudiaremos algunos modelos en los que la variable de respuesta es una variable de tipo categórico. Son los modelos logísticos. Haremos en primer lugar una presentación de los modelos logísticos o de regresión logística, recurriendo a la presentación clásica en la que los coeficientes se estiman por métodos de máxima verosimilitud.
Inicialmente presentaremos el caso en que Y toma sólo dos valores que denotaremos por 0 y 1, es decir, Y es una variable dummy. Una primera observación que podemos hacer es que la normalidad de los errores ya no se cumple. Igualmente como se vió antes, la varianza del error es función de , la probabilidad de que Y sea un éxito. En consecuencia, estos modelos deben ser tratados de una manera diferente.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
50
El modelo que inicialmente se trata es de la forma
E(Y ) = 0 + 1 X1 + 2 X 2 +
+ pX p
donde la respuesta Y toma los valores 0 o 1, y puede ser considerada como una variable aleatoria con distribución Bernoulli. En este caso se cumple que E(Y ) = g ( ) = 0 + 1 X1 + + p X p para ciertos valores de las variables X i con
= E(Y = 1) ,
Un modelo particular de regresión como el que se ha querido presentar anteriormente es aquel en el cual la función que representa la relación entre X y Y no es una línea recta sino una curva como la famosa curva en forma de “S” que describe el crecimiento de una población, llamada curva logística y que, sin pérdida de generalidad podemos considerar acotada por las rectas y = 0 y y = 1 . Esta curva fue inicialmente utilizada en análisis de sobrevivencia, razón por la cual sus valores son tomados entre 0 ex y 1. Dicha curva está relacionada con la distribución logística F ( x) = , x , 1 + ex ex , x (Dudewicz y Mishra, p136) cuya función de densidad es f ( x) = 2 (1 + e x ) El modelo logístico para una única variable regresora tiene la forma: y=
Exp( 0 + 1 X 1 ) 1 + Exp( 0 + 1 )
En forma general, para varias variables independientes, el modelo logístico se define como E( y ) =
Exp( 0 + 1 X 1 + 2 X 2 + + p X p ) 1 + Exp( 0 + 1 X 1 + 2 X 2 + + p X p )
1 Si ocurre A donde y = 0 Si no ocurre A
E( y ) = P(ocurra A) = es claro además que En este caso X 1 , X 2 ,, X p pueden ser variables numéricas o categóricas.
Se observa que el modelo logístico no es un modelo lineal en los parámetros i y aunque estos valores podrían ser estimados por métodos de regresión no lineal –lo que exige sofisticados programas de computador- existen algunos métodos más sencillos para estimarlos.
REGRESION Y MODELOS LINEALES JACMEN
070819
51
UNIVERSIDAD DEL TOLIMA
La primera idea es utilizar mínimos cuadrados, como hacíamos anteriormente. Veamos: 1. Mínimos cuadrados mediante transformación. Puesto que
= E( y ) =
Exp(0 + 1 X 1 + 2 X 2 + 1 + Exp(0 + 1 X 1 + 2 X 2 +
+ pX p) + pX p)
'
=
eβ X 1 + eβ X '
se concluye que
ln( ) = 0 + 1 X 1 + 2 X 2 + 1−
+ p X p = eβ X '
Este último sí es un modelo lineal en el que la variable dependiente está dada por ln( ) y se podría pensar en aplicar los métodos ya vistos para estimar los 1− coeficientes i Puesto que y toma los valores 0 y 1 únicamente, se concluye que = E( y ) = P( y = 1) P(y = 1) De aquí que 1 − = P( y = 0) . En consecuencia, = 1 − P(y = 0) La fracción es conocida con el nombre de odds, es decir, es una razón de 1− probabilidades que expresa la ventaja de la ocurrencia sobre la no-ocurrencia de A. El modelo transformado es entonces un modelo para el logaritmo natural de la odds, por tal razón se le da también el nombre de modelo log-odds. En la cultura sajona las odds tienen un interpretación usual como en la cultura latina la tienen los porcentajes. Por ejemplo, cuando afirmamos que un 75% de los pacientes que ingresasn con quemaduras a un hospital sobreviven, los anglosajones hablan de un odds de 3, pues para ellos es más usual 0.75/0.25 Un concepto importante a tener en cuenta en regresión logística es el de Riesgo relativo. Supóngase que P(E|A) denota el riesgo de que se produzca una enfermedad E cuando está presente la condición A. Si B es otra condición, de modo que P(E|B) es el riesgo de que se produzca la enfermedad estando presente B, el cociente P(E A ) RR = expresa el riesgo relativo de que se produzca la enfermedad E cuando P(E B) se está en la condición A respecto a cuando se está en la condición B. En otras palabras, dice cuánto más (o menos) probable es la enfermedad cuando se está en A que cuando se está en B. Un caso muy especial de riesgo relativo es aquel en el cual B es la condición complementaria de A y se denomina odds. En tal caso, RR indica la probabilidad de
REGRESION Y MODELOS LINEALES JACMEN
070819
52
UNIVERSIDAD DEL TOLIMA
que se produzca E habiendo estado en la condición A respecto a no haber estado en ella. Es decir, el odds representa cuánto más probable es que se produzca E cuando se ha estado en la condición A que cuando no se ha estado en ella. Por ejemplo, cuánto más probable es sufrir cáncer cuando se ha sido sometido a rayos X en forma permanente que cuando no ha sido así. Este odds también se denomina riesgo relativo inherente al factor A. Así como el RR es la razón de dos probabilidades, puede definirse también la razón de dos odds, lo que comunmente se llama Odds’ ratio y que corresponde en esencia al mismo concepto de riesgo relativo. Se define la Odds’ ratio para el factor F como
P(E F) 1-P(E F) Odds ratio = P(E F ) 1-P(E F ) Donde F denota la no exposición a F (condición complementaria de F). Vimos antes cómo mediante una transformación, fue posible llevar el modelo logístico a un modelo de tipo lineal. Sin embargo, aunque se haya logrado transformar el modelo a un modelo lineal, existen aún dos problemas: De una parte, puesto que es desconocido, también lo es el logaritmo de la odds y estos valores son necesarios para poder estimar el modelo (equivale a los valores de respuesta observados de los modelos corrientes). En consecuencia se hace necesario estimarlos. Un buen ˆ ) donde ˆ es la proporción de 1’s que se encuentren estimador es el valor ln( 1 − ˆ en la muestra para la combinación particular de X’s. Sin embargo, para poder obtener estas estimaciones se hace necesario tener varias observaciones replicadas para la misma combinación de los niveles de las X’s El segundo problema es la falta de homocedasticidad. El modelo transformado presenta varianzas que son inversamente proporcionales a (1 − ) y, puesto que es función de las variables independientes, los errores del modelo son heterocedásticos. Con el fin de estabilizar la varianza se hace necesario usar regresión ponderada. Esta técnica, además de que exige también replicaciones para los mismos niveles de las variables independientes, demanda que tales replicaciones se den en número relativamente grande. Si se han utilizado n j replicaciones para cada combinaciones de niveles de las X’s, la ponderación indicada es donde
ˆ =
Número de 1' s para la j - ésima combinació n de X' s nj
w j = n jˆ (1 − ˆ )
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
53
Como consecuencia de lo anterior, se concluye que usar MCO no es realmente viable para estimar este tipo de modelos. 2. Estimación por máxima verosimilitud. Se basa en un método cuyos principios son los siguientes en líneas generales:
i a la probabilidad en que se encuentre el i-ésimo individuo. Si yi = 1 entonces i = pi , por el contrario, yi = 0 implica i = 1 − pi . La probabilidad i es función de pi y de yi , dada por i = piy (1 − pi )1− y . Si se define la función de verosimilitud V como el producto de los i para toda la muestra, es decir: Llamemos
i
i
n
V = piyi (1 − pi )1− yi i =1
V es una función acotada por 0 y 1 la cual, para valores fijos de y y de los X ' s , toma valores que dependen de los coeficientes i . Se trata entonces de encontrar los valores de estos coeficientes que hagan que V esté lo más cerca posible de 1. Esto se logra maximizando el logaritmo de V que tiene la forma: n
L( yi , β) = [ yi ln( pi ) + (1 − yi ) ln(1 − pi )] con pi = P(Y = yi xi ) i =1
Lo que se logra mediante métodos numéricos iterativos que buscan valores que hagan crecer el valor de V y que se detienen cuando el incremento de ese valor deje de ser perceptible, de acuerdo con algún valor pequeño que se ha prefijado. El algoritmo utilizado está fuera del alcance de estas notas y se basa en un método de Newton y Raphson para resolver ecuaciones no lineales (Agresti, 1990). Entre los resultado que arroja el proceso es bueno tener en cuenta la verosimilitud inicial V I y la verosimil itud final V F ya que las dos permiten definir el cociente de
V R = −2 ln I = −2[ln(VI ) − ln(VF )] el cual tiene distribución Ji VF cuadrado con p grados de libertad y sirve para evaluar si las p variables X i tomadas en conjunto, contribuyen efectivamente a explicar las modificaciones que se producen en P( y = 1) , la hipótesis nula afirma en este caso que las variables independientes no modifican la probabilidad de un resultado exitoso. verosimilitud
Se dijo anteriormente que los modelos logísticos pueden incluir variables categóricas dentro de las variables independientes. Esto es cierto siempre que se haga con precaución. Las variables dicotómicas puras (tipo SI-NO) deben entrar como variables dummy, es decir, deben tomar el valor 1 cuando ocurra la categoría A y el valor 0 en caso de que no ocurra. Una variable categórica pura con r categorías debe ser expresada mediante r − 1 variables dummy que reemplazan a la variable categórica
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
54
dentro del modelo. Para ello se debe seguir la la regla ya conocida, que resumimos en el siguiente procedimiento: Si X es variable categórica con r categorías codificadas con 1, 2, 3, ..., r tomemos r − 1 variables dummy Z 1 , Z 2 ,, Z r −1 definidas así: VARIABLE X 1 2 3 4 r
0 0 0 0 0
Z1 Z2 0 1 0 0 0
Z3 0 0 1 0 0
Z4 0 0 0 1 0
... Zr-1 ... 0 ... 0 ... 0 ... 0 ... 1
Supóngase, por ejemplo, que se tiene una variable categórica que representa el tipo de sangre, la cual se ha sustituído por tres variables dummy Z1, Z2, Z3, de acuerdo con lo siguiente: X = Tipo de Sangre O A B AB
Z1 0 1 0 0
Z2 0 0 1 0
Z3 0 0 0 1
Con frecuencia se toma la última categoría como la categoría base o de referencia, identificada solo con 0’s. Supóngase además que se ha incluído el factor RH el cual se ha codificado con 0 si es positivo y con 1 si es negativo. Admitamos que después de haber examinado 1094 sujetos se llega a unos resultados como los expresados en la siguiente tabla:
Enfermó (1) Grupo Sanguíneo RH Neg RH Pos (1) (0) O 50 60 A 200 30 B 150 60 AB 100 64
No Enfermó (0) RH Neg RH Pos (1) (0) 26 48 100 10 75 19 52 50
Imaginemos que se ha aplicado regresión logística a estos datos obteniendo las estimaciones de los coeficientes dadas en la tabla siguiente :
REGRESION Y MODELOS LINEALES JACMEN
Intercepto b0 = 0.374
Z1 b1 = 0.316
070819
UNIVERSIDAD DEL TOLIMA
Z2 b2 = 0.390
Z3 b3 = 0.070
55
RH b4 = 0.053
y, por tanto, el modelo:
Y = 0.374 + 0.316 Z1 + 0.390 Z2 + 0.070 Z3 + 0.053 RH Para un sujeto con RH negativo y sangre tipo B ( Z1 = 0, Z 2 = 1, Z3 = 0 ), la probabilidad de padecer la enfermedad, = P(Y = 1) , satisfaría la ecuación:
Ln 1−
e = 0.694 = 0.374 + 0.390 + 0.053 = 0.817 , y, por tanto, = 1 + e0.817 0.817
mientras que para un individuo con sangre O+ tal probabilidad valdría 0.592 aprox.
Obsérvese que Exp(b4) = Exp(0.053) = 1.05. Esto significa que la razón de los odds asociados al factor RH vale 1.05 y se interpreta diciendo que tener factor RH negativo incrementa el riesgo de padecer la enfermedad en un 5% respecto de tenerlo positivo, independientemente del grupo sanguíneo. Esto es así, porque se está ante un caso en que todas las variables son iguales, excepto una, el RH. Aunque puede ser discutible, cuando la variable categórica independiente es una variable ordinal, sus categorías, ordenadas en forma creciente, pueden ser codificadas con los dígitos 1, 2, 3, ..., r, e ingresar al modelo como una variable única. Aunque, a veces, suele reemplazarse como en el caso anterior. Digamos finalmente que es posible tener modelos de regresión logística donde la variable dependiente Y sea una variable categórica con r categorías, codificadas con 1, 2, 3, ..., r. (Regresión logística politómica). También en este caso se hacen necesarias r − 1 variables dummy, W1 ,W2 , ,Wr −1 para reemplazar a la variable Y , y simplemente se estiman r − 1 modelos dicotómicos (es decir, con una variable respuesta de 0’s y 1’s), tomando cada vez una de las variable dummy de respuesta. Es decir, el primer modelo tendrá las variables W1 , X1 , X 2 , , X p , El segundo modelo las variables
W2 , X1 , X 2 ,
, X p , etc.
P(Y = 2) = P(W1 = 1) , P(Y = 3) = P(W2 = 1) ,…, P(Y = r ) = P(Wr −1 = 1) . Finalmente, P(Y=1) será el complemento de la suma de las probabilidades anteriores. Siguiendo
el
proceso
anterior,
se
concluye
que
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
56
Los programas RELODI y RELOPO permiten estimar modelos de regresión logística dicotómica y politómica respectivamente
El siguiente archivo de datos corresponde a la tabla anterior (grupos sanguíneos de 1094 sujetos) y tiene el formato apropiado para ser analizado con RELODI: 4,agrupados,enfer,z1,z2,z3,rh 1, 200, 1, 0, 0, 1 1, 30, 1, 0, 0, 0 0, 100, 1, 0, 0, 1 0, 10, 1, 0, 0, 0 1, 150, 0, 1, 0, 1 1, 60, 0, 1, 0, 0 0, 75, 0, 1, 0, 1 0, 19, 0, 1, 0, 0 1, 100, 0, 0, 1, 1 1, 64, 0, 0, 1, 0 0, 52, 0, 0, 1, 1 0, 50, 0, 0, 1, 0 1, 50, 0, 0, 0, 1 1, 60, 0, 0, 0, 0 0, 26, 0, 0, 0, 1 0, 48, 0, 0, 0, 0
Los resultados obtenidos pueden resumirse en lo siguiente:
-2 ln(Vi) = 1412.99 VARIABLE Cte Z1 Z2 Z3 RH
-2 ln(Vf) = 1406.11 COEFICIENTE ODDS’ RATIO 0.374409 ---0.316097 1.371764 0.389958 1.476919 0.070033 1.072544 0.053429 1.054882
El mismo ejemplo, para ser analizado en Infostat, adopta la forma
REGRESION Y MODELOS LINEALES JACMEN
070819
57
UNIVERSIDAD DEL TOLIMA
Tabla de Datos para ejemplo en Infostat
y proporciona las siguientes estimaciones:
Interpretación de resultados: Como se ve, las estimaciones de los coeficientes del modelo son las mismas. Infostat ˆ proporciona además las odds’ ratio (razones de odss) , ei , los intervalos de confianza
(
de Wald para las odds´ratio que están dados por e
ˆi − z /2 EE ( i )
ˆ
)
, e i + z /2 EE ( i ) , los
valores p para probar la significancias de los coeficientes y otros resultados cuyo significado, por ahora, no vamos a discutir.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
58
El ejemplo siguiente involucra variables regresoras numéricas. En tales casos es conveniente tener la tabla de datos completa con todos los n individuos de la muestra, aunque es claro que individuos con exactamente la misma información (aún la de las variables numéricas) podrían ser contados para formar una columna de frecuencias.
EJEMPLO Se tiene una muestra de 22 personas de dos etnias (1 = Afro, 0 = otro) con diferentes niveles de estudio (P = Primaria, S= Secundaria, U = Universitaria) y su edad en años cumplidos. Se considera como respuesta el estar desempleado o no ( 1 = Desempleado, 0 = empleado). La variable nivel de estudios se ha sustituído por dos variables dummy, Z1 , Z 2 , como se indica en el cuadro siguiente:_
Con lo cual el archivo de datos toma la forma siguiente:
En el análisis con Infostat no incluímos la última variable que ya ha sido reemplazada pr Z1 y Z2. Se obtienen las siguientes estimaciones para el modelo:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
59
el cual tiene la forma siguiente:
p ln = −4.05 − 3.07 Etnia+0.89 Z1 − 0.04 Z 2 + 0.15 Edad 1 − p Podemos averiguar, por ejemplo, cual es la probabilidad de que una persona Afro con 40 años de edad y nivel universitario de estudios, esté desempleada: Para esta perzona se tiene Z1 = Z 2 = 0 así que
p ln = −0.45 − 0.07 + 0.15 40 = 5.48 1− p de donde:
p=
e5.48 = 0.9958 1 + e5.48
MODELOS LOGISTICOS MULTINOMIALES O POLITÓMICOS
Supóngase que la variable de respuesta Y tiene k categorías y tomemos como categoría de referencia la última de ellas (igual es si se toma otra cualquiera). Por conveniencia, denotemos 0 la probabilidad de la categoría de referencia. Las probabilidades teóricas de las demás categorías serán: i , i = 1, 2, , k −1 . Estos valores son realmente desconocidos pero sus estimaciones a partir de los datos pueden ser notadas como p1 , p2 , , pk −1 , p0 . Podemos entonces formular k − 1 modelos logísticos de la forma:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
p1 = 10 + 11 X 1 + 12 X 2 + p0
1 = ln
60
+ 1 p X p
p2 = 20 + 21 X 1 + 22 X 2 + p0
2 = ln
+ 2 p X p
pk −1 = k −1,0 + k −1,1 X 1 + k −1,2 X 2 + p 0
k −1 = ln
+ k −1 p X p
Todos ellos relacionados con la categoría de referencia, los que pueden ser estimados usando un algoritmo similar al ya mencionado en el aparte anterior, para lo cual se requiere software especializado. A partir de las estimaciones anteriores se obtiene:
p1 = p0e1 ,
p2 = p0e2 ,
pk −1 = p0ek −1
,
Puesto que las sumas de todas las k probabilidades de las categorías deben sumar 1, se deduce que
p0e1 + p0e2 + p0e3 + Esto es:
(
p0 e1 + e 2 + e3 +
+ p0ek −1 + p0 = 1
)
+ e k −1 + 1 = 1
De donde:
p0 =
1 1 + e + e + e3 + 1
2
k −1
+e
=
1 k −1
1 + Exp( i ) i =1
En resumen:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
61
En este caso la respuesta tiene tres valores categóricos: Aprobado, Aplazado y Rechazado. Definimos variables dummy de la siguiente manera:
De esta manera el archivo de datos del cuadro anterior tendrá el aspecto siguiente:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
62
Usando Minitab para estimar el modelo de regresión logística con tres categorías para Y siendo la tercera de ellas la categoría de referencia se obtiene: Regresión logística nominal: Y vs. PS; Z1; Z2; T1; T2 Información de respuesta Variable Y
Valor 3 2 1 Total
Conteo 195 354 177 726
(Evento de referencia)
Frecuencia: Freq Tabla de regresión logística (Tomando como referencia la tercera categoría)
Coef
SE Coef
Z
P
Relación de probabilidades
0.182563 -0.138976 0.430375 0.432446 0.0994148 0.375322
0.236446 0.179648 0.220545 0.226221 0.228792 0.229604
0.77 -0.77 1.95 1.91 0.43 1.63
0.440 0.439 0.051 0.056 0.664 0.102
0.87 1.54 1.54 1.10 1.46
0.335594
-5.00
0.000
Predictor
IC de 95% Inferior
0.61 1.00 0.99 0.71 0.93
Logit 1: (2/3) Constante PS Z1 Z2 T1 T2
Logit 2: (1/3) Constante
-1.67897
REGRESION Y MODELOS LINEALES JACMEN
PS Z1 Z2 T1 T2
0.541796 0.928240 1.55741 0.100743 0.599579
Predictor Logit 1: (2/3) Constante PS Z1 Z2 T1 T2 Logit 2: (1/3) Constante PS Z1 Z2 T1 T2
070819
0.217915 0.306604 0.297931 0.282930 0.274541
2.49 3.03 5.23 0.36 2.18
UNIVERSIDAD DEL TOLIMA
0.013 0.002 0.000 0.722 0.029
1.72 2.53 4.75 1.11 1.82
63 1.12 1.39 2.65 0.64 1.06
Superior 1.24 2.37 2.40 1.73 2.28 2.64 4.61 8.51 1.93 3.12
Log-verosimilitud = -732.736 Probar que todas las pendientes son cero: G = 55.362, GL = 10, valor P = 0.000 Pruebas de bondad del ajuste Método Pearson Desviación
Chi-cuadrada 24.3759 24.9795
GL 24 24
P 0.440 0.407
El mismo problema resuelto en SAS (SAS University Edition) con el siguiente procedimiento: data proyectos; input Y PS Z1 Z2 T1 T2 Cantidad; datalines; 1 1 1 0 1 0 12 1 1 1 0 0 1 21 1 1 1 0 0 0 6 1 1 0 1 1 0 16 1 1 0 1 0 1 32 … Más datos…. 3 0 0 0 0 1 9 3 0 0 0 0 0 10 ; title 'Regresión Logística Politómica)'; proc catmod data=proyectos; weight Cantidad; direct PS Z1 Z2 T1 T2; model Y=PS Z1 Z2 T1 T2 / freq covb corrb itprint design;
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
64
quit; run; Produce los siguientes resultados:
Lo que nos arroja las dos funciones siguientes: Función1: Logit(p1 ) = −1.6790 + 0.5418 PS + 0.9282 Z1 + 1.5574 Z2 + 0.1007 T1 + 0.5996 T2 Función2 : Logit(p2 ) = 0.1826 − 0.1390 PS + 0.4304 Z1 + 0.4324 Z2 + 0.0994 T1 + 0.3753 T2
El caso considerado de un proyecto sin proyección social, con estudio de impacto ambiental a largo plazo y con cofinanciación oficial, tendría, de acuerdo con las funciones anteriores, los siguientes valores esperados:
E1 = Exp(0.5209) = 1.6835
E2 = Exp(0.5724) = 1.7725
De donde:
p1 =
E1 1.6835 = = 0.3777 1 + E1 + E 2 1 + 1.6835 + 1.7725
p2 =
E2 1.7725 = = 0.3978 1 + E1 + E 2 1 + 1.6835 + 1.7725
p3 = 1 − ( p1 + p2 ) = 0.2245 Nótese que se ha tomado como categoría de referencia la tercera. El cuadro siguiente da información complementaria sobre las estimaciones del modelo:
REGRESION Y MODELOS LINEALES JACMEN
070819
65
UNIVERSIDAD DEL TOLIMA
OTRO EJEMPLO El siguiente programa SAS corresponde a información de 60 pacientes de diferentes edades y sexo que fueron tratados para dolores neurálgicos con tres tipos de medicamentos, A, B y P. En cada paciente se midió el tiempo que se sometió al tratamiento y la presencia o ausencia de dolor al final del tratamiento. Esta última se considera como variable de respuesta en función de las demás variables. Data Neuralgia; input Tratamiento $ Sexo $ Edad Duracion Dolor $ @@; datalines; P F 68
1
No
B
M
74 16
No
P
F
67
30
No
P M 66 26
Si
B
F
67 28
No
B
F
77
16
No
A F 71 12
No
B
F
72 50
No
B
F
76
9
Si
A M 71 17
Si
A
F
63 27
No
A
F
69
18
Si
B F 66 12
No
A
M
62 42
No
P
F
64
1
Si
A F 64 17
No
P
M
74
4
No
A
F
72
25
No
P M 70
Si
B
M
66 19
No
B
M
59
29
No
1
A F 64 30
No
A M
70 28
No
A
M
69
1
No
B F 78
1
No
P
M
83
1
Si
B
F
69
42
No
B M 75 30
Si
P
M
77 29
Si
P
F
79
20
Si
A
F
69 12
No
B
F
65
14
No
B
M
67 23
No
A
M
76
25
Si
F
69
24
No
A M 70
12 No
B M 70
1
No
P M 78
12
Si
B
M
77
P M 66
4
Si
P
F
65
29 No
P M
60
26
Si
A M 78
15
1
Si
B
SI
B
M
75
21
Si
A
F
67
11
No
P F
72 27 No
P
F
70
13
Si
A M
75
6
Si
B F
65
Si
P M
68
11
Si
P M P F
No
P
F
68
27
67 17
Si
B
M
70
22 No
A M
65
15 No
67
Si
A
M
67
10 No
P
F
72
11
Si
B
M
80
21
A
F
69
3
No
A F 74
7 1
1 No
Si
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
66
; proc logistic data=Neuralgia; class Tratamiento Sexo; model Dolor = Tratamiento Sexo Tratamiento*Sexo Edad Duracion / expb; run;
En este modelo estamos considerando la interacción entre Tratamiento y Sexo. Es decir, estamos estimando el modelo
Donde la variable de respuesta, Dolor, es una variable categórica dicotómica mientras que las variables independientes son unas categóricas y otras numéricas. La estimación correspondiente es la siguiente:
The LOGISTIC Procedure Model Information Data Set
WORK.NEURALGIA
Response Variable
Dolor
Number of Response Levels 2 Model
binary logit
Optimization Technique
Fisher's scoring
Number of Observations Read 60 Number of Observations Used 60 Response Profile Ordered Total Value Dolor Frequency 1 No
35
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Response Profile Ordered Total Value Dolor Frequency 2 Si
25
Probability modeled is Dolor='No'. Class Level Information Class
Value Design Variables
Tratamiento A
1
0
B
0
1
P
-1
-1
F
1
M
-1
Sexo
Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied.
Model Fit Statistics Criterion Intercept Only Intercept and Covariates AIC
83.503
64.596
SC
85.598
81.351
-2 Log L
81.503
48.596
Testing Global Null Hypothesis: BETA=0
67
REGRESION Y MODELOS LINEALES JACMEN
Test
070819
UNIVERSIDAD DEL TOLIMA
68
Chi-Square DF Pr > ChiSq
Likelihood Ratio
32.9074
7
<.0001
Score
25.6812
7
0.0006
Wald
14.2879
7
0.0463
Joint Tests
Effect
Wald DF Chi-Square Pr > ChiSq
Tratamiento
2
11.9886
0.0025
Sexo
1
5.3104
0.0212
Tratamiento*Sexo
2
0.1412
0.9318
Edad
1
7.2744
0.0070
Duracion
1
0.0247
0.8752
Note:Under full-rank parameterizations, Type 3 effect tests are replaced by joint tests. The joint test for an effect is a test that all the parameters associated with that effect are zero. Such joint tests might not be equivalent to Type 3 effect tests under GLM parameterization.
Analysis of Maximum Likelihood Estimates
Parameter
DF Estimate
Intercept
Standard Wald Error Chi-Square Pr > ChiSq Exp(Est)
1
19.2236
7.1315
7.2661
0.0070
2.232E8
Tratamiento
A
1
0.8483
0.5502
2.3773
0.1231
2.336
Tratamiento
B
1
1.4949
0.6622
5.0956
0.0240
4.459
Sexo
F
1
0.9173
0.3981
5.3104
0.0212
2.503
Tratamiento*Sexo A F
1
-0.2010
0.5568
0.1304
0.7180
0.818
Tratamiento*Sexo B F
1
0.0487
0.5563
0.0077
0.9302
1.050
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
69
Analysis of Maximum Likelihood Estimates
Parameter
Standard Wald Error Chi-Square Pr > ChiSq Exp(Est)
DF Estimate
Edad
1
-0.2688
0.0996
7.2744
0.0070
0.764
Duracion
1
0.00523
0.0333
0.0247
0.8752
1.005
Odds Ratio Estimates
Effect
95% Wald Point Estimate Confidence Limits
Edad
0.764
0.629
0.929
Duracion
1.005
0.942
1.073
Association of Predicted Probabilities and Observed Responses Percent Concordant
90.5 Somers' D
0.810
Percent Discordant
9.5 Gamma
0.810
Percent Tied
0.0 Tau-a
0.401
Pairs
875 C
0.905
EJERCICIO Propuesto por Javier Morales. Universidad Miguel Hernández de Elche.
La Kifosis es una enfermedad que se manifiesta en la deformación de las vertebras después de una intervención quirúrgica en las mismas. Los datos de la tabla siguiente corresponden a un estudio sobre 81 niños que han sido intervenidos quirúrgicamente en su columna vertebral. La primera variable. Kifosis, indica si el niño presenta o no Kifosis (1 = sí presenta, 0 = no presenta), Edad representa la edad en meses al momento de hacer la cirugía, Número representa el número de vertebras intervenidas durante la cirugía y finalmente VInicio representa la primera vertebra involucrada en la cirugía.
REGRESION Y MODELOS LINEALES JACMEN
070819
70
UNIVERSIDAD DEL TOLIMA
Se pide estimar el correspondiente modelo logístico e interpreter los resultados.
Cierre del capítulo Los modelos lineales estudiados hasta el momento se conocen como Modelos Lineales Clásicos y han sido investigados desde la época de Gauss. Tienen un atractivo especial debido a que los efectos son de tipo aditivo y, en general, son bien estimados por métodos basados en mínimos cuadrados ordinarios. Algunas complicaciones se analizan con métodos especiales como mínimos cuadrados ponderados o mediante transformaciones de linealización como se mencionó anteriormente. Algunos de estos modelos forman una clase aparte debido a que su matriz de diseño no es de rango complete, pero aún así, todos ellos, de una u otra forma, descansan en supuestos de normalidad para la variable respuesta. Excepción a esta regla la constituyen los modelos logísticos vistos anteriormente, que son resueltos expresamente usando logaritmos basados en la maximización de la verosimilitud. Un estudio más profundo de los modelos lineales generales require de conceptos propios de la estadística multivariada, particulamente de la distribución normal pvariada, dada por la función de densidad
f (x) =
1 (2 )
p 2
1 Exp − ( x - μ) ' Σ −1 ( x - μ) , x 2 Σ
p
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
71
p Y de las propiedades métricas del espacio en particular de la distancia de Mahalanobis inducida por la forma cuadrática Q(x) = (x - μ) ' Σ−1 (x - μ) a partir de la cual se puede definer un product interior e introducer el concepto de ortogonalidad.
En las anteriores condiciones podría definirse un modelo lineal de acuerdo con lo siguiente: Si Y = (Y1 , Y2 ,
, Yp ) ' es tal que Y ~ N p (μ, Σ) , un modelo lineal general para Y es
un modelo en el que para la media μ se fija una hipótesis del tipo siendo 0 un subespacio lineal de conocidos a priori.
p
H0 : μ - μ0 0 ,
de dimension k y μ 0 un vector de valores
Bajo esta concepción, la matriz de diseño del modelo lineal general es el conjunto de vectores que generan el subespacio lineal 0 . Y la hipótesis que se considera es
H0 : μ - μ0 = Xβ con β
k
. Como es de esperarse, la solución de un modelo lineal
depende de la solución de la ecuación: X ' Σ−1Y = X ' Σ−1 Xβ . (una ampliación de este tema puede verse en Madsen y Thyregod). La clasificación de los modelos depende de la matriz de diseño , X , o más exactamente de su rango. Cuando el rango es completo los modelos son de regresión y cuando el rango no es completo los diseños se denominan de análisis de varianza o diseños ANOVA. En estas notas haremos una breve introducción a los modelos ANOVA en el siguiente capítulo.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Capítulo II
MODELOS DE ANOVA
72
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
73
Unidad 6
Modelos de diseño Como se dijo antes, los modelos de diseño son modelos lineales en los que la matriz de diseño no es de rango completo. Esto nos lleva a considerar una teoría especial para este tipo de modelos. Los aspectos más relevantes para tales modelos se consignan a continuación.
Las estimaciones de los parámetros pueden lograrse mediante una expresión del tipo
β = ( X'X)G (X'Y) donde
( X'X)G es una inversa generalizada de X'X . El principal
inconveniente que presenta este tipo de estimación es la falta de unicidad para las soluciones. Sin embargo, dos soluciones cualesquiera producen la misma estimación (ejercicio). Por lo anterior, cualquier inversa generalizada puede ser usada. Si se utiliza software de cálculo como Matlab u Euler es conveniente usar la inversa de MoorePenrose, la cual se define de la siguiente manera: Si A es una matriz n m de rango k , la inversa de Moore (1920)-Penrose (1955) es una matriz
M de orden
condiciones: 1. AMA = A 2. MAM = M 3. AM es simétrica 4. MA es simétrica
m n y de rango k que satisface las siguientes cuatro
REGRESION Y MODELOS LINEALES JACMEN
070819
74
UNIVERSIDAD DEL TOLIMA
La inversa de Moore Penrose de una matriz A , a veces notada A + , siempre existe y es única pero su cálculo no es sencillo: se basa en la factorización
A = KL donde
K y L son matrices de rango columna y fila completos respectivamente. En tal caso
M = L'(K'AL')-1 K' . Tanto Matlab como Euler usan el comando pinv() para calcular la inversa de Moore-Penrose.
2 4 Ejemplo 1: Considérese A = 1 2
1 2 1 2
0 1 que es una matriz de rango 3. El comando 2 4
−3.0 pinv(A) produce M = 7.0 −2.0
2.0 −0.2 −0.4 −4.0 0.4 0.8 como inversa de A 1.0 0.0 0.0
m
Es de mucho interés estimar combinaciones lineales del tipo λ' β = i i , razón por i =1
la cual se establece el siguiente: Teorema: La combinación lineal λ' β (denominada función paramétrica lineal o fpl) es estimable si y solamente si existe una solución para la ecuación (X'X)γ = λ .
Se establece igualmente que si
λ' β es estimable entonces γ 0' (X'Y) , donde γ 0 es
una solución de la ecuación planteada en el teorema, constituye la mejor estimación lineal insesgada (MELI) de λ' β .
Pueden formularse varios resultados importantes, a saber:
1. Si X es de rango k entonces existen exactamente k fpl independientes 2. Tanto Xβ como (X'X)β son estimables 3. Si λ1β, λ 2β,
, λ sβ son fpl estimables, entonces cualquier combinación lineal
de ellas es también estimable.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
75
4. La MELI de cualquier combinación lineal de fpl estimables es la combinación lineal análoga de las MELI de dichas funciones
siendo a , b , c , … el número de valores diferentes que pueden tomar cada una de las variables X1 , X 2 ,
, X m respectivamente. Esto es así porque una variable categórica
de q categorías puede ser sustituída por q variables categóricas dicotómicas (con valores 0 y 1) mediante el siguiente artificio (parecido pero diferente a lo visto en páginas anteriores): Si X es una variable categórica con con los valores 1, 2, 3, …, q i = 1, 2,
podemos definir
q categorías identificadas
1 Si X = i Xi = 0 Si X i
para
,q
Ejemplo 2: Consideremos Y, variable aleatoria, como función lineal de una variable X, categórica, con tres categorías , identificadas con 1, 2 y 3. Podemos entonces definir tres variables categóricas dicotómicas X1 , X 2 , X 3 de la siguiente manera:
REGRESION Y MODELOS LINEALES JACMEN
1 Si X = 1 X1 = ¨ 0 Si X 1
070819
UNIVERSIDAD DEL TOLIMA
1 Si X = 2 X2 = 0 Si X 2
y
76
1 Si X = 3 X3 = 0 Si X 3
De esta manera, una forma alternativa y más usual de escribir el modelo correspondiente, será:
Y = + i +
con i = 1, 2, 3
En la teoría del diseño, cada una de las categorías de las variables independientes se denomina un nivel y, con frecuencia, cada variable independiente se llama un factor.
Así, el ejemplo anterior corresponde a un diseño de un solo factor con tres niveles. En la teoría del diseño de experimentos denominaremos tratamiento a cada combinación de niveles de los factores. En los diseños unifactoriales al no existir combinaciones de niveles, éstos coinciden con los tratamientos.
En la práctica y con el fin de estudiar la variabilidad de las respuestas ya que Y es una variable aleatoria, se hace necesario observar varios valores de respuesta por cada tratamiento. Aparece así la idea de repetición o replicación de un experimento, concepto necesario para poder estimar varianzas y otros parámetros. Posteriormente ampliaremos este tema. Bástenos por ahora con lo dicho anteriormente, para presentar el siguiente ejemplo.
Ejemplo 3:
Consideremos el ejemplo 2, dado anteriormente y supóngase que la
respuesta fue observada dos veces en el nivel 1 de X, tres veces en el nivel 2 de X y tres veces en el nivel 3 de X. Mas aún, supóngase que los correspondientes valores observados de Y fueron: 3 y 5 en el nivel 1; 2, 4 y 3 en el nivel 2; en el nivel 3. Si escribir:
1, 3 y 2
yi j representa la j-ésima observación en el i-ésimo nivel, podremos
REGRESION Y MODELOS LINEALES JACMEN
070819
y11 3 1 y 5 1 12 y21 2 1 y22 = 4 = 1 y23 3 1 y31 1 1 y 3 1 32 y33 2 1
1 1 0 0 0 0 0 0
UNIVERSIDAD DEL TOLIMA
0 0 1 1 1 0 0 0
77
0 11 0 12 0 21 0 1 22 + 0 2 23 1 3 31 1 32 1 33
Esta expresión corresponde al siguiente esquema de diseño:
Nivel 1 3 5 --
Como puede observarse, la matriz
Nivel 2 2 4 3
Nivel 3 1 3 2
X es de rango 3 ya que la primera columna es la
suma de las otras tres que son linealmente independientes entre sí.
En este ejemplo se cumple:
8 2 X'X = 3 3
2 2 0 0
3 0 3 0
3 0 0 3
23 8 X'Y = 9 6
Queremos saber, por ejemplo, si − 2 es una función paramétrica lineal estimable o no. Como puede observarse − 2 = (1, 0, −1, 0) ' β . En consecuencia, examinemos si ( X'X) γ = λ
el sistema de ecuaciones
escribir como
8 2 3 3
2 2 0 0
3 0 3 0
tiene solución o no. Este sistema se puede
3 1 1 0 2 0 = 0 3 −1 3 4 0
de donde se deduce que es un sistema
incompatible, por tanto, sin solución. En consecuencia lector puede verificar que, por ejemplo,
1 − 3
− 2 no es estimable. El
sí es una función paramétrica
REGRESION Y MODELOS LINEALES JACMEN
070819
78
UNIVERSIDAD DEL TOLIMA
estimable. Es más, puede verificar que el valor de la mejor estimación de dicha función paramétrica es 2.
¿podría el lector calcular tres funciones paramétricas lineales
independientes que existen en este caso?
Se puede probar que, en general, son estimables todas aquellas funciones que puedan escribirse como combinaciones lineales de las filas de Xβ
Por otra parte resulta de interés tener una expresión para estimar la varianza de una fpl ya que esto permite construir intervalos de confianza para ella. Se tiene: Cov(λ 1 ' β, λ 2 ' β) = E (λ 1 ' β - λ 1β)(λ 2 ' β - λ 2β) ' = E ( γ 1'X'Y - λ 1'β )( γ 2'X'Y - λ 2'β ) '
= E ( γ 1'Xε )( γ 2'Xε ) ' = 2 γ 1'(X'X)γ 2
La varianza se obtiene cuando λ1 = λ 2 = λ con lo cual se tendrá: Por
γ1 = γ 2 = γ , en consecuencia
V (λ'β) = 2 (λ'γ) siendo γ una solución del sistema antes mencionado.
ejemplo,
para
= (0,1, 0, −1) '
= (0,
tanto V( 1 − 3 ) =
el
caso
presentado
anteriormente,
se
obtiene
1 1 , 0, − ) ' (una de las infinitas soluciones posibles). Por 2 3
5 2 . Como 6
2 =
1 Y'(I − X( X'X)G X')Y , n−m
al utilizar los
6 5
y, por tanto,
valores observados de Y con n = 8 y m = 3, se obtiene:
2 =
V(1 − 3 ) = 1 (Los cálculos pueden verificarse con Matlab).
Reparametrización de un modelo de diseño Con el fin de transformar los modelos anteriores en otros de rango completo, en los cuales X'X sea invertible, se suelen hacer reparametrizaciones.
REGRESION Y MODELOS LINEALES JACMEN
Dado
070819
79
UNIVERSIDAD DEL TOLIMA
Y = βX + ε , por una reparametrización de este modelo se entenderá una
transformación α = Uβ del vector β donde cada elemento de α es una función lineal estimable.
Puesto que X'X es definida positiva de rango k existen matrices WF , WC de orden m m (m en general es el número de tratamientos) tal que
B 0 0 0
( WF )( X'X ) WC =
donde B es matriz cuadrada k k de rango k. WF se puede particionar en la forma
WF = [ W | W1 ] = W, W1 donde W , de orden m k . De esta manera se tiene W' B 0 ( X'X ) W, W1 = lo que produce: W'(X'X)W = B y W1'(X'X)W1 = 0 0 0 W1' lo que implica en particular que W'X es de rango k y W1'X' = 0 . De aquí XW1 = 0 .
( )
El modelo Y = βX + ε puede ser escrito como Y = X W* W* hacer
(W )
* -1
U = U* = U1
Z = XW y
β + ε y, entonces, al
U Y = X W, W1 β + ε , esto es: U1
se tendrá:
Y = ( XW ) (Uβ) + (XW1 ) ( U1β ) + ε , o lo que es igual: expresión se puede hacer
-1
α = Uβ
Y = ( XW )( Uβ ) + ε . En esta
con lo cual se obtiene el modelo
transformado o reparametrizado: Y = Zα + ε , completamente equivalente al original y donde Z es una matriz de orden n k y de rango completo k. . Para estimar α o cualquier combinación lineal de sus componentes, pueden usarse las ecuaciones normales, dadas por: α = ( Z'Z )
-1
Nota: Puesto que existen muchas matrices
( Z'Y ) . W* que diagonalizan a X'X , existen
también muchas formas de reparametrizar un modelo pero cualesquiera dos de ellas producen la misma estimación de la fpl λ'β . Resulta entonces de interés seleccionar algunas reparametrizaciones que presentan propiedades especiales. Por ejemplo, son muy importantes aquellas en las cuales Z'Z es una matriz diagonal de rango completo,
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
80
llamadas reparametrizaciones ortogonales. Siempre es posible encontrar una reparametrización ortogonal pues bastará para ello tomar como W* la matriz ortogonal formada por los vectores propios unitarios correspondientes a los valores propios de
X'X . Ejemplo 4. Consideremos el modelo lineal yi j = + i + i j con i = 1, 2 y j = 1, 2, 3 , el cual puede ser escrito matricialmente como: y11 1 y 1 12 y 1 Y = 13 = y21 1 y22 1 y23 1
1 1 1 0 0 0
0 11 0 12 0 13 1 + = Xβ + ε 1 21 2 1 22 1 23
Si se hace el usual y recomendado cambio de variable i = + i para i = 1, 2 , se
1 1 1 0 obtiene α = = 1 y, por tanto, 2 1 0 1 2
1 1 0 U= . Para construir una 1 0 1
matriz no singular U* , debemos construir U1 de modo que al agregarla a U se forme
U una matriz cuadrada de rango completo. Hay muchas formas de hacerlo. Por U1
1 1 0 ejemplo, se puede tomar U1 = (0, 1, 1) , con lo cual U = 1 0 1 . De esta manera: 0 1 1 *
W = W, W1 = ( U *
aquí:
)
* -1
0.5 0.5 −0.5 = 0.5 −0.5 0.5 −0.5 0.5 0.5
y entonces
0.5 0.5 W = 0.5 −0.5 . De −0.5 0.5
REGRESION Y MODELOS LINEALES JACMEN
1 1 1 Z = XW = 1 1 1
1 1 1 0 0 0
070819
0 1 1 0 0.5 0.5 0 1 0.5 −0.5 = 1 0 −0.5 0.5 0 1 1 0
81
UNIVERSIDAD DEL TOLIMA
0 0 0 3 0 . Además Z'Z = , lo que nos dice 1 0 3 1 1
que la reparametrización encontrada es ortogonal.
En este modelo, conocido como modelo W por la manera como ha sido
reparametrizado, se tiene Y = Zα + ε con α = 1 y, por tanto, 2
3 −1 y1 j 3 0 j =1 −1 Y α = 1 = = ( Z'Z ) 1 • 3 2 0 3 y Y2 • 2 j j =1 Se puede probar que si Y = Zα + ε es una reparametrización ortogonal de Y = βX + ε entonces las componentes de α son incorrelacionadas y, por tanto, independientes.
Estimación de funciones paramétricas lineales Como se vió antes, la varianza de la fpl λ'β es 2 γ'λ . En la práctica resulta de interés no sólo estimar el valor puntual de una fpl
λ'β , - lo que se obtiene mediante la
expresión λ'β - sino construir un intervalo de confianza para dicha estimación. Bajo el supuesto de que el modelo cumple las condiciones de Gauss-Markov, un intervalo de confianza para la flp mencionada está dado por
λ'β − b(λ'β) t ee(V(λ'β)) , donde
b(λ'β) es el sesgo del estimador y ee(V(λ'β)) es el error estándar del estimador de la
varianza de la fpl.. Se puede probar que cuando se cumplen las condiciones de GaussMarkov el estimador de λ'β es insesgado, eficiente, consistente, suficiente, completo y de mínima varianza. Además en tal caso β estimadores
de
β y 2
son
N(β, 2 ( X'X ) ) , razón por la cual los −1
independientes,
además
de
que
REGRESION Y MODELOS LINEALES JACMEN
(n − m)
S2
2
1
=
2
070819
(Y - Xβ) '(Y - Xβ) tiene distribución Ji-cuadrado con n − m grados de
libertad. Si se usa el modelo W para estimar los parámetros
i
82
UNIVERSIDAD DEL TOLIMA
i , se sigue que
N(i , ci i 2 ) siendo ci i el i-ésimo elemento de la diagonal de ( Z'Z ) . En −1
consecuencia
i − i ci i S 2
t con = n − k , donde k es el rango de X.
Pruebas de hipótesis sobre los parámetros de un modelo
Con mucha frecuencia en los procesos de investigación se plantean hipótesis sobre los parámetros de un modelo lineal y en particular sobre los parámetros de un modelo de diseño. Tales hipótesis pueden ser formuladas en general en términos de funciones paramétricas lineales. Puede afirmarse que las hipótesis de interés son en general del tipo Ho: λ'β = 0 donde 0
es una constante, fija y conocida. Si λ'β es una fpl
estimable se puede reparametrizar el modelo a uno de rango completo de la forma
Y = αZ + ε . En tal caso, si se hace 1 = λ'β y si Ho es verdadera se cumple que
( − ) = 1 20
2
1 (λ'β - β 0 ) 2cii 2
es el parámetro de no
Podrían también formularse hipótesis del tipo 1 = 2 =
= q con q m las cuales
2
ci i S
F 1, , donde
=
centralidad para la distribución F.
constituyen hipótesis muy frecuentes sobre los parámetros en los modelos de rango incompleto. Para hipótesis estimables (cfr Graybill 11.15), lo anterior equivale a probar que λ1'β = λ 2'β =
= λ r'β = 0 para ciertos vectores λ1 , λ 2 ,
, λ r y el procedimiento
de prueba puede resumirse en lo siguiente:
1. Obtener una solución cualquiera de la ecuación
(
)(
Q0 = Y - X'β ' Y - X'β
)
( X'X ) β = X'Y
y calcular
REGRESION Y MODELOS LINEALES JACMEN
070819
83
UNIVERSIDAD DEL TOLIMA
2. Obtener una solución de las ecuaciones normales reparametrizado bajo las condiciones = =
( Z'Z ) α = Z'Y
del modelo
= q .
3. Hacer ahora Q0 + Q1 = (Y - Zγ)'(Y - Zγ) . Se cumple =
n − q Q1 r Q0
Fr , n−q,
donde es el parámetro de no centralidad para la distribución F. En particular las hipótesis del tipo H0 : λ'β = 0 donde las componentes del vector λ m
satisfacen
i =1
i
= 0 , llamadas contrastes, son de utilidad y aplicación en el análisis de
los modelos de diseño. Es de gran interés estimar contrastes y probar la hipótesis de que un contraste λ'β = 0 . Usualmente esto se hace aplicando lo que se ha dicho en los párrafos anteriores. Es decir: estimando el contraste, estimando su varianza y construyendo intervalos de confianza centrados en la estimación puntual del contraste. Cuando un intervalo de confianza contiene al valor 0, se concluye que dicho contraste es igual a cero. Se pueden aplicar también los resultados anteriores ya que al suponer verdadera la hipótesis nula, la distribución del estadístico es una F central. Más adelante se volverá sobre este tema.
Otros métodos de solución para modelos de diseño En la sección anterior se han presentados algunos resultados generales para estimar los coeficientes de un modelo lineal en general.
Dichos métodos son de naturaleza
universal y aplicables en cualquier situación. Sin embargo, en la práctica se utilizan otros métodos más específicos basados principalmente en la estimación por mínimos cuadrados (MCO). Bajo el supuesto de validez de las condiciones Gauss-Markov los métodos de mínimos cuadrados producen estimaciones equivalentes a las que se obtienen por métodos de máxima verosimilitud (MV). Esta es una de las razones por las cuales se hacen supuestos de normalidad, independencia en las observaciones y homocedasticidad (igual varianza) en los modelos de diseño.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
84
Como se dijo al comienzo de estas notas, suponer que un modelo de diseño se ajusta a los supuestos Gauss-Markov conduce a una teoría demasiado restrictiva que sólo produce soluciones para los relativamente escasos modelos que los satisfacen. Quisiéramos poder presentar una teoría más amplia que ofrezca soluciones para diseños más generales pero el tema resultaría tan amplio y complejo que nos pondría a nivel de un curso de profundización para maestría. Baste saber que en la actualidad la estadística investiga modelos muchos más generales, por ejemplo con distribuciones diferentes a la normal o incluso con funciones de varianza más generales que las que comúnmente se tratan en los libros corrientes de estadística.
Esta segunda unidad sigue los delineamientos tradicionales para el estudio de los modelos de diseño, a sabiendas de que la teoría aquí expuesta no puede resolver muchos problemas que se presentan en la vida diaria, pero resaltando - eso sí- que los métodos tradicionales de solución tienen una base teórica importante que los justifica. Por otra parte conviene advertir que la mayor parte del software existente para realizar el análisis de los diseños suponen en gran medida las condiciones de normalidad, independencia y homocedasticidad propias de los modelos ajustados a las hipótesis Gauss-Markov. Son muy pocos los paquetes estadísticos que enfrentan situaciones más generales como las que hemos mencionado. Entre ellos cabe destacar el paquete SAS, uno de las más potentes, completos y eficientes para el análisis de esos tipos de diseños.
Vimos en la unidad anterior cómo el uso de matrices inversas generalizadas pueden ayudar a encontrar una estimación de los coeficientes de un modelo aunque tienen el inconveniente de la falta de unicidad. Vimos también cómo puede usarse la inversa generalizada de Moore - Penrose –que sí es única- para obtener estimaciones. Sin embargo, al deseo de evitar engorrosos cálculos como los que trae el uso de tales matrices, queremos buscar otro tipo de soluciones que aunque no sean exactas sí sean lo suficientemente buenas para fines prácticos. Son soluciones aproximadas que aunque produzcan ligeros errores respecto de las soluciones teóricas ideales, tales errores puedan ser considerados como de poca magnitud frente al grado de aproximación que se logre.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Se dice que un sistema de ecuaciones lineales existe un vector
85
AX = Y es incompatible cuando no
X que lo satisfaga. Puede pensarse entonces en una solución
aproximada Y con la cual se logre una “buena” aproximación de utilidad práctica. Puesto que puede haber muchas soluciones aproximadas, un criterio muy extendido es considerar como mejor solución aproximada aquella solución Y = AX0 para la cual el vector de errores
e = Y - AX0 = Y - Y tenga longitud mínima. Es decir, aquella n
solución para la cual se cumpla que SCE = e = ei 2 tiene un mínimo valor. Esta 2
i =1
solución –que siempre existe- se denomina solución de mínimos cuadrados y, al menos transitoriamente, se denominará
Ym c . Se puede probar que la solución de mínimos
cuadrados se obtiene mediante una matriz inversa generalizada A0 , llamada inversa de mínimos cuadrados (inversa MCO) que se caracteriza por cumplir las dos condiciones siguientes: 1. AA0 A = A 2.
( AA ) ' = AA 0
0
Una matriz inversa MCO puede construirse mediante la fórmula
A0 = (A'A)G A'
donde A G es una inversa condicional de A , es decir, A G es una matriz que satisface AAG A = A .
1
2 y11 1 3 y 1 Ejemplo 5. Considérese el modelo Y = = 12 = 5 y21 1 4 y22 1
1 1 0 0
0 11 0 12 1 + = Xβ + ε 1 21 2 1 21
que no tiene solución ya que X no es de rango completo. Si usamos la inversa de Moore-Penrose para X , esto es:
REGRESION Y MODELOS LINEALES JACMEN
070819
86
UNIVERSIDAD DEL TOLIMA
1 1 1 14 1 6 6 6 6 6 + + 1 X = 1 −1 −1 se obtiene la estimación β p = X Y = 8 la cual 3 6 6 6 3 13 − 1 1 1 −1 6 3 3 6 6
1 1 produce la solución aproximada YP = 1 1
1 1 0 0
0 14 3.66 6 0 8 3.66 = 1 6 4.50 1 13 6 4.50
Si buscamos otra solución aproximada mediante la matriz MCO, (un poco traída por arte de magia, pero que ya pronto se sabrá cómo se logra):
0 0 X = 1 2 0
1 2 2 1 −1 − 1 se obtiene la estimación 2 2 2 0 0 0 0
1
β mc
9 2 − 4 , dada por: 2 0
2 9 0 0.5 0.5 2 0 3 = X0 Y = 0.5 0.5 −0.5 −0.5 = − 4 5 2 0 0 0 0 0 4
estimación que produce la solución de mínimos cuadrados: Ymc = Xβ mc
2.5 2.5 = 4.5 4.5
Para ver cuál de las dos soluciones anteriores es mejor, se pueden calcular las correspondientes
4 3 3 10 SCE, dadas por los residuos: e P = Y - YP = − , − , , − 6 6 6 6
para el caso Penrose y cuales arrojan valores de
e mc
1 1 1 1 = Y - Ymc = − , , , − 2 2 2 2
eP
2
= 3.72
A es de rango k, la matriz A G ( A* )−1 0 * obtenida del arreglo A = 11 0 0
1
Si
y
e mc
2
'
para el caso MCO, las
= 1 , lo que permite asegurar que es
puede obtenerse
A11 A21
'
arreglando en orden inverso la matriz
A12 de A , de modo que A 11 sea de orden k. A22
REGRESION Y MODELOS LINEALES JACMEN
070819
87
UNIVERSIDAD DEL TOLIMA
mejor la solución dada por el método MCO que la obtenida por la inversa de Penrose. Se puede observar además que la solución dada por el método MCO produce errores cuyo promedio es cero, cosa que no ocurre con la otra solución.
Lo observado en el ejemplo anterior es cierto en general: las soluciones obtenidas mediante matrices MCO tienen la menor SCE siendo, por tanto, las mejores soluciones para el problema que se ha venido estudiando. Además el promedio de los errores de tales soluciones es cero. Resulta evidente que las soluciones MCO no son únicas pero cualesquiera dos de ellas producen siempre la misma estimación β mc . En razón a esto, optaremos por el método MCO como la herramienta usual para producir estimaciones del vector de parámetros, β mc , estimación que en general denotaremos simplemente por
β.
Un resultado adicional de gran importancia es que el vector de errores
e = emc es
ortogonal al espacio vectorial C( X) generado por las columnas de X . En otras se cumple A e = 0 , lo cual se comprueba
palabras, para todo vector
A C( X)
simplemente
multiplicación
mediante
la
X'e = 0 . En nuestro ejemplo:
−0.5 1 1 1 1 0 1 1 0 0 0.5 = 0 0.5 0 0 1 1 0 −0.5
4. Proyecciones ortogonales y sumas de cuadrados X es una matriz de orden n p donde n es el número de observaciones y p el de variables del modelo. Podemos considerar los espacios vectoriales n y C( X) , este último, el espacio generado por las columnas de dimensión es menor o igual que
X , es un espacio vectorial cuya
p. Sus elementos son
n-uplas de n , por ser
combinaciones lineales de las columnas que a, a su vez, son n-uplas de reales. Es decir, se cumple que C( X) es un subespacio vectorial de n y, por tanto, C(X) n .
REGRESION Y MODELOS LINEALES JACMEN
070819
88
UNIVERSIDAD DEL TOLIMA
Ahora bien, se puede considerar la suma directa n = C( X) C( X)⊥ . Cualquier vector V de n
puede ser escrito como
V = T+S
donde
T ⊥ S , ( T C( X)
y
S C(X)⊥ ). Todo vector V de n puede ser proyectado sobre C( X) en una dirección paralela a
C( X)⊥ , la matriz que realiza esta operación es: P = X(X'X)G X' para cualquier Ginversa de
X'X . Es fácil ver que la matriz
P = X(X'X)G X'
es una matriz de
proyección ya que ella es idempotente. Además, sin importar cuál sea la inversa generalizada que se use, P siempre logrará el mismo objetivo. Se puede construir otra matriz de proyección Q dada por Q = In - P , la cual obviamente proyecta los vectores V de n sobre el espacio C( X)⊥ en la dirección de C( X) .
De acuerdo con lo anterior, si Y = βX + ε , se cumple Y = Xβ = X (X'X)G (X'Y) = X(X'X)G X' Y = PY
y ésta es la mejor estimación MCO debido a que P es una matriz simétrica.
De lo anterior también se deduce que
e = Y - Y = I n Y - PY = (I n - P)Y = QY
y, puesto que P y Q son matrices de proyecciones complementarias, se concluye que
Y y e son ortogonales entre sí. En otras palabras, se cumple Y e = 0 o, lo que es igual, PY ⊥ QY (ver figura):
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
89
La gráfica anterior , mediante la aplicación del teorema de Pitágoras, permite deducir que Y = PY + QY . Esto es: ( In Y ) '(I n Y) = ( PY ) ' ( PY ) + (QY) ' ( QY ) o bien: 2
2
2
Y'In Y = Y'PY + Y'QY La expresión anterior, que no es más que una versión del teorema de Pitágoras, se conoce como descomposición de las sumas de cuadrados. Ella establece una relación entre la suma de cuadrados de las observaciones (suma total de cuadrados) con la suma de cuadrados de valores estimados por el modelo (suma de cuadrados explicada por el modelo) y la suma de cuadrados de los residuos. Por esta razón se acostumbra a usar las siglas SCT, SCR y SCE, estableciendo entonces la expresión típica del análisis de varianza:
SCT = SCR + SCE Ejemplo 6:
Consideremos nuevamente los datos del ejemplo 5, correspondientes al
siguiente esquema de diseño:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Tratam 1
Tratam 2
2 3
5 4
90
2 3 El modelo correspondiente puede escribirse Y = Xβ + ε donde Y = , = 1 ¨ y 5 2 4 1 1 X= 1 1
1 1 0 0
0 4 2 2 0 . Se tiene entonces: X'X = 2 2 0 que es una matriz de rango 2. 1 2 0 2 1
Aplicando lo dicho en el pie de la página 20 se obtiene la G-inversa
( X'X )
G
0.5 −0.5 0.0 = −0.5 1.0 0.0 ¨y, en consecuencia, las matrices de proyección P y Q 0.0 0.0 0.0
está dada por:
0.5 0.5 P = X(X'X)G X' = 0.0 0.0
0.5 0.5 0.0 0.0
0.0 0.0 0.5 0.5
0.0 0.0 0.5 0.5
0.5 −0.5 0.0 0.0 −0.5 0.5 0.0 0.0 Q= 0.0 0.0 0.5 −0.5 0.0 0.0 −0.5 0.5
−2.5 2.5 = Y y la proyección de Y sobre La proyección de Y sobre C( X) será PY = 4.5 −4.5
−0.5 0.5 ⊥ =e C( X) es: QY = 0.5 −0.5
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
91
La tabla siguiente muestra tres maneras típicas de descomponer la suma total de cuadrados SCT:
PRIMERA FORMA
SEGUNDA FORMA
TERCERA FORMA
SCM = Y'P0 Y = n ( Y )
2
SCR = Y'PY
SCRm = Y'PY - SCM
SCRm = Y'PY - SCM
SCE = Y'QY
SCE = Y'QY
SCE = Y'QY
SCT = Y'In Y
SCT = Y'In Y
SCTm = Y'In Y - SCM
Diferentes maneras de descomponer la suma total de cuadrados
La expresión SCM se denomina corrección por la media y se incluye en los cálculos por razones teóricas. Se cumple en general
SCM =
1 (Y'P0 )(P0' Y) donde P0 es la n
submatriz de X correspondiente al parámetro , es decir, la primera columna de unos.
La primera forma de descomponer la suma total de cuadrados, llamada descomposición no corregida por la media, corresponde a la fórmula vista anteriormente. La segunda forma de descomposición resalta el hecho de que se utilice la corrección por la media pero no es muy usual. La tercera forma de presentación es la más utilizada. Casi todo el software disponible para análisis de datos provenientes de diseños de experimentos presenta esta forma, llamada comúnmente descomposición corregida por la media. Todos los sumandos considerados en la tabla anterior , vale decir todas estas sumas de cuadrados, son variables aleatorias cuyos valores dependen de las respuestas proporcionadas por las unidades experimentales. Por tratarse de sumas de cuadrados ellas tienen distribuciones Ji cuadrado con diferentes grados de libertad que dependen de cada modelo considerado. Ellas resultan ser elementos claves en la construcción de las tablas de análisis de varianza, una de las herramientas importantes para el análisis de la información proporcionada por los diseños experimentales, tema que será visto en las páginas que vienen más adelante.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
92
Ejemplo 8 Considere el diseño a cuatro niveles dado por el siguiente esquema:
En este ejemplo queremos: 1. Formular el modelo matricial Y = Xβ + ε , equivalente al esquema de diseño anterior. 2. Realizar una reparametrización de la forma Y = Zα , donde α = Uβ 3. Estimar el vector de parámetros α y calcular la estimación de Y , el vector de residuos e, y la suma de cuadrados del error SCE, bajo esta estimación. 4. Encontrar la estimación de Y mediante MCO y calcular los residuos y la suma de cuadrados del error, bajo esta nueva estimación. 5. Usando los resultados en 4, mostrar la descomposición de la suma de cuadrados total (SCT) en las sumas SCR y SCE, además mostrar cómo serían las tablas ANOVA para este caso.
En nuestro ejemplo se cumple lo siguiente: Se trata de un diseño balanceado de una vía de clasificación con k = 4 niveles y r = 4 réplicas. Según se vió en páginas anteriores, si tenemos formulado el modelo matricial Y = Xβ + ε , donde X es la matriz de diseño y β el vector de parámetros, (modelo que está sobreparametrizado pues tiene 5 parámetros mientras que X es de rango 4), se puede hacer una reparametrización del tipo α = Uβ mediante el cambio de variable i = + i , i = 1, 2, , k con lo cual, al tomar A = U'(UU')-1 y Z = XA , el modelo original Y = Xβ + ε se transforma en un modelo reparametrizado Y = Zα + ε que es de rango completo y que, por consiguiente, puede ser solucionado mediante la ˆ = Zαˆ . estimación αˆ = (Z'Z)-1 (Z'Y) , ya que Y Una vez lograda la solución anterior, podemos calcular los residuos ˆ y la suma de cuadrados de residuos mediante SCR = e, e . e = Y-Y
mediante
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
93
En consecuencia, para los objetivos 1, 2 y 3, tendremos:
1. Formulación matricial del modelo:
y11 2 1 y 4 1 12 y13 6 1 y14 2 1 y21 4 1 y22 3 1 y 4 1 23 y24 2 1 y = 6 + 1 31 y32 6 1 y33 5 1 y34 4 1 y41 8 1 y 6 1 42 y43 5 1 y 6 1 44
1 0 0 0 11 1 0 0 0 12 13 1 0 0 0 1 0 0 0 14 21 0 1 0 0 0 1 0 0 22 0 1 0 0 23 1 0 1 0 0 24 2 + 0 0 1 0 31 3 0 0 1 0 32 4 0 0 1 0 33 34 0 0 1 0 0 0 0 1 41 0 0 0 1 42 0 0 0 1 43 0 0 0 1 44
En este modelo, El vector Y = ( yij )161 corresponde a las 16 respuestas, La matriz X165 es la matriz de diseño y el último vector a la derecha es un vector de errores que se supone con distribución normal multivariada de media 0 y varianza 2 I16 Calcularemos todas las matrices en Matlab. Así se tiene:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
94
1 = + 1 2 = + 2 Reparametrizamos el modelo tomando 3 = + 3 4 = + 4 1 1 1 0 0 0 1 0 1 0 0 1 . 1 = con lo cual 1 1 0 0 1 0 2 3 1 1 0 0 0 1 4 Por consiguiente tomamos la matriz U en Matlab así:
1. La reparametrización del modelo se logra así:
El nuevo modelo tendrá la forma:
Y = Zα + ε y es de rango completo, así que
2. La estimación de α , la de Y , los residuos y la suma de cuadrados del error bajo esta estimación, serán las siguientes:
REGRESION Y MODELOS LINEALES JACMEN
αˆ = Alfa = (Z'* Z)-1 (Z'* Y) , SCE = < e,e >
070819
UNIVERSIDAD DEL TOLIMA
ˆ = Z * αˆ , Y
95
ˆ , e = Y-Y
De acuerdo con ésto, los valores estimados de respuesta, según el nuevo modelo, los residuos y la suma de cuadrados de los errores, son:
Para los objetivos 4 y 5, tendremos: La estimación mediante un modelo MCO es mucho más simple: solo requiere del cálculo de dos matrices de proyección que son ortogonales entre sí, P, Q , y, ocasionalmente, una tercera matriz P0 , definidas como se estipula a continuación: •
•
P = X(X'X)G X' donde (X'X)G es una inversa generalizada de X'X . En particular podemos tomar la inversa de Moore-Penrose ya que es única. Q = I-P
• La matriz P0 = X0 (X'0 X0 )G X'0 , definida por X0 , la columna completa de 1s en la matriz X , que corresponde al parámetro . Calculamos en Matlab las matrices P0 = X0 *pinv(X'0 X0 )X'0 que siempre es de rango 1, P = X*pinv(X'*X)*X' , I = eye(16) y Q = I-P pero no presentamos estas matrices pues son muy grandes: 16x16. ˆ = PY , e = QY , SCR = Y'PY , Con las dos matrices P, Q anteriores se obtiene: Y SCE = Y'QY y SCT = Y'IY . La suma de cuadrados de la media corresponde al
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
96
valor SCM = Y'* P0* Y y se usa cuando queremos presentar la tabla ANOVA en su tercera forma -corregida por la media- como se muestra a continuación.
Continuando con Matlab:
Como se ve: SCR + SCE = SCT La tabla ANOVA (Primera forma) para el caso sería: Sumas de Cuadrados
Grados de Libertad
SCR = 357.75 SCE = 21.25
rank( P ) = 4 rank( I - P ) =12
SCT
=
379.00
Rank( I ) = 16
Si queremos presentar la tercera forma -más usual- usamos la matriz P0
y calculamos
Es decir, la suma de cuadrados de la media vale SCM = 333.0625 , en consecuencia, la tercera forma de la tabla ANOVA será la siguiente:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
97
Esta tercera forma de presentar los datos, corresponde realmente a la siguiente formulación, basada en la igualdad (P - P0 ) + (I - P) = I - P0 :
Fuente de Variación Modelo
Suma de cuadrados
SCR m = Y'(P - P0 )Y
Grados de Libertad rank(P - P0 )
Error
SCE=Y'(I - P)Y
rank(I - P)
Total
SCTm = Y'(I - P0 )Y
rank(I - P0 )
Esta última presentación es la que aparece en todos los paquetes estadísticos que hacen análisis de varianza, como Infostat. Este paquete presenta algunos elementos adicionales: los cuadrados medios (que son varianzas obtenidas al dividir las sumas de cuadrados entre sus correspondientes grados de libertad) y el cociente F de la varianza ENTRE, correspondiente al modelo, y la varianza DENTRO. Este cociente es una variable aleatoria con distribución F -por ser cociente de dos varianzas- y se usa para realizar cierto tipo de inferencia relacionada con las medias de los niveles. La siguiente es la salida de Infostat para los datos del ejemplo que estamos analizando:
REGRESION Y MODELOS LINEALES JACMEN
070819
98
UNIVERSIDAD DEL TOLIMA
5 Clasificación de los modelos Según la estructura que adopte un modelo lineal Y = Xβ + ε , éste suele clasificarse en una de las siguientes categorías: •
Modelos S o modelos sobreparametrizados
•
Modelos W o modelos de medias de celdas
•
Modelos Σ o modelos con restricción en los parámetros
•
Modelos R o modelos de regresión
5.1 Modelos S. Los modelos sobreparametrizados son aquellos en los que aparece un parámetro por cada efecto de los factores involucrados. Corresponden a los casos de modelos de diseño que hemos visto hasta el momento. Otro ejemplo típico puede ser el sugerido por el siguiente esquema de diseño desbalanceado (diferente número de réplicas en los tratamientos):
FACTOR 2
F A C T O R 1
Nivel 1
Nivel 2
Nivel 3
Nivel 1
y111 y112 y113
y121 y122 ---
y131 y132 ---
Nivel 2
y211 y212 y213 y214
y221 -------
--y232
y233 y234
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
99
En este diseño se observa la presencia de dos factores (el primer factor podría ser, por ejemplo, la variedad de una planta y el segundo factor podría ser la alcalinidad del
yi j k representa una respuesta a las condiciones en que
terreno). En este caso cada
crecen las plantas y podría indicar, por ejemplo, producción, altura, resistencia a una plaga, etc Es claro que en este diseño puede haber interacción entre los factores (el tipo de terreno y la variedad de la planta), por consiguiente, el modelo debe incluir: •
Dos parámetros 1 , 2 para los niveles del primer factor.
•
Tres parámetros 1 , 2 , 3 para los niveles del segundo factor
•
Seis parámetros 11 , 12 , 13 , 21 , 22 , 23 para los seis cruces de niveles de los factores que representan las posibles interacciones.
•
Un parámetro general que representa la respuesta media general en ausencia de tratamientos.
Se tiene así un espacio de parámetros para el modelo, dado por:
= , 1 , 2 , 1 , 2 , 3 , 11, 12 , 13 , 21, 22 , 23 y la matriz de diseño correspondiente:
1 1 1 1 1 1 1 X = 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
1 1 1 0 0 0 0 1 1 1 1 0 0 0 0
0 0 0 1 1 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 1 1 0 0 0 0 0 1 1 1
1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 1 1 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 1 1 1 1 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
Algunos ejemplos de modelos sobreparametrizados son los siguientes:
REGRESION Y MODELOS LINEALES JACMEN
070819
100
UNIVERSIDAD DEL TOLIMA
•
yi j = + i + i j
Modelo de clasificación simple (ya visto)
•
yi j k = + i + j + i j k
Modelo de clasificación doble sin interacción
•
yi j k = + i + j + i j + i j k Modelo de clasificación doble con interacción
Los modelos sobreparametrizados se notan Y = Xβ + ε y se parecen a los que hemos estudiado hasta el momento. En todos ellos la matriz de diseño es de rango incompleto y las estimaciones de sus parámetros pueden hacerse mediante el uso de inversas generalizadas de la matriz X'X , tal como se ha indicado anteriormente. Entre tales soluciones se destacan, como lo hemos hecho, las matrices de MCO que proporcionan las mejores soluciones. Por otra parte, en tales modelos la estimación de fpl del tipo λ'θ 0
λ'β está dada por
donde
θ0
es una solución cualquiera del sistema de
ecuaciones normales. El intervalo de confianza para λ'β está dado por λ'θ0 t
n−k ,
v(λ'β)
donde k es el
2
rango de la matriz de diseño y v(λ'β) es la varianza estimada de la fpl, la cual está dada por 2 γ ' ( X'X ) γ
donde
γ es una solución del sistema
( X'X ) γ = λ ,
según se
desprende de lo dicho en páginas anteriores.
Ejemplo 9. Volvamos a los datos del ejemplo 6 anterior, caso correspondiente a un diseño unifactorial con dos niveles (y dos réplicas por nivel). Se tiene = , 1 , 2 y el modelo correspondiente será: yi j = + i + i j i = 1, 2 j = 1, 2 . Los cálculos para este ejemplo pueden corroborarse con el siguiente programa Matlab:
REGRESION Y MODELOS LINEALES JACMEN
Se tiene:
070819
4 2 2 14 X'X = 2 2 0 , X'Y = 5 2 0 2 9
UNIVERSIDAD DEL TOLIMA
101
4.5 y, como se vió anteriormente, β = −2.0 0.0
es una estimación del vector de parámetros, β = 1 . 2 Consideremos la fpl λ'β = 1 − 2 = (0, 1, − 1)β
En este caso la ecuación
( X'X ) γ = λ
equivale a
4 2 2 1 0 2 2 0 = 1 y una 2 2 0 2 3 −1
0.0 solución particular de este sistema es γ = 0.5 , lo que muestra que la fpl sí es −0.5 estimable. Una estimación particular de esta fpl es λ'θ 0 donde θ 0 es una solución particular de sistema de ecuaciones normales
( X'X ) β = X'Y ,
esto es, del sistema de ecuaciones
4 2 2 14 0.0 0 lineales: 2 2 0 1 = 5 . Por ejemplo, θ = 2.5 . Así pues: λ'θ0 = −2 es una 2 0 2 2 9 4.5 estimación particular de la fpl en consideración.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
102
Para construir un intervalo de confianza de esta fpl se debe estimar V(λ'β) . Para ello,
0.0 γ = 0.5 , encontrada arriba, y la estimación de la −0.5
usamos la solución particular
varianza de los datos
0.5 −0.5 0.0 0.0 2 −0.5 0.5 0.0 0.0 3 SCE Y'QY 1 2 2 = 1 s = = = = (2,3,5, 4) 0.0 0.0 0.5 −0.5 5 2 n−k n−k 2 0.0 0.0 −0.5 0.5 4
4 2 2 0.0 1 1 En consecuencia: v(1 − 2 ) = (0.0, 0.5, − 0.5) 2 2 0 0.5 = 2 2 2 0 2 −0.5 Por consiguiente el intervalo del 95% para la fpl estará dado por: −2 t4−2, 0.025
1 1 = −2 4.303 = (−5.0427 , 1.0427) 2 2
Puesto que 0 pertenece a este intervalo, se puede concluir que 1 − 2 = 0 o, lo que es igual, 1 = 2
La descomposición de la suma de cuadrados para este ejemplo, teniendo en cuenta que
yi j 2 SCM = n ( y ..) = 4 i j 4
2
= 49 , se resume en la siguiente tabla:
Primera forma
Segunda forma
Tercera forma
SCM = 49
SCR = 53
SCR m = 4
SCR m = 3
SCE = 1
SCE = 1
SCE = 1
SCT = 54
SCT = 54
SCTm = 5
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
103
5.2 Modelos W Los modelos sobreparametrizados, vistos anteriormente, han sido importantes debido a que muestran todos los parámetros pero esto a la vez constituye su mayor debilidad, pues son más los parámetros que las medias disponibles para estimarlos. Los modelos de medias de celdas son reparametrizaciones de los modelos S, en las que se busca un modelo Y = Wμ + ε definido mediante una matriz W de rango completo. En este caso μ es un nuevo vector de parámetros más reducido que el anterior vector β. Los modelos de medias de celdas más comunes, para una y dos vías de clasificación, son los siguientes: •
yi j = i + i j , corresponde al modelo de una vía, yi j = + i + i j , al hacer el cambio de variable i = + i .
•
yi j k = i j + i j k , que viene del modelo de dos vías sin interacción yi j k = + i + j + i j k , al realizar el cambio de variable i j = + i + j
•
yi j k = i j + i j k obtenido del modelo de dos vías con interacción, yi j k = + i + j + i j + i j k mediante el cambio de variable
i j = + i + j + i j Mediante transformaciones adecuadas, todo modelo S puede ser transformado en un modelo de medias de celdas, de la forma Y = Wμ + ε de rango completo. Como es de esperarse, el vector de parámetros μ , se estima mediante las ecuaciones normales μ = ( W'W ) (W'Y) . -1
Como antes, las fpl son combinaciones lineales de los parámetros del modelo, es decir, de las medias de las celdas. Digamos que son expresiones del tipo L = λ'μ cuya MELI, en caso de que sean estimables, tendrá la forma L = λ'Y , donde Y es el vector formado por las medias estimadas de las celdas con las observaciones. Su varianza estará dada por V( L) = 2 γ'(W'W)γ donde γ es solución del sistema (W'W)γ = λ . Como antes, esta varianza puede ser estimada utilizando la estimación SCE s 2 = 2 =CME= donde k es el rango de X. n−k
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
104
Ejemplo 10 Considérese el diseño de clasificación cruzada a dos vías sin interacción, dado por el siguiente esquema, en el cual los asteriscos representan observaciones perdidas a lo largo del proceso. Aunque una línea de conducta debe ser la de diseñar experimentos balanceados, suele ocurrir a lo largo del desarrollo de un experimento que se pierdan unidades experimentales, razón por la cual los resultados finales puedan dar origen a diseños desbalanceados, es decir, diseños en los que el número de observaciones no es el mismo para todas las celdas.
Factor 2 Nivel 1
Nivel 2
2 4 * * 3 5
* * 6 2 3 4
Nivel 1 Factor 1 Nivel 2
El modelo S correspondiente a este diseño, yi j k = + i + j + i j k , puede explicitarse de la siguiente manera:
y111 2 1 y 4 1 112 y123 6 1 y212 = 3 = 1 y213 5 1 y221 2 1 y 3 1 222 y223 4 1
1 1 1 0 0 0 0 0
0 0 0 1 1 1 1 1
1 1 0 1 1 0 0 0
0 111 0 112 1 123 1 0 212 2 + 0 213 1 1 221 2 1 222 1 223
El cambio de variable i j = + i + j produce el nuevo modelo de rango completo:
REGRESION Y MODELOS LINEALES JACMEN
070819
y111 2 1 y 4 1 112 y123 6 0 y212 = 3 = 0 y213 5 0 y221 2 0 y 3 0 222 y223 4 0
0 0 1 0 0 0 0 0
UNIVERSIDAD DEL TOLIMA
0 0 0 1 1 0 0 0
0 111 0 112 0 11 123 0 12 212 + 0 21 213 1 22 221 1 222 1 223
que es de la forma Y = Wμ + ε
El proceso para encontrar W es sencillo si se observa el esquema siguiente:
En este caso W'W es la matriz diagonal de rango completo, dada por:
2 0 W 'W = 0 0
0 1 0 0
0 0 2 0
0 0 0 3
matriz de la cual, al resolver el sistema de ecuaciones normales, se obtiene
y11. 3 y 6 μ = 12. = = Y y21. 4 y22. 3
105
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
106
que es el vector de estimación de los cuatro parámetros (11 , 12 , 21 , 22 ) ' y que, como se ve, está formado por las medias de los datos en cada celda. Nota 1: En el modelo Σ que se presentará en la siguiente sesión se mostrará que al fijar condiciones sobre los parámetros, es posible estimar los valores de i y j , es decir de los efectos del diseño en cada nivel. Nota 2: De acuerdo con lo dicho anteriormente, para los modelos de doble clasificación las fpl son combinaciones lineales de los parámetros del modelo, es decir, de las medias de las celdas. Digamos que son expresiones del tipo a
b
L = i j i j i =1 j =1
La MELI de tales fpl, en caso de que ellas sean estimables, tendrá la forma a
b
L = i j yi j i =1 j =1
y su varianza estará dada por
2i j V( L ) = i j ni j 2
Como antes, esta varianza
SCE donde k es el n−k rango de X. La sigla CME significa cuadrado medio del error y aparece generalmente en las tablas de análisis de varianza que se verán en la segunda parte de este documento.
puede ser estimada utilizando la estimación
s 2 = 2 =CME=
Continuando con el ejemplo y utilizando Matlab para construir las matrices proyectoras P y Q a partir del modelo S correspondiente, se tendrá:
SCR = Y'PY = 106.1429 SCE = Y'QY = 12.8571 SCT = Y'I8 Y = SCR+SCE = 119.0000 En general SCM = Y'P0 Y donde P0 = X0 (X'0 X0 )G X'0 siendo X0 la primera columna de la matriz X. El programa adjunto en Matlab, permite calcular las estimaciones correspondientes, a saber:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
107
En consecuencia la tabla de descomposición de sumas de cuadrados para este ejemplo, será la siguiente:
Primera forma
Segunda forma
Tercera forma
SCM = 105.1250 SCR = 106.1429 SCE = 12.8571 SCT = 119.0000
SCR m = 1.0179 SCE = 12.8571 SCT = 119.0000
SCR m = 1.0179 SCE = 12.8571 SCTm = 13.8750
Puesto que la matriz de diseño X del modelo S, tiene rango 3, se concluye que una SCE 12.8571 estimación de 2 es CME = = = 2.5714 n−k 8−3
5.3 Descomposición última de la suma de cuadrados del modelo La suma de cuadrados de la regresión, SCR, es decir la suma explicada por el modelo, generalmente se puede descomponer en varias sumas de cuadrados, debido a diferentes fuentes de variación. Una de ellas es la SCM. La parte restante, es decir SCR – SCM se puede descomponer en una parte debida a un factor, otra debida a otro factor y otra a las interacciones, etc. Generalmente, todas estas descomposiciones, si se desea conocerlas, se hacen sobre la tercera forma de descomposición de las sumas de cuadrados. Para ello, la matriz X debe ser particionada en varias submatrices Xi correspondientes a cada una de las fuentes de variación. Con cada una de tales submatrices se construye una matriz proyectora que permite el cálculo de la correspondiente suma de cuadrados.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
108
Siguiendo el esquema Pi = Xi (Xi'Xi )G Xi' donde G indica una inversa generalizada, se pueden construir matrices proyectoras ortogonales P0 , P1 , P2 , las cuales, combinadas adecuadamente, permiten la descomposición de SCR en componentes debidas al factor 1 y al factor 2 respectivamente. Puesto que se cumple P - P0 = (P1 - P0 ) + (P - P1 ) es posible escribir:
Y'(P - P0 )Y = Y'(P1 - P0 )Y + Y'(P - P1 )Y expresión que sugiere, en la forma tres, cómo se puede descomponer SCR m en dos (o más) sumandos, dependiendo de la manera como se distribuyan los rangos de las diferentes matrices que intervienen en dicha descomposición, ya que se debe cumplir:
Rango(P - P0 ) = Rango(P1 - P0 ) + Rango(P - P1 ) estos rangos corresponden realmente a los grados de libertad de las sumas de cuadrados como variables aleatorias que tienen distribución Ji cuadrado.
Y'(P1 - P0 )Y + Y'(P - P1 )Y no sea exactamente igual al valor de SCR m en cuyo caso la descomposición debe ser corregida. El exceso, en caso de que exista, junto con los correspondientes grados de libertad constituyen el valor de la suma de cuadrados de la interacción en el modelo. Estas descomposiciones se suelen disponer en una tabla, como se muestra en los ejemplos siguientes. Puede ocurrir que
Ejemplo 11 Considerando la matriz X del ejemplo anterior
1 1 1 1 X= 1 1 1 1
1 1 1 0 0 0 0 0
0 0 0 1 1 1 1 1
1 1 0 1 1 0 0 0
0 0 1 0 0 1 1 1
X0 , X1 , X2 correspondientes X se puede descomponer en tres submatrices respectivamente a la media, a los efectos del primer factor y a los efectos del segundo factor, de la siguiente manera:
REGRESION Y MODELOS LINEALES JACMEN
1 1 1 1 X0 = 1 1 1 1
070819
1 1 1 0 X1 = 0 0 0 0
109
UNIVERSIDAD DEL TOLIMA
0 0 0 1 1 1 1 1
1 1 0 1 X2 = 1 0 0 0
0 0 1 0 0 1 1 1
estas matrices dan origen a las siguientes matrices proyectoras:
P = X(X'X)G X' P0 = X0 (X0'X0 )G X0' G
P1 = X1 (X1'X1 ) X1' G
P2 = X2 (X2'X2 ) X2' Q = I-P T = I - Po
de rango 3 de rango 1
(siempre es de rango 1))
de rango 2 de rango 2 de rango n − rango(P) = 8 – 3 = 5 de rango 7 (siempre es de rango n − 1 ).
La tabla de descomposición de suma de cuadrados junto con los grados de libertad es la siguiente:
Fuente de variación
Sumas de Cuadrados
Grados de libertad (rango del proyector)
Y'(P - P0 )Y = 1.0179
3 −1 = 2
Factor 1
Y'(P1 - P0 )Y = 0.6750
2 −1 = 1
Factor 2
Y'(P - P1 )Y = 0.3429
3− 2 =1
ERROR
Y'(I - P)Y = 12.8571
8−3 = 5
TOTAL
Y'(I - P0 )Y = 13.8750
n −1 = 7
MODELO
Ejemplo 12 Considérese el diseño cuyos datos obedecen al esquema de la tabla adjunta:
REGRESION Y MODELOS LINEALES JACMEN
070819
110
UNIVERSIDAD DEL TOLIMA
Factor 2
1
Factor 1
2
1
2
3 5 3 2
6 4 5 3
Cuya matriz de diseño es la siguiente:
1 1 1 1 X= 1 1 1 1
1 1 1 1 0 0 0 0
0 0 0 0 1 1 1 1
1 1 0 0 1 1 0 0
0 0 1 1 0 0 1 1
1 1 0 0 0 0 0 0
0 0 1 1 0 0 0 0
0 0 0 0 1 1 0 0
0 0 0 0 0 0 1 1
En este caso se tiene:
1 1 1 1 X0 = 1 1 1 1
1 1 1 1 X1 = 0 0 0 0
0 0 0 0 1 1 1 1
1 1 0 0 X2 = 1 1 0 0
0 0 1 1 0 0 1 1
1 1 0 0 X12 = 0 0 0 0
0 0 1 1 0 0 0 0
0 0 0 0 1 1 0 0
0 0 0 0 0 0 1 1
Es decir, la matriz de diseño se ha particionado en la forma X = [X0 X1 X2 X12 ] , matrices que corresponden respectivamente a la media, al primer factor (con dos niveles), al segundo factor (con dos niveles) y a las interacciones 11 , 12 , 2 1 , 2 2 entre los dos factores.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
111
El modelo del diseño es en este caso: yi j k = + i + j + i j + i j k donde i j = i j para i = 1, 2
j = 1, 2 .
Igual que antes, se pueden construir las matrices proyectoras Pi = Xi (Xi'Xi )G Xi ´ donde el exponente G indica una inversa generalizada que coincide con la inversa {ñcorriente cuando Xi sea de rango completo. Esta misma fórmula se aplica para
P = X(X'X)G X´ . Se calcula además Q = I - P , con lo cual se obtienen los siguientes resultados •
SCM = Y'P0 Y = 120.125
•
SCR m = Y'(P − P0 )Y = 6.375 SCR1 = Y'(P1 − P0 )Y = 3.125 SCR 2 = Y'(P − P1 )Y = 3.25 SCE = Y'(I - P)Y = Y'QY = 6.50 SCTm = Y'(I - P0 )Y = 12.875
• • • •
Nótese que:
P - P0 = (P1 - P0 ) + (P - P1 ) , por lo que podemos asegurar que que acompaña algunas sumas de SCR m = SCR1 + SCR 2 . El subíndice m cuadrados indica que ellas han sido corregidas por la media, es decir, se les ha sustraído el valor SCM , lo que se refleja en la sustracción de la matriz P0 . En nuestro ejemplo
Los cálculos anteriores pueden verificarse con el siguiente programa en Matlab
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
112
Lo anterior nos lleva a la siguiente tabla de análisis de varianza:
Fuente variación Modelo
Sumas de cuadrados SCR m = 6.375
G.L
Debido a X1 Debido a X 2
SCR1 = 3.125 SCR 2 = 3.250
1 2
Error Total Corr
SCE = 6.500
5 7
SCTm = 12.875
3
MODELOS CON INTERACCION En los modelos de dos y más factores puede ocurrir que además de los efectos de los factores existan efectos conjuntos producidos por la combinación de dos o mas de los factores. Tales efectos se denominan interacciones y, cuando existen, constituyen otra fuente de variación que dificulta un poco la interpretación de los resultados. En estas notas nos limitamos al caso de modelos de dos vías de clasificación, pero el lector queda avisado de que la situación también se puede presentar cuando se manejan más de dos factores.
Cuando no hay interacción interacción entre los factores en un modelo de doble clasificación, se cumple
SCR m = SCR1 + SCR 2
donde SCR1 y SCR 2 son las
sumas de cuadrados correspondientes a cada uno de los factores
F1 y F2
respectivamente. Cuando existe una interacción significativa entre estos dos factores la suma anterior toma la forma SCR m = SCR1 + SCR 2 + SCI , donde la suma SCI está asociada a la matriz (P - P1 )(P - P2 ) . La presencia de esta suma obliga a recomponer la tabla ANOVA que ahora toma la forma siguiente:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Fuente de
Suma de cuadrados
variación
Corregidos por la media
Grados de Libertad
Modelo
SCR m
rank( P − P0 )
Factor F1
SCR1 = Y'* (P - P1 )* Y
(# niveles de F1) – 1
Factor F2
SCR 2 = Y'* (P - P2 )* Y
(# niveles de F2) – 1
113
Interacción F1*F2
SCI = Y'(P - P1 )(P - P2 )Y = rank((P - P1 )(P - P2 ))
Error
Y'(I - P)Y
rank(I - P) −
Total
Y'(I - P0 )Y
n -1 = rank( I − P0 )
EJEMPLO: Considérese un diseño bifactorial determinado por el siguiente esquema:
El lector puede intentar la formulación matricial de este modelo, el cual puede ser analizado con el siguiente programa en MATLAB:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
114
La ejecución del programa arroja los siguientes resultados:
El lector puede realizar los calculos para completar las tablas siguientes:
Nótese cómo al eliminar la interacción los correspondientes grados de libertad pasan al error. Algunos paquetes como SAS o Minitab pueden realizar estimaciones de ambos tipos de modelo, según como éste se especifique. El primer modelo se especifica con la expresión Y = X1 + X 2 + X1 * X 2 mientras que el segundo se hace con Y = X1 + X 2 , tal como se ilustra en los siguientes programas para SAS:
REGRESION Y MODELOS LINEALES JACMEN
070819
Estimación del modelo SIN interacción Data ejemplo; Input Y X1 X2; Datalines; 3 1 1 5 1 1 6 1 2 4 1 2 3 2 1 2 2 1 5 2 2 3 2 2 ; proc anova; class X1 X2; model Y = X1 X2; run;
115
UNIVERSIDAD DEL TOLIMA
Estimación del modelo CON interacción: Data ejemplo; Input Y X1 X2; Datalines; 3 1 1 5 1 1 6 1 2 4 1 2 3 2 1 2 2 1 5 2 2 3 2 2 ; proc anova; class X1 X2; model Y = X1 X2 X1*X2; run;
Programas en SAS para la descomposición de las sumas de cuadrados
Modelos
Los modelos con restricción paramétrica se han introducido con el fin de lograr soluciones únicas en las estimaciones de los parámetros. En tales modelos se condicionan los valores que pueden tomar los parámetros mediante algunas ecuaciones que se les imponen. Casi siempre dicha condición es que la suma de los parámetros correspondientes sea 0. En tales condiciones los modelos resultantes se representan mediante la expresión: Y = ZΘ + ε Por ejemplo, al modelo
yi j k = + i + j + i j + i j k
se le pueden imponer las
condiciones:
i = i −
1 a i y entonces a i =1
j = j −
1 a j y entonces b j =1
i j = i j −
a
i =1
=0
i
a
i =1
j
=0
1 b 1 a 1 − i j − i j ij a j =1 b i =1 ab i j =1
a
con lo cual
i j = 0 y i =1
b
j =1
ij
=0
REGRESION Y MODELOS LINEALES JACMEN
070819
116
UNIVERSIDAD DEL TOLIMA
Lo anterior se enuncia comúnmente diciendo que “las sumas de los efectos de diseño valen cero”. Ejemplo 13 Considérense tres tipos de sondas pedológicas en dos tipos de terreno. Se mide la cantidad en mg de P2O3 por cada 100 gr de tierra extraída, como muestra el cuadro siguiente (Iemma, Simposio 1993).
Sonda 1 j =1
Sonda 2 j=2
Sonda 3 j =3
43 45 40 40 *
41 * 35 37 33
42 44 * * *
Suelo 1 i =1 Suelo 2 i=2
Este diseño incompleto y desbalanceado puede representarse matricialmente de la siguiente manera:
43 1 45 1 41 1 42 1 44 1 = 40 1 40 1 35 1 37 1 33 1
1 1 0 1 111 1 1 0 1 112 121 1 0 1 −1 1 −1 −1 0 131 1 1 −1 −1 0 132 1 ¨+ −1 1 0 −1 211 2 −1 1 0 −1 212 11 −1 0 1 1 221 −1 0 1 1 222 223 −1 0 1 1
lo anterior, debido a que 2 = −1 ,
3 = −1 − 2 , 21 = − 11 , 12 = − 11 ,
22 = 11 a causa de las relaciones que deben cumplir los parámetros. Lo anterior implica (Z'Z)Θ = Z'Y , de donde:
13 = 0 ,
REGRESION Y MODELOS LINEALES JACMEN
070819
117
UNIVERSIDAD DEL TOLIMA
2 2 2 0 400 10 0 0 10 −2 −4 0 0 30 1 2 −2 6 2 0 10 = 82 2 6 2 20 60 2 −4 2 0 0 2 8 110 72 y, en consecuencia,
0 = 40.1667 10 = 2.5000 10 = 1.8333 20 = −2.1667 110 = −0.5000 de donde se pueden encontrar los valores de los demás parámetros.
5.4 Modelos R Diremos brevemente que los modelos clásicos de regresión pueden ser usados para resolver modelos de diseño siempre que se haga una conveniente utilización de variables indicadoras. En tales casos, los modelos de regresión pueden ser considerados como reparametrizaciones del modelo S. Para el modelo de clasificación simple
yi j = + i + i j
1 si i = k considerar a variables indicadoras: U i j k = 0 si i k
i = 1, 2,
para k = 1, 2,
, a , bastará
,a
Si se fija un nivel, por ejemplo el nivel a como básico (testigo o control), usualmente denotado por , se tendrá:
yi j = 0 + 1U i j 1 + 2U i j 2 +
+ a −1U i j a −1 + i j
cumpliéndose entonces que i = i − a para i = 1, 2,
, a −1
Algo semejante puede formularse para otros modelos, pero en este momento no insistiremos más en el tema.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
118
Los modelos de regresión pueden ser escritos en la forma Y = Uδ + ε de donde se deducen las ecuaciones normales (U'U)δ = U'Y que permiten la estimación de los parámetros. Ejemplo 14 El ejemplo anterior escrito en forma de modelo R tiene la siguiente formulación:
0 111 0 112 1 0 121 0 11 131 0 21 132 + 0 22 211 0 31 212 0 32 221 0 222 223 0
y111 43 1 y 45 1 112 y121 41 1 y131 42 1 y132 44 1 = = y211 40 1 y 40 1 212 y221 35 1 y 37 1 222 y223 33 1
1 1 1 1 1 0 0 0 0 0
1 1 0 0 0 1 1 0 0 0
0 0 1 0 0 0 0 1 1 1
10 5 4 4 2 1
4 1 0 4 0 1
2 2 2 0 2 0
1 0 400 1 11 215 0 21 168 = 1 22 146 0 31 88 1 32 41
1 1 0 0 0 0 0 0 0 0
lo que produce:
y, por tanto:
5 5 2 1 2 1
0 127 −84 11 21 −87 = 22 −92 31 88 32 90
4 2 4 0 2 0
REGRESION Y MODELOS LINEALES JACMEN
070819
119
UNIVERSIDAD DEL TOLIMA
Tablas de análisis de varianza Las tablas de descomposición de las sumas de cuadrados, vistas anteriormente, corresponden realmente a formas cuadráticas de la forma Q = Y'AY donde la matriz proyectora A que es de la forma Xi (Xi'Xi )Xi' es simétrica (verificarlo!). En consecuencia, tales formas cuadráticas tienen distribución Ji cuadrado no central de 1 -1 parámetros q y = μ i' ( Σ i ) μ i , donde q es el rango de la matriz A y , el 2 parámetro de no centralidad, está determinado por la esperanza y la varianza del correspondiente vector Y visto como variable aleatoria de respuesta. Bajo la hipótesis de que los efectos son nulos, las distribuciones Ji cuadradas no centrales se convierten en distribuciones Ji cuadradas centrales cuyos grados de libertad corresponden a los rangos de las matrices proyectoras que las definen. Esto, a su vez, implica que los cocientes de dos cualesquiera de tales formas cuadráticas, definidas previamente entre sus grados de libertad, correspondan a una variable aleatoria con distribución F. Las sumas de cuadrados divididas entre sus grados de libertad (que realmente son varianzas) reciben usualmente el nombre de cuadrados medios y el cociente de dos cuadrados medios cualesquiera es entonces una variable aleatoria con distribución F. Por lo general se hacen los cocientes tomando como denominador el cuadrado medio correspondiente a SCE, conformándose con ello una tabla que, por su naturaleza, recibe el nombre de tabla de análisis de varianza (ANOVA) que en su forma más general, corresponde a lo siguiente: Fuente de Variación Modelo (corregido) Error Total (corregido)
Suma de cuadrados
SCR m = Y'(P - P0 )Y SCE = Y'(I - P)Y
SCTm = Y'(I - P0 )Y
Grados de Libertad H =
Cuadrados Medios SCR m CMR =
H
rango(P - P0 )
E = rango(I - P) n −1 = rango(I - P0 )
CME =
SCE
CME =
SCTm n −1
F Calculada F=
CMR CME
E
Típica tabla de Análisis de varianza
Cuando SCR m se descompone en otras sumas de cuadrados más elementales es posible ampliar la tabla de análisis de varianza y obtener otros cocientes F con los cuales es posible probar otras hipótesis. Este tema se verá en la segunda parte en cada uno de los diseños particulares que se estudiarán. El cociente F de la tabla anterior, corresponde al valor particular que toma una variable aleatoria F que tiene H y E grados de libertad en el numerador y el
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
120
denominador respectivamente, con los valores de respuesta observados. Ella constituye pieza esencial para probar la hipótesis de que los efectos del modelo son nulos, lo que en últimas equivale a probar que todos los tratamientos tienen la misma media. En el anexo este documento se estudiarán con más detenimiento algunos modelos comunes de diseño a los que se les puede aplicar la técnica anterior, conocida como técnica de análisis de varianza. El análisis de varianza es una de las técnicas más populares y usuales para realizar el análisis de un diseño de experimentos. Sin embargo existen otras técnicas basadas en los modelos lineales que son más generales y aplicables, por consiguiente, en situaciones en las que el ANOVA es francamente inapropiado.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Capítulo III
MODELOS LINEALES GENERALIZADOS
INTRODUCCION
121
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
122
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
123
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
UNIDAD 7
FUNDAMENTOS TEORICOS DE LOS MODELOS LINEALES GENERALIZADOS
124
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
125
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
126
Más adelante se ampliarán algunos conceptos sobre los modelos de conteos que casi siempre obedecen a modelos con distribuciones Poisson y que con mucha frecuencia presentan problemas relacionados con la varianza o con la presencia de ceros.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
127
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
128
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
129
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
130
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
131
REGRESION Y MODELOS LINEALES JACMEN
070819
132
UNIVERSIDAD DEL TOLIMA
Dedicaremos las páginas siguientes al estudio de algunos de los casos más típicos de modelos lineales generalizados, los que por alguna razón no encajan dentro de los modelos estudiados en los capítulos estudiados hasta ahora.
Recapitulando un poco sobre lo escrito en páginas anteriores temenos lo siguiente: Los modelos lineales generalizados tienen tres components claramente establecidas, a saber: 1. Una componente aleatoria conformada por la variable de respuesta Y que puede ser numérica o categórica, junto con su distribución de probabilidad, sus parámetros y todas las propiedades de cualquier variable aleatoria. La componente aleatoria está representada por n observaciones aleatorias y1 , y2 , , yn . Estas observaciones pueden ser categorías de una variable categórica o valores numéricos de una variable aleatoria numérica discrete o continua. 2. Una componente sistemática conformada por las variables explicativas o regresoras, en forma de combinación lineal. Este parte se conoce también como función
predictora
y
tiene
la
= j xij
forma
=
j
0 + 1 xi1 + 2 xi 2 +
+ p xip i = 1, 2,
,n
3. Una función link o de enlace que es una función del valor esperado de Y , = E(Y ) como combinación lineal de las variables predictoras. Esta función g ( ) relaciona el valor E(Y ) con el predictor lineal en la forma g ( ) = , lo que implica que i = 1, 2, , n : g(i ) = i = j xij j
La función de enlace más simple es g ( ) = , o sea la idéntica, y se da con los modelos clásicos que son casos particulares de los GLM. Es decir, los GLM son verdaderas generalizaciones de los modelos de regresión corriente en dos sentidos: a. De una parte, permiten el uso de variables de respuesta con distribuciones diferentes a la normal. b. De otro lado, el uso de funciones diferentes a las idénticas permiten la inclusion de los modelos de ANOVA y de datos categóricos dentro del campo más amplio de los modelos lineales. En general las estimaciones se hacen por máxima verosimilitud. En esto se basan, por ejemplo, el procedimiento GENMOD del SAS y la función glm de R.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
133
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
134
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
135
En resumen: Los modelos para datos binaries corresponden a los casos en los que la variable de respuesta Y tiene dos categorías del tipo SI/NO, Exito/Fracaso, codificadas con 0 y 1. Es decir, Y ~ b( )=B(1, ) , y, por tanto:
= (1 − ) = (1 − )Exp y log con y = 0,1 1− 1 − y
f ( y | ) = (1 − ) y
1− y
El parámetro natural es Q( ) = log = log it( ) . En este caso: 1− 1. E(Y ) = P(Y = 1) = (x) , expresion que depende de p variables explicativas x1 , x2 , , x p 2.
V (Y ) = (x)(1 − (x))
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
136
EJEMPLO: Se han examinado 2374 pacientes y se han clasificado de acuerdo con la intensidad con que roncan la cual se ha valorado en 0, 2, 4, 5 de acuerdo con lo expresado en la table siguiente:
Frecuencia de Ronquido Nunca Ocasionalmente Casi siempre Siempre
Intensidad 0 2 4 5
SI roncan 24 35 21 30
NO roncan 1355 603 192 224
Proporción Del SI 0.0174 0.0549 0.0986 0.1181
PROGRAMA R: ronca = c(0, 2, 4, 5) prop.SI = c(24/(24+1355), 35/(35+603), 21/(21+192), 30/(30+224)) modelo = glm(prop.SI ~ ronca) summary(modelo)
RESULTADOS: Call: glm(formula = prop.SI ~ ronca) Deviance Residuals: 1 2 3 4 0.0010917 -0.0021289 0.0009281 0.0001090 Coefficients: (Intercept) ronca
Estimate 0.0163122 0.0203378
Std. Error 0.0015862 0.0004729
t 10.28 43.01
value Pr(>|t|) 0.00932 ** 0.00054 ***
(Dispersion parameter for gaussian family taken to be 3.298632e-06) Null deviance: 6.1076e-03 on 3 degrees of freedom Residual deviance: 6.5973e-06 on 2 degrees of freedom AIC: -35.909 Number of Fisher Scoring iterations: 2
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
137
MODELOS DE REGRESION LOGISTICA: ( x) Como ya se sabe, en este tipo de modelos se tiene log = j xij = logit(x) 1 − ( x) j En consecuencia , la función de enlace es logit(x) EJEMPLO: Usaremos los mismos datos del ejemplo anterior para formular un modelo de regresión logística dicotómica. PROGRAMA EN R: ronca = c(0, 2, 4, 5) propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224)) fit <- glm((propor ~ ronca), family = binomial(link=logit)) summary(fit)
RESULTADOS: Call: glm(formula = (propor ~ ronca), family = binomial(link = logit)) Deviance Residuals: 1 2 3 4 -0.8346 1.2521 0.2758 -0.6845 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.86625 0.16621 -23.261 < 2e-16 *** ronca 0.39734 0.05001 7.945 1.94e-15 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: 65.9045 on 3 degrees of freedom Residual deviance: 2.8089 on 2 degrees of freedom AIC: 27.061 Number of Fisher Scoring iterations: 4
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
138
MODELOS PROBIT: Estos Modelos se obtienen cuando (x) = F (x) , siendo F una función de distribución de probabilidad. El caso más frecuente ocurre cuando F (x) = (x) , la distribución normal estándar. Esto es: ( x) = j xij , o lo que es igual −1 ( (x) ) = j xij . Es decir, la j j −1 función de enlace se define como probit(x) = ( x ) EJEMPLO: Usando los mismos datos del ejemplo anterior, ronca = c(0, 2, 4, 5) propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224)) fit <- glm((propor ~ ronca), family = binomial(link=probit)) summary(fit)
RESULTADOS: Call: glm(formula = (propor ~ ronca), family = binomial(link = probit)) Deviance Residuals: 1 2 3 4 -0.6188 1.0388 0.1684 -0.6175 Coefficients: (Intercept) ronca
Estimate -2.06055 0.18777
Std. Error 0.07017 0.02348
z -29.367 7.997
value Pr(>|z|) < 2e-16 *** 1.28e-15 ***
(Dispersion parameter for binomial family taken to be 1) Null deviance: 65.9045 on 3 degrees of freedom Residual deviance: 1.8716 on 2 degrees of freedom AIC: 26.124 Number of Fisher Scoring iterations: 4
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
139
MODELOS PARA CONTEOS: Son los modelos en los que Y representa conteos de individuos. Con mucha frecuencia tales conteos aparecen formando parte de tablas de contingencia obtenidas mediante el cruce de dos o más variables categorizadas. Se habla entonces de modelos loglineales. Un ejemplo sencillo es el siguiente: Se han examinado 400 pacientes que presentan diferentes tipos de melanomas. Se han tenido en cuenta de una parte el tipo de cancer (clasificado en cuatro categorías) y de otra la parte o sitio del cuerpo donde aparecieron. Los conteos aparecen en la table siguiente:
Tipo de cáncer Hutchinson Superficial Nódulos Indeterminado
Sitio de aparición CabezaCuello Tronco Extremidades 22 16 19 11
2 54 33 17
10 115 73 28
La estimación del modelo se realiza con SAS UNIVERSITY EDITION siguiendo el siguiente programa: data melanomas; input tipo $ sitio $ conteo; datalines; Hutchinson CabezaCuello 22 Hutchinson Tronco 2 Hutchinson Extremidades 10 Superficial CabezaCuello 16 Superficial Tronco 54 Superficial Extremidades 115 Nodulos CabezaCuello 19 Nodulos Tronco 33 Nodulos Extremidades 73 Indetermina CabezaCuello 11 Indetermina Tronco 17 Indetermina Extremidades 28 ; run; proc genmod data = melanomas; class tipo sitio / param = glm; model conteo = tipo sitio / type3 dist = poisson; run;
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Se obtienen los siguientes resultados: Procedimiento GENMOD Información del modelo Conjunto de datos
WORK.MELANOMAS
Distribución
Poisson
Función de vínculo
Log
Variable dependiente N.º observaciones leídas
conteo 12
N.º observaciones usadas 12 Información del nivel de clase Clase Niveles Valores tipo
4 Hutchins Indeterm Nodulos Superfic
sitio
3 CabezaCu Extremid Tronco Criterio para evaluar bondad de ajuste
Criterio
DF
Valor Valor/DF
Desviación
6
51.7950
8.6325
Desviación escalada
6
51.7950
8.6325
Chi-cuadrado de Pearson
6
65.8129
10.9688
Pearson X2 escalado
6
65.8129
10.9688
Verosimilitud log
1124.3272
Verosimilitud log completa
-55.4532
AIC (mejor más pequeño)
122.9064
AICC (mejor más pequeño)
139.7064
140
REGRESION Y MODELOS LINEALES JACMEN
070819
141
UNIVERSIDAD DEL TOLIMA
Criterio para evaluar bondad de ajuste Criterio
DF
BIC (mejor más pequeño)
Valor Valor/DF 125.8159
Algoritmo convergido. Análisis de estimadores de parámetro de verosimilitud máxima
Error DF Estimación estándar
Parámetro Intercept
1
3.8923
0.1111
Límites de confianza de Wald al 95% 3.6746
Chicuadrado de Wald Pr > ChiSq
4.1100
1227.80
<.0001
tipo
Hutchins
1
-1.6940
0.1866 -2.0597 -1.3283
82.42
<.0001
tipo
Indeterm
1
-1.1950
0.1525 -1.4939 -0.8961
61.39
<.0001
tipo
Nodulos
1
-0.3920
0.1158 -0.6190 -0.1651
11.47
0.0007
tipo
Superfic
0
0.0000
0.0000
.
.
sitio
CabezaCu
1
-0.4439
0.1554 -0.7485 -0.1394
8.16
0.0043
sitio
Extremid
1
0.7571
0.1177
0.5264
0.9878
41.36
<.0001
sitio
Tronco
0
0.0000
0.0000
0.0000
0.0000
.
.
0
1.0000
0.0000
1.0000
1.0000
Escala
0.0000
0.0000
Note:The scale parameter was held fixed. Estadísticos LR para análisis de tipo 3 Origen DF Chi-cuadrado Pr > ChiSq tipo
3
145.11
<.0001
sitio
2
98.30
<.0001
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
ANEXO
DISEÑOS CLASICOS DE ANOVA (INTRODUCCION A LOS DISEÑOS EXPERIMENTALES CLASICOS)
142
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
143
1. Introducción
Podría pensarse, de acuerdo con Campbell y Stanley, que la investigación científica se divide en dos: la investigación experimental y la no experimental. Esta postura, puede ser polémica, pero ayuda a ubicar el trabajo que hace un investigador cuando diseña un experimento con fines investigativos. Sin entrar en detalles, la investigación experimental ha sido clasificada en pre-experimental, experimental pura y cuasi experimental, mientras que la investigación no experimental suele dividirse en transversal y longitudinal. Sea como fuere, puede afirmarse, desde el punto de vista estadístico, que en cualquiera de los casos se busca construir un modelo matemático, que pueda ser utilizado para explicar un fenómeno.
Desde este punto de vista podemos esquematizar la situación planteada de acuerdo con lo siguiente:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
144
Podría pensarse en una clasificación de acuerdo con la forma como sean tomadas las variables independientes: En los estudios observacionales y exploratorios dichas variables se toman “como aparezcan”, es decir, no han sido planeadas, ni sus valores han sido definidos de antemano. Por el contrario en los experimentos diseñados dichas variables han sido cuidadosamente planeadas de antemano. En cualquiera de los dos casos se observan los valores de las variables respuestas. En los experimentos estadísticos o aleatorios dichas respuestas son variables aleatorias. No sucede lo mismo en la investigación de campos como la física, en la que tales variables son determinísticas. Comúnmente se entiende por experimento “un estudio de investigación en el que se manipulan deliberadamente una o más variables independientes (supuestas causas) para analizar las consecuencias que la manipulación tiene sobre una o más variables dependientes (supuestos efectos), dentro de una situación controlada por el investigador” (Sampieri, Fernández y Baptista).
Cuando se considera más de una variable respuesta el experimento es de naturaleza multivariada. En este curso se hará más énfasis en experimentos univariados con una o más variables independientes.
Las variables independientes deben ser cuidadosamente seleccionadas dentro de un sinnúmero de posibles causas. Esta selección debe realizarse a la luz de un cuerpo de teorías que la sustenten. Unicamente desde la teoría de una ciencia en particular podría adivinarse cuáles pueden ser las variables importantes que deben ser manipuladas. Las variables de respuesta no se manipulan sino que se miden. Esta medición debe ser apropiadamente “operacionalizada” para que refleje claramente los efectos producidos, si es que ellos existen.
El diseño y análisis de un experimento comprende entonces la definición y planificación de los diferentes pasos que componen un experimento: desde el momento de selección de las diferentes variables que intervienen, pasando por la determinación de los valores que se van a considerar en las variables independientes, la operacionalización de las
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
145
variables de respuesta, la selección de una muestra de objetos o unidades experimentales que van a sufrir una acción y a producir una respuesta, la medición de los efectos en dichas unidades experimentales, hasta el análisis estadístico de la información resultante como fruto de dichas mediciones y la interpretación de tales análisis.
Se ha dicho anteriormente que uno de los objetivos perseguidos en los tipos de investigación que hemos considerado es la obtención de un modelo matemático que, a la vez que exprese las respuestas en función de las variables independientes, sirva para pronosticar otros valores que no han sido observados y que pueden ser producidos por valores no planificados de las variables independientes dentro del experimento. Tales modelos son ecuaciones o relaciones funcionales del tipo:
X 1 Y1 X 2 Y 2 Y= = f ¨= f ( X 1 , X 2 , X p Ym En las que f
, X p)
es alguna función en el sentido matemático. La situación más frecuente
en este curso corresponde al caso univariado Y = f ( X1 , X 2 ,
, X p)
En la siguiente sesión presentaremos algunos conceptos básicos para los modelos de tipo lineal los cuales conforman las situaciones más importantes y usuales en el estudio de los diseños de experimentos.
Al diseñar un experimento el investigador fija los tratamientos y diseña la manera de medir los efectos, es decir, los cambios que se producen en el valor de la media al cambiar un nivel de un factor. Igualmente el investigador asigna las unidades experimentales (objetos o individuos que van a sufrir la acción del experimento) a cada uno de los tratamientos. Dicha asignación debe realizarse teniendo en cuenta principios de aleatoriedad, homogeneidad y conveniencia de modo que se garantice el cumplimiento de los principios teóricos en los que descansa el análisis de los datos según el modelo de experimento que se esté utilizando.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
146
4.1 Diseño de una vía (Diseño aleatorio completo) Se tienen en este caso k poblaciones X 1 , X 2 ,, X k con distribuciones normales de medias 1 , 2 ,, k y varianzas 12 , 22 ,, k2 respectivamente. Supondremos que
12 = 22 = = k2 (homogeneidad de varianzas) y se desea probar la hipótesis H0:
1 = 2 = = k
contra la alternativa de que al menos una media difiere
significativamente de las demás.
La prueba de homogeneidad de varianzas suele hacerse mediante un estadístico propuesto por Bartlett y que está definido de la siguiente manera:
B = 2.3026
Q C
donde
Q = (n − k ) Log 10 ( S p2 ) − (n j − 1) Log 10 ( S 2j )
1 k −1 −1 C = 1+ (n j − 1) − (n − k ) 3(k − 1) j =1
S p2 =
1 n−k
k
(n j =1
j
− 1) S 2j
S 2j = Varianza muestral en el j-ésimo grupo
El estadístico de Bartlett, bajo la hipótesis de homogeneidad de las varianzas, tiene distribución Ji-cuadrado con k − 1 grados de libertad, lo que puede ser aprovechado para probar la hipótesis nula de que las varianzas son iguales ya que un valor grande de B, es decir un pequeño valor P, indica que tal hipótesis es falsa y que, por ende, debe ser rechazada.
REGRESION Y MODELOS LINEALES JACMEN
070819
147
UNIVERSIDAD DEL TOLIMA
El estadístico de Bartlett es sin embargo muy sensible a la falta de normalidad en los grupos y por esta razón suele acompañarse de otras pruebas más robustas como la prueba de Levene, la prueba de Hartley, la prueba de Box o la prueba Q de Cochran. Para la comparación de las k medias, se toman muestras aleatorias X j1 , X j 2 ,, X jn j con j = 1,2,, k , de cada una de las correspondientes poblaciones (los tamaños de estas
muestras pueden ser diferentes aunque se recomienda que sean iguales). De esta manera se obtienen estimadores X j =
nj
1 nj
X i =1
ji
para cada una de las medias k y, a la vez,
reuniendo todas las muestras, se puede construir un estimador de la media general
X=
1 X ji . Igual cosa puede hacerse con las varianzas en cada grupo y la n j i
varianza general, también llamada varianza total. En cualquier caso, una varianza es un cociente del tipo
(X
i
− X )2
GL
donde el
numerador es una suma de desviaciones al cuadrado y el denominador es un número entero que representa unos grados de libertad. Si no se dividiera entre los grados de libertad se tendría sólo la sumatoria del numerador, denominada variabilidad o simplemente suma de cuadrados.
La técnica que se expondrá para comparar medias, se basa en una descomposición de la variabilidad, es el análisis de varianza o ANOVA, y que, en líneas generales puede resumirse en lo siguiente (Recordar lo visto en la página 89 y siguientes): La suma de cuadrados
SCT =
( X
ji
− X ) 2 puede descomponerse en dos sumas
nj
de cuadrados,
SCB = n ( X ji − X ) , 2
i =1
respectivamente
k
y
nj
SCW = ( X ji − X j ) 2 , llamadas j =1 i =1
Variabilidad Entre y variabilidad Dentro o también suma de
cuadrados entre y suma de cuadrados dentro. Se cumple la igualdad siguiente:
SCT = SCB + SCW
REGRESION Y MODELOS LINEALES JACMEN
070819
148
UNIVERSIDAD DEL TOLIMA
Se puede probar que SCB ~ k −1 , SCW ~ k ( n −1) y, de aquí, SCT tiene distribución Jicuadrado con n − 1 grados de libertad
Si las sumas de cuadrados anteriores se dividen entre los grados de libertad se obtienen los cuadrados medios, CMB y CMW respectivamente, los cuales realmente representan varianzas y para los que se cumple:
k
E(CMB) = 2 + i =1
ni ( i − ) 2 k −1
y
E(CMW ) = 2
Como se desprende de las expresiones anteriores, cuando las medias de los tratamientos son
iguales
entre
sí
e
iguales
a
la
media
general,
se
cumple
que
E(CMB) = E(CMW ) = 2 . Y, por tanto, en tales circunstancias, tanto CMB como CMW SCB CMB k −1 son estimadores insesgados de la varianza. Además F = es una = CMW SCW k (n − 1) variable aleatoria con distribución F de k − 1 y k (n − 1) grados de libertad.
El no cumplimiento de la hipótesis nula, es decir, cuando no todas las medias de los tratamientos son iguales, se traduce en valores grandes de F, ya que en tales casos el numerador es sensiblemente mayor que el denominador. Esto, a su vez, se ve reflejado en pequeños valores P, bajo la cola derecha de la distribución F correspondiente a los grados de libertad k − 1 y k (n − 1)
Teniendo en cuenta lo expuesto en los párrafos anteriores es frecuente resumir la información en una tabla denominada tabla de análisis de varianza o tabla ANOVA (ver tabla 6.1) la cual facilita la interpretación de los resultados y la toma de decisiones respecto al rechazo de la hipótesis nula . En esta tabla aparecen los valores calculados de las diferentes variabilidades (Entre, Dentro y Total) al igual que los correspondientes valores de varianza (Entre, dentro y Total) y el valor calculado de la F.
REGRESION Y MODELOS LINEALES JACMEN
070819
149
UNIVERSIDAD DEL TOLIMA
Cuando se rechace la hipótesis nula, se concluye que no todas las medias poblacionales son iguales y, en consecuencia, habrá alguna(s) más pequeña(s) que las demás y alguna(s) mayor(es) que todas las demás, resultando de interés el compararlas entre sí con el fin de ordenarlas de menor a mayor para, de esta manera, poder decir cuál es el peor y cuál el mejor tratamiento. Este proceso de comparación se conoce con el nombre de comparaciones múltiples y puede realizarse de varias formas, como se muestra más adelante.
Suma de Cuadrados
GL
Cuadrados medios (Varianzas)
F Calculada
SCB
k −1
CMB = SCB
F=
Error o DENTRO
SCW
k (n − 1)
CMW = SCW
TOTAL
SCT
n −1
Fuente de variación Tratamientos o ENTRE
(k − 1)
CMB CMW
k (n − 1)
Tabla de un análisis de varianza para un diseño aleatorio completo
Es conveniente saber que tanto las medias por tratamiento como las diferencias de medias pueden estimarse de acuerdo con las siguientes fórmulas:
Ti s2 t 1. Intervalos para la media de cada tratamiento: ni n − k , 2 ni T Tj 1 1 + 2. Intervalos para diferencias de medias: i − t n −k , s n n 2 n nj i j i
EJEMPLO 4.1: Este ejemplo ha sido tomado del texto de Kuehl y se basa en datos de B. Nichols (Universidad de Arizona 1980). Es un ejemplo interesante debido a los elementos tanto teóricos como prácticos que involucra. Se trata de comparar cuatro
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
150
métodos de empaque de carnes para determinar cuál de ellos es más efectivo. Los métodos de empaque (tratamientos) son los siguientes: Tr1: Envoltura en papel plástico especial Tr2: Empaque en bolsas selladas al vacío Tr3: Empaque en atmósfera de CO2 (1%), O2 (40%) y N (59%) Tr4: Empaque en atmósfera de CO2 (100%)
El experimento comienza con la selección de 12 trozos de carne muy homogéneos y semejantes entre sí (unidades muestrales), tomados de la misma res y de la misma porción mayor, los cuales son asignados aleatoriamente a cada uno de los cuatro tratamientos. De esta manera en cada tratamiento se encuentran tres trozos que se empacan de acuerdo con el proceso correspondiente. Ellos forman las réplicas necesarias para que dentro de cada tratamiento haya variabilidad. Cuando en un diseño hay igual número de réplicas en todos los tratamientos -como es el caso que nos ocupase dice que el experimento es balanceado. Los diseños de una vía pueden ser desbalanceados pero es recomendable mantener el balanceo mientras sea posible.
Para medir el efecto del empaque, se contabiliza el número de bacterias psicotrópicas por centímetro cuadrado en la superficie de la carne empacada, al cabo de nueve días de permanencia a una temperatura de 4 grados Celsius. A mayor número de bacterias menor efectividad del empaque. Puesto que dicho número es demasiado grande se prefiere tomar su logaritmo natural. Así pués, la variable respuesta o dependiente es el logaritmo natural del número de bacteria por cm cuadrado. Esta es una variable numérica
Los datos correspondientes a las mediciones de contaminación por bacterias son los siguientes:
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Tratam 1 Plástico
Tratam 2 Vacío
7.66
5.26
7.41
3.51
6.98
5.44
7.33
2.91
7.80
5.80
7.04
3.66
151
Tratam 3 Tratam 4 Co2 O2 N CO2
Con el fin de poder analizar los datos mediante software estadístico (ESM en este caso), los datos deben ser dispuestos en un archivo en la forma siguiente:
7.66 6.98 7.80 5.26 5.44 5.80 7.41 7.33 7.04 3.51 2.91 3.66
1 1 1 2 2 2 3 3 3 4 4 4
Este archivo contiene los valores observados de la variable respuesta más un rótulo que identifica el tratamiento correspondiente. Esta última columna conforma la variable independiente o de tratamientos.
La tabla ANOVA junto con el valor P de probabilidad para la hipótesis nula es la siguiente: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 32.8728 3 10.9576 94.5844 Error 0.9268 8 0.1158 ***** Total 33.7996 11 ***** ***** --------------------------------------------------------------------------R2 = .972579 F tiene 3 y 8 Grados de libertad Valor P de probabilidad: 0.00003000
Resultado del análisis de varianza del ejemplo 4.1
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
152
En esta tabla puede observarse un valor F de 94.5844 al cual corresponde un valor de probabilidad demasiado pequeño (0.00003) en la cola derecha. Este valor, al ser inferior al nivel de significancia establecido de 0.05, nos obliga a rechazar la hipótesis de igualdad de las medias correspondientes a los tratamientos.
El cuadrado medio correspondiente al error se denomina también error cuadrático medio, se representa por s 2 y es una estimación de la varianza no explicada en los datos.
Antes de entrar a comparar las diferentes medias de tratamientos debemos verificar que se cumplan las hipótesis básicas del modelo: homogeneidad de las varianzas y normalidad de los residuos.
Homogeneidad de las varianzas. La prueba de Bartlett arroja los siguientes resultados:
** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS: (Hipótesis nula:
Ho:
12 = 22 = 32 = 42 )
PRUEBA CONJUNTA DE BARTLETT: B = 1.207904 P = 0.75110913 Tabla 4.4 Prueba de homogeneidad de varianza del ejemplo 4.1
Puesto que la prueba arroja un valor P de 0.7512 aproximadamente, se concluye que no es posible rechazar la hipótesis nula de que las varianzas son iguales. Es decir, podemos suponer que se cumple la homogeneidad de las varianzas.
Normalidad de los residuos. El experimento analizado se ajusta al siguiente modelo:
xij = + ( i − ) + ( xij − i )
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
153
siendo xij la j-ésima observación del i-ésimo tratamiento, μ la media general y i la media del i-ésimo tratamiento, considerado como una población. La diferencia
i − es el efecto del i-ésimo tratamiento y el valor xij − i
es el error entre cada
observación y la media del tratamiento al que ella pertenece. Es frecuente utilizar la siguiente escritura para el modelo analizado: xij = + i + ij . En consecuencia, al utilizar las medias proporcionadas por los datos se pueden tener estimaciones de los efectos y de los errores respectivamente mediante las expresiones:
ˆi = xi − x
y
ˆij = xij − xi . Estos últimos valores se conocen como residuos.
En teoría los errores deben tener distribución normal para que el modelo sea apropiado. El cumplimiento de este supuesto se verifica utilizando los residuos como estimaciones de los errores, ya que ellos constituyen la única información tangible acerca de los errores de ajuste de los datos al modelo.
En el ejemplo que estamos analizando se obtienen los siguientes resultados:
INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO: _________________________________________________________ MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 : Media: 7.48 Err.Stand: .1965112380162134 Inter95%: [ 7.0268, 7.9332] MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 : Media: 5.5 Err.Stand: .1965112380162134 Inter95%: [ 5.0468, 5.9532] MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 : Media: 7.26 Err.Stand: .1965112380162134 Inter95%: [ 6.8068, 7.7132] MEDIAS E INTERVALOS PARA TRATAMIENTO # 4 : Media: 3.36 Err.Stand: .1965112380162134 Inter95%: [ 2.9068, 3.8132] __________________________________________________________ MEDIA GENERAL DE LOS DATOS:
5.90
Estimación de intervalos para las medias de tratamientos. Ejemplo 4.1
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
154
Este cuadro proporciona los valores estimados de las medias por tratamiento, junto con los errores estándar y el intervalo del 95% de confianza para cada caso.
Aplicando las fórmulas anteriores para estimar efectos y residuos se tendría: •
Estimación del efecto del primer tratamiento:
7.48 – 5.90 = 1.58
•
Estimación del efecto del segundo tratamiento:
5.50 – 5.90 = -0.40
•
Estimación del efecto del tercer tratamiento:
7.26 – 5.90 = 1.36
•
Estimación del efecto del cuarto tratamiento:
3.36 – 5.90 = -2.54
Como puede observarse, la suma de los efectos de los tratamientos es cero.
Los residuos, para este ejemplo, son los siguientes 7.66 6.98 7.80 5.26 5.44 5.80 7.41 7.33 7.04 3.51 2.91 3.66
– – – – – – – – – – – –
7.48 7.48 7.48 5.50 5.50 5.50 7.26 7.26 7.26 3.36 3.36 3.36
= = = = = = = = = = = =
0.18 -0.50 0.32 -0.24 -0.06 0.30 0.15 0.07 -0.22 0.15 -0.45 0.30
Residuos del ejemplo 4.1
Frecuentemente se calculan los residuos estandarizados que se obtienen dividiendo los residuos anteriores entre la raiz cuadrada del error cuadrático medio. En nuestro caso, se obtendrían dividiendo los residuos anteriores entre siguientes residuos estandarizados:
0.1158 = 0.3403 , lo que arroja los
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
155
0.52884023 -1.46900064 0.94016041 -0.70512031 -0.17628008 0.88140038 0.44070019 0.20566009 -0.64636028 0.44070019 -1.32210058 0.88140038 Tabla 4.7 Residuos estandarizados. Ejemplo 4.1
Sobre estos valores debe realizarse una prueba de normalidad. En nuestro caso, la prueba de Geary arroja los siguientes resultados:
Número de observaciones:
12
HIPOTESIS NULA: Las observaciones de la variable analizada SE AJUSTAN A UNA DISTRIBUCION NORMAL con Media (estimada): -4.625929269271485E-018 Varianza (estimada): 8.425454545454544E-002 Valor crítico de Z para H0: 1.365614709913629 VALOR P: 0.17204250 Tabla 4.8 Prueba de normalidad de residuos del ejemplo 4.1
El valor P de 0.17204, al ser mayor que el nivel de significancia 0.05, no nos permite rechazar la hipótesis nula. En consecuencia, los residuos se ajustan a una distribución normal y entonces, el modelo cumple con los supuestos básicos para una correcta toma de decisiones.
4.2 Comparaciones múltiples Entraremos ahora sí a realizar comparaciones múltiples entre las medias de los diferentes tratamientos. Estas comparaciones, como se dijo anteriormente, permiten comparar dos a dos las diferentes medias poblacionales de los tratamientos para
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
156
determinar cuáles de ellos producen efectos similares (es decir, no difieren) y cuáles producen efectos significativamente distintos. Lo anterior permite, entre otras cosas, decir cuál tratamiento es el peor y cuál es el mejor.
Una primera herramienta muy popular para realizar estas comparaciones la constituyen los intervalos de confianza para las medias obtenidos anteriormente. Cuando dos intervalos se intersecan las medias de los respectivos tratamientos no difieren significativamente. Por el contrario, intervalos disjuntos corresponden a medias que difieren significativamente; y será mayor la media correspondiente al intervalo situado más a la derecha.
En el ejemplo que estamos presentando los intervalos para las medias de los tratamientos son respectivamente: Tr1: Tr2: Tr3: Tr4:
(7.02 , 7.93) (5.05 , 5.96) (6.80 , 7.71) (2.91 , 3.81)
Una gráfica aproximada de los intervalos del 95% de confianza para las medias de los tratamientos es la siguiente:
En ella puede observarse que los intervalos correspondientes a los tratamientos Tr1 y Tr3 son intersecantes lo que significa que entre ellos no hay diferencias significativas. Por otra parte a ellos corresponden los intervalos situados más a la derecha lo que significa que sus medias son las de mayor valor. Es decir, en este caso corresponden a
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
157
los métodos de empaque menos efectivos. Se puede observar que la menor media corresponde al tratamiento Tr4, el cual difiere significativamente de los demás. Este es el tratamiento que produce mejores resultados. Es decir, de acuerdo con este método de comparación, el mejor sistema de empaque es una atmósfera al 100% de CO2. Los peores métodos de empaque son envolturas en plástico y empaque en atmósfera CO2+O2+N que prácticamente no presentan diferencias. El empaque al vacío presenta una efectividad intermedia.
Una segunda herramienta de comparación se conoce con el nombre de diferencias mínimas significativas (LSD o Least Significative Differences). Esta técnica es muy similar a la anterior. En opinión de D. Montgomery es una de las técnicas de comparación múltiple más efectivas cuando la F de la tabla ANOVA ha resultado significativa.
Se definen las diferencias mínimas significativas mediante la expresión:
LSD(i, j ) = tn −k , s 2
1 1 + ni n j
donde s 2 es el error cuadrático medio.
Se rechaza
H0: i = j
siempre que LSD(i, j ) | xi − x j | . En otras palabras dos
medias difieren significativamente cuando la diferencia en valor absoluto de las respectivas medias muestrales es mayor que la correspondiente LSD.
Este método de comparación es muy simple pero tiene la desventaja de que exige numerosos cálculos ya que se deben realizar k(k -1)/2 comparaciones de medias. En el ejemplo que venimos presentando se requieren 6 comparaciones. ESM realiza los diferentes cálculos como se ve a continuación (en este caso el archivo de salida se ha editado para dejar solamente los LSD correspondientes al 5% de significancia):
REGRESION Y MODELOS LINEALES JACMEN
070819
158
UNIVERSIDAD DEL TOLIMA
COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD): Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -1.98000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -0.22000000 LSD(α=0.05) = 0.6409 *ND* MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ): Diferencia de medias = 1.76000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -4.12000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 2 ): Diferencia de medias = -2.14000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 3 ): Diferencia de medias = -3.90000000 LSD(α=0.05) = 0.6409 *DS*
Tabla 4.9 Comparación de medias en el ejemplo 4.1
Como puede observarse los resultados coinciden con lo calculado anteriormente aunque es menos evidente la interpretación. Mencionaremos muy brevemente el método de Tukey – Kramer, también muy utilizado para realizar comparaciones múltiples.
Este método produce intervalos de confianza simultáneos de la forma: xi − x j + qk , , DHS(k , E )
donde DHS(k , E ) =
s2 1 1 + y 2 ni n j
qk , ,
es un
valor que depende del nivel mínimo de significancia E , de los grados de libertad ν correspondientes al error cuadrático medio s, y del número de tratamientos k.
Este
valor se busca en una tabla (ver anexo 2). De acuerdo con lo anterior, las medias de dos tratamientos difieren significativamente cuando el valor absoluto de la diferencia de sus medias muestrales es mayor que qk , , DHS(k , E ) .
Para el ejemplo que nos ocupa se tiene:
REGRESION Y MODELOS LINEALES JACMEN
070819
159
UNIVERSIDAD DEL TOLIMA
qk , , = q4, 8, 0.05 = 4.53 , DHS(k , E ) = 4.53
0.116 2 = 0.8907 2 3
En consecuencia:
Medias compar. 1 con 2 1 con 3 1 con 4 2 con 3 2 con 4 3 con 4
Valores de medias 7.48 7.48 7.48 5.50 5.50 7.26
5.50 7.26 3.36 7.26 3.36 3.36
DHS
Difer medias
Difieren?
0.8907 0.8907 0.8907 0.8907 0.8907 0.8907
1.98 0.22 4.12 1.76 2.14 3.90
Sí No Sí Sí Sí Sí
Tabla 4.10. Comparación de medias mediante prueba de Tukey en ejemplo 4.1
Existen otros métodos de comparación recomendables en diferentes circunstancias pero que no serán tratados en este libro. Algunos de ellos son: Scheffé, Bonferroni, Duncan, Gabriel, NKS, etc.
4.3 Contrastes Dedicaremos unas líneas al método de comparación de medias mediante la técnica de contrastes. Este método, de gran importancia en investigación, se usa cuando un experimento se ha diseñado para comparar específicamente ciertos tratamientos. La diferencia con los métodos anteriores, también denominados post hoc, es que aquellos tienen sentido cuando el valor de la F ha resultado significativo, es decir, cuando la prueba ANOVA ha detectado diferencias significativas y se desea saber cuáles son las medias que difieren. En cambio los contrastes planificados pueden realizarse en cualquier circunstancia. k
Se define un contraste C como cualquier combinación lineal
C = i i i =1
escalares i satisfacen
k
i =1
i
=0.
donde los
REGRESION Y MODELOS LINEALES JACMEN
070819
160
UNIVERSIDAD DEL TOLIMA
Aunque en principio los escalares i podrían ser cualesquiera números reales, en la práctica sólo son fracciones sencillas que, por lo general, se reducen a números enteros multiplicándolas por una cantidad conveniente: casi siempre por el mínimo común múltiplo de sus denominadores.
Por ejemplo, en el caso de empaques de carnes, si quisiéramos comparar los efectos del empaque plástico frente a los de los demás tratamientos, un contraste adecuado sería: 1 C1 = 1 − ( 2 + 3 + 4 ) . Igualmente el contraste que permite comparar el empaque al 3 1 vacío frente a los empaques con gases sería: C2 = 2 − ( 3 + 4 ) y el que permite 2
comparar el empaque en una atmósfera, mezcla de gases, frente al empaque con CO2 puro, sería C3 = 3 − 2 . Los dos primeros contrastes de estos ejemplos también pueden escribirse como
C1 = 31 − 12 − 13 − 14
y
C2 = 01 + 22 − 13 − 14 . De igual
manera C3 = 01 + 02 + 13 − 14
En general un contraste en un experimento de k tratamientos está determinado por k constantes enteras cuya suma vale cero.
En cualquier caso se prueba la hipótesis nula
H0 : Ci = 0
frente a la hipótesis
alternativa
H1 : Ci 0 . k
CM Contraste El estadístico de prueba está dado por FC = CM Error
donde CM Contraste =
x i =1 k
i i
i
n i =1
y
i
CM Error = s 2 . El estadístico FC tiene distribución F1, n−k , lo que puede ser aprovechado para tomar la decisión de si se rechaza o no la hipótesis nula.
REGRESION Y MODELOS LINEALES JACMEN
070819
161
UNIVERSIDAD DEL TOLIMA k
La estimación de un contraste, como era de esperarse, está dada por Cˆ = i xi . Su i =1
k
i
i =1
ni
varianza es V(C ) = s 2
lo que permite construir intervalos de confianza para el
contraste, intervalos que están dados por: Cˆ tn −k ,
V(C ) 2
Una expresión interesante, como se verá luego, es la suma de cuadrados del contraste, 2
k i xi . dada por SS(C ) = i =k1 nii i =1
En el ejemplo de las carnes que hemos estado analizando, los
tres contrastes
presentados anteriormente, junto con sus estadísticos de prueba y los correspondientes valores P, se resumen en la siguiente tabla:
Contraste Ci C1 C2 C3
1 3 0 0
Constantes del contraste
2
3
4
Estadístico FC (Ci )
-1 2 0
-1 -1 1
-1 -1 -1
86.12 0.6034 196.72
Valor P 0.0001 0.4608 0.0000
Tabla 4.11. Estimación y significancia de contrastes para el ejemplo 4.1
Lo que muestra que las hipótesis formuladas en los contrastes C1 y C3 se rechazan mientras que la formulada por el contraste C2 no se rechaza. En otras palabras, el promedio de bacterias en la carne empacada en plástico es mayor que el promedio de bacterias en las carnes empacadas en atmósferas de gases. Podemos afirmar esto porque la estimación del contraste es un número positivo: Cˆ1 = 2.11 aproximadamente. Análogamente, la conclusión que se puede obtener del contraste C2 es que el promedio de bacterias al empacar la carne al vacío es igual al promedio de bacterias al empacar con otros gases. Otra manera de probar hipótesis mediante contrastes es la utilización de los intervalos de confianza para ellos. Si el intervalo de confianza contiene al cero entonces el contraste se considera igual a cero. Por el contrario, si el cero no está dentro del
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
162
intervalo de confianza, el contraste es diferente de cero y será negativo o positivo según que el cero esté a la derecha o a la izquierda del intervalo de confianza. ESM V8 permite construir contrastes para el caso de comparación de varias medias en el diseño de una vía. Por ejemplo, para probar la hipótesis formulada por el contraste C3 (constantes 0, 0, 1 y -1), el paquete arroja los resultados consignados en la tabla 6.12. Nótese que el valor P, demasiado pequeño, nos lleva al rechazo de la hipótesis nula de que este contraste vale cero. Esto se confirma al observar los intervalos de confianza. En particular, el intervalo del 95% de confianza, situado a la derecha del cero, muestra que el contraste es positivo. Esto es: C3 0 . De aquí se deduce que 3 4 . Es decir, el promedio de bacterias en la carne al empacar en una atmósfera que es mezcla de gases, es mayor que el promedio de bacterias al empacar en una atmósfera de CO2 puro. Valor estimado del contraste: Varianza estimada del contraste: Suma de cuadrados del contraste: Valor F para H0:CONTRASTE=0: F(1, 8 ) =
3.90 0.0772 22.8150 196.9357
VALOR P: 0.000020 Intervalos Interv Interv Interv
de confianza para 90% ( 3.3831 , 95% ( 3.2591 , 99% ( 2.9676 ,
el contraste: 4.4169 ) 4.5408 ) 4.8324 )
Tabla 4.12 Estimación y significancia de un contraste con ESM v8.0
Con frecuencia resultan de interés ciertos contrastes, llamados contrastes ortogonales. k
Dos contrastes
C1 = i i
k
y
i =1
C2 = i i se dicen ortogonales si se cumple i =1
i i = 0. i =1 ni k
En un diseño de una vía con k tratamientos existen exactamente k − 1 contrastes ortogonales entre sí. Por ejemplo, en el diseño del empaque de carnes que tiene cuatro tratamientos sólo es posible construir tres contrastes ortogonales. Ellos son (se dan solo las constantes): C1 = (3, -1, -1, -1),
C2 = ( 0, 2, -1, -1)
y
C3 = (0, 0, 1, -1).
Los contrastes ortogonales son interesantes entre otras cosas porque sus sumas de cuadrados proporcionan una descomposición de la suma de cuadrados de los tratamientos. Por ejemplo, las sumas de cuadrados de los tres contrastes ortogonales
REGRESION Y MODELOS LINEALES JACMEN
070819
163
UNIVERSIDAD DEL TOLIMA
dados anteriormente para el ejemplo 6.1 son respectivamente:
9.9856, 0.0722
y
22.8150, valores cuya suma es 32.8728, exactamente el valor de la suma de cuadrados de tratamientos (modelo) arrojado por la tabla anova.
4.4 Prueba de Kruskall y Wallis La correspondiente prueba no paramétrica para los diseños de una vía o completos aleatorios es la prueba de Kruskall y Wallis que busca probar la hipótesis nula de que las medianas de los tratamientos son iguales (H0: M 1 = M 2 = ... = M k ) y que puede ser resumida en lo siguiente:
Las observaciones de las diferentes muestras se reúnen en una sola gran muestra, dentro de la cual se asignan rangos que luego se separan dentro de cada tratamiento según a donde pertenezca la respectiva observación. De esta manera se pueden obtener las sumas de rangos por tratamiento T j para j = 1, 2,3
k , como se muestra en la tabla
siguiente:
TRA1 x11 x12 x1n1
TRA2 x 21 x 22
...
...
x2n2
TRAk xk1
TRA1 TRA2 r( x11 ) r( x 21 ) r( x12 ) r( x 22 ) r( x1n1 ) r( x 2n ) 2
xk 2 x knk
T1
T2
...
...
...
TRAk r( xk1 ) r( x k 2 ) r( x knk )
Tk
Tabla 4.13 Transformación de rangos para una prueba de Kruskall y Wallis
Kruskall y Wallis propusieron el siguiente estadístico de prueba que tiene distribución asintótica Ji-cuadrado con k − 1 grados de libertad:
H =
2 12 k T j − 3(n + 1) n(n + 1) j =1 n j
k
donde
n = n j j =1
REGRESION Y MODELOS LINEALES JACMEN
070819
164
UNIVERSIDAD DEL TOLIMA
De acuerdo con lo anterior se rechaza la hipótesis de igualdad de las medianas cuando el estadístico H determine un valor P muy pequeño bajo una Ji-cuadrado con k − 1 GL.
Se debe tener en cuenta, sin embargo, que la técnica no paramétrica aquí mencionada no proporciona herramientas de comparaciones múltiples. En caso de rechazo de la hipótesis nula, tales pruebas se hacen con base en los intervalos de confianza para las medias o para las diferencias de medias lo que implica que también debe realizarse tales cálculos paramétricos tal y como fueron expuestos anteriormente.
Ejemplo 4.2: Utilizando el archivo FINCAS.DAT
se hará una comparación de los
promedios de temperaturas (variable X3) en los diferentes tipos de terreno (variable X4). Es decir, se quiere saber si en promedio la temperatura del terreno plano es diferente a la del terreno quebrado y éstas diferentes a la de los terrenos mixtos.
El problema se analiza proponiendo como hipótesis nula que estas temperaturas sí son iguales y luego se decidirá si se rechaza o no esta hipótesis. En ESM se obtiene la salida que se presenta en la página siguiente. Como puede apreciarse en dicha salida, el análisis dice que no existen diferencias entre las temperaturas de los diferentes tipos de terreno. Sin embargo esta conclusión es dudosa ya que no se cumplen los supuestos para que el análisis de varianza sea confiable: No se puede garantizar la homogeneidad de las varianzas en los tres grupos y los residuos del modelo no son normales. Este es un ejemplo que debiera ser analizado además mediante el método no paramétrico que se expondrá más adelante. ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio) ANOVA: VAR-Clasif: TERRENO VAR-Análisis: TEMPER ____________________________________________________________________ PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA Variable analizada: TEMPER Variable Clasif: TERRENO Archivo de datos: finca150.dat GRUP 1 2 3
P 0.000563 0.003073 0.018234
#OBS 35 67 48
TOTAL OBSERVACIONES: 150
Z 3.450 2.961 2.361
MEDIA 17.8286 18.3881 18.6875
VARIANZA 22.2050 19.6653 23.7939
REGRESION Y MODELOS LINEALES JACMEN
070819
165
UNIVERSIDAD DEL TOLIMA
PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS: V/r de B:
0.5168
V/r P = 0.772300
Ji-2:
2
GL
______________________________________________________________________ Numero de observaciones: ...................... 150 Numero de tratamientos: ....................... 3 Suma total de observaciones: .................. 2753 Media general de las observaciones: ........... 18.35333333333333 Suma de cuadrados de observaciones: ........... 53713 Corrección para la media: ..................... 50526.72666666667 Suma de cuadrados corregida: .................. 3186.273333333331 ______________________________________________________________________ TABLA ANOVA: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 15.0790 2 7.5395 0.3495 Error 3171.1944 147 21.5728 ***** Total 3186.2733 149 ***** ***** --------------------------------------------------------------------------R2 = 4.732E-003 F tiene 2 y 147 Grados de libertad Valor P de probabilidad: 0.71089000 Valor exacto del CME = 21.57275085940558 ****
PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL (Prueba de Geary)
****
VARIABLE ANALIZADA: RESIDUO (No Clasificada) ARCHIVO DE DATOS: residuos.dat HIPOTESIS NULA: Las observaciones de la variable analizada SE AJUSTAN A UNA DISTRIBUCION NORMAL con Media (estimada): 4.333333333354024E-005 Varianza (estimada): 21.28318373468679 Valor crítico de Z para H0: VALOR P:
4.942729917122696 0.00000078
Ejemplo 4.3: Si se construye la proporción de hembras por finca como el total de hembras
sobre
PORCHE =
el
total
de
animales
en
cada
finca.
Esto
es:
HEMBRAS , podemos averiguar si este índice difiere MACHOS + HEMBRAS
significativamente en los diferentes tipos de terreno (variable X4). Para esto debemos construir la variable PORCHE ya que ella no se encuentra en el archivo de datos. Usando la rutina de transformación de variables construimos en primer lugar la totalidad de animales de cada finca, sumando las variables X7 y X8, y luego hacemos el cociente de
REGRESION Y MODELOS LINEALES JACMEN
070819
166
UNIVERSIDAD DEL TOLIMA
la variable X8 (HEMBRAS) entre la variable recién construída. Esta será la variable de análisis. La variable de clasificación o tratamientos será el TIPO DE TERRENO (X4). Con ellas se hace el análisis de varianza, cuyo resultados en ESM pueden verse en las páginas siguientes.
____________________________________________________________________ PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA Variable analizada: PORCHE Variable Clasif: TERRENO Archivo de datos: finca150.dat GRUP 1 2 3
P 0.478737 0.673503 0.200657
#OBS 35 67 48
Z 0.708 0.421 1.280
MEDIA 0.6739 0.6374 0.5698
VARIANZA 0.0395 0.0511 0.0489
TOTAL OBSERVACIONES: 150
PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS: V/r de B: 0.7344 V/r P = 0.692688 Ji-2: 2 GL ____________________________________________________________________
ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio) ANOVA: VAR-Clasif: TERRENO VAR-Análisis: PORCHE ______________________________________________________________________ Numero de observaciones: ...................... 150 Numero de tratamientos: ....................... 3 Suma total de observaciones: .................. 93.64001000000005 Media general de las observaciones: ........... .6242667333333336 Suma de cuadrados de observaciones: ........... 65.70681572325402 Corrección para la media: ..................... 58.45634315200073 Suma de cuadrados corregida: .................. 7.250472571253297 ______________________________________________________________________ .. TABLA ANOVA: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 0.2399 2 0.1200 2.5155 Error 7.0105 147 0.0477 ***** Total 7.2505 149 ***** ***** --------------------------------------------------------------------------R2 = 3.3091E-002 F tiene 2 y 147 Grados de libertad Valor P de probabilidad: 0.08232000 Valor exacto del CME = 4.769077018326961E-002
REGRESION Y MODELOS LINEALES JACMEN
070819
167
UNIVERSIDAD DEL TOLIMA
** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS: (Hipótesis nula: 1.
Ho:
12 = 22 = 32
PRUEBA CONJUNTA DE BARTLETT: B = 0.734351 P = 0.69268793
2.
PRUEBAS INDIVIDUALES DE IGUALDAD DE VARIANZAS: (Comparan cada par de tratamientos ignorando los demás).
Tratamiento: 2 VS Razón de Varianza:
Tratamiento: 1 : 1.2931
P = 0.2083200
GL: 66
y
34
Tratamiento: 3 VS Razón de Varianza:
Tratamiento: 1 : 1.2384
P = 0.2588600
GL: 47
y
34
Tratamiento: 3 VS Razón de Varianza:
Tratamiento: 2 : 1.0441
P = 0.4429700
GL: 66
y
47
VALOR (MINIMO) DE
P: 0.20832000
INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO: Variable de análisis: PORCH Var Clasific: TERRENO _________________________________________________________________________ Numero de Tratamientos: 3 MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 : Media: .6738 Err.Stand: 3.691332325607792E-002 Inter90%: [ 0.6131, 0.7345] <-Inter95%: [ 0.6014, 0.7462] Inter99%: [ 0.5787, 0.7689] MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 : Media: .6373 Err.Stand: 2.667962780941294E-002 Inter90%: [ 0.5934, 0.6812] <-Inter95%: [ 0.5850, 0.6896] Inter99%: [ 0.5686, 0.7060] MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 : Media: .5698 Err.Stand: 3.152075050108183E-002 Inter90%: [ 0.5179, 0.6217] <-Inter95%: [ 0.5080, 0.6316] Inter99%: [ 0.4886, 0.6510] _________________________________________________________________________
COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD): Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif NOTA: Se presentan todas las combinaciones de tratamientos por pares.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
168
MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -0.03648184 LSD(α=0.10) = LSD(α=0.05) = LSD(α=0.01) =
0.0749 0.0893 0.1173
*ND* *ND* *ND*
<--
MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -0.10404684 LSD(α=0.10) = LSD(α=0.05) = LSD(α=0.01) =
0.0798 0.0951 0.1250
*DS* *DS* *ND*
<--
MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ): Diferencia de medias = -0.06756500 LSD(α=0.10) = LSD(α=0.05) = LSD(α=0.01) =
****
0.0679 0.0809 0.1064
*ND* *ND* *ND*
<--
PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL (Prueba de Geary)
****
VARIABLE ANALIZADA: RESIDUOS (No Clasificada) ARCHIVO DE DATOS: residuos.dat Número de observaciones:
150
HIPOTESIS NULA: Las observaciones de la variable analizada SE AJUSTAN A UNA DISTRIBUCION NORMAL con Media (estimada): 5.006666666666789E-005 Varianza (estimada): 4.705062642451899E-002 Valor crítico de Z para H0: VALOR P:
.6525776466669402 0.51404673
Como se ve, en este caso se cumplen los supuestos y además se concluye que el terreno con mayor índice de hembras es el terreno plano, cuyas diferencia con el quebrado no es significativa.
4.5 Diseño de dos vías (Diseño aleatorio de bloques completos) La generalización inmediata de la comparación de dos medias pareadas es la comparación de k medias ligadas. Recuérdese que en caso de dos medias cada pareja de observaciones procedían del mismo individuo o de individuos muy semejantes
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
169
(gemelos). Siguiendo este mismo patrón de conducta, en el caso que nos ocupa se tendrán k-uplas de observaciones que deben proceder de individuos muy semejantes. Una k-upla de individuos semejantes o muy homogéneos recibe el nombre de bloque.
Cuando b bloques de k individuos cada uno, se asignan a k tratamientos de manera que los individuos de cada bloque se asignen a los tratamientos en forma aleatoria, se tiene un diseño aleatorio de bloques completos o diseño de dos vías de clasificación.
En este caso las observaciones tendrán la siguiente disposición:
BLOQUES Bloque 1
TRAT1 x11
TRAT2 x21
... ...
TRATk xk1
Bloque 2
x12 x1b
x22
...
xk 2
x2b
...
xkb
Bloque b
Tabla4.14 Esquema de organización de datos para un ANOVA de dos vías
La correspondiente tabla ANOVA tiene el aspecto que muestra la tabla 6.15, donde
T2 (valor que se conoce como corrección por la media) y donde T*i , i = 1,2,..., b C= kb son los totales marginales para los bloques (por filas);
T j*,
j =1, 2,..., k
son los totales
marginales para los tratamientos (por columnas)
Como puede apreciarse, en este caso aparecen dos valores de F, uno para tratamientos (Ft) y el otro para bloques (Fb). Se pueden probar dos hipótesis, a saber:
En primer lugar la hipótesis nula de que no hay diferencias significativas entre la medias de los tratamientos, es decir: H0: 1 = 2 = = k , hipótesis que se prueba contra la alternativa de que no todas las medias son iguales. Esta hipótesis se prueba con la F de tratamientos (Ft) que tiene distribución con k − 1 y (k − 1)(b − 1) grados de libertad. El rechazo de esta hipótesis obliga a realizar comparaciones múltiples para determinar el
REGRESION Y MODELOS LINEALES JACMEN
070819
170
UNIVERSIDAD DEL TOLIMA
orden de las medias y de esta manera averiguar cuál es el mejor tratamiento (o el peor) y cuales no difieren entre sí. El criterio LSD sigue siendo el mejor en este caso.
ANOVA para un diseño aleatorio de bloques completos (dos vías) Fuente de Suma de cuadrados GL Cuadrados F calc Variación Medios SCTr CMTr 1 k 2 CMTr = Ft = SCTr = T j* − C Tratamientos k −1 k −1 CME b j =1 Bloques Error
SCB =
1 b 2 T*i − C k i =1
SCE = SCT − SCTr − SCB k
TOTAL
b −1
CMB =
SCB b −1
Fb =
CMB CME
SCE
(k − 1)(b − 1) CME = (k − 1)(b − 1)
*****
b
SCT = xij2 − C j =1 i =1
*****
*****
*****
Tabla 4.15 Tabla ANOVA para un diseño de bloques completos
En segundo lugar, se puede probar la hipótesis de que no hay diferencias entre las medias de los bloques. Esta se prueba con la F de bloques (Fb) que tiene b − 1 y (k − 1)(b − 1) grados de libertad. Sin embargo esta hipótesis es secundaria ya que si el
experimento ha sido bien diseñado, tales medias por principio deben ser diferentes.
ESM realiza la prueba anterior junto con los cálculos necesarios para aplicar los criterios LSD y comparaciones múltiples mediante intervalos de confianza, para lo cual es necesario que los datos se encuentren en una única columna y que existan dos columnas adicionales de tipo categórico, con códigos numéricos, que identifiquen el tratamiento y el bloque al que pertenece cada observación.
El cuadrado medio esperado para tratamientos en un diseño de dos vías está dado por la expresión E(CMTr) = 2 +
b k ( i − ) 2 , lo que prueba que bajo la hipótesis nula k − 1 i =1
de que las medias de tratamientos son iguales, el cuadrado medio de tratamientos es una estimación de la varianza y puede aplicarse el argumento presentado en el diseño de una
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
171
vía para determinar por qué la prueba F permite decidir si se cumple o no la igualdad de medias en los tratamientos.
Si designamos por c =
b(k − 1) CMB , la expresión ER = (1 − c) + c es conocida como bk − 1 CME
eficiencia relativa y mide la eficiencia que presenta el diseño de dos vías sobre el diseño de una vía. El diseño de dos vías es más eficiente que el de una vía siempre que
ER 1 .
4.6 La prueba de Friedman Cuando no sean aplicables los procedimientos anteriores bién sea porque se violan los supuestos de normalidad o porque los tamaños de muestra son extremadamente pequeños, es posible recurrir a la prueba no paramétrica de Friedman que es el correspondiente sustituto para el ANOVA de los diseños de dos vías. Sin embargo se debe tener presente que esta prueba por lo general tiene menos potencia que la prueba paramétrica y en consecuencia es posible que muestre no diferencias de medias entre tratamientos cuando realmente estos sí difieran.
Para la prueba de Friedman se asignan rangos a las observaciones de cada bloque (fila por fila) y luego se suman los rangos correspondientes a cada tratamiento. De esta manera se obtienen k sumas de rangos T1 , T2 , T3 , Tk con los cuales se construye el siguiente estadístico de prueba;
S=
12 k 2 T j − 3b(k + 1) bk (k + 1) j =1
Friedman demostró que bajo la hipótesis nula de no diferencias entre las medias de tratamientos, este estadístico tiene distribución asintótica Ji-cuadrado con k − 1 grados de libertad. En consecuencia, un valor grande de S, es decir un pequeño valor P bajo
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
172
esta distribución, indica que la hipótesis nula es falsa y que, por tanto, debe ser rechazada.
4.7 El análisis de varianza en experimentos diseñados. El diseño de experimentos es la parte de la estadística que estudia la manera de organizar los materiales, disponer las unidades muestrales, asignar tratamientos, medir respuestas, analizar e interpretar información para obtener conclusiones acerca del comportamiento de la(s) variable(s) de respuesta en un experimento controlado. El diseño de experimentos constituye un tema demasiado amplio que no puede ser tratado en un libro como éste pero, dado que en este capítulo se ha venido hablando de la comparación de varias medias, justo es dar algunas nociones muy básicas acerca del diseño de experimentos en los modelos más elementales.
Sir Ronald Aylmer Fisher, estadístico y genetista inglés, inventor de las técnicas de máxima verosimilitud y análisis de varianza y pionero del diseño de experimentos, nació en Londres el 17 de febrero de 1890 y murió el 29 de julio de 1962 en Adelaida (Australia). Obtuvo en 1912 un título en matemáticas en la Universidad de Cambridge. Desde 1919 trabajó en la estación experimental Rothamsted. En 1933 llegó a ser profesor en University College London y en 1943 profesor de Cambridge. Es famosa una disputa científica que sostuvo con Pearson desde 1917 y que Fisher continuó aún después de la muerte de aquel, ocurrida en 1936, debido tal vez a su incontrolable temperamento que muchas veces obligó a sus estudiantes a abandonar sus clases.
Podemos afirmar que los experimentos son de dos clases fundamentalmente: comparativos y de pronóstico. Los primeros –casos de comparaciones de medias, por ejemplo- establecen conjuntos de circunstancias dentro del experimento y comparan las
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
173
respuestas en esas circunstancias. En esta clase de experimentos los tratamientos son las circunstancias creadas para cada respuesta. Los experimentos de pronóstico –casos de regresión o de superficies de respuesta, por ejemplo- proponen modelos que describen las respuestas en términos de las variables dependientes para pronosticar otros valores de respuesta en casos que no han sido observados.
Existe una gran variedad de diseños experimentales adecuados a diferentes situaciones y también existen varias técnicas estadísticas que permiten analizarlos. Pero podría decirse que todos los casos obedecen a un único modelo general, a saber: varias unidades experimentales, es decir, objetos físicos o individuos, son sometidos a la acción de uno o más agentes que producen un efecto sobre ellas. El efecto producido es cuantificable mediante una o más variables de tipo numérico mientras que los agentes transformadores son aplicados en dosis o niveles definidos previamente por el investigador.
(Y1 , Y2 ,
De esta manera se establece una relación funcional del tipo
, Yp ) = f ( X 1 , X 2 ,
(respuestas) y las
Xj
, X r ) donde las
Yi
son variables de tipo numérico
son variables de tipo categórico (variables independientes o
factores). Las categorías o modalidades de estas últimas variables se denominan niveles. Los modelos más simples de diseño corresponden a la situación en la cual Y = f ( X ) con X, variable categórica, Y variable numérica y f una función de tipo lineal. Los diseños en los cuales r 1 se denominan multifactoriales y los diseños en los cuales p 1 se dicen multivariados. En general las situaciones más estudiadas corresponden a
una o más variables independientes de tipo categórico y a una variable Y de tipo numérico como respuesta, enlazadas por una función de tipo lineal. En cambio de tomar factores de tipo categórico, también es posible tomar variables numéricas para observar el experimento únicamente en ciertos valores o niveles de dichas variables. En estos casos el objetivo perseguido es la construcción de una curva o superficie de respuesta en la que se pueda encontrar un máximo o un mínimo y determinar a cuál o cuáles valores de los factores corresponde.
De acuerdo con lo anterior se puede afirmar que un experimento diseñado puede ser estudiado como un caso de superficies (o curvas) de respuesta, tambíén podría
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
174
corresponder al estudio de modelos lineales generales e incluso podría corresponder a casos de modelos no lineales (cuando la función de enlace f no sea lineal). Desde este punto de vista, el estudio de la información de un experimento diseñado suele recurrir a herramientas matemáticas (principalmente cálculo y álgebra lineal) para su análisis.
Los diseños comparativos de experimentos son de dos tipos principalmente: unos, conocidos como diseños de efectos fijos porque los niveles de los diferentes factores han sido definidos a juicio y gusto de los investigadores. Es éste –el investigador- quien decide, por ejemplo, los niveles de temperatura, de humedad, de dosis químicas que usará en un experimento. En otros experimentos el investigador no puede seleccionar los niveles de los factores sino que éstos surgen aleatoriamente de una gran cantidad de posibilidades. Piénsese, por ejemplo, en una investigación en la que se pretende mostrar que la profundidad a la que se encuentre el carbón natural influye en sus propiedades bituminosas. Se debe extraer carbón de diferentes profundidades para analizarlo químicamente. Para ello se realizan perforaciones en diferentes sitios de una zona carbonífera y se toman muestras. En este caso el analista del experimento no puede determinar con anticipación la profundidad de las perforaciones, las cuales resultan aleatorias. Es decir, los niveles de profundidad no son definidos previamente sino que constituyen una muestra aleatoria de todos los posibles valores de profundidad a los que se pueda encontrar carbón. Los diseños que obedezcan a este último patrón se conocen como diseños de efectos aleatorios. Finalmente los diseños de dos o más factores podrían ser mixtos si algunos de dichos factores son de efectos fijos y los demás de efectos aleatorios.
Existe una variada gama de experimentos que se ajustan a determinados modelos predefinidos y que pueden ser estudiados mediante la técnica de descomposición de la variabilidad (ANOVA), tal como ocurrió con los modelos de una y dos vías estudiados anteriormente.
El propósito de esta sección es presentar la técnica ANOVA para el análisis de la información en experimentos de efectos fijos de dos o tres factores con una única respuesta Y. Se hará también una breve referencia a los experimentos de efectos
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
175
aleatorios al final de la sección. El caso de experimentos con un único factor y una única respuesta Y, es lo estudiado en las secciones anteriores de este mismo capítulo. Los casos más complejos de experimentos con uno o más factores y varias respuestas no se estudian en este libro, a excepción de los casos más sencillos, correspondientes a un único factor y varias respuestas que se ve usualmente en los cursos de análisis multivariado.
En el diseño y análisis de un experimento suelen presentarse ciertos elementos de tipo teórico y ciertos conceptos que deben ser entendidos para garantizar una adecuada aplicación de los datos a un determinado modelo y garantizar así correctas interpretaciones y decisiones. En los párrafos siguientes se busca sentar algunas bases para el diseño de un experimento sin pretender que con ello se agote el tema, por cierto amplio y complejo.
Una primera inquietud que se puede formular es acerca de la necesidad de planear un experimento. La investigación experimental tiene como inquietud frecuente comparar diferentes acciones, agentes o factores para determinar cuál de ellos es más eficiente o produce mejores resultados. Ante la carencia de una explicación natural que satisfaga esta pregunta, el científico experimental opta por ensayar diversos factores o diversos niveles de uno o más factores para determinar cuál combinación de ellos produce una mejor respuesta. Si este ensayo se hace de una manera organizada, ciñéndose a ciertos parámetros determinados por un modelo estadístico que ha sido probado teóricamente, se tendrá un experimento diseñado, cuyo análisis obedece a deducciones lógicas propias del modelo al cual se ajusta.
Se denominan unidades experimentales a cada una de las entidades físicas o sujetos expuestos al tratamiento, independientemente de otras unidades.
El error experimental describe la variabilidad entre las unidades experimentales tratadas de manera idéntica e independiente. Puede producirse por variación entre unidades experimentales, variabilidad en las mediciones, imposibilidad de reproducir con
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
176
exactitud las condiciones de los tratamientos en las unidades experimentales o por presencia de factores externos que no han sido controlados.
Existen varias estrategias para reducir el error experimental y aumentar la exactitud en las mediciones. Tales técnicas se conocen como técnicas de control local. Las dos más usadas son las siguientes: •
Selección de unidades experimentales uniformes (homogéneas)
•
Bloquización o agrupamiento de las unidades experimentales de modo que la variación dentro de cada grupo después del agrupamiento sea menor que antes del mismo
La bloquización suele realizarse de acuerdo con los siguientes criterios: o Por proximidad física o Por características físicas como edad, peso, tamaño, raza, etc o Por simultaneidad temporal (unidades examinadas en la misma época) o geográfica o Por administración de tareas en el experimento
En muchos experimentos se presentan tratamientos de control que, por lo general, son grupos de unidades experimentales a las que no se les da ningún tratamiento. Estos tratamientos son útiles y necesarios en determinadas circunstancias, especialmente cuando las condiciones del experimento sean un obstáculo para la efectividad de los tratamientos. Un tratamiento control revela las condiciones en que se efectuó el experimento. Por ejemplo, los fertilizantes con nitrógeno suelen ser efectivos pero en campos altamente fértiles no producen respuesta. Hay también casos en los cuales la manipulación de las unidades experimentales ya produce un efecto, en estos casos se usa un control placebo.
Se entiende por replicaciones las repeticiones independientes del experimento básico, las cuales se hacen por las razones siguientes: a. Muestran que se pueden reproducir los resultados
REGRESION Y MODELOS LINEALES JACMEN
070819
177
UNIVERSIDAD DEL TOLIMA
b. Proporcionan seguridad contra los resultados anormales por accidentes no previstos c. Permiten estimar la varianza del error experimental d. Aumentan la precisión en la estimación de las medias de los tratamientos
El número de réplicas mínimo por tratamiento no puede ser arbitrario. Dependiendo del nivel de significancia al que se desee realizar el experimento, de la precisión de las estimaciones y de la dispersión de las respuestas se debe calcular un mínimo de réplicas
(
para cada tratamiento. Dicho valor está determinado por r = 2 z + z 2
)
2
2
donde
δ es un porcentaje de la media general del experimento y 1 − es la potencia de la prueba (usualmente 0.8 o una cantidad mayor hasta 0.95)
El cálculo del número de réplicas no es sencillo pues usualmente no se conoce la media general ni es fácil determinar el nivel de precisión de las estimaciones. Sin embargo, como sucede frecuentemente, un experimento se realiza varias veces perfeccionando cada vez su diseño. De esta manera los datos arrojados en las primeras realizaciones se convierten en insumos para las siguientes realizaciones.
Conviene llamar la atención sobre el siguiente hecho importante: para calcular los tamaños de muestra en cada tratamiento (número de réplicas) se fija un valor de significancia α el cual determina el cuantil z
que se usa en la fórmula anterior. Esto 2
implica que para otro nivel de significancia menor que el anterior, el correspondiente cuantil sea mayor y por tanto que se requiera un mayor tamaño de muestra, es decir, mayor número de réplicas. En consecuencia, las conclusiones que se obtengan para el nivel de significancia α posiblemente no sean válidas para niveles de significancia inferiores. Es un error entonces, sacar conclusiones sin haber verificado previamente que el número de réplicas del experimento es suficiente para ello.
Otro elemento importante en el diseño de los experimentos es el principio de aleatorización el cual se usa como sustituto de la hipótesis de normalidad cuando se
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
178
hace una selección cuidadosa de unidades experimentales. Según este principio, las unidades experimentales deben ser asignadas en forma aleatoria a los tratamientos. La aleatorización disminuye la correlación entre unidades próximas reafirmando con ello la independencia entre ellas. Además elimina sesgos producidos por la asignación sistemática de los tratamientos a las unidades experimentales. Es bueno saber que no siempre es posible aplicar el principio de aleatorización. Así sucede por ejemplo, en experimentos ecológicos.
En general los diseños de experimentos deben satisfacer ciertos supuestos bajo los cuales han sido desarrollados los principios teóricos que los sustentan. El cumplimiento de estos supuestos garantiza la validez de los resultados y, por ello, debe ser verificado cada vez que se analice un experimento. Son cuatro los supuestos más importantes que se debe cumplir en un diseño: 1) Aditividad de los efectos lo que implica ausencia de interacción. 2) Independencia de los términos de error 3) Normalidad de los errores y 4) Homogeneidad de la varianza de los términos de error sin importar la magnitud de los efectos.
Las condiciones anteriores imponen severas restricciones a los análisis de experimentos basados en la técnica ANOVA y, en consecuencia, en la práctica debe constatarse su cumplimiento antes de emitir juicios y tomar decisiones.
La violación fuerte de la normalidad afecta la validez de las pruebas F pues en tal caso no se cumple en general que los cuadrados medios tengan distribuciones Ji cuadrado independientes. Las inferencias que se realicen respecto a las medias en poblaciones no normales siguen siendo válidas siempre que se utilicen muestras grandes. Esto, infortunadamente, no funciona con las varianzas pues en tales casos la varianza de
s2
2
se incrementa en un factor proporcional a la curtosis afectando seriamente los niveles de potencia, calculados bajo el supuesto de normalidad. Este problema tiene un impacto menor cuando se usan muestras del mismo tamaño para todos los tratamientos (es decir, en todas las celdas).
REGRESION Y MODELOS LINEALES JACMEN
La falta de
070819
179
UNIVERSIDAD DEL TOLIMA
independencia de los términos de error
se presenta cuando las
observaciones presentan correlación serial Por ejemplo, si cada observación presenta con la siguiente una correlación
ρ (autocorrelación de primer orden) entonces se
cumple:
E( x ) = ,
V( x ) =
2
1 1 + 2 (1 − ) n n
y
E (s 2 ) =
2 n
(1 − 2 )
lo que hace que los intervalos de confianza calculados por los métodos corrientes no cubran el verdadero valor de la media en los niveles de probabilidad para el cual se construyen. Por ejemplo, para ρ = 0.5 la probabilidad de 0.95 se reduce drásticamente a 0.166. Esto da una idea del impacto negativo que puede traer la falta de independencia entre las observaciones de los tratamientos. Los problemas son mucho más graves cuando existen autocorrelaciones de primero y otros órdenes.
La falta de homogeneidad de las varianzas tiene también implicaciones negativas pero ellas dependen de los tamaños muestrales de los tratamientos. En los diseños balanceados (es decir con el mismo tamaño de muestra en todos los tratamientos) el impacto negativo de la carencia de homocedasticidad no es tan grave como en los diseños desbalanceados. Aún con muestras grandes, en los diseños desbalanceados, se incrementa la varianza del cociente de los cuadrados medios entre y dentro, lo que hace que se aumente la probabilidad de incurrir en error tipo I. La estrategia para reducir la heterocedasticidad es el uso de transformaciones monótonas –tales como el logaritmolo que puede afectar la normalidad. Con todo, como se dijo antes, es menos grave la trasgresión de la normalidad que la heterocedasticidad.
Mencionaremos por último la covariabilidad Con frecuencia es posible usar variables relacionadas con la variable de respuesta que permiten ejercer un control de tipo estadístico sobre la varianza del error experimental. Tales variables son conocidas como covariables o variables concomitantes. Los análisis de experimentos que contemplan este tipo de variables se conocen como análisis de covarianza.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
180
Todos los principios generales que hemos mencionado hasta el momento son aplicables a los diseños de experimentos de cualquier naturaleza, incluidos los ya estudiados experimentos unifactoriales de una y dos vías.
Muy brevemente presentaremos ahora dos tipos de experimentos univariados y multifactoriales: son los diseños de dos y tres factores.
4.8 Diseños multifactoriales Al diseñar un experimento resulta difícil aislar completamente una única causa (variable independiente) como responsable de los efectos que se producen en un fenómeno. Por lo general dichos efectos son producidos en mayor o menor grado por un sinnúmero de factores y, es un verdadero arte determinar cuáles de ellos son los más importantes. Es evidente que al diseñar un experimento con demasiados factores activos los costos y las dificultades teóricas de análisis pueden ser enormes. Por esta razón se busca reducir el número de factores activos y controlar o eliminar la mayor parte de factores externos (exógenos) que puedan causar interferencia. En la práctica se suelen admitir dos o tres factores activos. Muy excepcionalmente, otros números, y casi nunca más de cinco.
4.8.1 Diseños bifactoriales Existen varios diseños experimentales para dos factores. Aquí presentaremos únicamente los diseños completos y balanceados de dos factores. Un diseño es completo cuando en él se consideran todas las posibles combinaciones de niveles de cada factor. Así, por ejemplo, si un factor en un experimento agronómico es el tipo de terreno (ácido, neutro y alcalino) con tres niveles y otro factor es la temperatura con cuatro niveles (12°C, 16°C, 21°C y 25°C) habrá un total de 3 4 = 12 tratamientos posibles. Si a todos los 12 tratamientos se asigna unidades experimentales, el diseño será completo. Por el contrario, será incompleto si uno o más de los tratamientos no tiene unidades experimentales asignadas. Por otra parte un diseño factorial es balanceado cuando todos los tratamientos tienen el mismo número de unidades experimentales asignadas. Por ejemplo, en el caso citado, si cada uno de los 12 tratamientos tiene cuatro unidades
REGRESION Y MODELOS LINEALES JACMEN
070819
181
UNIVERSIDAD DEL TOLIMA
experimentales, es decir cuatro réplicas. Por razones de economía un experimento podría ser incompleto. Por razones fortuitas –como la muestre de un animal o una planta- un diseño puede ser desbalanceado. Tanto la incompletez como el desbalanceo son condiciones que complican el análisis de un diseño factorial. Existen tratamientos para remediarlos pero esos temas están fuera del alcance de esta obra.
Supóngase entonces que que se ha desarrollado un diseño completo y balanceado de dos factores
F1 y F2 con a y b niveles respectivamente. Supóngase además que en
cada uno de los ab tratamientos (combinaciones de los niveles) hay r réplicas y que todas ellas
han proporcionado una respuesta al final del experimento. Se tienen
entonces abr valores reales correspondientes a las respuestas de las correspondientes unidades experimentales observadas, las cuales corresponden a la siguiente representación del diseño:
Nivel 1 Nivel 1 F1
2 … a
Factor F2 Nivel 2
y111 , y112 ,
, y11r
y121 , y122 ,
y211 , y212 , … ya11 , ya12 ,
, y21r
y221 , y222 , , y22r … ya 21 , ya 22 , , ya 2 r
, ya1r
, y12 r
…
Nivel b
…
y1b1 , y1b 2 ,
…
y2b1 , y2b 2 , , y2br … yab1 , yab 2 , , yabr
… …
, y1br
Tabla 4.16 Disposición de los datos para un diseño de dos factores
Este diseño corresponde a un modelo estadístico de la forma yijk = ij + ijk donde i = 1,2,…, a;
j = 1, 2, …, b;
k = 1, 2, …, r;
ij es la media del tratamiento
resultante al combinar los niveles i y j de F1 y F2 respectivamente y ijk son los errores experimentales aleatorios que se suponen distribuídos normalmente con media 0 y varianza constante 2
En este tipo de diseños la suma de cuadrados de todas las observaciones a
b
r
SCT = ( yijk − y )2 se descompone en cuatro sumas de cuadrados a saber: una i =1 j =1 k =1
REGRESION Y MODELOS LINEALES JACMEN
correspondiente al factor correspondiente a
F1,
070819
182
UNIVERSIDAD DEL TOLIMA
otra correspondiente al factor
F2, una tercera
las combinaciones de niveles y una cuarta que es la suma de
cuadrados residual, o no explicada, que se denomina suma de cuadrados del error; las cuales están dadas respectivamente por:
Suma de cuadrados para F1: SC1 = rb ( yi.. − y... ) 2 b
Suma de cuadrados para F2: SC 2 = ra ( y. j . − y... ) 2 j =1
a
b
Suma de cuadrados para interacciones: SC12 = r ( yij . − yi.. − y. j. − y... ) 2 i =1 j =1
La interacción puede definirse por ij − i. − . j + ... . Las interacciones, cuando existen, hacen que la respuesta a los tratamientos no sea dada exclusivamente por la suma de los efectos de cada factor sino que parte de esa respuesta se debe a la interacción de los factores. En otras palabras los efectos de los factores son aditivos en ausencia de interacción.
Las sumas de cuadrados son variables aleatorias cuyas distribuciones como las de todas las sumas de cuadrados son distribuciones Ji cuadrado con ciertos grados de libertad dados de acuerdo con la siguiente tabla de análisis de varianza
Fuente de Variación Factor F1
Suma de cuadrados SC1
Grados de libertad a–1
Cuadrados medios CM1=SC1/a-1)
Cuadrados medios esperados 2 + rb12
Factor F2
SC2
b–1
CM2=SC2/(b-1)
2 + ra 22
Inter. F1*F2
SC12
(a - 1)(b - 1)
2 + r122
Error Total
SCE SCT
ab( r - 1) rab - 1
CM12=SC12/(a-1)(b1) CME=SCE/ab(r-1) -------------
Tabla 4.17 Tabla de ANOVA para un diseño bifactorial completo
Donde 12 =
1 a ( i. − ... )2 , a − 1 i =1
22 =
1 a ( . j − ... )2 , b − 1 i =1
2 -------------
REGRESION Y MODELOS LINEALES JACMEN
y
122 =
070819
183
UNIVERSIDAD DEL TOLIMA
a 1 ( ij − i. − . j + ... )2 , (a − 1)(b − 1) i =1
La tabla anterior proporciona los elementos necesarios para juzgar en primer lugar si las interacciones entre los factores son significativas o no y en segundo lugar para saber si existen efectos significativos de los factores, lo que finalmente se traduciría en diferencias de medias entre tratamientos.
En efecto: Si no existiera interacción entre los factores se tendría ij − i. − . j + ... = 0 lo que implicaría 122 = 0 y, entonces, E(CME) = 2 . En tal caso la razón CM 12 tendría distribución F con (a - 1)(b - 1) CME
y ab(r - 1) grados de
libertad. En consecuencia, una F con estas características proporciona un mecanismo de prueba para determinar la significancia de la interacción entre los factores. Una interacción significativa puede alterar la inferencia basada en las diferencias significativas entre las medias marginales de los factores.
En caso de que la interacción no sea significativa, un argumento similar al ya expuesto pero realizado sobre los cuadrados medios
CM1 y CM2,
permite concluir que bajo las hipótesis nulas de igualdad de medias para los niveles de los respectivos factores, los cocientes F2 =
CM 2 CME
F1 =
CM 1 CME
y
son variables aleatorias que tienen distribución F con grados
de libertad dados por los correspondientes grados de libertad de CM1,
REGRESION Y MODELOS LINEALES JACMEN
070819
184
UNIVERSIDAD DEL TOLIMA
CM2 y CME en la tabla. Esto proporciona herramientas para probar la igualdad de medias para cada uno de los respectivos factores.
En caso de obtener valores de F1 o F2 que obliguen a rechazar las correspondientes
hipótesis
nulas
se
pueden
realizar
pruebas
de
comparaciones múltiples para determinar cuáles medias difieren entre sí. Una de las pruebas más usadas en estos casos es la prueba de Tukey.
Ejemplo 4.5. El Mirogrex Terrae Santae es un pez semejante a la sardina que se encuentra en el mar de Galilea. Se realizó un estudio para determinar el efecto de la luz y la temperatura sobre el índice gonadosomático (GSI) que es una medida del crecimiento del ovario. Se utilizaron dos fotoperiodos: a) 14 horas de luz y 10 de obscuridad y b) 9 horas de luz con 15 de obscuridad los cuales se cruzaron con dos niveles de temperatura de agua: 16°C y 27°C. De esta manera se obtuvieron cuatro tratamientos: verano simulado, invierno simulado y dos climas no naturales. En cada uno de estos ambientes se han criado 5 peces. La variable respuesta es el GSI. Analizar este experimento si se obtuvieron los siguientes valores del GSI al final del mismo.
FACTOR 1 Fotoperiodos
9 horas de luz (1) 14 horas de luz (2)
FACTOR 2: Temperatura del agua 16°C (1) 27°C (2) 1.30 0.88 0.90 1.06 2.42 2.66 0.98 1.29 2.94 1.12 1.01 1.52 0.83 0.67 1.02 1.32 0.57 0.47 1.63 0.66
Tabla 4.18 Datos para el ejemplo 4.5
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
185
Lo primero que ha de hacerse es construir un archivo de datos en el que aparece la variable respuesta y la identificación de los niveles tanto del primero como del segundo factor. Es conveniente además incluir otra identificación para el número de réplica. Si el análisis se realiza con ESM, ésta última identificación es obligatoria. El archivo correspondiente tendrá el siguiente aspecto: 1.30 2.88 2.42 2.66 2.94 0.90 1.06 0.98 1.29 1.12 1.01 1.52 1.02 1.32 1.63 0.83 0.67 0.57 0.47 0.66
1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2 2 2 2 2
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Tabla 4.19 Disposición de los datos del ejemplo 4.5 para análisis con software
Nótese cómo los niveles de los factores se han identificado con los códigos 1 y 2. En general es buena recomendación utilizar dígitos consecutivos para identificar los niveles de los factores. El análisis realizado con ESM produce los siguientes resultados
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
186
TABLA ANOVA: ------------------------------------------------------------------FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F ------------------------------------------------------------------F1 3.08 1 3.08 21.704 F2 5.15 1 5.15 36.285 F1*F2 0.63 1 0.63 4.439 Error 2.27 16 0.14 ******* TOTAL 11.13 19 ********* ******* ------------------------------------------------------------------FACTORES F1 = FOTOPE F2 = TEMPER F1*F2
VALOR P 0.000450 0.000070 0.048900
DISTRIBUCION F( 1 , 16 ) F( 1 , 16 ) F( 1 , 16 )
ESTIMACIONES DEL MODELO: MEDIA GENERAL: μ = VARIANZA GENERAL: MEDIAS POR CELDAS: Media de la celda( Media de la celda( Media de la celda( Media de la celda( V/R OBSERVADO 1.30 2.88 2.42 2.66 2.94 0.90 1.06 0.98 1.29 1.12 1.01 1.52 1.02 1.32 1.63 0.83 0.67 0.57 0.47 0.66
1.3625
2 1 1 2 2
= , , , ,
0.1420 1 2 1 2
) ) ) )
= = = =
V/R ESTIMADO 2.44 2.44 2.44 2.44 2.44 1.07 1.07 1.07 1.07 1.07 1.30 1.30 1.30 1.30 1.30 0.64 0.64 0.64 0.64 0.64
2.4400 1.0700 1.3000 0.6400 RESIDUO -1.1400 0.4400 -0.0200 0.2200 0.5000 -0.1700 -0.0100 -0.0900 0.2200 0.0500 -0.2900 0.2200 -0.2800 0.0200 0.3300 0.1900 0.0300 -0.0700 -0.1700 0.0200
El programa también estima los efectos de cada uno de los factores y las estimaciones, pero estas salidas han sido suprimidas para mayor sencillez.
Como puede observarse el valor F para interacción es 0.439 que corresponde un valor P de 0.0489
el cual, por ser muy cercano a 0.05, puede considerarse como no
significativo. Esto quiere decir que podríamos considerar que el modelo no tiene
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
187
interacción y, en consecuencia, es un modelo aditivo, así que podemos confiar en las deducciones acerca de las medias. Puesto que tanto la F del factor F1 como la del factor F2 son significativas por arrojar valores P muy pequeños (menores que 0.05) concluímos que hay diferencias significativas entre los promedios de los niveles de cada factor.
Los residuos que fueron calculados por el programa se pueden usar para realizar con ellos una prueba de validez del modelo. Deben tener distribución normal para que el modelo cumpla con los supuestos. En este caso la prueba de Geary arroja un valor P de 0.005036 por lo que se puede concluir que el modelo presenta un problema de normalidad.
A manera de ejemplo, podemos realizar la prueba de Tukey para determinar si dentro del fotoperiodo de 9 horas de luz hay diferencias entre los promedios de GSI para las dos temperaturas. Es decir, estamos comparando los promedios de los tratamientos CELDA(1,1)
y CELDA(1,2), o lo que es igual: TRAT(9h,16°C) y TRAT(9h,27°C). Los datos
correspondientes a estos dos tratamientos son: TRAT(9h, 16°C) 1.30 2.88 2.42 2.66 2.94
TRAT(9h, 27°C) 0.90 1.06 0.98 1.29 1.12
y las correspondientes medias son 2.44 y 1.07 En este caso n1 = n2 = 5 ,
k = 2,
ν = 16 (grados de libertad del error), en
consecuencia qk , , = 3.64 (valor buscado en tabla) y por tanto:
qk , ,
CME 1 1 0.14 1 1 + = 3.64 + = 0.61 2 ni n j 2 5 5
REGRESION Y MODELOS LINEALES JACMEN
Puesto que
070819
y11 − y12 = 2.44 − 1.07 = 1.37
188
UNIVERSIDAD DEL TOLIMA
es un valor mayor que 0.61, se
concluye que sí hay diferencias significativas entre las medias de estos dos tratamientos. Nótese que, en cambio, y12 − y22 = 1.07 − 0.64 = 0.43 es un valor menor que 0.61 lo que nos dice que entre los tratamientos
CELDA(1,2)
y
CELDA(2,2),
correspondientes a los dos fotoperiodos dentro de la temperatura de 27 grados, no hay diferencias significativas.
6.4.2 Diseño trifactorial
Una vez se ha estudiado el diseño bifactorial completo y balanceado resulta inmediata la comprensión de lo que sucede en el diseño trifactorial completo y balanceado. No entraremos a presentar fórmulas para las descomposiciones de las sumas de cuadrados. Tan solo diremos que en este caso la suma total de cuadrados se descompone en ocho (8) sumas de cuadrados de acuerdo con lo siguiente:
1. Suma de cuadrados correspondiente al factor F1, SC1 2. Suma de cuadrados correspondiente al factor F2, SC2 3. Suma de cuadrados correspondiente al factor F3, SC3 4. Suma de cuadrados para la interacción de segundo orden F1*F2, SC12 5. Suma de cuadrados para la interacción de segundo orden F1*F3, SC13
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
189
6. Suma de cuadrados para la interacción de segundo orden F2*F3, SC23 7. Suma de cuadrados para la interacción de tercer orden F1*F2*F3, SC123 8. Suma de cuadrados residual, no explicada o de error, SCE.
Todas las sumas de cuadrados anteriores son variables aleatorias con distribuciones Ji cuadrado y, por consiguiente al ser divididas entre sus grados de libertad (ver tabla ANOVA para este tipo de diseño) los cuadrados medios correspondientes
representan varianzas. Los siete
cocientes resultantes al dividir cada cuadrado medio entre el CME representan valores de cuantiles bajo distribuciones F con los grados de libertad apropiados que permiten probar hipótesis, en primer lugar sobre la significancia de las interacciones y, en segundo lugar, sobre la igualdad de las medias de los niveles en los respectivos factores. Igual que en los casos anteriores se puede aplicar la prueba de Tukey para comparar las medias de dos tratamientos cualesquiera.
El cuadro siguiente representa la tabla de análisis de varianza para un experimento factorial completo y balanceado de tres factores F1, F2 y F3 con niveles a, b y c, respectivamente.
REGRESION Y MODELOS LINEALES JACMEN
070819
190
UNIVERSIDAD DEL TOLIMA
Fuente de Variación
Suma de Cuadra dos
Grados de Libertad
Cuadrados medios (Varianzas)
Valor F
F1 F2 F3 F1xF2 F1xF3
SC1 SC2 SC3 SC12 SC13
ν1 = a-1 ν2 = b -1 ν3 = c -1 ν12 = (a-1)(b-1) ν13 = (a-1)(c-1)
CM1 = SC1 / ν1 CM2 = SC2 / ν2 CM3 = SC3 / ν3 CM12 =SC12 / ν12
f1= CM1 / CME f2=CM2 / CME f3=CM3 / CME f12=CM12 / CME f13=CM13 / CME
F2xF3
SC23
ν23 = (b-1)(c-1)
F1xF2xF3
SC123
ν123 = (a-1)(b-1)(c-1)
Error
SCE
Total
SCT
E = abc(r – 1) T = abcr - 1
ν13 CM23 =SC23 / ν23 CM123 =SC123 / ν123 CM13 =SC13 /
CME =SCE /
E
--------------
f23=CM23 / CME f123=CM123 / CME -------------------------------
Tabla 4.20 Tabla de Análisis de varianza para un diseño completo de tres factores
Ejemplo 4.6: Con el fin de determinar el efecto de los niveles de agua, la temperatura y el tipo de planta en la producción de guisantes, se disponen aleatoriamente 36 plantas sin hojas en 9 grupos de 4 plantas cada uno los cuales se asignan aleatoriamente a las combinaciones de tres niveles de agua (bajo, medio y alto) con tres temperaturas (15°C, 18°C y 21°C) en un invernadero. Este mismo experimento se repite simultáneamente y en las mismas condiciones con 36 plantas con hojas. Resulta así un experimento factorial 3 3 2 , lo que significa que el primer factor tiene 3 niveles, el segundo 3 niveles y el tercero 2 niveles. Los valores de producción de cada planta se resumen en la tabla 6.21.
Para el análisis estadístico con ESM se crea un archivo de datos en el que cada una de las 72 observaciones se escribe acompañada de cuatro identificadores según el nivel de cada factor y el número de réplica. Es decir, dicho archivo está conformado por una variable de respuesta y cuatro variables categóricas de identificación. Los resultados obtenidos están consignados en la salida de la página siguiente.
Como puede apreciarse en este ejemplo las interacciones son significativas lo que hace que el modelo no sea aditivo. Este resultado dificulta los análisis pues ahora no se puede
REGRESION Y MODELOS LINEALES JACMEN
070819
191
UNIVERSIDAD DEL TOLIMA
estar seguro sobre las pruebas de comparaciones de medias ni en los niveles de los factores ni en los diferentes tratamientos.
N I V E L D E A G U A = F1 1 = Bajo 2 = Medio 3 = Alto F2 = Temperatura 1 2 3 15° 18° 21°
F2 = Temperatura 1 2 3 15° 18° 21°
F2 = Temperatura 1 2 3 15° 18° 21°
Sin Hojas 1
69.1 70.2 68.3 72.1
87.3 80.1 78.6 74.3
72.3 73.1 74.1 72.6
80.4 83.5 84.1 79.6
93.1 88.6 90.2 101.3
94.3 96.1 96.5 91.4
100.1 97.3 90.6 94.1
121.2 120.5 119.3 115.6
100.1 98.3 103.1 92.1
Con Hojas 2
68.0 66.5 68.9 71.1
74.3 72.1 75.0 70.3
73.4 74.2 71.8 72.1
81.5 82.5 84.6 78.1
90.8 91.3 92.0 93.1
96.7 92.3 94.1 95.2
89.6 90.2 91.3 90.0
96.2 101.3 99.6 100.2
98.1 99.6 95.4 98.6
Tipo de Planta F3 P L A N T A
Tabla 4.21 Datos para el ejemplo 4.6
TABLA ANOVA: --------------------------------------------------------------------FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F --------------------------------------------------------------------F1 (A) 9029.73 2 4514.86 544.144 F2 (B) 1607.95 2 803.97 96.897 F3 (C) 286.00 1 286.00 34.470 A*B 469.45 4 117.36 14.145 A*C 200.49 2 100.24 12.082 B*C 285.41 2 142.70 17.199 A*B*C 180.01 4 45.00 5.424 Error 448.05 54 8.30 ******* TOTAL 12507.08 71 ********* ******* --------------------------------------------------------------------(A) = AGUA: P = 0.000000 F( 2 , 54 ) (B) = TEMP: P = 0.000000 F( 2 , 54 ) (C) = TIPO: P = 0.000010 F( 1 , 54 ) Interacción (A)*(B): P = 0.000000 F( 4 , 54 ) Interacción (A)*(C): P = 0.000140 F( 2 , 54 ) Interacción (B)*(C): P = 0.000020 F( 2 , 54 ) Interac (A)*(B)*(C): P = 0.001250 F( 4 , 54 ) ESTIMACIONES: a) Media General:
87.54861111111115
b) Varianza general (CME): c) Media Media Media Media Media Media Media Media
por celda: Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 2 ,
1 1 2 2 3 3 1
, , , , , , ,
1 2 1 2 1 2 1
8.297175925923959 ): ): ): ): ): ): ):
69.92500000000001 68.625 80.07499999999999 72.925 73.02499999999999 72.875 81.90000000000001
REGRESION Y MODELOS LINEALES JACMEN
Media Media Media Media Media Media Media Media Media Media Media
Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda(
2 2 2 2 2 3 3 3 3 3 3
, , , , , , , , , , ,
1 2 2 3 3 1 1 2 2 3 3
, , , , , , , , , , ,
2 1 2 1 2 1 2 1 2 1 2
070819
): ): ): ): ): ): ): ): ): ): ):
UNIVERSIDAD DEL TOLIMA
192
81.675 93.3 91.80000000000001 94.57499999999999 94.575 95.52500000000001 90.27500000000001 119.15 99.325 98.40000000000001 97.92500000000001
d) Medias por niveles de AGUA: Media Factor 1 Nivel ( 1 ): Media Factor 1 Nivel ( 2 ): Media Factor 1 Nivel ( 3 ):
72.90833333333332 89.63749999999999 100.1
e) Medias por niveles de TEMP: Media Factor 2 Nivel ( 1 ): Media Factor 2 Nivel ( 2 ): Media Factor 2 Nivel ( 3 ):
81.32083333333331 92.76249999999999 88.56249999999999
f) Medias por niveles de TIPO: Media Factor 3 Nivel ( 1 ): Media Factor 3 Nivel ( 2 ):
89.54166666666666 85.55555555555553
El siguiente ejemplo de mejor comportamiento ilustrará además el uso de la prueba de Tukey para comparar tratamientos.
Ejemplo 4.7: los datos siguientes representan los registros de producción de una empresa que ha estado ensayando diferentes políticas de trabajo entre sus empleados. El diseño muestra los resultados al implementar dos jornadas de trabajo, una de 10 horas diarias y otra de 8 horas diarias (4 días a la semana y 5 días respectivamente), dos turnos, uno diurno y otro nocturno y tres alternativas de descanso en cada jornada: uno con un solo descanso a la mitad de la jornada, otro con dos desacansos en la jornada y otro con tres descansos. El diseño es entonces un factorial 2 2 3 con dos réplicas en el que los factores son respectivamente: jornadas, turnos y descansos.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
Jornada
Turno diurno (1) Descansos 1 2 3
Turno nocturno (2) Descansos 1 2 3
(1) 10 horas
94 97
105 106
96 91
90 89
102 97
103 98
(2) 8 horas
96 92
100 82 103 88
81 84
90 92
94 96
193
Tabla 4.22 Datos para el ejemplo 4.7
El archivo de datos correspondiente para el análisis está consignado en la tabla 6.23. En él la primera variable es la respuesta (RENDIM = calificación del rendimiento), y cuatro variables categóricas que son respectivamente: jornada (JORNAD), turno (TURNOS), descansos (DESCAN) y réplica. En otros paquetes no es necesario contemplar la variable REPLICA dentro
del archivo de datos cuando el diseño es balanceado.
94 1 1 1 1 97 1 1 1 2 105 1 1 2 1 106 1 1 2 2 96 1 1 3 1 91 1 1 3 2 90 1 2 1 1 89 1 2 1 2 102 1 2 2 1 97 1 2 2 2 103 1 2 3 1 98 1 2 3 2 96 2 1 1 1 92 2 1 1 2 100 2 1 2 1 103 2 1 2 2 82 2 1 3 1 88 2 1 3 2 81 2 2 1 1 84 2 2 1 2 90 2 2 2 1 92 2 2 2 2 94 2 2 3 1 96 2 2 3 2 Tabla 4.23 Disposición de datos ejemplo 4.7 para análisis con ESM
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
194
Parte del archivo de resultados arrojado por ESM (se han omitido las estimaciones de los efectos) es lo siguiente: TABLA ANOVA: --------------------------------------------------------------------FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F --------------------------------------------------------------------F1 (A) 204.17 1 204.17 29.878 F2 (B) 48.17 1 48.17 7.049 F3 (C) 334.08 2 167.04 24.445 A*B 8.17 1 8.17 1.195 A*C 8.08 2 4.04 0.591 B*C 385.58 2 192.79 28.213 A*B*C 21.58 2 10.79 1.579 Error 82.00 12 6.83 ******* TOTAL 1091.83 23 ********* ******* --------------------------------------------------------------------(A) = JORNAD: P = 0.000290 F( 1 , 12 ) (B) = TURNOS: P = 0.020060 F( 1 , 12 ) (C) = DESCAN: P = 0.000160 F( 2 , 12 ) Interacción (A)*(B): P = 0.296090 F( 1 , 12 ) Interacción (A)*(C): P = 0.573050 F( 2 , 12 ) Interacción (B)*(C): P = 0.000100 F( 2 , 12 ) Interac (A)*(B)*(C): P = 0.245510 F( 2 , 12 ) ESTIMACIONES: a) Media General:
94.41666666666667
b) Varianza general (CME): c) Media Media Media Media Media Media Media Media Media Media Media Media Media
por celda: Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 2 , Celda( 2 , Celda( 2 , Celda( 2 , Celda( 2 , Celda( 2 ,
1 1 1 2 2 2 1 1 1 2 2 2
, , , , , , , , , , , ,
1 2 3 1 2 3 1 2 3 1 2 3
6.833333333336564
): ): ): ): ): ): ): ): ): ): ): ):
95.5 105.5 93.5 89.5 99.5 100.5 94 101.5 85 82.5 91 95
d) Medias por niveles de JORNAD: Media Factor 1 Nivel ( 1 ): 97.33333333333333 Media Factor 1 Nivel ( 2 ): 91.5 e) Medias por niveles de TURNOS: Media Factor 2 Nivel ( 1 ): 95.83333333333333 Media Factor 2 Nivel ( 2 ): 93 f) Medias por niveles de DESCAN: Media Factor 3 Nivel ( 1 ): 90.375 Media Factor 3 Nivel ( 2 ): 99.375 Media Factor 3 Nivel ( 3 ): 93.5
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
195
Como puede observarse en la salida de la tabla de análisis de varianza, la interacción de los factores F1 y F2 es significativa lo que resta aditividad al modelo pero, dado que las demás interacciones no lo son, podemos aceptar las conclusiones sin demasiadas prevenciones. En este caso los valores P para los tres factores indican que las medias en los niveles de dichos factores no son iguales. Para determinar cuáles niveles o cuales tratamientos difieren se deben realizar comparaciones múltiples. Para ello podemos aplicar el método de Tukey, utilizando las diferentes medias que el programa ha calculado.
La comparación de las medias en los factores de dos niveles no requiere de la prueba de Tukey pues al ser sólo dos niveles y saber que ellos difieren será mayor la media del nivel que presente la mayor media muestral. Así, hay mayor rendimiento en la jornada de 10 horas que en la de 8 horas pues los valores respectivos de las medias muestrales son 95.83 para la primera y 93.0 para la segunda. Igualmente se puede concluir que el turno diurno produce mejores resultados que el nocturno
Aplicaremos la regla de Tukey para determinar cuál sistema de descansos produce mejores resultados. Para tal efecto ordenamos de menor a mayor las medias muestrales para los tres niveles obteniendo : 90.38 (un descanso), 93.5 (tres descansos) y 99.38 (para dos descansos). Puesto que el diseño es balanceado con ni = 8 (hay 8 observaciones en cada forma de descanso) y el error cuadrático medio ( s 2 = ECM = 6.83) tiene = 12 grados de libertad, para k = 3 tratamientos, se encuentra en la tabla (anexo 2) que qk , , = 3.77 (se ha tomado α = 0.05, como es usual). Esto nos lleva a
= qk , ,0.05
ECM 2
1 1 + = 3.48 , valor que se compara con las diferencias entre ni n j
medias como lo sugiere el siguiente cuadro: Nivel: No de descansos: Media estimada: Diferencias:
(1) Uno 90.38
(3) Tres 93.5 3.12
(2) Dos 99.38 5.88
Tabla 4.24 Comparación de medias en el ejemplo 4.7 con el método de Tukey
REGRESION Y MODELOS LINEALES JACMEN
070819
196
UNIVERSIDAD DEL TOLIMA
Este cuadro muestra que la diferencia entre los niveles 1 y 3 no es significativa pues es menor que , mientras que la diferencia entre los niveles 3 y 2 –y por consiguiente entre los niveles 1 y 2- sí es significativa ya que ella es mayor que . En este caso la conclusión es que resulta mejor otorgar dos descansos en la jornada y que no hay diferencias entre uno y tres descansos.
En resumen el sistema de trabajo que proporciona mejores rendimientos es jornada diurna en turnos de 10 horas con dos descansos. Esto corresponde a la celda (1,1,2) cuya media es 105.5. Es decir, que la calificación de rendimiento en esta forma de trabajo se estima en 105.5. Nótese que si sólo interesa determinar cuál es el mejor tratamiento de los 12 posibles, bastaría seleccionar aquel correspondiente a la celda cuya media sea mayor. Sin embargo las comparaciones suelen ser útiles porque podría suceder que hubiera dos o más tratamientos cuyas medias no difieran significativamente y entonces podría escogerse aquel que resulte más benéfico según otros criterios. Por ejemplo, aquel que sea menos costoso, o el que implique menos riesgos laborales, etc.
Puesto que la interacción F2*F3 (es decir, TURNO*DESCANSO) ha resultado significativa podemos realizar una comparación de sus efectos utilizando también la regla de Tukey. Esta comparación puede hacerse por separado para la jornada de 10 horas y para la jornada de 8 horas. Aquí presentaremos la comparación para la jornada de 10 horas, dejando al lector que compare los efectos en la jornada de 8 horas. El cuadro siguiente presenta las medias ordenadas y sus diferencias:
Tratam. Celda: Media Diferencia
1,2,1 89.5
1,1,3 93.5 4.0
1,1,1 95.5 2.0
1,2,2 99.5 4.0
1,2,3 100.5 1.0
1,1,2 105.5 5.0
Tabla 4.25 Comparación de medias en ejemplo 4.7. Método de Tukey
En este caso el número de tratamientos es k = 6, cada uno con ni = 2 observaciones. Los grados de libertad del error y el valor de ECM son los mismos de antes, así que
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
197
q2, 12, 0.05 = 4.75 y, por tanto, = 8.77 . Seleccionamos el primer par de celdas que difieran por una cantidad mayor que 8.77, en este caso las celdas 121 y 122. Entonces los tratamientos 121, 113 y 111 no difieren entre sí. 111, 122 y 123 tampoco difieren entre sí y finalmente 122, 123 y 112 tampoco difieren entre sí. Si dos tratamientos no difieren entre sí entonces dos tratamientos cualesquiera comprendidos entre ellos tampoco difieren. Esto permite señalar las medias que no difieren como se indica en el siguiente cuadro.
Tratamiento: Media: Vínculos:
1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2 89.5 93.5 95.5 99.5 100.5 105.5 AAAAAAAAAAAA BBBBBBBBBBBBB CCCCCCCCCCCCC
Tabla 4.26 Método de Tukey para comparación de medias. Ejemplo 4.7
En esta tabla cualesquiera dos medias o tratamientos unidos por la misma letra (es decir, con el mismo vínculo) no presentan diferencias significativas.
John W. Tukey nació en New Bedford, Massachussets, el 16 de junio de 1915. Obtuvo un magíster en química en la Universidad de Brown en 1936. Se trasladó a Princetown para obtener un grado en matemáticas y en dos años obtuvo su doctorado. Después de desempeñarse por varios años en una oficina de investigación del gobierno, llegó a ser profesor de Princetown en 1950. Recibió la medalla nacional de Ciencias en 1973. Fue miembro de la Academia Nacional de Ciencias y de la Royal Society de Inglaterra. En su época fue reconocido como uno de los mejores expertos en pronósticos electorales. Murió en el año 2000.
REGRESION Y MODELOS LINEALES JACMEN
070819
198
UNIVERSIDAD DEL TOLIMA
4.9 Diseños de efectos aleatorios Muy brevemente se hará una referencia a los diseños factoriales de efectos aleatorios ya mencionados anteriormente. Estos diseños se usan para estudiar el comportamiento de la variabilidad y en qué medida ella contribuye a los efectos de los tratamientos.
En un diseño unifactorial balanceado se construye una tabla ANOVA en la forma usual pero aparece una columna adicional en la que se encuentran los valores esperados de los cuadrados medios, ya que la varianza de cada observación y2 puede verse como la suma a2 + 2 donde a2 (varianza entre grupos) es la varianza de la distribución de los efectos y 2 (varianza aleatoria) es la varianza residual. Estos dos valores se conocen como componentes de varianza. Si a2 = 0 entonces los efectos de los tratamientos son iguales pero si a2 > 0 existe variabilidad entre ellos. En este último caso la diferencia entre los efectos de los tratamientos puede deberse a la variabilidad entre las observaciones.
La tabla de análisis de varianza tiene la forma siguiente:
Origen de V Entre
S de C. SCTr
GL k-1
Cuadr.med. CMtr
C.M.Esperad ni a2 + 2
Dentro
SCErr
n-k
CMerr
2
Total
SCtot
n-1
-------
-------
Tabla 4.27 Tabla ANOVA para un diseño de efectos aleatorios en una vía
F CMtr F= CMerr
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
199
Con la información proporcionada por esta tabla se prueba la hipótesis nula H0 : a2 = 0 versus la alterna
H1 : a2 0 lo que se hace utilizando el valor calculado F que tiene
distribución Fk −1,n −k .
Para hacer una estimación de las componentes de varianza se toma la columna de cuadrados medios como una estimación de los cuadrados medios esperados, lo que lleva al planteamiento del sistema de ecuaciones lineales:
ni a2 + 2 = CMtr 2 = CMerr
cuya solución está dada por a2 =
CMtr − CMerr ni
y
2 = CMerr
En algunos casos especiales estas soluciones pueden resultar extrañas pues pueden aparecer valores negativos los cuales no tienen una interpretación clara. Existen otros métodos de estimación que no se estudian en esta obra.
Si el diseño no es balanceado y el tamaño de muestra para los tratamientos es variable,
a2 se estima por a2 =
CMtr − CMerr r0
donde r0 =
k ni2 1 n − . k −1 i =1 n
Se define el coeficiente de correlación intraclase como I = entre −
a2 , el cual varía a2 + 2
1 y 1 (en diseños balanceados). Si I es grande el afecto aleatorio común r −1
a un grupo afecta por igual a todos los individuos de ese grupo, de manera que la similitud entre individuos es mayor dentro del mismo grupo que entre los individuos de grupos diferentes. Esto se debe a que la varianza residual es muy pequeña frente a la varianza entre clases. Por el contrario, si
I es pequeño existe disimilaridad entre los
individuos de cada grupo lo que dice que la diferencia de medias puede deberse a la variabilidad interna de los grupos. Por ejemplo, en un problema de dietas los recursos
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
200
nutritivos pueden causar disparidad de crecimiento dentro de cada grupo. Esto puede suceder, por ejemplo, si los individuos más vigorosos y agresivos toman la mayor parte de dicho recurso.
El problema de componentes de varianza en diseños de efectos aleatorios puede ser extendido a diseños multifactoriales pero la teoría necesaria para su estudio escapa a la proyección de esta obra. El paquete ESM-plus V8 permite estimar componentes de varianza para diseños bifactoriales en los cuales ambos factores son de efectos aleatorios y para diseños bifactoriales mixtos en los cuales un factor es de efectos fijos y el otro de efectos aleatorios.
El siguiente ejemplo de un diseño unifactorial de efectos aleatorios, analizado con ESM, permite ilustrar lo dicho en los párrafos anteriores.
Ejemplo 4.8: En un estudio de genética con reses, varios machos se aparearon con grupos diferentes de hembras. Si nacían terneros (machos) se usaban en un estudio de pesos hereditarios. La tabla siguiente muestra el peso al nacer de 8 terneros por cada uno de los 5 grupos usados en el estudio.
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 61 100 56 113 99 103 75 62
75 102 95 103 98 115 98 94
58 60 60 57 57 59 54 100
57 56 67 59 58 121 101 101
Tabla 4.28 Datos para el ejemplo 4.8
Resultados:
59 46 120 115 115 93 105 75
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
201
TABLA ANOVA PARA COMPONENTES DE VARIANZA: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 5591.1500 4 1397.7875 3.0138 Error 16232.7500 35 463.7929 ***** Total 21823.9000 39 ***** ***** --------------------------------------------------------------------------R2 = .256193 F tiene 4 y 35 Grados de libertad Valor P de probabilidad: 0.03042000 Valor exacto del CME = 463.7928571428571 ESTIMACION DE LAS COMPONENTES DE VARIANZA: ----------------------------------------------------------------------Varianza ENTRE: SIGMAa2 = 116.7493303571436 Varianza DENTRO: SIGMAe2 = 463.7928571428571 Coeficiente de Correlación Intraclases: .2011039557002796 -----------------------------------------------------------------------
Tabla 4.29 Salida de análisis con ESM del ejemplo 4.8
Puesto que el valor P de probabilidad para la F es menor que α = 0.05 se rechaza la hipótesis de que a2 = 0 . Esto significa que existe varianza entre clases, es decir, que dentro de los grupos hay mucha disimilaridad. Esto implica que de existir diferencias en las medias de los tratamientos, dicha diferencia podría estar ocasionada por la variabilidad interna de los grupos. En este ejemplo a2 = 116.75 ,
2 = 463.79
y
I = 0.2011 , valor que puede ser
considerado pequeño, confirmando la existencia de disimilaridad entre individuos de cada grupo. Esto, por supuesto, implica que hay diferencias entre los efectos de los tratamientos, pero, como se advirtió antes, dichas diferencias podrían estar causadas por la falta de homogeneidad dentro de los grupos y no por los tratamientos.
REGRESION Y MODELOS LINEALES JACMEN
070819
UNIVERSIDAD DEL TOLIMA
202
BIBLIOGRAFIA
1. MENDENHALL W. y T. SINCICH; A Second Course in Statistics – Regression Analysis. 5ª Ed. Prentice-Hall, London 1996 2. MENDENHALL W. y T. SINCICH; Probabilidad y Estadística para Ingeniería y Ciencias. 4ª Ed. Prentice-Hall.México. 1997 (Incluye programa ASP individual) 3. DRAPER N. R. y H. SMITH; Applied Regression Analysis. 2ª Ed. John Wiley & Sons. N.Y 1982 4. MONTGOMERY D. y E. PECK; Introduction to Linear Regression Analysis. John Wiley & Sons. N.Y. 1982 5. CHATTERJEE S. y B. PRICE; Regression Analysis by Example. John Wiley & Sons. N.Y. 1977 6. SILVA L. C.; Una excursión a la regresión logística en Ciencias de la Salud. Diaz Santos. Barcelona. 1997 (Incluye programas RELODI y RELOPO) 7. MADSEN H y P. THYREGOD; Introduction to General and Generalized Linear Models. Chapman & Hall / CRC. 2010 8. FARAWAY J.J; Linear Models with R. Chapman & Hall / CRC. 2009 9. STAPLETON J.H.; Linear Statistical Models. John Wiley & Sons. 1995 10. KUTNER M. et al. Applied Linear Statistical Models. McGraw- Hill. 2005
REGRESION Y MODELOS LINEALES JACMEN
070819
203
UNIVERSIDAD DEL TOLIMA
ANEXO Archivo de datos FINCAS Las variables contempladas en el archivo FINCAS.DAT son las siguientes: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
EXTENSION DE LA FINCA EN HECTAREAS NUMERO DE HECTAREAS DEDICADAS AL CULTIVO TEMPERATURA PROMEDIO EN CADA FINCA TIPO DE TERRENO: 1=Plano 2=Quebrado 3=Mixto FINCA TECNIFICADA: 1=Sí 2=No NUMERO DE OBREROS QUE TRABAJAN EN LA FINCA NUMERO DE CABEZAS DE GANADO MACHO NUMERO DE CABEZAS DE GANADO HEMBRAS RAZA DE GANADO MAYORITARIA: 1=Ceb£ 2=Normando 3=Holstein EXISTENCIA DE HATO LECHERO: 1=Sí 2=No EXISTENCIA DE RIEGO ARTIFICIAL: 1=Sí 2=No TIPO DE CULTIVO PREDOMINANTE: 1=Maiz 2=Sorgo 3=Algodón 4=Trigo 5=Papa 6=Otro
120
100
15
1
2
14
12
75
1
1
1
6
458
360
21
1
2
25
148
140
18
2
1
18
124
58
2
2
1
1
15
125
2
2
1
2
200
160
25
2
2
25
14
200
2
2
2
3
150
76
21
2
400
320
25
2
1
24
18
157
1
1
1
3
1
33
19
42
1
1
1
4
150
98
20
3
1
24
25
15
1
1
2
1
125
105
250
200
21
2
1
7
54
6
3
1
2
4
15
3
2
25
55
25
3
1
2
4
145 400
125
18
2
2
21
12
158
3
1
2
1
375
14
1
2
26
6
145
3
1
2
1
75
68
19
2
1
23
24
162
3
2
1
4
25
22
18
2
2
30
78
145
3
2
2
2
162
145
14
3
1
25
125
45
3
2
2
2
185
164
15
1
1
54
14
25
2
2
2
3
220
210
16
1
2
24
7
28
2
1
2
5
150
140
12
1
2
15
25
145
2
1
1
2
220
200
17
2
2
25
14
25
1
1
1
6
250
125
21
1
2
26
16
158
1
1
1
6
145
120
25
2
2
25
25
200
1
2
2
2
200
78
24
1
1
24
89
125
1
2
2
4
230
170
28
3
1
12
35
456
2
2
2
2
REGRESION Y MODELOS LINEALES JACMEN
070819
204
UNIVERSIDAD DEL TOLIMA
148
68
26
3
1
32
47
25
1
2
2
5
205
145
25
3
1
25
45
145
2
2
1
1
420
300
21
2
1
21
48
13
2
1
1
3
358
260
20
2
1
24
21
15
1
1
1
2
320
150
24
1
1
28
25
258
2
1
1
1
180
120
25
2
1
14
24
25
2
2
2
4
200
110
21
1
2
12
15
21
1
2
2
1
150
98
14
2
1
25
19
22
2
1
2
5
100
75
18
1
2
24
25
48
3
2
2
2
75
32
15
3
1
21
125
75
2
1
2
2
310
140
14
2
2
24
478
145
2
1
2
1
250
200
16
2
2
20
14
400
3
1
1
1
148
48
12
1
1
20
478
125
3
1
1
4
150
36
15
2
2
23
14
256
3
1
1
3
200
100
14
1
2
22
15
25
3
2
1
3
230
126
15
3
2
21
78
470
3
2
1
5
400
268
12
2
1
22
48
145
2
2
2
2
350
239
25
1
1
24
58
125
2
2
2
1
320
169
21
2
2
23
74
58
2
2
2
6
125
85
24
1
1
21
25
54
1
2
2
2
100
24
25
2
1
25
24
47
2
1
2
1
90
45
21
1
1
36
13
45
1
1
1
4
120
62
20
3
2
21
25
46
2
1
1
2
220
156
20
3
2
24
14
25
1
1
1
1
250
200
20
3
2
25
15
185
2
1
1
4
320
260
21
3
2
26
18
26
1
1
2
2
250
235
20
2
1
20
19
456
2
1
1
1
200
128
25
2
1
21
52
125
3
1
1
3
120
90
25
3
1
20
45
100
2
1
1
2
200
135
26
3
1
20
45
78
1
1
1
1
320
300
28
3
1
20
48
12
2
1
1
5
250
160
24
3
1
24
47
45
1
2
1
2
390
310
14
2
1
21
14
45
2
1
2
1
225
198
15
2
1
20
25
125
2
2
2
4
220
195
16
3
1
23
54
215
1
1
1
1
150
87
12
1
1
25
51
200
1
1
1
1
75
36
14
2
1
28
42
180
1
2
1
2
80
56
12
2
1
27
15
57
2
2
1
1
140
112
15
2
1
24
14
45
2
1
2
2
200
180
18
3
1
26
14
12
2
1
2
1
180
145
19
1
1
25
15
45
2
1
1
2
125
112
20
2
2
21
25
25
2
1
2
1
145
110
17
2
1
23
14
17
3
2
2
1
180
135
15
2
2
22
17
18
3
2
2
1
200
160
12
1
2
20
18
54
3
2
2
3
125
112
14
3
2
25
15
21
3
2
2
2
REGRESION Y MODELOS LINEALES JACMEN
070819
205
UNIVERSIDAD DEL TOLIMA
100
90
12
1
1
21
13
20
3
1
1
2
120
100
25
2
1
14
26
14
2
1
1
5
150
132
14
2
1
18
25
16
2
1
1
2
200
187
15
1
1
17
14
40
2
1
2
2
256
225
14
2
1
13
16
12
2
1
2
1
400
358
14
1
2
21
14
16
1
2
2
1
75
70
15
1
2
25
145
200
2
1
1
1
125
110
25
1
2
21
14
15
1
1
1
1
200
159
24
2
1
25
12
25
3
2
2
4
90
69
25
2
1
14
78
15
2
1
2
4
180
125
14
3
1
28
54
14
2
1
2
4
150
67
24
2
1
23
51
13
3
1
1
6
75
68
15
2
2
25
12
145
2
2
1
2
452
398
12
2
2
22
125
12
2
2
1
1
125
110
15
2
2
56
14
14
2
2
2
2
258
203
25
2
2
35
16
16
3
2
2
2
415
387
21
3
2
32
25
25
3
2
2
5
225
183
24
3
1
25
128
35
2
2
2
2
78
58
13
3
1
18
25
58
3
2
2
5
45
30
25
2
1
19
21
59
2
1
1
2
25
24
14
2
1
15
25
65
1
1
1
1
145
119
12
3
1
14
26
25
1
1
1
1
258
45
14
2
2
26
21
24
1
1
1
1
451
32
11
2
2
25
25
75
2
2
2
4
132
36
15
2
2
22
23
14
2
2
2
1
256
220
12
1
2
35
265
16
1
2
2
4
200
185
15
1
2
32
56
58
2
2
2
1
220
90
14
1
2
31
25
29
1
2
2
4
125
104
15
1
1
30
58
59
1
1
2
1
325
312
12
2
1
17
25
54
1
1
1
5
236
201
18
2
1
18
26
58
2
1
1
5
145
137
17
2
2
19
124
49
2
2
1
5
258
231
19
2
2
11
125
43
2
2
1
2
451
301
18
2
1
12
25
25
1
2
2
2
235
67
17
2
1
15
11
56
1
2
2
1
89
60
15
2
1
12
25
52
1
2
2
2
95
87
16
3
1
45
21
14
1
1
1
1
25
12
20
3
1
26
14
15
3
1
2
2
45
6
20
2
1
35
15
28
3
1
1
6
36
31
20
2
2
25
16
46
3
1
2
6
75
70
20
3
2
14
21
254
3
2
1
3
58
52
21
3
2
19
51
54
3
2
2
3
60
56
12
3
2
25
44
87
3
1
1
2
145
101
15
3
2
28
25
225
2
1
2
3
180
87
18
3
2
29
22
12
1
2
1
2
200
139
11
3
2
26
15
14
1
1
1
3
REGRESION Y MODELOS LINEALES JACMEN
070819
125
111
25
3
2
32
136
117
21
3
2
200
186
20
3
2
400
315
21
3
450
381
21
236
230
25
225
205
125 236
206
UNIVERSIDAD DEL TOLIMA 24
56
1
2
1
6
35
15
35
2
1
1
1
36
232
58
2
2
1
2
1
24
25
35
1
2
1
5
3
1
15
215
22
1
2
1
6
2
1
25
25
58
3
2
2
3
21
2
1
26
21
56
3
1
2
2
105
22
3
1
25
45
66
3
1
2
2
200
15
3
2
22
54
58
3
1
2
3
200
160
14
3
2
22
51
45
2
2
2
2
258
232
12
1
1
22
22
85
2
1
2
1
32
25
25
1
2
26
20
58
1
2
2
2
325
238
23
1
1
24
12
69
2
1
2
2
236
200
22
1
1
26
12
97
1
2
2
5
308
185
25
2
1
24
18
85
2
1
2
6
204
196
22
2
1
26
21
45
1
2
1
4
125
109
21
2
2
25
25
55
2
1
1
6
456
303
25
3
1
23
21
78
1
1
1
5
108
58
24
3
0
25
25
47
2
1
1
5
100
68
10
3
1
24
15
45
1
1
1
4
100
81
11
3
2
25
22
49
2
1
1
4
92
53
15
3
2
26
45
25
2
2
2
2
95
42
17
3
2
35
15
44
2
2
2
5
148
126
16
2
1
21
14
87
1
2
2
2
300
234
15
2
1
25
25
44
1
2
2
1
105
84
11
2
1
15
14
45
2
1
1
2
200
154
14
2
1
25
18
44
1
1
1
1
45
32
12
2
1
12
17
65
2
1
1
6
128
108
21
1
1
25
19
58
1
2
1
2
256
126
24
1
2
26
12
78
2
2
2
1
150
105
20
1
2
23
15
45
1
2
2
5
75
60
22
2
2
25
14
25
2
2
2
2
96
72
22
2
2
24
15
59
1
1
2
4
182
145
21
2
2
25
12
75
1
2
2
1
160
138
15
3
1
26
16
125
1
1
1
5
110
105
14
3
2
21
15
103
3
2
1
6