Regresión Lineal Y Múltiple.

  • Uploaded by: Luz Stella Vargas
  • 0
  • 0
  • March 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Regresión Lineal Y Múltiple. as PDF for free.

More details

  • Words: 55,420
  • Pages: 206
Loading documents preview...
UNIVERSIDAD DEL TOLIMA

Apuntes sobre

REGRESION Y MODELOS LINEALES CON UNA INTRODUCCIÓN A LOS DISEÑOS DE EXPERIMENTOS CLASICOS

JAIRO ALFONSO CLAVIJO MÉNDEZ

(DOCUMENTO EN PROCESO DE CREACION) Revisión: Agosto 7 de 2019

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

NOTAS DE CLASE

Por JAIRO ALFONSO CLAVIJO MENDEZ

(JACMEN) Profesor de Estadística en la Facultad de Ciencias de la Universidad del Tolima

IBAGUE, AGOSTO DE 2019

2

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

3

INTRODUCCION

La premura con la que debí asumir el curso de modelos lineales en la Carrera de Matemáticas con Enfasis en Estadística en la Universidad del Tolima, ante la ausencia del profesor que ostentaba esta cátedra, me obligó a desempolvar algunas notas que había escrito hace varios años sobre regresión lineal y que fueron usadas en unas jornadas promovidas por CEMFI, una organización estudiantil del antiguo programa de licenciatura en matemáticas y física (XI semana de Matemáticas y Física, 4 al 8 de Octubre de 1999). Acudí igualmente a unos escritos iniciados varios semestres atrás sobre modelos ANOVA, para formar con esos escritos una notas iniciales que me sirvieran como base para adelantar el curso de modelos lineales mencionado anteriormente. Estas notas fueron revisadas, actualizadas y complementadas con algunos ejemplos desarrollados con software más moderno. Específicamente R, SAS UNIVERSITY EDITION, Minitab, Infostat y Matlab. Es así como se logra este documento que ha servido de apoyo tanto a mí como a mis estudiantes en el studio de la asignatura. Los cálculos de los ejemplos en los documentos originales fueron hechos con los paquetes estadísticos que se mencionan a continuación: En primer lugar ESM-PLUS, un paquete de programas de computador desarrollado por el Autor y que hace algunos años se utilizó ampliamente en la Universidad del Tolima. En segundo lugar ASP (versión estudiantil), un programa que acompaña al texto de Mendenhall y Sincich, mencionado en la bibliografía y que podía ser usado por las personas que hubiesen adquirido dicho texto, lo que les otorgaba licencia de uso individual. En tercer lugar RELODI y RELOPO, dos programas elaborados por Luis Carlos Silva y Humberto Fariñas del Instituto Superior de Ciencias Médicas de la Habana (Cuba) y que, como en el caso anterior, se conseguían con la compra del texto, lo que otorgaba licencia de uso individual. Todos estos paquetes mencionados se ejecutan en ambiente DOS, una plataforma en desuso hoy en día. Por esta razón hubo necesidad de actualizar varios ejemplos y desarrollarlos con software ejecutable en la plataforma Windows de 64 bits. Este document consta de cuatro partes bien diferenciadas, a saber:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

4

1. Modelos de regresión lineal bajo el enfoque de mínimos cuadrados ordinaries. 2. Modelos de regresión bajo el enfoque de máxima verosimilitud. En particular, los modelos de regresión logística. 3. Bases fundamentales de los modelos de ANOVA. Esta unidad se complementa con un apéndice en el que se presentan de una manera muy sencilla los modelos más corrientes de Análisis de Varianza para diseño de experimentos. Este apéndice no forma parte del contenido programático de la asignatura. Sólo aparece aquí como tema complementario 4. Una presentación muy simplificada de los modelos lineales generalizados. Quiero manifestar mis agradecimientos al grupo de estudiantes del curso de modelos lineales, semestre A 2019, quienes muy diligentemente utilizaron el presente documento y ayudaron a su complementación, especialmente con la revision de algunas rutinas en R.

Jairo Alfonso Clavijo M Julio 9 de 2019

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

5

UNIDAD 1

GENERALIDADES En esta unidad se presentarán los conceptos básicos necesarios para una cabal comprensión de los métodos de regresión que se estudiarán en las unidades siguientes. Se llama experimento a cualquier acción tendiente a producir un resultado medible. Por ejemplo, lanzar un dado con el fin de observar el número que sale, o medir la cantidad de metal depositado en el cátodo durante 1 hora en una operación de galvanoplastia. Un experimento es aleatorio cuando no es posible predecir de antemano el resultado que se obtendrá. Por ejemplo, en el lanzamiento de un dado se sabe cuáles son los posibles resultados mas no el resultado específico que se obtendrá en el lanzamiento. En los experimentos de tipo estadístico (experiemntos aleatorios) se conoce por lo general el conjunto de posibles resultados, conjunto que recibe el nombre de conjunto muestral, y que denotaremos por  . Por ejemplo, en el lanzamiento de un dado se tiene  = {1,2,3,4,5,6} . Cada subconjunto de  se llama un evento. Llamaremos probabilidad o medida de probabilidad a cualquier función p : 2  →  que satisfaga las siguientes propiedades: 1. 2. 3.

p( A)  0

para todo A  





i =1

i =1

p( Ai ) =  p( Ai ) siempre que { Ai , i = 1,2,3,} sea una familia enumerable de eventos disjuntos. p () = 1

Evidentemente se cumple 0  p( A)  1 para cualquier evento A (En realidad la definición de probabilidad es algo más compleja: requiere de una  -ál gebra. Pero puede ser restringida a la  -álgebra 2  = () . Así se hace en el taller) Una variable aleatoria X es una función X :  →  que a cada subconjunto de  asigna un número real. Cada subconjunto de  se llama un evento. De esta manera las variables aleatorias asignan valores reales a los eventos resultantes de un experimento aleatorio. Las variables aleatorias pueden ser discretas o continuas, según que su imagen sea un conjunto enumerable o un continuo. En particular en este taller serán de

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

6

interés las variables aleatorias continuas y, en consecuencia, el resto de exposición se dedicará a este tipo de variables. Por un abuso de escritura, y con el fin de simplificar la notación, se usará la expresión X  a para indicar {w   / X ( w)  a} . Evidentemente este conjunto es un evento ya que es un subconjunto de  . Por tanto, este evento tendrá asociado un valor real en el intervalo [0,1], valor que será su probabilidad y que denotaremos por P( X  a)

FUNCIONES DE DISTRIBUCION Se dirá que una función F :  →  es una función de distribución si F satisface las condiciones siguientes: 1. F ( x)  0 para todo x   2. F es monótona 3. F es continua por la derecha lim F ( x) = 1 4. lim F ( x) = 0 y x →

x → −

Una manera particular de construir funciones de distribución es utilizar ciertas funciones especiales, llamadas funciones de densidad, que son funciones f :  →  que satisfacen las condiciones siguientes: f ( x)  0 para todo x  

1.



 f ( x)dx = 1

2.

−

se construyen las funciones de distribución a partir de las funciones de densidad x

mediante la expresión

F ( x) =

 f (t )dt

−

Diremos ahora que una variable aleatoria X tiene distribución de probabilidad F si para cada x   se cumple P( X  x) = F ( x) . Cuando F se define mediante una función de densidad, la expresión anterior se escribe x

P( X  x) =

 f (t )dt . Cuando

F sea la función de distribución de X, se escribirá

X

−

F y diremos que X se distribuye según F. Algunos ejemplos muy especiales de funciones de distribución se mencionan en seguida: 1. La distribución normal. Dadas cualquier constante  y cualquier constante positiva  la distribución normal de probabilidad se define mediante la función de densidad

REGRESION Y MODELOS LINEALES JACMEN

f (t ) =

070819

7

UNIVERSIDAD DEL TOLIMA

 1  t −  2 1 Exp -   2  2   

  

para t 

la gráfica de esta función, para cada par de valores  ,  , es una curva de Gauss y la probabilidad P( X  x) = F ( x) es simplemente el valor del área bajo la curva desde −  hasta el punto x (ver figura)

x

Afortunadamente no es necesario hacer un cálculo de la integral F ( x) =

 f (t )dt

para

−

cada valor de  y  debido a que esta integral siempre se puede transformar al caso particular en que  = 0 y  = 1 , llamado normal estándar, mediante el cambio de x− z= variable . Los valores de la integral de la normal estándar para  − 3.5  z  3.5 , de centésima en centésima, se encuentran tabulados (Tabla de la normal). Hoy en día las tablas han caído en desuso pues hay software que hace los cálculos con mucha más precision. Cuando una variable aleatoria X se distribuya normalmente con parámetros  y  , se escribirá X N(  ,  2 ) 2. Las distribuciónes t (de Student). Una familia de distribuciones de gran importancia está conformada por la sucesión de funciones {t n }nN donde cada función

t n se define como

REGRESION Y MODELOS LINEALES JACMEN

070819

8

UNIVERSIDAD DEL TOLIMA

 n +1   1 2  1 tn ( x ) =  n +1 n n    x2  2 2 1 +  n  

para n = 1, 2,3,



donde (u ) =  x u −1e −u du

para u  0 (función Gamma).

0

El índice n se conoce como Grados de Libertad (GL). Se puede demostrar (Cramer, 1968) que esta sucesión de funciones converge uniformemente a la normal estándar. 3. Las distribuciones Ji-cuadrado. Constituyen una sucesión de distribuciones de mucha importancia en estadística. Las correspondientes funciones de densidad son bastantes complejas (Cfr. Hogg y Tanis (1988), pag 270). Aunque están definidas para todo número real, su parte significativa (por ser mayor que 0) es el semieje positivo 4. Las distribuciones F de Fisher. Estas distribuciones constituyen otra familia infinita, dependiente de dos índices n, m, llamados grados de libertad del numerador y del denominador. Esto se debe a que, como se puede demostrar, si dos variables aleatorias U, V tienen distribuciones Ji-cuadrado con n y m grados de libertad U respectivamente, entonces la variable F = n tiene distribución F con n y m V m grados de libertad. Se pueden anotar sin demostración algunos resultados referentes a estas distribuciones:

N(0,1) entonces Z2

1.

Si Z

2.

Si X i

 n2 entonces

3.

Si X i

N(i ,  )

4.

Si U

 n2

Si U



5. 6.

Si X

X

i

2 i

2 n

i

entonces

12 (Ji cuadrado con 1 grado de libertad)  donde  =  ni

a X i

i

y Z

N(0,1) entonces

y



V

entonces U + V

2 m

tn entonces X

N( ai i ,  ai2 i2 ) , X i indeptes

2

F1,n

Z U n

tn



U 2 n+m

y

V

n m

Fn ,m

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

9

Dada una variable aleatoria X con función de densidad f , se define la esperanza de X 

como

E(X) =

 tf (t )dt

y la varianza de X como V( X ) = E(( X − E( X )) 2 ) . La

−

esperanza se denomina también media de X A manera de ejemplo, se puede anotar que si X~ N(  ,  ) entonces E(X) = µ y V(X) =  2 . Si X tiene distribución Ji-cuadrado con n − 1 grados de libertad entonces E(X) = n −1 POBLACIONES Y MUESTRAS – ESTIMACION Uno de los objetivos de la estadística es hacer inferencia de lo particular hacia lo general (al contrario de lo que hace la matemática). Este tipo de inferencia se conoce comúnmente con el nombre de “generalización”. La estadística examina unos pocos individuos y a partir de ellos saca conclusiones para todo un universo. Este tipo de inducción o generalización conlleva inevitablemente un error, pero este error puede ser medido o al menos controlado. Casi siempre lo que busca la estadística inferencial es estimar valores a los que no se tiene acceso directo y probar conjeturas acerca de tales valores que son desconocidos. La estimación y las pruebas de hipótesis son objetivos de la estadística que por lo general van juntos. Dada una variable aleatoria X se llama población (inducida por X) al conjunto de todos los valores que puede tomar X junto con su distribución. Es frecuente confundir la población con la variable aleatoria que le da origen. Dada una variable aleatoria X se define una muestra aleatoria de X de tamaño n a cualquier conjunto de variables aleatorias independientes, { X 1 , X 2 ,, X n } , tales que cada X i tiene exactamente la misma distribución de X. El conjunto formado por una realización concreta de cada X i es una muestra observada. Las muestras observadas son los datos con los que se hacen cálculos estadísticos. Con las muestras aleatorias la estadística construye estimadores que simplemente son funciones de las variables de la muestra las cuales proporcionan estimaciones de los parámetros poblacionales mediante valores particulares observados de tales variables. 1 n X =  X i es un estimador para  . Este estimador produce Por ejemplo: n i =1 diferentes estimaciones del parámetro  dependiendo de los valores particulares x1 , x2 , x3 ,, xn que tomen las variables X 1 , X 2 ,, X n en una muestra observada. Cada una de tales estimaciones está dado por

1 x =  xi . No debe confundirse la n

estimación con el estimador: aquella es un valor numérico mientras que éste es una variable aleatoria, por tanto, con una distribución, una media y una varianza. La raiz cuadrada positiva de la varianza de un estimador se llama error estándar del estimador.

REGRESION Y MODELOS LINEALES JACMEN

070819

10

UNIVERSIDAD DEL TOLIMA

~ Se dirá que un estimador ~ de un parámetro  es insesgado si E( ) = 

Resulta demasiado raro que una estimación coincida con el parámetro estimado. Aún más: aunque los dos coincidieran, nunca lo sabríamos ya que los parámetros son desconocidos. (Si no lo fueran no los estaríamos estimando!!). Por la anterior razón una sola estimación no puede considerarse como valor del parámetro. En consecuencia se hace necesario ampliar el concepto de estimación y construir el así llamado intervalo de confianza para el parámetro. Dado un valor pequeño  , (generalmente comprendido entre 0 y 0.1) se define el intervalo del 100(1 −  ) % de confianza para un parámetro  , como aquel intervalo centrado en la estimación de  , dentro del cual se encuentra el parámetro con probabilidad 1 −  . El cálculo del intervalo de confianza exige conocer la distribución del estimador lo cual no siempre es fácil. Sin embargo en los casos clásicos de regresión tales distribuciones son normales, como se verá en la próxima unidad. El intervalo del 100(1 −  ) % de confianza de un parámetro  cuyo estimador ~ es  insesgado, tiene distribución normal y del cual se conoce una estimación  , está dado por la siguiente expresión:

(ˆ − z



z

2

2

 ee( ), ˆ + z  ee( ) 2

)

donde ee( ) = V( )

denota el cuantil bajo la normal estándar tal que P( Z  z ) = 1 − 2

 2

. Usualmente

se hacen estimaciones al 95% de confianza, en tal caso z = 1.96 . 2

PRUEBAS DE HIPOTESIS El otro objetivo de la estadística inferencial tiene que ver con la prueba de hipótesis. Una hipótesis es una conjetura que se hace acerca de uno o más parámetros, de una distribución o de una propiedad estadística. Por ejemplo, se puede lanzar la conjetura de que una cierta media poblacional vale 30, o de que dos medias poblacionales son iguales, de que cierta variable tiene distribución normal, etc. La hipótesis que va a ser probada se llama hipótesis nula (H0) y se contrasta contra otra hipótesis que afirme lo contrario y que se conoce como hipótesis alterna (H1). Se utiliza una muestra aleatoria como elemento de respaldo ya que H0 se presume verdadera y se utiliza la información aportada por la muestra para tratar de negar tal presunción. Se rechaza la hipótesis nula cuando la información muestral la desvirtúe claramente. Por el contrario, si la información consignada en la muestra no es suficiente para declarar la falsedad de H0 no se puede rechazar esta hipótesis y, en consecuencia, seguirá siendo plausible su veracidad, mientras una prueba más potente no demuestra lo contrario.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

11

Puesto que nunca se sabe con certeza si H0 es verdadera o falsa, al hacer la prueba se pueden cometer dos errores, a saber: a) Que se rechace H0 y que ésta sea verdadera (error tipo I) y b) Que no se rechace H0 pero que ésta sea falsa (error tipo II). Se fija un valor máximo  de probabilidad para cometer error tipo I. Este valor se denomina nivel de significancia. Las pruebas estadísticas calculan un valor intrínseco de probabilidad para cometer error tipo I. Tal valor se denomina valor P. La probabilidad de cometer error tipo II se designa con  , su complemento 1 −  se llama potencia de la prueba ya que mide la capacidad de la prueba para detectar hipótesis falsas. Generalmente es el investigador quien decide de antemano cuál es el nivel máximo de riesgo que está dispuesto a correr para cometer error tipo I, es decir, el nivel de significancia de una prueba (con mucha frecuencia este nivel se fija en  = 0.05) y calcula el tamaño mínimo de muestra que necesita para poder garantizar una buena potencia (usualmente superior al 90%). Cuando el nivel de significancia de la prueba esté por debajo del nivel máximo de riesgo asumido, se rechaza la hipótesis nula. El nivel de significancia de la prueba es calculado por los programas de computador a partir de la distribución de los estadísticos involucrados en la misma.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

12

UNIDAD 2

REGRESION LINEAL SIMPLE Consideremos la situación en la que una variable X ha sido planeada para que tome ciertos valores y supongamos que Y representa una variable de respuesta cuyos valores dependen de los valores que tome X. Si los valores de Y dependen en forma lineal de los de X, entonces un cambio en X produce un cambio proporcional en Y. Más exactamente, entre Y y X existe una relación funcional del tipo Y =  0 + 1 X En la práctica una relación lineal entre las variables dependiente (Y) e independiente (X) se detecta por medio del diagrama de dispersión que se obtiene al graficar en un plano cartesiano los puntos ( xi , yi ) correspondientes a las observaciones de una muestra. Esto es así porque en tal caso los puntos resultantes muestran una tendencia rectilínea acentuada. Los coeficientes  0 y 1 son parámetros desconocidos que deben ser estimados con los valores de la muestra, de esta manera se tendrá un modelo estimado Y = b0 + b1 x cuyos coeficientes son estimaciones puntuale de  0 y 1 . Puesto que hay diferencias entre el modelo teórico y el modelo estimado, para cada observación se puede escribir Yi = b0 + b1 x +  i donde  i es una variable aleatoria que representa el error entre el valor estimado de la observación y el valor teórico. Este valor no es medible pero sí puede ser estimado por ei = yi − yi donde yi = b0 + b1 xi es el valor estimado de Yi y

y i es el correspondiente valor observado. Cada ei se llama un residuo. El objetivo inmediato que perseguimos es estimar los coeficientes  0 y 1 del modelo. En principio hay dos maneras de hacerlo: construyendo estimadores de máxima

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

13

verosimilitud o mediante el método de mínimos cuadrados. Esta última forma es la más frecuente y así lo haremos en este documento. Se trata de minimizar la suma de los errores elevados al cuadrado. Puesto que no se puede usar directamente los errores, usamos los residuos, así que se buscará que la n

expresión SCE =  ei2 tome un valor mínimo. i =1

Se tiene:

n

n

i =1

i =1

SCE =  (y i − yi ) 2 =  ( yi − b0 − b1 xi ) 2 = f (b0 , b1 )

De lo anterior, derivando parcialmente respecto a b0 y b1 , se obtiene: n f = −2 ( yi − b0 − b1 xi ) b0 i =1

y

f = −2 ( y i − b0 − b1 xi ) xi b1

igualando a 0 para minimizar y reordenando se obtiene el siguiente sistema de ecuaciones lineales:

nb0 + ( xi )b1 =  yi

( xi )b0 + ( xi2 )b1 =  xi yi sistema de ecuaciones con dos incógnitas, llamado de ecuaciones normales, cuya solución está dada por:

b1 = b0 =

n xi yi − ( xi )( yi ) n xi2 − ( xi ) 2

1 ( yi − b1  xi ) = y − b1 x n

expresiones que proporcionan estimaciones puntuales de 1 y  0 respectivamente.

EJEMPLO: Supóngase que en un experimento con ratones se ha experimentado con 5 animales a los que se aplican diferentes dosis de un medicamento. Se observa el número de pulsaciones por minuto durante una hora. Este valor comienza a descender hasta un valor mínimo a partir del cual tiende a normalizarse. La variable respuesta es el valor máximo de descenso del ritmo cardiaco durante el tiempo de observación. Se tiene la tabla siguiente:

REGRESION Y MODELOS LINEALES JACMEN

xi 0.5 1.0 1.5 2.0 2.5 7.5

070819

UNIVERSIDAD DEL TOLIMA

xi2 0.25 1.00 2.25 4.00 6.25 13.75

yi 5 8 12 13 16 54

14

xi yi 2.5 8.0 18.0 26.0 40.0 94.5

A partir de esta tabla se obtiene:

b1 =

x = 1.5

5  94.5 − 7.5  54 = 5.4 5 13.75 − (7.5)2

y = 10.8

b0 = 10.8 − 5.4 1.5 = 2.7

En consecuencia, la ecuación de la recta de regresión es: Dicho de otra manera:

y = 2.7 + 5.4 x

Descenso de ritmo = 2.7 + 5.4*Dosis

INFERENCIA EN EL MODELO DE REGRESION SIMPLE

Teniendo en cuenta que las X i son variables matemáticas y las Yi son variables aleatorias, podemos utilizar las ecuaciones vistas anteriormente para definir estimadores de 1 y  0 mediante:

B1 =

n xi Yi − ( xi )( Yi )

B0 =

n xi2 − ( xi ) 2

1 ( Yi − B1  xi ) n

Para obtener algunos resultados interesantes haremos un primer supuesto a saber:

Yi

N( 0 + 1 xi ,  i2 ) n

A partir de ésto se concluye que B1 =  ci Yi (una combinación lineal de variables i =1

aleatorias normales) y, por tanto, B1 tiene distribución normal. Además

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

15

n

E( B1 ) =  ci E (Yi ) =  ci (  0 +  1 xi ) =  0 ( ci ) +  1 ( ci xi ) i =1

=  1  ci xi =  1  (

xi − x ) xi =  1  ( xi − x ) 2

lo que nos dice que B1 es un estimador insesgado, cuya varianza vale:

V( B1 ) =  ci2 V(Yi ) =  ci2 i2 Aquí haremos un segundo supuesto: V(Yi ) =  i2 =  2 para todo i = 1,2,3,..., n Este supuesto es conocido como hipótesis de homocedasticidad. De acuerdo con lo anterior, se tiene:

V( B1 ) = 

2

c

2 i

=

2 n

 (x i =1

i

− x)2

  xi2  2  N  0 ,   n ( xi − x ) 2  

De igual manera puede probarse que B0

Con el fin de simplificar la notación en desarrollos subsecuentes utilizaremos las siguientes convenciones: n

S xy =  ( xi − x )( yi − y ) i =1 n

S xx =  ( xi − x ) 2 i =1 n

S yy =  ( yi − y ) 2 i =1

Se tiene ahora lo siguiente: SCE =

(y − b − b x ) = (y =  [( y − y ) − b ( x − x )] 2

i

0

1 i

i

− y + y − b0 − b1 xi ) 2

2

i

1

i

= S yy − 2b1 S xy + b1 S xx = S yy − b1 S xy De aquí se deduce que un estimador de SCE es

S YY − B1 S xY = S YY − B12 S xx =  (Yi − Y ) 2 − B12  ( xi − x ) 2

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

16

=  Yi 2 − nY 2 − B12 ( xi2 ) − nx 2 Al tomar la esperanza a ambos lados se obtiene:

E( SYY − B1 S xY ) = (n − 2) 2 de donde:

 S − B1S xY E  YY n−2 

 2  = 

En otras palabras: hemos encontrado un estimador insesgado de  2 , a saber:

SCE . n-2

Este valor se designa, como es usual, por S 2

Se puede probar que

SCE

2

= (n − 2)

S2

tiene distribución Ji-cuadrado con n − 2

2

grados de libertad y que es una variable independiente de B1 . De aquí se deduce que

( B1 −  1 )



B1 −  1 S S  S xx tiene distribución t con n − 2 grados de libertad lo que permite construir intervalos de confianza para  1 dados por: S xx

T1 =

b1  t n − 2,

2

=

S S xx

De una manera completamente similar se puede probar que B0 −  0 T0 = tiene distribución Ji-cuadrado con n − 2 grados de libertad y de xi2 S  nS xx aquí que los intervalos de confianza para  0 estén dados por

b0 tn − 2,

2

s2  1 x 2   +  n − 2  n Sxx 

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

17

Una vez estimado un modelo lineal de regresión viene una etapa de análisis para medir la bondad de dicha estimación. Si el modelo estimado no supera las pruebas se hace necesario volver a iniciar el proceso después de haber modificado el modelo o las variables. A continuación se expondrán los principales aspectos que deben ser examinados para juzgar la bondad de un modelo ya estimado. Las principales razones por las cuales un modelo puede no ser bueno son: a) De una parte, el modelo lineal no es el indicado o b) se está violando alguno(s) de los supuestos. El primer caso se examina mediante un análisis de varianza y el segundo mediante un conjunto de técnicas conocido como análisis de residuos. Veamos el primer caso: Puesto que S yy = b1 S xy + SCE se cumple:

(y

i

− y ) 2 =  ( yˆ i − y ) 2 +  ( yi − yˆ i ) 2

lo que comúnmente se expresa como SCT = SCR + SCE , es decir, la suma de cuadrados total es igual a la suma de cuadrados de la regresión más la suma de cuadrados del error. Se puede probar que

SCR



2

tiene distribución Ji-2 con 1 grado de libertad y que

tiene distribución Ji-2 con n − 2 grados de libertad. De aquí se concluye que

SCE

2 SCT

2 tiene distribución Ji-2 con n − 1 grados de libertad. Según esto, bajo el supuesto de que  1 = 0 (hipótesis nula), la variable SCR F=

1 SCE

2 =

2

SCR tiene distribución F1,n−2 S2

n−2

La falsedad de la hipótesis nula H 0 : 1 = 0 se traduce entonces en un cuantil grande bajo la F1,n−2 , o lo que es equivalente en un pequeño nivel de significancia intrínseca. Si no se puede rechazar H 0 : 1 = 0 , se concluye que el modelo lineal no está definido y, por tanto, que éste no es un modelo adecuado para ajustar los datos. El análisis de varianza suele resumirse en una tabla como la siguiente, con la cual se toma la decisión:

REGRESION Y MODELOS LINEALES JACMEN

070819

FUENTE SUMA DE GL VARIAC CUADRADOS Modelo SCR 1 Error SCE n−2 Total SCT n −1

CUADRADOS MEDIOS CMR = SCR/1 CME = SCE/( n − 2) -------------------

UNIVERSIDAD DEL TOLIMA

18

F VALOR CALCULADA P F = CMR/CME P -----------------------------

Se rechaza H 0 siempre que P sea pequeño (menor que  y usualmenyte  =0.05 ) En el modelo de regresión simple que estamos analizando, la tabla anterior es de poca utilidad. Realmente ella solo hace la prueba de la hipótesis H0 : 1 = 0 vs H1 : 1  0 Dicha hipótesis se rechaza cuando el valor F calculado con los datos es mayor que F1, n − 2,  , lo que equivale a decir que el intervalo de confianza para 1 contiene al 0. En los modelos de regresión múltiple que se verán más adelante la tabla ANOVA anterior tendrá un uso muy importante. Las hipótesis sobre la significancia de los coeficientes del modelo pueden probarse también mediante los correspondientes intervalos de confianza obtenidos al estimar estos coeficientes. Un coeficiente es significativo dentro del modelo si el correspondiente intervalo de confianza no contiene el valor 0. La mayoría de paquetes estadísticos producen un valor t y el correspondiente valor P con el cual se rechaza o no la hipótesis correspondiente: H1(i ) : i = 0 vs H1(i ) : i  0 para i = 0,1 EJEMPLO: para ser analizado en clase. Chatterjee y Hadi, proponen como ejemplo, los datos correspondientes a las alturas del hombre y la mujer en 96 matrimonios recién celebrados. Puesto que es costumbre muy arraigada que el hombre es quien elige a la mujer como esposa, es lícito pensar que X, la estatura de los hombres, sea la variable independiente o regresora y que Y, la estatura de las mujeres, sea la variable respuesta o dependiente. Los datos correspondientes en centímetros, se presentan en la table siguiente, y han sido dispuestos en un archivo ASCII como una matriz de 96 filas (cada pareja) y dos columnas. La primera columna corresponde a la altura de los hombres mientras que la segunda corresponde a la altura de las mujeres.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

19

El programa que presentamos a continuación, para ser ejecutado en FREEMAT o en MATLAB, ha sido diseñado para observer los cálculos de las diversas formulas vistas anteriormente. El puede ser adaptado para otros ejemplos si se hacen las modificaciones pertinentes como se indica al comienzo del programa. Se sugiere ejecutar el código por segmentos, tal como se indica en las líneas de parada, para poder discutir los resultados parciales que se van obteniendo. Creemos que de esta manera se interioriza más profundamente el sentido de la técnica que se está estudiando. Posteriormente puede usarse un paquete estadístico profesional para realizer los mismos cálculos de una manera más eficiente.

% MODELO DE REGRESION LINEAL SIMPLE - EJEMPLO DE CHATTERJEE % SOBRE MATRIMONIOS % (Programa para práctica en clase, desarrollado por Jairo A. Clavijo) % % Este programa tiene por objeto ilustrar los diferentes pasos para % la estimación de un modelo de regresión lineal simple. Está pensado % para ser ejecutado como ilustración en clase. % Los datos deben encontrarse en un archivo ASCII a dos columnas. La primera % de ellas corresponde a la variable independiente X, la segunda a la variable % de respuesta Y. % % Se recomienda tener el código en un editor de texto y ejecutarlo por % sesiones que pueden ser discutidas a medida que vayan apareciendo los

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

20

% correspondientes resultados. Para ello copie (CTRL C) el código que % aparece antes de cada aviso de =======PARADA======== y luego cópielo % (CTRL V) y ejecútelo dentro de FREEMAT (o MATLAB). clear %% ATENCION ENTRADA DE INFORMACION PARA OTROS EJEMPLOS: % EL SIGUIENTE VALOR DEBE SER MODIFICADO SEGUN EL NUMERO DE OBSERVACIONES: % Valor t para confianza del 95% con n-2 Grados de Libertad es: t = 1.986; % TAMBIEN SE DEBE MODIFICAR LA RUTA DE LECTURA DE DATOS: load c:\datos\hwdatos.txt w = hwdatos; %% INICIO DE CALCULOS: x = w(:,1); y = w(:,2); x2 = x.*x; xy = x.*y; mx = mean(x); my = mean(y); n = length(x); tabla = [x y x2 xy ]; suma = sum(tabla); tabla1 = [tabla;suma]; % Esta tabla podría suprimirse de la presentación. Puede ser larga. tabla1 % ====================PARADA========================== % Diagrama de dispersion valores observados: disp(' PUEDE OBSERVAR EL DIAGRAMA DE DISPERSION DE LOS DATOS') disp(' Este gráfico aparece en una ventana diferente!!!') plot(x,y,'*') % ====================PARADA========================== Sxx = sum((x-mx).*(x-mx)); Syy = sum((y-my).*(y-my)); Sxy = sum((x-mx).*(y-my)); b1= (n*sum(xy) - sum(x)*sum(y))/(n*sum(x2)-sum(x)^2); b0 = my - b1*mx; coef = [b0 b1]; % Estimación del coeficiente de correlación entre las variables: r = Sxy/sqrt(Sxx*Syy); ttr = r*sqrt(n-2)/sqrt(1-r^2) disp(' COEFICIENTES DEL MODELO:') disp(' Intersecto b0: Pendiente b1:') coef

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

corr = [r ttr]; disp('Correlación estimada: Valor t de prueba:') corr disp(' NOTA: se rechaza <> si valor t es mayor que:') t % ====================PARADA========================== % ESTIMACIONES: yes = b0 + b1*x; e = y-yes; yh = yes-my; SCR = sum(yh.*yh); SCE = sum(e.*e); SCT = SCE + SCR; CMR = SCR/1; CME = SCE/(n-2); CMT = SCT/(n-1); % Estimación de la varianza: s2 y del Coef de determinación R2: s2 = SCE/(n-2); R2 = 1-(SCE/Syy); vajus = [s2 R2]; disp('Varianza y Ajuste R2:) vajus disp(' PUEDE OBSERVAR RESIDUOS CONTRA VALORES ESTIMADOS') disp(' Este gráfico aparece en una ventana diferente!!!') % Diagrama de residuos contra valores estimados: plot(e,yes,'o') % ====================PARADA========================== % INTERVALOS DE CONFIANZA PARA COEFICIENTES: eb0 = t*sqrt(CME*(1/n + mx^2/Sxx)); eb0i = b0 - eb0; eb0s = b0 + eb0; ICb0 = [eb0i eb0s]; eb1 = t*(sqrt(s2/Sxx)); eb1i = b1 - eb1; eb1s = b1 + eb1; ICb1 = [eb1i eb1s]; disp(' Intervalos del 95% de confianza para los coeficentes del modelo:') disp ('Para intersecto:') ICb0 disp ('Para la pendiente:') ICb1 % ====================PARADA========================== % Tabla ANOVA: SC = [SCR SCE SCT]'; GL = [1 n-2 n-1]'; CM = [CMR CME CMT]';

21

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

22

aov = [SC GL CM]; F = CMR/CME VF = [F 1 n-2] disp(' TABLA DE ANALISIS DE VARIANZA:') aov disp('Valor del estadistico F y grados de libertad:') VF % ====================PARADA==========================

ANALISIS DE RESIDUOS Junto a las estimaciones e inferencias realizadas con el material anteriormente visto, se hace necesario juzgar la bondad del modelo, esto es, el cabal cumplimiento de los supuestos bajo los cuales se valida la teoría de la regresión. Estos análisis se realizan comunmente usando los residuos. Hay un conjunto de técnicas que se resumen en los siguientes párrafos.

El análisis de residuos permite verificar el cumplimiento de los siguientes supuestos básicos: 1. Los errores  i tienen media 0 2. Los errores  i tienen varianza constante,  2 (homocedasticidad) 3. Los errores  i no están correlacionados 4. Los errores  i no están autocorrelacionados 5. Los errores  i se distribuyen normalmente La verificación de los supuestos se hace mediante los residuos ei = yi − yˆ i o mediante los residuos estandarizados, dados por: di =

ei e = i CME S2

El análisis de residuos comprende la verificación de los siguientes puntos: • •

Los residuos tienen media cero y varianza constante. Si se emplea el método de mínimos cuadrados para estimar los coeficientes del modelo no es necesario verificar la nulidad de la media de los residuos. Los errores tienen distribución normal. La prueba puede realizarse mediante cualquiera de los tests de normalidad ya vistos (K-S, Geary, Shapiro, etc), aplicado a los residuos.

REGRESION Y MODELOS LINEALES JACMEN

• •

070819

23

UNIVERSIDAD DEL TOLIMA

Los residuos deben ser aleatorios. Esto puede ser probados mediante alguna de las pruebas de aleatoriedad (Rachas, Neuman, etc) Se debe realizar una gráfica de los valores xi contra los residuos ei . La presencia de tendencias y patrones curvilíneos en esta gráfica es síntoma de que la variable regresora (independiente), x , debe entrar en el modelo con una potencia diferente a 1. Esto nos puede llevar a modelos con más de una variable independiente.

Uno de los aspectos más difíciles de diagnosticar y remediar es la homocedasticidad (varianza constante) de los errores. Se han ideado numerosas pruebas pero casi todas ellas son aplicables únicamente en determinadas circunstancias particulares. Así, por ejemplo, se puede mencionar la prueba de Glejser. El método de diagnóstico más utilizado es un gráfico de dispersión de los residuos ei contra los valores estimados por el modelo, yˆ i . La presencia de tendencias o patrones no aleatorios en esta gráfica es síntoma de falta de homocedasticidad. La heterocedasticidad también puede ser detectada mediante otra prueba, conocida como test de Breusch – Pagan que se basa en la utilización de los cuadrados de los residuos para estimar la varianza del modelo. En efecto, puesto que la media de los residuos es cero, la media de sus cuadrados es una estimación de la varianza. Si esta media difiere significativamente de la varianza estimadamediante el cuadrado medio del error, se podría concluir que la varianza se relaciona de alguna manera con las variables regresoras del modelo lo que constituye una razón suficiente para la precencia de heterocedasticidad. Esta prueba está disponible en R. Una preocupación grande en un modelo no homocedástico es cómo remediar dicho problema. No hay sin embargo una receta única para hacerlo pues ello depende del tipo de heterocedasticidad presente. Se pueden ensayar transformaciones de variables, regresiones ponderadas por los inversos de las varianzas, etc. Otro problema grave en la determinación de un modelo de regresión es la presencia de autocorrelaciones en la variable independiente la cual se traduce en autocorrelaciones en los residuos. La prueba de Durbin y Watson ha sido propuesta para detectar autocorrelación de primer orden, es decir, para probar la hipótesis H0 : 1 = 0 versus

H1 : 1  0 en los residuos. La prueba de Box y Ljung, con muestras grandes, es también una buena herramienta para detectar autocorrelación de órdenes superiores. Cuando se detecte presencia de autocorrelación en los errores, el modelo lineal no es adecuado para realizar pronósticos, debiéndose entonces intentar una solución a través de métodos para datos autorregresivos, similares a las series de tiempo. La prueba de Durbin y Watson consiste en lo siguiente: se calcula el estadístico d (DW) n

dado por d =

 ( et − et −1 ) t =2

n

e t =2

2 t

n

2

. Si la correlación se estima por r =

e e t =2 n

t t −1

e t =2

entonces se

2 t −1

tiene la relación d = 2(1 − r ) lo que hace que d tome valores en el intervalo (0, 4).

REGRESION Y MODELOS LINEALES JACMEN

070819

24

UNIVERSIDAD DEL TOLIMA

Puesto que  es estimado por r se cumple que d = 2 cuando  = 0 y d = 0 cuando  = 1 . Durbin y Watson tabularon una serie de límites d L y dU (inferior y superior, respectivamente, ver anexo 3) con los cuales se realiza la prueba de la siguiente manera: Si d  d L rechace H0 . Si d  dU no rechace H0 . El test no es concluyente cuando

d L  d  dU . Rara vez sucede que haya autocorrelación negativa en los residuos. Si esto llegase a suceder, se tendría que d = 4 cuando  = −1 . Por esta razón, bastará construir unos límites simétricos dados por 4 − dU y 4 − d L respectivamente dentro de los cuales la prueba no es concluyente y los cuales muestran la presencia de correlación negativa si d  4 − dL Ante la presencia de autocorrelación de primer orden, es decir, cuando et =  et −1 + ut , se puede intentar remover la autocorrelación mediante una transformación propuesta por Cochran y Orcutt en 1949: consiste en reemplazar cada yi por yi −  yi −1 y cada xi por xi −  xi −1 antes de volver a realizar la estimación de los coeficientes. Dado que  n

es desconocido se emplea la siguiente estimación suya:  =

e e t =2 n

t t −1

 et2−1

. El nuevo modelo

t =2

* 0

produce ciertos parámetros estimados b

y

* 1

b

los cuales permiten encontrar

b0* y 1−  b1 = b1* . Se debe examinar el nuevo modelo y si aún persiste la correlación de primer orden se puede emplear el mismo procedimiento con el nuevo modelo.

estimaciones de los coeficientes para el modelo original, dados por

b0 =

Finalmente es necesario hacer un examen de observaciones influenciales (outliers, puntos de apalancamiento, etc) pues ellos pueden introducir serias perturbaciones en el modelo, hasta el punto de hacernos adoptar modelos inadecuados o de cambiar radicalmente las estimaciones de los parámetros. Las gráficas siguientes muestran dos tipos de puntos influenciales muy frecuentes:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

25

Puntos influenciales en un modelo de regresión

En el primer caso un punto demasiado alejado (outlier) de los puntos que marcan la tendencia produce una desviación de la recta de regresión con lo cual el modelo construído no logra buen ajuste de los datos y, por consiguiente, producirá pronósticos erróneos. En el segundo caso un punto aislado en cualquier dirección (apalancamiento o leverage) produce una falsa recta de regresión: se encuentra un modelo cuando realmente no hay ninguno. Esto puede llevar a falsa conclusiones. Existen herramientas para detectar puntos influenciales. Por ejemplo, para detectar outliers se pueden medir las magnitudes de los residuos. Los puntos atípicos generalmente presentan residuos demasiado grandes al ser comparados con los demás. Un criterio muy usado consiste en declarar como tales aquellos puntos cuyos residuos son mayores que 3 desviaciones estándar ( 3s ). Hay otros criterios que se presentarán en el próximo capítulo. Usualmente el software para cálculo de regresión trae programadas herramientas de detección de puntos influenciales. Cuando se haya logrado un buen modelo o un modelo aceptable para nuestras necesidades, éste puede ser utilizado para hacer pronósticos. Un pronóstico es un valor y 0 calculado con el modelo, para un valor x0 que no es observación. Cuanto más cerca de la media x se tome el valor de x0 , tanto más exacto será el pronóstico. Cuando un pronóstico se hace para valores de x0 que estén por fuera del rango de variación de x, se dice que es un pronóstico hacia el futuro. Un pronóstico está dado por y0 = b0 + b1 x0 con intervalo de confianza:

y 0  t n − 2, + S 2

1 ( x0 − x ) 2 + n S xx

Un pronóstico futuro está dado por la misma expresión, pero su intervalo de confianza está dado por:

REGRESION Y MODELOS LINEALES JACMEN

070819

y 0  t n −2, + S 1 + 2

UNIVERSIDAD DEL TOLIMA

26

1 ( x0 − x ) 2 + n S xx

EJERCICIO: Hacer un análisis lo más completo posible a los datos siguientes que definen un modelo de regresión lineal simple:

El siguiente código en R hace un recorrido por los principals aspectos del análisis de regresión sobre los datos presentados por Chatterjee sobre las alturas de los hombres y mujeres cuando se unen en parejas. Los datos se encuentran en el archivo HWdat.prn. Se supone que el hombre es quien elige a la mujer como pareja, así que la variable H (husband) es la independiente mientras que W (wife) es la dependiente. Los datos están descritos en las páginas 54 y ss de Chaterjee y Hani. #LECTURA DE LOS DATOS (a partir del archivo HWdatos.prn en C:\datos) setwd("c:/datos") datos = read.table('hwdatos.prn', header=T) datos ## EXTRACCION DE VARIABLES: x=datos$H y=datos$W plot(y~x,col="red",main="diagrama de dispersión Husban vs Women" ,xlab="Altura hombres cm",ylab="Altura Mujeres cm",type="p",lwd=3) #ajuste de la linea de regresión regresión <- lm(y~x,data=datos)

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

27

abline(regresión,lwd=3,col ="blue") ### Dibuja la línea de regresión summary(regresión) ## información sobre resultados ## Construye Intervalos de confianza del 90 y 95% confint(regresión,level=0.90) confint(regresión,level=0.95) ## Muestra la tabla de análisis de varianza anova(regresión) ## Prueba gráfica de homogeneidad: estimados contra residuos residuos = rstandard(regresión) valores.ajustados = fitted(regresión) plot(valores.ajustados, residuos,col="blue",pch=19,type="p") abline(h=0,col="red") library(lmtest) bptest(regresión) #prueba de homogeneidad ## Prueba gráfica QQ de normalidad qqnorm(residuos,col="blue") qqline(residuos,col="red",lwd=2) ## Prueba analítica de Shapiro para normalidad de residuos shapiro.test (residuos) #prueba de normalidad ## independencia ##Autocorrelación DURWIN WATSON de primer orden library(lmtest) dwtest(y~x, alternative = "two.sided", data = datos) ## Detección de puntos influenciales par(mfrow = c(2,2)) plot(regresión) ## predición para una secuencia de valores seq(160,190,by=10) x=data.frame(x=seq(160,190,by=10)) predict(regresión,x)

La tabla siguiente da los límites para la prueba de Durbin y Watson algunos tamaños de muestra y máximo 5 variables regresoras (independientes). Es claro, sin embargo, que la tabla no es necesaria cuando se usa software espacializado como R, pues estos paquetes hacen la prueba Durbin-Watson en forma automática arrojando el valor P, con el cual se toma una decisión frente a la hipótesis nula.

REGRESION Y MODELOS LINEALES JACMEN

070819

28

UNIVERSIDAD DEL TOLIMA

Límites de intervalos para prueba de Durbin y Watson (p= # de independientes) Nivel de significancia: 0.05

p=1

p=2

p=3

p=4

p=5

N

dL

dU

dL

dU

dL

dU

dL

dU

dL

dU

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100

1.08 1.10 1.13 1.16 1.18 1.20 1.22 1.24 1.26 1.27 1.29 1.30 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.43 1.44 --1.48 1.50 1.53 1.55 1.57 1.58 1.60 1.61 1.62 1.63 1.64 1.65

1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.45 1.46 1.47 1.48 1.48 1.49 1.50 1.50 1.51 1.51 1.52 1.52 1.53 1.54 1.54 1.54 --1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.69

0.95 0.98 1.02 1.05 1.08 1.10 1.13 1.15 1.17 1.19 1.21 1.22 1.24 1.26 1.27 1.28 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 --1.43 1.46 1.49 1.51 1.54 1.55 1.57 1.59 1.60 1.61 1.62 1.63

1.54 1.54 1.54 1.53 1.53 1.54 1.54 1.54 1.54 1.55 1.55 1.55 1.56 1.56 1.56 1.57 1.57 1.57 1.58 1.58 1.58 1.59 1.59 1.59 1.60 1.60 --1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.70 1.71 1.72

0.82 0.86 0.90 0.93 0.97 1.00 1.03 1.05 1.08 1.10 1.12 1.14 1.16 1.18 1.20 1.21 1.23 1.24 1.26 1.27 1.28 1.29 1.31 1.32 1.33 1.34 --1.38 1.42 1.45 1.48 1.50 1.52 1.54 1.56 1.57 1.59 1.60 1.61

1.75 1.73 1.71 1.69 1.68 1.68 1.67 1.66 1.66 1.66 1.66 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 --1.67 1.67 1.68 1.69 1.70 1.70 1.71 1.72 1.72 1.73 1.73 1.74

0.69 0.74 0.78 0.82 0.86 0.90 0.93 0.96 0.99 1.01 1.04 1.06 1.08 1.10 1.12 1.14 1.16 1.18 1.19 1.21 1.22 1.24 1.25 1.26 1.27 1.29 --1.34 1.38 1.41 1.44 1.47 1.49 1.51 1.53 1.55 1.57 1.58 1.59

1.97 1.93 1.90 1.87 1.85 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.76 1.75 1.74 1.74 1.74 1.73 1.73 1.73 1.73 1.73 1.72 1.72 1.72 1.72 --1.72 1.72 1.72 1.73 1.73 1.74 1.74 1.74 1.75 1.75 1.75 1.76

0.56 0.62 0.67 0.71 0.75 0.79 0.83 0.86 0.90 0.93 0.95 0.98 1.01 1.03 1.05 1.07 1.09 1.11 1.13 1.15 1.16 1.18 1.19 1.21 1.22 1.23 --1.29 1.34 1.38 1.41 1.44 1.46 1.49 1.51 1.52 1.54 1.56 1.57

2.21 2.15 2.10 2.06 2.02 1.99 1.96 1.94 1.92 1.90 1.89 1.88 1.86 1.85 1.84 1.83 1.83 1.82 1.81 1.81 1.80 1.80 1.80 1.79 1.79 1.79 --1.78 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78 1.78 1.78

A manera de Ejemplo, se presentará enseguida un caso de observaciones de ventas realizadas en un almacen durante 15 días de ejercicio. En este caso se tomó como variable independiente, X, el número de clientes que visitaron el almacén cada día y como variable dependiente Y el total de ganancias (en miles de pesos) realizadas en el almacén durante el mismo día. Una graficación de los valores de X e Y muestran una gran tendencia lineal. Esto respalda la hipótesis de que los valores de Y se encuentran

REGRESION Y MODELOS LINEALES JACMEN

070819

29

UNIVERSIDAD DEL TOLIMA

relacionados con los de X mediante una dependencia funcional de tipo lineal que debemos estimar. DATOS: Día #Visit Gananc

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

12

14

16

20

21

10

15

24

32

30

23

28

26

15

18

600

660

720

920

960

580

720

1050

1400

1320

1070

1240

1160

750

820

Usted puede adaptar el programa visto anteriormente para hacer el análisis. Solo es necesario crear un archivo con los datos y modificar la parte correspondiente a la ruta de lectura de dicho archive así como el valor t, correspondiente al nivel de confianza que usted escoja para las estimaciones y al tamaño de muestra n = 15 en este caso.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

30

UNIDAD 3

REGRESION MULTIPLE

Los modelos de regresión múltiple constituyen la más inmediata generalización del modelo lineal simple, visto en la unidad anterior. En este caso se tiene un conjunto de p variables planeadas (no aleatorias) X 1 , X 2 ,, X p , de cuyos valores depende la respuesta Y , ésta sí, variable aleatoria. El modelo teórico múltiple es de la forma Y =  0 + 1 X +  2 X 2 +  +  p X p donde los coeficientes  i (parámetros del modelo) son desconocidos y deben ser estimados. Suponiendo que se tienen n observaciones del modelo, cada una de ellas de la forma;

Yi = 0 + 1 X1i + 2 X1i +

+  p X pi +  i

en forma matricial se puede escribir:

 Y1  1 X 11  X p1   0    1          Y2  1 X 12  X p 2   1    2  +    =                   Y  1 X       X 1n pn   p   n   n o simplemente: Y = Xβ + ε donde X es una matriz n  k con k = p + 1 En lo sucesivo Y, X,β,ε, y sus transpuestas, denotarán matrices. Se hacen los siguientes supuestos: 1. E(ε ') = E(1 ,  2 ,

,  n ) = (0,0,

2. E(εε ') =  I n 3. Cov(ε, X) = 0 4. Rango( X) = p

Homocedasticidad y no-correlación de errores Errores independientes de los predictores No colinealidad

2

,0)

REGRESION Y MODELOS LINEALES JACMEN

070819

31

UNIVERSIDAD DEL TOLIMA

Si se cumplen todos los supuestos anteriores los estimadores son insesgados y eficientes.

B = ( B0 , B1 , , Bp ) ' el vector de estimadores de β . A partir de SCE = ε ' ε = (Y − XB) '(Y − XB) se busca el “hiperplano” que mejor ajuste los puntos. Este será el que hace mínima la suma de cuadrados, SCE. Denotemos por

Mediante técnicas de minimización del cálculo se prueba que tal hiperplano queda determinado por las ecuaciones normales ( X'X)B = X'Y cuya solución está dada por

B = (X'X)−1 (X'Y) siempre que X'X sea invertible (no singular). Se cumplen varias propiedades. Entre ellas las siguientes: 1. B es estimador insesgado de β. Es decir : E( Bi ) = i

para todo i = 1, 2,3,

,p

En efecto: E(B) = (X'X)−1[(X 'E(Y)] = (X'X)−1 (X '(Xβ) = ( X'X) −1 ( X ' X)β = β 2. V(B)=(X'X)−1 2 . De donde V(Bi ) = cii 2 con cii el i-ésimo elemento diagonal de (X'X)−1 Además: Cov ( Bi , B j ) = cij  2 3. B ~ Nk (β,  2 ( X'X) −1 ) SCE 4. S 2 = es un estimador insesgado de  2 n−k De lo anterior se deduce que, si b = (b0 , b1 ,

ˆ es una estimación puntual de ,bp)' = B

β , el sustituir  2 por la estimación s 2 de S2 , los intervalos de confianza para los coeficientes del modelo están dados por bˆi tn −k , s cii de donde se pueden derivar 2

técnicas para determinar si cada coeficiente es significativamente diferente de cero o no.

Se puede probar que SCT = SCE + SCR

donde SCE ~  n2− k

y SCR ~  k2−1 y, de

aquí, que se pueda construir la tabla de análisis de varianza con el fin de probar la conveniencia del modelo lineal, mediante la hipótesis nula H0: 1 =  2 =  =  k = 0 (nótese cómo esta hipótesis (global) no incluye el coeficiente  0 ). Dicha tabla es: FUENTE Regresión (Entre) Error (Dentro) Total

SUMA CUADRAD GL CUADRADOS MEDIOS 2 SCR = B ' X'Y − nY k − 1 CMR = (B'X'Y − nY 2 ) / (k −1)

F CALC CMR F= CME SCE = Y'Y − B ' X'Y n − k CME = (Y'Y - B'X'Y) / (n − k ) -----SCT = Y'Y − nY 2

n −1

-------------------

------

REGRESION Y MODELOS LINEALES JACMEN

070819

32

UNIVERSIDAD DEL TOLIMA

El valor nY 2 que aparece en la tabla anterior se llama corrección por la media. El análisis de la bondad del modelo estimado se realiza con las mismas herramientas ya mencionadas en los modelos lineales simples. Sólo cuando un modelo estimado ha superado todas las pruebas y, por tanto, cuando estamos seguros de poseer un buen modelo de ajuste de los datos, sólo entonces tiene SCE sentido utilizar el coeficiente de determinación R 2 = 1 − como una medida del SCT porcentaje de variación explicada por el modelo. Aún así, tener el valor de R 2 como único criterio de la bondad de un modelo es peligroso ya que dicho coeficiente puede aparecer inflado, cuando hay presencia de variables extrañas. El análisis de los residuos de un modelo lineal involucra dos tipos de residuos como se verá a continuación: Una vez estimados los coeficientes del modelo, para cada i = 1, 2, , n se tendrá el valor estimado yˆi = b0 + b1 xi1 + b2 xi 2 + + bp xip . El vector de valores estimados será entonces ˆ = Xβ . Y La diferencia ei = yi − yˆi es el i-ésimo residuo. Denotaremos e = (e1 , e1 , vector de residuos. Resulta claro entonces que SCR = e'e y además que

, e1 ) ' al

ˆ = Y − Xβ = Y − X(X'X)−1 ( X'Y) = [I − X(X'X)−1 X']Y = [I − H]Y e = Y−Y siendo H = X(X'X)−1 X' = (hij ) p p . Esta matriz, denominada matriz HAT o matriz de proyección es simétrica e idempotente, es decir, matriz de proyección.

H2 = H ,

como sucede con toda

Es claro que e − E(e) = (I − H)(Y − Xβ) y de aquí V(e) = E ([e − E (e)][e − E (e)]') =

(I − H)E(ee')(I − H)' = (I − H)V(e)(I − H)' = (I − H)( 2I)(I − H)' = (I − H) 2 . De lo anterior se deduce que V(ei ) = 1 − hii , i = 1, 2,

,n

Igualmente puede verse que Cov(ei , e j ) = −hij

Los residuos vistos anteriormente son variables aleatorias con varianzas dadas por la fórmula anterior. En vista de ésto, podemos definir otros dos tipos de residuos de la siguiente manera: a. Residuos estandarizados: ri =

ei  1 − hii

REGRESION Y MODELOS LINEALES JACMEN

b. Residuos estudentizados:

070819

ri* =

 (i )

33

UNIVERSIDAD DEL TOLIMA

ei 1 − hii

(llamados también externamente

estandarizados) La varianza  (2i ) de la definición anterior corresponde a la varianza del modelo de regresión con una observación menos (observación borrada), resultante al eliminar la iésima observación del modelo original. Tanto  2 como  (2i ) son desconocidas pero S2 =

se estiman con los datos de acuerdo con

SCE n−k

y

S(2i ) =

SCE(i ) n − k −1

respectivamente.

(n − k ) s 2 − Una estimación de  (2i ) está dada por

s(2i ) =

ei2 1 − hii

n−k

(Draper & Smith, 3th

Edition, page 208)

Puntos Influenciales Los modelos de regresión pueden verse distorsionados por la acción de puntos que tienen un poder de influencia fuera del patrón común. Tales puntos influenciales pueden ser puntos atípicos (outliers) o puntos de apalancamiento con alto leverage. Un criterio empírico para determinar outliers es considerar como tales aquellos puntos que se encuentren a una distancia de más de 3s de la recta de regresión (Sincich). Otro criterio más técnico, muy utilizado para detectar valores atípicos, son las así llamadas distancias de Cook, definidas para cada observación por:

 hii  ri 2 hii ei2 Di = =  2 k 1 − hii (k + 1)CME  (1 − hii )  donde los valores hii , conocidos como leverages, corresponden a la diagonal de la matriz Hat y están dados por hii = xi ( X'X)−1 xi ' para i = 1, 2, , n donde xi es la iésima fila de la matriz de diseño. Se consideran como atípicos aquellos puntos para los que Di  1 . Otro criterio, propuesto por Welsch y Kuh, consiste en utilizar los así llamados DFIT, definidos como:

DFITi = ri*

hii 1 − hii

REGRESION Y MODELOS LINEALES JACMEN

070819

34

UNIVERSIDAD DEL TOLIMA

Se declaran como influenciales aquellos puntos para los cuales

DFITi  2

k n−k

Finalmente, otro criterio propuesto por Belsley, Kuh y Welsch (1980) para detectar observaciones influenciales determina como tales aquellas observaciones para las cuales se cumpla s(2i ) 1 k siendo Cov = 2 = Cov − 1  3  s 1 − hii n Con frecuencia se suele realizar una prueba basada en la distribución Fk +1, n−( k +1) : un

Di  Fk +1, n−( k +1) , 0.5 usualmente se toma como indicativo de que un punto es leverage.

Un problema que se puede presentar al estimar modelos lineales es la presencia de multicolinealidad, o alta correlación entre variables regresoras. Existen varias técnicas para detectar la multicolinealidad. Uno de ellos utiliza los factores de inflación de 1 varianza o VIF (dados por VIFj = ) que son los elementos de la diagonal de R −1 , 1 − R 2j siendo R la matriz de correlaciones de las variables independientes. Un VIF extremadamente alto indica colinealidad. En la práctica se assume que un VIF es alto cuando su valor es superior a 10. Otro procedimiento para detector variables redundantes, y por ende la presencia de multicolinealidad, es conocido como regla de Klein. Consiste en realizar un modelo lineal tomando cada variable regresora en función de las demás regresoras y examinar el valor del R 2j , j = 1, 2, , p . Si este valor es mayor que el R 2 del modelo original, se asume que hay multicolinealidad. EJEMPLO: Los datos siguientes (ChatIPs .txt) corresponden a mediciones hechas en una encuesta de Sicología Industrial a 30 empleados de oficina, en la que se evalúa la satisfacción en diferentes aspectos frente a los supervisores, en una corporación financiera. El problema está descrito en Chatterjee (Ejemplo 3.3). La última variable es la respuesta Y, las seis anteriores son regresoras. CFLTS PRIVI APRZJ ADEPO BDEPO AVCMT CLGEN

51 64 70 63 78 55 67 75 82 61

30 51 68 45 56 49 42 50 72 45

39 54 69 47 66 44 56 55 67 47

61 63 76 54 71 54 66 70 71 62

92 73 86 84 83 49 68 66 83 80

45 47 48 35 47 34 35 41 31 41

43 63 71 61 81 43 58 71 72 67

REGRESION Y MODELOS LINEALES JACMEN

53 60 62 83 77 90 85 60 70 58 40 61 66 37 54 77 75 57 85 82

53 47 57 83 54 50 64 65 46 68 33 52 52 42 42 66 58 44 71 39

58 39 42 45 72 72 69 75 57 54 34 62 50 58 48 63 74 45 71 59

58 59 55 59 79 60 79 55 75 64 43 66 63 50 66 88 80 51 77 64

67 74 63 77 77 54 79 80 85 78 64 80 80 57 75 76 78 83 74 78

34 41 25 35 46 36 63 60 46 52 33 41 37 49 33 72 49 38 55 39

070819

UNIVERSIDAD DEL TOLIMA

35

64 67 69 68 77 81 74 65 65 50 50 64 53 40 63 66 78 48 85 82

. El siguiente código en R permite realizar las estimaciones del modelo con los datos anteriores y aplicar la mayor parte de las herramientas descritas anteriormente para evaluar la bondad del modelo construido. # ESTIMACION DE UN MODELO DE REGRESION MULTIPLE #LECTURA DE LOS DATOS (a partir del archivo ChatIPsR.txt en C:\datos) setwd("c:/datos") datos = read.table('chatipsr.txt', header=T) datos pairs(datos) ## presenta diagramas de dispersión entre regresoras cor(datos) ## presenta correlaciones entre regresoras ## Estimacioón del modelo de regresión regresión <- lm(CLGEN ~ CFLTS+PRIVI+APRZJ+ADEPO+BDEPO+AVCMT,data=datos) summary(regresión) ## Presentación de resultados ## Construye Intervalos de confianza del 90 y 95% confint(regresión,level=0.90) confint(regresión,level=0.95) ## Muestra la tabla de análisis de varianza anova(regresión) ## Prueba gráfica de homogeneidad: estimados contra residuos residuos = rstandard(regresión) valores.ajustados = fitted(regresión) plot(valores.ajustados, residuos,col="blue",pch=19,type="p") abline(h=0,col="red")

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

36

##prueba de homogeneidad library(lmtest) bptest(regresión) ## Prueba de normalidad realizada sobre los residuos: ## Prueba gráfica QQ de normalidad qqnorm(residuos,col="blue") qqline(residuos,col="red",lwd=2) ## Prueba analítica de Shapiro sobre los residuos shapiro.test (residuos) ## Prueba de independencia (No autocorrelación de primer orden) ## Estadístico de Durbin-Watson: library(lmtest) dwtest(CLGEN ~ CFLTS+PRIVI+APRZJ+ADEPO+BDEPO+AVCMT, alternative = "two.sided", data = datos) ## Detección de puntos influenciales par(mfrow = c(2,2)) ## pone los gráficos en la misma ventana (2 filas y 2 columnas) plot(regresión) ## Prueba DCook para valores atípicos ## Debe tener instalado el paquete car car::influencePlot(regresión) ## Cálculo de los VIF para detectar multicolinealidad: Vif(regresión)

MODELOS CON INTERACCION: Ocasionalmente un modelo lineal podría tener otros términos diferentes a los considerados en los ejemplos anteriores. Por ejemplo, un modelo que inicialmente se X1 , X 2 podría tener términos mixtos plantea como de dos variables regresoras (interacciones) y tal vez términos cuadráticos, lo que nos llevaría a modelos de la forma:

Y = 0 + 1 X1 +  2 X 2 + 3 X1 X 2 +  4 X12 + 5 X 22 Un modelo así planteado no difiere sustancialmente de los modelos ya vistos. Se trata simplemente de otro modelo lineal múltiple con 5 variables regresoras el cual se estima y se analiza como tal. Lo único necesario es tener una matriz de datos con 5 columnas, la tercera de ellas igual al producto término a término de las dos primeras, la cuarta con los cuadrados de los valores de la primera y la quinta con los cuadrados de los valores de la segunda o tener un software que sea capaz de incorporar las nuevas variables dentro del análisis.

REGRESION Y MODELOS LINEALES JACMEN

070819

37

UNIVERSIDAD DEL TOLIMA

EJEMPLO: Generalmente el costo del envío de paquetes a través de un servicio de encomiendas depende tanto del peso del paquete como de la distancia al sitio donde debe ser llevado el paquete. Estos valores por lo general se fijan arbitrariamente sin que se tenga una fórmula preestablecida para calcular el costo de envío. Una compañía dedicada al transporte de encomiendas hizo un experimento para determinar el tipo de relación existente entre las variables mencionadas y determinar cómo es la dependencia del Costo respecto al Peso (W) de los paquetes y la Distancia (D) a la que deben ser transportados. Se quizo, sin embargo, incluir en el modelo, además de las variables regresoras D y W, la posible interacción DW y los cuadrados, tanto del peso (W2) como de la distancia (D2) La siguiente matriz de datos incluye las 6 columnas W D WD donde W está en libras, D está en Millas, Y (el costo) en (dólares)

W2

D2

Y

En estos datos, la columna WD es el product de las columnas W y D. La columna W2 corresponde a los cuadrados de la columna W y D2 a los cuadrados de la columna D. Se puede realizar la estimación del modelo correspondiente, usando el programa en R visto anteriormente, en el que solo se cambia la parte correspondiente a la lectura de los datos y a la formulación del modelo, que tendría el siguiente aspecto:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

38

setwd("c:/datos") datos = read.table('ex44mend.prn', header=T) datos ## Estimacioón del modelo de regresión regresión <- lm(Costo ~ W + D + WD + W2 + D2,data=datos) summary(regresión) ## Presentación de resultados

Al ejecutar el Código en R se obtienen los siguientes resultados:

Lo que nos dice que el costo de envio realmente está dependiendo del peso de la encomienda, de una combinación entre peso y distancia y del peso al cuadrado. Dejamos al lector el análisis de otras condiciones respecto a la bondad del modelo estimado. El mismo resultado anterior se logra si ejecutamos el Código siguiente: setwd("c:/datos") datos = read.table('ex44mend2.txt', header=T) datos ## Estimacioón del modelo de regresión regresión <- lm(Costo ~ W + D + W:D + I(W^2) + I(D^2),data=datos) summary(regresión) ## Presentación de resultados

leyendo el archivo Ex44Mend2.txt que tiene únicamente las columnas correspondientes a las variables W D y Costo

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

39

Lo anterior nos dice que para indicar una interacción en R se deben usar dos puntos (:) entre las variables que interactúan y para incluir una variable a alguna potencia distinta de 1 debemos incluir la potencia correspondiente dentro de I( ). Esto es necesario pues el símbolo de potencia (^) tiene otras funciones dentro del modelo de regression de R.

EJERCICIO Los datos siguientes corresponden a mg de inmunoglobulina (IgG) en cl de sangre en función del máximo de oxígeno absorbido por Kg como una medida de aptitud aeróbica en una muestra de 30 personas.

Usted debe examinar el modelo de regression correspondiente para IgG como variable independiente, verificando el cumplimiento de supuestos para juzgar la bondad del modelo (normalidad, independencia, homocedasticidad, no presencia de valores atípicos o influenciales, significancia de los coeficientes, etc). Debe justificar la decisión de declarar como influential alguna observación e introducir correcciones hasta lograr un modelo acceptable. Finalmente determinar la ecuación de éste ultimo modelo e interpretar los resultados obtenidos.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

40

UNIDAD 4

ALGUNOS ASPECTOS ADICIONALES En esta unidad se mencionarán algunos aspectos relacionados con la regresión y que generalmente forman parte de temas más especializados. Por esta razón serán tratados con un estilo diferente, haciendo menos énfasis en la parte matemática y más bien insistiendo en la interpretación y aplicabilidad de los mismos. Trataremos en primer lugar algunos aspectos muy sencillos relacionados con la inclusión de variables categóricas en los modelos de regresión y en segundo lugar dos procedimientos de selección de variables para lograr modelos óptimos desde el punto de vista de la parsimonia. Los modelos vistos hasta el momento incluyen únicamente variables numéricas como variables independientes (regresoras) pero es válida la pregunta de si un modelo lineal puede incluir variables categóricas como variables regresoras. Por ejemplo, una de tales variables podría estar indicando el lugar donde se observaron las demás variables del modelo; digamos, por ejemplo: A=En clima frío, B=en clima templado y C=en clima cálido. Evidentemente el coeficiente  que acompañe a dicha variable en el modelo ya no puede ser interpretado como una constante por la que se ha de multiplicar la variable para medir su aporte al modelo. ¿ Cómo se interpreta entonces? Partamos de un ejemplo muy sencillo que nos permita introducir el tema. Supóngase que se tiene el modelo lineal Y =  0 + 1 X en el que X es una variable categórica con dos categorías 1=macho, 0=Hembra. Los códigos 1 y 0 son arbitrarios pero se convendrá en que estas variables dicotómicas se codifiquen siempre con 0 y 1, recibiendo entonces el nombre de variables dummy. Como en todos los modelos lineales, se busca estimar el valor promedio de la variable Y, es decir  Y . Aquí se observa claramente que la esperanza de Y está condicionada por los valores de X, así: E(Y | X =1 ) =  0 + 1 y E(Y | X =0 ) =  0 . En otras palabras:

 H = E(Y | X = H ) =  0 Lo anterior implica :  0 =  H

y

y

 M = E(Y | X = M ) =  0 + 1

1 =  M −  H

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

41

El anterior resultado tiene grandes implicaciones: de una parte ofrece una interpretación para los coeficientes del modelo en términos de los promedios teóricos de las categórías y de sus diferencias. Siempre  0 será el promedio de una categoría llamada categoría base o nivel base y  1 será la diferencia entre la media de la otra categoría y la media de la categoría base. De otra parte la significancia de los coeficientes del modelo permiten probar hipótesis acerca de las medias o de sus diferencias en las categórías. Por ejemplo, si  0 es significativamente diferente de 0, se concluye que el promedio de respuestas en el grupo de hembras es diferente de 0. Esta prueba se hace mediante el estadístico t correspondiente a  0 y su nivel de significancia. Análogamente si  1 no difiere significativamente de 0, se concluye que no existe diferencia significativa entre la respuesta media del grupo de machos y la respuesta media del grupo de hembras. Nuevamente la prueba se basa en el estadístico t correspondiente al coeficiente  1 . Consideremos ahora el caso de una variable categórica de tres niveles. Supóngase, por ejemplo, que X es una variable que representa el nivel socioeconómico del individuo que ha proporcionado la respuesta Y. Supongamos además que los niveles han sido codificados como A=Bajo, B=Medio y C=Alto. Se pueden introducir dos variables dummy definidas así:

1 Si estrato alto X1 =  0 Si no

1 Si estrato medio X2 =  0 Si no

utilizando las dos variables dummy, el modelo Y =  0 + 1 X

se transforma en el

nuevo modelo Y =  0 + 1 X 1 +  2 X 2 en el cual los coeficientes se interpretan así:

0 = E(Y | X =0, X 1

2 =0

) = A

(Nivel base)

 0 + 1 = E(Y | X 2 = 0) =  B  0 +  2 = E(Y | X 1 = 0) =  C

de donde 1 =  B −  A de donde  2 =  C −  A

Resulta claro que la anterior situación es perfectamente generalizable para cualquier número r de categorías y que serán necesarias r − 1 variables dummy para resolver el problema. Estos resultados son muy usados en el diseño de experimentos cuando se quieren comparar varios tratamientos con un testigo usando técnicas de modelos lineales en cambio de los análisis de varianza. Examinaremos ahora el siguiente ejemplo en el que el cobro de tarifas aéreas de transporte para 15 artículos (por kilogramo) dependen de la naturaleza de los artículos que han sido clasificados en una de tres categórias: Frágil, Semifrágil y Dura. En el archivo de datos se han incluído las dos variables dummy X1 y X2. (Ver tabla en la página siguiente)

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

42

La estimación del modelo se ha realizado con el programa ESM, ya mencionado anteriormente. Es buen ejercicio para el lector relizar la correspondiente estimación usando otro software, por ejemplo R o Infostat. Los resultados son los mismos y la interpretación de los resultados aparecen dos páginas más adelante

COSTO Kg 1720 1110 1200 1090 1380 650 1080 1150 700 850 210 130 340 750 200

NATURALEZA Frágil Frágil Frágil Frágil Frágil Semifrágil Semifrágil Semifrágil Semifrágil Semifrágil Duro Duro Duro Duro Duro

X1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0

X2 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0

A continuación pueden verse los resultados de la estimación del modelo correspondiente al ejemplo anterior: Modelo: 1.

Y = ß0 + ß1*X1 + ß2*X2 + á3*X3 + ... + ßk*Xk

ESTIMACION DE LOS COEFICIENTES DEL MODELO:

COEFICIENTES ESTIMADOS T( 12 GL) VAL P VARIABLE _______________________________________________________________________ ß 0 = 326.00000000 3.0318 0.01018 Intercepto ß 1 = 974.00000000 6.4051 0.00012 x1 ß 2 = 544.00000000 3.5774 0.00400 x2 _______________________________________________________________________ T = Estadístico para H0: ßi=0 H1: ßi <> 0 (Individualmente) 2.

INTERVALOS DE CONFIANZA DE 90, 95 Y 99% PARA LOS COEFICIENTES:

COEFICIENTE: 90% 95% 99%

[ [ [

COEFICIENTE: 90% 95% 99%

ß 0 :

[ [ [

ERROR ESTANDAR: 134.387348, 91.699232, -2.494193,

ß 1 :

ERROR ESTANDAR: 703.018789, 642.648676, 509.439057,

107.52674086 517.612652] 560.300768] 654.494193] 152.06577524 1244.981211] 1305.351324] 1438.560943]

REGRESION Y MODELOS LINEALES JACMEN COEFICIENTE:

ß 2 :

070819

ERROR ESTANDAR:

UNIVERSIDAD DEL TOLIMA

43

152.06577524

90% [ 273.018789, 814.981211] 95% [ 212.648676, 875.351324] 99% [ 79.439057, 1008.560943] ________________________________________________________________________ 3. TABLA ANOVA CORREGIDA POR LA MEDIA (No incluye Intercepto en H0) ________________________________________________________________________ FUENTE SUMA DE CUADRADOS GL CUADRADOS MEDIOS F Modelo 2382520.0000 2 1191260.000000 20.60647 Error 693720.0000 12 57810.000000 ***** Total 3076240.0000 14 219731.428571 ***** ------------------------------------------------------------------------F con 2 y 12 GL. Valor P: 0.000280 F = Estadístico para probar H0: ß1 = ß2 = ß3 = ... = ßk = 0

 A = 326 , valor Como puede apreciarse, la media del nivel base (duro) es significativamente mayor que cero. De igual manera,  B −  A  0 es decir,  B   A y también  C   A Se pueden considerar dos o más variables categóricas en un modelo lineal. El tratamiento es exactamente el mismo: transformar el modelo introduciendo variables dummy –una menos que el número de niveles de cada variable categórica. La introducción de dos variables categóricas equivale a un diseño bifactorial. Tres categóricas equivale a un diseño de tres factores, etc.

CONSTRUCCION DE UN MODELO OPTIMO El segundo tema que se tratará en esta unidad tiene que ver con las técnicas de selección de variables para encontrar un modelo parsimonioso. En primer lugar describiremos el método STEPWISE o método “paso a paso”, llamado así porque el modelo se conforma introduciendo una a una las variables de mejor desempeño o retirando la de peor desempeño hasta cuando la medida de bondad del modelo deje de cambiar. Aunque existen variantes del método, en la mayoría de los casos se sigue el siguiente procedimiento (al menos éste es el que siguen los más importantes paquetes estadísticos que hacen regresión stepwise). En primer lugar se identifica la variable respuesta Y Luego se siguen los pasos siguientes: PASO 1. Se estiman todos los posibles modelos Y =  0 + 1 X i i = 1,2,…,p. Es decir, tomando una a una las p variables independientes. En cada caso se prueba la hipótesis H0:  1 = 0 contra la alteativa H1 : 1 0 . El parámetro significativamente distinto de cero que tenga el mayor valor t se declara como “el mejor” y la X i correspondiente a

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

44

dicho parámetro será la primera variable del modelo, notada X 1 (no necesariamente es la primera variable de la lista original). PASO 2. Se agregan una a una las p − 1 variables independientes restantes, para formar p − 1 modelos lineales de la forma Y =  0 + 1 X 1 +  2 X i y en cada uno de ellos se H0 :  2 = 0 contra H1 :  2  0 Nuevamente la variable prueba la hipótesis correspondiente al parámetro  2 de mayor valor t se retiene para el modelo. En este momento hay diferencias entre los paquetes. Los mejores paquetes vuelven a la variable X 1 y examinan el valor t. Si este valor ha dejado de ser significativo por estar por debajo de cierto nivel, digamos 0.5 (nivel de salida), remueven la variable X 1 del modelo y se reinicia una búsqueda entre las demás variables para introducir aquella que tenga un t mas significativo, comparado con un cierto nivel de entrada, digamos 0.5 Otros paquetes no hacen esto sino que simplemente van al paso 3. PASO 3. Se introducen una a una las p − 2 variables restantes para formar modelos lineales de tres variables independientes y se procede en general como en el paso anterior. Nuevamente puede haber o no una remoción de alguna de las variables previamente seleccionadas y su reemplazo por alguna de las otras variables. El procedimiento continúa hasta que no se encuentren más variables con valores t no significativos, es decir hasta que según los criterios de entrada y salida no haya más movimientos de variables en el modelo.

A manera de ejemplo, examinaremos el siguiente archivo de datos, usando ASP (versión estudiantil), un pequeño pero potente programa estadístico que se consigue con el texto de Mendenhall y Sincich (b), citado en la bibliografía (recomendable para estudiantes que prefieran textos en castellano) El número de horas-día que los trabajadores de un gran almacén laboran usualmente depende de varias variables, entre ellas: X1 = número de piezas de correo procesadas (abiertas, ordenadas, respondidas, etc) X2 = número de órdenes pagadas, certificadas, etc X3 = número de pagos por ventanilla o cajas X4 = número de transacciones de cambio procesadas X5 = número de cheques visados X6 = número de devoluciones atendidas Y = números de horas-día trabajadas en el almacén. Esta es la variable dependiente

Se toma la información correspondiente a 15 días y con ella se busca estimar un modelo lineal que describa la situación.

REGRESION Y MODELOS LINEALES JACMEN

Día Horas Tr 1 128.5 2 113.6 3 146.6 4 124.3 5 100.4 6 119.2 7 109.5 8 128.5 9 131.2 10 112.2 11 95.4 12 124.6 13 103.7 14 103.6 15 133.2

X1 7781 7004 7267 2129 4878 3999 11777 5764 7392 8100 4736 4337 3079 7273 4091

070819

X2 100 110 61 102 45 144 123 78 172 126 115 110 96 51 116

Utilizando un valor de 0.5 para valores de t 2 siguiente resumen del proceso:

45

UNIVERSIDAD DEL TOLIMA

X3 886 962 1342 1153 803 1127 627 748 876 685 436 899 570 826 1060

X4 235 388 398 457 577 345 326 161 219 287 235 127 180 118 206

X5 644 589 1081 891 537 563 402 495 823 555 456 573 428 463 961

X6 56 57 59 57 49 64 60 57 62 86 38 73 59 53 67

o F (es lo que pide ASP) se obtiene el

____________________________STUDENT_VERSION_OF_ASP_____________________________ FILE: WORK, NO. OF VARIABLES: 7, NO. OF CASES: 15 (MISS. CASES: 0) LABEL: Datos para aplicación Stepwise ________________________________________________________________________________ STEPWISE REGRESSION DEPENDENT VARIABLE: horas INDEPENDENT VARIABLES: 1. x1 2. x2 3. x3 4. x4 5. x5 6. x6 F TO ADD = 0.5, F TO DROP = 0.5, TOLERANCE = 1E-3 MODEL:

x5 x4 x3 x1 CNST

7. CNST

horas = 0.0380179x5 + -0.0380483x4 + 0.0278928x3 + 1.16654E-3x1 + 73.9816CNST

COEF. ----------0.0380179 -0.0380483 0.0278928 1.16654E-3 73.9816

SD. ER. --------0.0154859 0.0157585 0.013945 8.0316E-4 *********

t(10) ------2.455 2.41446 2.0002 1.45244 *******

P-VALUE PT. R SQ. --------- --------0.0339657 0.376054 0.0364048 0.368273 0.0733638 0.285755 0.177024 0.174208 ********* ********

R SQ. = 0.819972, ADJ. R SQ. = 0.747961, D. W. = 1.71477 SD. ER. EST. = 7.20644, F(4/10) = 11.3867 (P-VALUE = 9.64408E-4)

Como puede apreciarse, la primera variable en entrar al modelo fue X5, luego X4, X3, X1. No entraron en el modelo ni X2 ni X6. Se observa que la variable X1 no resulta significativa en este modelo lo que implica que seguramente hace falta una nueva estimación subiendo el valor para los criterios de entrada y salida.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

46

Existen otros procedimientos para seleccionar el mejor grupo de variables para un modelo lineal entre los cuales podemos citar el criterio C p , el criterio MSE o del R 2 ajustado. Mencionaremos únicamente el criterio PRESS, basado en el estadístico del mismo nombre, por ser uno de los más efectivos aunque exige numerosos cálculos, siendo, por tanto, realmente útil cuando se estudian modelos de pocas variables. Se define el estadístico PRESS (Prediction Sum of Squares) para un modelo lineal , mediante la expresión

y

2 i

− yˆ (i )

donde

yˆ ( i ) denota el valor estimado para la i-

ésima observación mediante el modelo obtenido con las n − 1 observaciones restantes al eliminar la i-ésima observación de la muestra. El procedimiento para aplicar el criterio PRESS es simple pero engorroso: estimar todos los modelos con una sola variable independiente, todos los modelos con dos variables independientes, todos los modelos con tres variables independientes, y así sucesivamente hasta llegar al modelo formado por las p variables independientes. En cada caso se calcula el estadístico PRESS del modelo correspondiente y finalmente se elige como mejor modelo aquel que tenga el menor valor PRESS. El PRESS también se puede calcularse de una manera más rápida mediante la  e  expression PRESS =   i  i =1  1 − hii  n

2

Los paquetes estadísticos más importantes ponen a disposición los dos métodos stepwise (paso a paso) mencionados anteriormente en sus dos versiones: Forward (partiendo del modelo sin variables y agregando en cada paso aquella variable que más aporte) y Backward (que parte del modelo completo y en cada paso elimina la variable que menos aporta)

Funciones linealizables Existen algunos modelos funcionales para describir curvas de ajuste que, aunque no presentan la forma de un modelo lineal, y = 0 + 1 x , mediante transformaciones de variables pueden ser llevados a esta forma y, en consecuencia, mediante una muestra observada podrían estimarse sus coeficientes. Algunos ejemplos de funciones linealizables son: 1. y =  x  que se transforma en Ln(y ) = Ln( ) +  Ln(x) al tomar logaritmos en ambos miembros. El modelo transformado puede escribirse como y* = 0 + 1 x* donde y* = Ln( y) , 0 = Ln( ) , 1 =  y x* = Ln( x) . 2. y =  Exp(  x) que se transforma en Ln( y ) = Ln( ) +  x

REGRESION Y MODELOS LINEALES JACMEN

070819

47

UNIVERSIDAD DEL TOLIMA

x 1 1 1 . Se cumple =  +    . En consecuencia, podría hacerse y* = y x+  y  x 1 y x* = con lo cual el modelo podría escribirse como y* =  +  x* x Exp( +  x) 4. y = . Esta función, de gran importancia estadística, se conoce como 1 + Exp( +  x) función logística y será estudiada en la unidad siguiente. Se puede tomar  y  * y* = Ln   con lo cual el modelo se transforma en y =  +  x  1− y  3. y =

EJEMPLO Los procesos de crecimiento o decrecimiento de poblaciones biológicas son ejemplos típicos de fenómenos que pueden ser descritos por el segundo modelo linealizable dado en la lista anterior. Los datos siguientes representan el número de bacterias sobrevivientes (en centenares) después de que han sido expuestas a rayos X de 200 kilovoltios durante 1 hora y media, haciendo el recuento de bacterias vivas periódicamente cada 6 minutos (Chatterjee, 1977)

Per Bac

1 355

2 211

3 197

4 166

5 142

6 106

7 104

8 60

9 56

10 38

11 36

12 32

13 21

14 19

15 15

Datos para el ejemplo

La gráfica siguiente, correspondiente a los datos anteriores, muestra una típica curva de crecimiento negativo de poblaciones que, en forma directa, no puede ser estimada mediante un modelo lineal. Nuestro objetivo es utilizar la muestra para estimar los coeficientes del modelo.

Diagrama de dispersión de datos (ESM v8)

REGRESION Y MODELOS LINEALES JACMEN

Si se supone el modelo

070819

y =  e1x se tendrá

48

UNIVERSIDAD DEL TOLIMA

y* = 0 + 1 x donde

y* = Ln( y) y

0 = Ln(  ) Si Se toman los logaritmos naturales de los valores de y y se grafican los nuevos valores se obtiene la gráfica siguiente que, como se ve, tiene mayor ajuste a una línea recta.

Diagrama de dispersión con los logaritmos de los datos (ESM v8)

La estimación de los coeficientes en este modelo produce los resultados siguientes, como puede comprobar el lector: 0 = 5.9732 , 1 = −0.2184 y el modelo satisface todos los supuestos. Se concluye entonces que Ln( y ) = 5.9732 − 0.2184 x . Puesto que  = Exp( 0 ) = e5.9732 = 392.76 , se tendrá y = 392.76e−0.2184 x ecuación para modelar el decrecimiento de la población de bacterias.

como

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

49

UNIDAD 5

REGRESION LOGISTICA Hasta el momento los modelos de regresión que hemos examinado se han caracterizado porque la variable de respuesta Y es de tipo mumérico con distribución normal y las variables independientes han sido numéricas o categóricas. Pretendemos ahora presenter otro tipo de modelos en los que algunos de los dos supuestos anteriores deja de cumplirse. En primera instancia estudiaremos algunos modelos en los que la variable de respuesta es una variable de tipo categórico. Son los modelos logísticos. Haremos en primer lugar una presentación de los modelos logísticos o de regresión logística, recurriendo a la presentación clásica en la que los coeficientes se estiman por métodos de máxima verosimilitud.

Inicialmente presentaremos el caso en que Y toma sólo dos valores que denotaremos por 0 y 1, es decir, Y es una variable dummy. Una primera observación que podemos hacer es que la normalidad de los errores ya no se cumple. Igualmente como se vió antes, la varianza del error es función de  , la probabilidad de que Y sea un éxito. En consecuencia, estos modelos deben ser tratados de una manera diferente.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

50

El modelo que inicialmente se trata es de la forma

E(Y ) = 0 + 1 X1 + 2 X 2 +

+ pX p

donde la respuesta Y toma los valores 0 o 1, y puede ser considerada como una variable aleatoria con distribución Bernoulli. En este caso se cumple que E(Y ) = g ( ) = 0 + 1 X1 + +  p X p para ciertos valores de las variables X i con

 = E(Y = 1) ,

Un modelo particular de regresión como el que se ha querido presentar anteriormente es aquel en el cual la función que representa la relación entre X y Y no es una línea recta sino una curva como la famosa curva en forma de “S” que describe el crecimiento de una población, llamada curva logística y que, sin pérdida de generalidad podemos considerar acotada por las rectas y = 0 y y = 1 . Esta curva fue inicialmente utilizada en análisis de sobrevivencia, razón por la cual sus valores son tomados entre 0 ex y 1. Dicha curva está relacionada con la distribución logística F ( x) = , x , 1 + ex ex , x  (Dudewicz y Mishra, p136) cuya función de densidad es f ( x) = 2 (1 + e x ) El modelo logístico para una única variable regresora tiene la forma: y=

Exp(  0 +  1 X 1 ) 1 + Exp(  0 +  1 )

En forma general, para varias variables independientes, el modelo logístico se define como E( y ) =

Exp(  0 +  1 X 1 +  2 X 2 +  +  p X p ) 1 + Exp(  0 +  1 X 1 +  2 X 2 +  +  p X p )

1 Si ocurre A donde y =  0 Si no ocurre A

E( y ) = P(ocurra A) =  es claro además que En este caso X 1 , X 2 ,, X p pueden ser variables numéricas o categóricas.

Se observa que el modelo logístico no es un modelo lineal en los parámetros  i y aunque estos valores podrían ser estimados por métodos de regresión no lineal –lo que exige sofisticados programas de computador- existen algunos métodos más sencillos para estimarlos.

REGRESION Y MODELOS LINEALES JACMEN

070819

51

UNIVERSIDAD DEL TOLIMA

La primera idea es utilizar mínimos cuadrados, como hacíamos anteriormente. Veamos: 1. Mínimos cuadrados mediante transformación. Puesto que

 = E( y ) =

Exp(0 + 1 X 1 +  2 X 2 + 1 + Exp(0 + 1 X 1 +  2 X 2 +

+ pX p) + pX p)

'

=

eβ X 1 + eβ X '

se concluye que



ln( ) =  0 + 1 X 1 +  2 X 2 + 1− 

+  p X p = eβ X '

Este último sí es un modelo lineal en el que la variable dependiente está dada por  ln( ) y se podría pensar en aplicar los métodos ya vistos para estimar los 1− coeficientes  i Puesto que y toma los valores 0 y 1 únicamente, se concluye que  = E( y ) = P( y = 1)  P(y = 1) De aquí que 1 −  = P( y = 0) . En consecuencia, = 1 −  P(y = 0)  La fracción es conocida con el nombre de odds, es decir, es una razón de 1− probabilidades que expresa la ventaja de la ocurrencia sobre la no-ocurrencia de A. El modelo transformado es entonces un modelo para el logaritmo natural de la odds, por tal razón se le da también el nombre de modelo log-odds. En la cultura sajona las odds tienen un interpretación usual como en la cultura latina la tienen los porcentajes. Por ejemplo, cuando afirmamos que un 75% de los pacientes que ingresasn con quemaduras a un hospital sobreviven, los anglosajones hablan de un odds de 3, pues para ellos es más usual 0.75/0.25 Un concepto importante a tener en cuenta en regresión logística es el de Riesgo relativo. Supóngase que P(E|A) denota el riesgo de que se produzca una enfermedad E cuando está presente la condición A. Si B es otra condición, de modo que P(E|B) es el riesgo de que se produzca la enfermedad estando presente B, el cociente P(E A ) RR = expresa el riesgo relativo de que se produzca la enfermedad E cuando P(E B) se está en la condición A respecto a cuando se está en la condición B. En otras palabras, dice cuánto más (o menos) probable es la enfermedad cuando se está en A que cuando se está en B. Un caso muy especial de riesgo relativo es aquel en el cual B es la condición complementaria de A y se denomina odds. En tal caso, RR indica la probabilidad de

REGRESION Y MODELOS LINEALES JACMEN

070819

52

UNIVERSIDAD DEL TOLIMA

que se produzca E habiendo estado en la condición A respecto a no haber estado en ella. Es decir, el odds representa cuánto más probable es que se produzca E cuando se ha estado en la condición A que cuando no se ha estado en ella. Por ejemplo, cuánto más probable es sufrir cáncer cuando se ha sido sometido a rayos X en forma permanente que cuando no ha sido así. Este odds también se denomina riesgo relativo inherente al factor A. Así como el RR es la razón de dos probabilidades, puede definirse también la razón de dos odds, lo que comunmente se llama Odds’ ratio y que corresponde en esencia al mismo concepto de riesgo relativo. Se define la Odds’ ratio para el factor F como

P(E F) 1-P(E F) Odds ratio = P(E F ) 1-P(E F ) Donde F denota la no exposición a F (condición complementaria de F). Vimos antes cómo mediante una transformación, fue posible llevar el modelo logístico a un modelo de tipo lineal. Sin embargo, aunque se haya logrado transformar el modelo a un modelo lineal, existen aún dos problemas: De una parte, puesto que  es desconocido, también lo es el logaritmo de la odds y estos valores son necesarios para poder estimar el modelo (equivale a los valores de respuesta observados de los modelos corrientes). En consecuencia se hace necesario estimarlos. Un buen ˆ ) donde ˆ es la proporción de 1’s que se encuentren estimador es el valor ln( 1 − ˆ en la muestra para la combinación particular de X’s. Sin embargo, para poder obtener estas estimaciones se hace necesario tener varias observaciones replicadas para la misma combinación de los niveles de las X’s El segundo problema es la falta de homocedasticidad. El modelo transformado presenta varianzas que son inversamente proporcionales a  (1 −  ) y, puesto que  es función de las variables independientes, los errores del modelo son heterocedásticos. Con el fin de estabilizar la varianza se hace necesario usar regresión ponderada. Esta técnica, además de que exige también replicaciones para los mismos niveles de las variables independientes, demanda que tales replicaciones se den en número relativamente grande. Si se han utilizado n j replicaciones para cada combinaciones de niveles de las X’s, la ponderación indicada es donde

ˆ =

Número de 1' s para la j - ésima combinació n de X' s nj

w j = n jˆ (1 − ˆ )

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

53

Como consecuencia de lo anterior, se concluye que usar MCO no es realmente viable para estimar este tipo de modelos. 2. Estimación por máxima verosimilitud. Se basa en un método cuyos principios son los siguientes en líneas generales:

 i a la probabilidad en que se encuentre el i-ésimo individuo. Si yi = 1 entonces i = pi , por el contrario, yi = 0 implica i = 1 − pi . La probabilidad  i es función de pi y de yi , dada por i = piy (1 − pi )1− y . Si se define la función de verosimilitud V como el producto de los  i para toda la muestra, es decir: Llamemos

i

i

n

V =  piyi (1 − pi )1− yi i =1

V es una función acotada por 0 y 1 la cual, para valores fijos de y y de los X ' s , toma valores que dependen de los coeficientes  i . Se trata entonces de encontrar los valores de estos coeficientes que hagan que V esté lo más cerca posible de 1. Esto se logra maximizando el logaritmo de V que tiene la forma: n

L( yi , β) =  [ yi ln( pi ) + (1 − yi ) ln(1 − pi )] con pi = P(Y = yi xi ) i =1

Lo que se logra mediante métodos numéricos iterativos que buscan valores que hagan crecer el valor de V y que se detienen cuando el incremento de ese valor deje de ser perceptible, de acuerdo con algún valor pequeño que se ha prefijado. El algoritmo utilizado está fuera del alcance de estas notas y se basa en un método de Newton y Raphson para resolver ecuaciones no lineales (Agresti, 1990). Entre los resultado que arroja el proceso es bueno tener en cuenta la verosimilitud inicial V I y la verosimil itud final V F ya que las dos permiten definir el cociente de

V  R = −2 ln  I  = −2[ln(VI ) − ln(VF )] el cual tiene distribución Ji VF  cuadrado con p grados de libertad y sirve para evaluar si las p variables X i tomadas en conjunto, contribuyen efectivamente a explicar las modificaciones que se producen en P( y = 1) , la hipótesis nula afirma en este caso que las variables independientes no modifican la probabilidad de un resultado exitoso. verosimilitud

Se dijo anteriormente que los modelos logísticos pueden incluir variables categóricas dentro de las variables independientes. Esto es cierto siempre que se haga con precaución. Las variables dicotómicas puras (tipo SI-NO) deben entrar como variables dummy, es decir, deben tomar el valor 1 cuando ocurra la categoría A y el valor 0 en caso de que no ocurra. Una variable categórica pura con r categorías debe ser expresada mediante r − 1 variables dummy que reemplazan a la variable categórica

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

54

dentro del modelo. Para ello se debe seguir la la regla ya conocida, que resumimos en el siguiente procedimiento: Si X es variable categórica con r categorías codificadas con 1, 2, 3, ..., r tomemos r − 1 variables dummy Z 1 , Z 2 ,, Z r −1 definidas así: VARIABLE X 1 2 3 4  r

0 0 0 0  0

Z1 Z2 0 1 0 0  0

Z3 0 0 1 0  0

Z4 0 0 0 1 0

... Zr-1 ... 0 ... 0 ... 0 ... 0  ... 1

Supóngase, por ejemplo, que se tiene una variable categórica que representa el tipo de sangre, la cual se ha sustituído por tres variables dummy Z1, Z2, Z3, de acuerdo con lo siguiente: X = Tipo de Sangre O A B AB

Z1 0 1 0 0

Z2 0 0 1 0

Z3 0 0 0 1

Con frecuencia se toma la última categoría como la categoría base o de referencia, identificada solo con 0’s. Supóngase además que se ha incluído el factor RH el cual se ha codificado con 0 si es positivo y con 1 si es negativo. Admitamos que después de haber examinado 1094 sujetos se llega a unos resultados como los expresados en la siguiente tabla:

Enfermó (1) Grupo Sanguíneo RH Neg RH Pos (1) (0) O 50 60 A 200 30 B 150 60 AB 100 64

No Enfermó (0) RH Neg RH Pos (1) (0) 26 48 100 10 75 19 52 50

Imaginemos que se ha aplicado regresión logística a estos datos obteniendo las estimaciones de los coeficientes dadas en la tabla siguiente :

REGRESION Y MODELOS LINEALES JACMEN

Intercepto b0 = 0.374

Z1 b1 = 0.316

070819

UNIVERSIDAD DEL TOLIMA

Z2 b2 = 0.390

Z3 b3 = 0.070

55

RH b4 = 0.053

y, por tanto, el modelo:

Y = 0.374 + 0.316  Z1 + 0.390  Z2 + 0.070  Z3 + 0.053  RH Para un sujeto con RH negativo y sangre tipo B ( Z1 = 0, Z 2 = 1, Z3 = 0 ), la probabilidad de padecer la enfermedad,  = P(Y = 1) , satisfaría la ecuación:

  Ln   1− 

e  = 0.694  = 0.374 + 0.390 + 0.053 = 0.817 , y, por tanto,  = 1 + e0.817  0.817

mientras que para un individuo con sangre O+ tal probabilidad valdría 0.592 aprox.

Obsérvese que Exp(b4) = Exp(0.053) = 1.05. Esto significa que la razón de los odds asociados al factor RH vale 1.05 y se interpreta diciendo que tener factor RH negativo incrementa el riesgo de padecer la enfermedad en un 5% respecto de tenerlo positivo, independientemente del grupo sanguíneo. Esto es así, porque se está ante un caso en que todas las variables son iguales, excepto una, el RH. Aunque puede ser discutible, cuando la variable categórica independiente es una variable ordinal, sus categorías, ordenadas en forma creciente, pueden ser codificadas con los dígitos 1, 2, 3, ..., r, e ingresar al modelo como una variable única. Aunque, a veces, suele reemplazarse como en el caso anterior. Digamos finalmente que es posible tener modelos de regresión logística donde la variable dependiente Y sea una variable categórica con r categorías, codificadas con 1, 2, 3, ..., r. (Regresión logística politómica). También en este caso se hacen necesarias r − 1 variables dummy, W1 ,W2 , ,Wr −1 para reemplazar a la variable Y , y simplemente se estiman r − 1 modelos dicotómicos (es decir, con una variable respuesta de 0’s y 1’s), tomando cada vez una de las variable dummy de respuesta. Es decir, el primer modelo tendrá las variables W1 , X1 , X 2 , , X p , El segundo modelo las variables

W2 , X1 , X 2 ,

, X p , etc.

P(Y = 2) = P(W1 = 1) , P(Y = 3) = P(W2 = 1) ,…, P(Y = r ) = P(Wr −1 = 1) . Finalmente, P(Y=1) será el complemento de la suma de las probabilidades anteriores. Siguiendo

el

proceso

anterior,

se

concluye

que

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

56

Los programas RELODI y RELOPO permiten estimar modelos de regresión logística dicotómica y politómica respectivamente

El siguiente archivo de datos corresponde a la tabla anterior (grupos sanguíneos de 1094 sujetos) y tiene el formato apropiado para ser analizado con RELODI: 4,agrupados,enfer,z1,z2,z3,rh 1, 200, 1, 0, 0, 1 1, 30, 1, 0, 0, 0 0, 100, 1, 0, 0, 1 0, 10, 1, 0, 0, 0 1, 150, 0, 1, 0, 1 1, 60, 0, 1, 0, 0 0, 75, 0, 1, 0, 1 0, 19, 0, 1, 0, 0 1, 100, 0, 0, 1, 1 1, 64, 0, 0, 1, 0 0, 52, 0, 0, 1, 1 0, 50, 0, 0, 1, 0 1, 50, 0, 0, 0, 1 1, 60, 0, 0, 0, 0 0, 26, 0, 0, 0, 1 0, 48, 0, 0, 0, 0

Los resultados obtenidos pueden resumirse en lo siguiente:

-2 ln(Vi) = 1412.99 VARIABLE Cte Z1 Z2 Z3 RH

-2 ln(Vf) = 1406.11 COEFICIENTE ODDS’ RATIO 0.374409 ---0.316097 1.371764 0.389958 1.476919 0.070033 1.072544 0.053429 1.054882

El mismo ejemplo, para ser analizado en Infostat, adopta la forma

REGRESION Y MODELOS LINEALES JACMEN

070819

57

UNIVERSIDAD DEL TOLIMA

Tabla de Datos para ejemplo en Infostat

y proporciona las siguientes estimaciones:

Interpretación de resultados: Como se ve, las estimaciones de los coeficientes del modelo son las mismas. Infostat ˆ proporciona además las odds’ ratio (razones de odss) , ei , los intervalos de confianza

(

de Wald para las odds´ratio que están dados por e

ˆi − z /2 EE ( i )

ˆ

)

, e i + z /2 EE ( i ) , los

valores p para probar la significancias de los coeficientes y otros resultados cuyo significado, por ahora, no vamos a discutir.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

58

El ejemplo siguiente involucra variables regresoras numéricas. En tales casos es conveniente tener la tabla de datos completa con todos los n individuos de la muestra, aunque es claro que individuos con exactamente la misma información (aún la de las variables numéricas) podrían ser contados para formar una columna de frecuencias.

EJEMPLO Se tiene una muestra de 22 personas de dos etnias (1 = Afro, 0 = otro) con diferentes niveles de estudio (P = Primaria, S= Secundaria, U = Universitaria) y su edad en años cumplidos. Se considera como respuesta el estar desempleado o no ( 1 = Desempleado, 0 = empleado). La variable nivel de estudios se ha sustituído por dos variables dummy, Z1 , Z 2 , como se indica en el cuadro siguiente:_

Con lo cual el archivo de datos toma la forma siguiente:

En el análisis con Infostat no incluímos la última variable que ya ha sido reemplazada pr Z1 y Z2. Se obtienen las siguientes estimaciones para el modelo:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

59

el cual tiene la forma siguiente:

 p  ln   = −4.05 − 3.07  Etnia+0.89  Z1 − 0.04  Z 2 + 0.15  Edad 1 − p   Podemos averiguar, por ejemplo, cual es la probabilidad de que una persona Afro con 40 años de edad y nivel universitario de estudios, esté desempleada: Para esta perzona se tiene Z1 = Z 2 = 0 así que

 p  ln   = −0.45 − 0.07 + 0.15  40 = 5.48  1− p  de donde:

p=

e5.48 = 0.9958 1 + e5.48

MODELOS LOGISTICOS MULTINOMIALES O POLITÓMICOS

Supóngase que la variable de respuesta Y tiene k categorías y tomemos como categoría de referencia la última de ellas (igual es si se toma otra cualquiera). Por conveniencia, denotemos  0 la probabilidad de la categoría de referencia. Las probabilidades teóricas de las demás categorías serán:  i , i = 1, 2, , k −1 . Estos valores son realmente desconocidos pero sus estimaciones a partir de los datos pueden ser notadas como p1 , p2 , , pk −1 , p0 . Podemos entonces formular k − 1 modelos logísticos de la forma:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

 p1   = 10 + 11 X 1 + 12 X 2 +  p0 

1 = ln 

60

+ 1 p X p

 p2   =  20 +  21 X 1 +  22 X 2 +  p0 

 2 = ln 

+ 2 p X p

 pk −1   =  k −1,0 +  k −1,1 X 1 +  k −1,2 X 2 + p  0 

 k −1 = ln 

+  k −1 p X p

Todos ellos relacionados con la categoría de referencia, los que pueden ser estimados usando un algoritmo similar al ya mencionado en el aparte anterior, para lo cual se requiere software especializado. A partir de las estimaciones anteriores se obtiene:

p1 = p0e1 ,

p2 = p0e2 ,

pk −1 = p0ek −1

,

Puesto que las sumas de todas las k probabilidades de las categorías deben sumar 1, se deduce que

p0e1 + p0e2 + p0e3 + Esto es:

(

p0 e1 + e 2 + e3 +

+ p0ek −1 + p0 = 1

)

+ e k −1 + 1 = 1

De donde:

p0 =

1 1 + e + e + e3 + 1

2

 k −1

+e

=

1 k −1

1 +  Exp( i ) i =1

En resumen:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

61

En este caso la respuesta tiene tres valores categóricos: Aprobado, Aplazado y Rechazado. Definimos variables dummy de la siguiente manera:

De esta manera el archivo de datos del cuadro anterior tendrá el aspecto siguiente:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

62

Usando Minitab para estimar el modelo de regresión logística con tres categorías para Y siendo la tercera de ellas la categoría de referencia se obtiene: Regresión logística nominal: Y vs. PS; Z1; Z2; T1; T2 Información de respuesta Variable Y

Valor 3 2 1 Total

Conteo 195 354 177 726

(Evento de referencia)

Frecuencia: Freq Tabla de regresión logística (Tomando como referencia la tercera categoría)

Coef

SE Coef

Z

P

Relación de probabilidades

0.182563 -0.138976 0.430375 0.432446 0.0994148 0.375322

0.236446 0.179648 0.220545 0.226221 0.228792 0.229604

0.77 -0.77 1.95 1.91 0.43 1.63

0.440 0.439 0.051 0.056 0.664 0.102

0.87 1.54 1.54 1.10 1.46

0.335594

-5.00

0.000

Predictor

IC de 95% Inferior

0.61 1.00 0.99 0.71 0.93

Logit 1: (2/3) Constante PS Z1 Z2 T1 T2

Logit 2: (1/3) Constante

-1.67897

REGRESION Y MODELOS LINEALES JACMEN

PS Z1 Z2 T1 T2

0.541796 0.928240 1.55741 0.100743 0.599579

Predictor Logit 1: (2/3) Constante PS Z1 Z2 T1 T2 Logit 2: (1/3) Constante PS Z1 Z2 T1 T2

070819

0.217915 0.306604 0.297931 0.282930 0.274541

2.49 3.03 5.23 0.36 2.18

UNIVERSIDAD DEL TOLIMA

0.013 0.002 0.000 0.722 0.029

1.72 2.53 4.75 1.11 1.82

63 1.12 1.39 2.65 0.64 1.06

Superior 1.24 2.37 2.40 1.73 2.28 2.64 4.61 8.51 1.93 3.12

Log-verosimilitud = -732.736 Probar que todas las pendientes son cero: G = 55.362, GL = 10, valor P = 0.000 Pruebas de bondad del ajuste Método Pearson Desviación

Chi-cuadrada 24.3759 24.9795

GL 24 24

P 0.440 0.407

El mismo problema resuelto en SAS (SAS University Edition) con el siguiente procedimiento: data proyectos; input Y PS Z1 Z2 T1 T2 Cantidad; datalines; 1 1 1 0 1 0 12 1 1 1 0 0 1 21 1 1 1 0 0 0 6 1 1 0 1 1 0 16 1 1 0 1 0 1 32 … Más datos…. 3 0 0 0 0 1 9 3 0 0 0 0 0 10 ; title 'Regresión Logística Politómica)'; proc catmod data=proyectos; weight Cantidad; direct PS Z1 Z2 T1 T2; model Y=PS Z1 Z2 T1 T2 / freq covb corrb itprint design;

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

64

quit; run; Produce los siguientes resultados:

Lo que nos arroja las dos funciones siguientes: Función1: Logit(p1 ) = −1.6790 + 0.5418  PS + 0.9282  Z1 + 1.5574  Z2 + 0.1007  T1 + 0.5996  T2 Función2 : Logit(p2 ) = 0.1826 − 0.1390  PS + 0.4304  Z1 + 0.4324  Z2 + 0.0994  T1 + 0.3753  T2

El caso considerado de un proyecto sin proyección social, con estudio de impacto ambiental a largo plazo y con cofinanciación oficial, tendría, de acuerdo con las funciones anteriores, los siguientes valores esperados:

E1 = Exp(0.5209) = 1.6835

E2 = Exp(0.5724) = 1.7725

De donde:

p1 =

E1 1.6835 = = 0.3777 1 + E1 + E 2 1 + 1.6835 + 1.7725

p2 =

E2 1.7725 = = 0.3978 1 + E1 + E 2 1 + 1.6835 + 1.7725

p3 = 1 − ( p1 + p2 ) = 0.2245 Nótese que se ha tomado como categoría de referencia la tercera. El cuadro siguiente da información complementaria sobre las estimaciones del modelo:

REGRESION Y MODELOS LINEALES JACMEN

070819

65

UNIVERSIDAD DEL TOLIMA

OTRO EJEMPLO El siguiente programa SAS corresponde a información de 60 pacientes de diferentes edades y sexo que fueron tratados para dolores neurálgicos con tres tipos de medicamentos, A, B y P. En cada paciente se midió el tiempo que se sometió al tratamiento y la presencia o ausencia de dolor al final del tratamiento. Esta última se considera como variable de respuesta en función de las demás variables. Data Neuralgia; input Tratamiento $ Sexo $ Edad Duracion Dolor $ @@; datalines; P F 68

1

No

B

M

74 16

No

P

F

67

30

No

P M 66 26

Si

B

F

67 28

No

B

F

77

16

No

A F 71 12

No

B

F

72 50

No

B

F

76

9

Si

A M 71 17

Si

A

F

63 27

No

A

F

69

18

Si

B F 66 12

No

A

M

62 42

No

P

F

64

1

Si

A F 64 17

No

P

M

74

4

No

A

F

72

25

No

P M 70

Si

B

M

66 19

No

B

M

59

29

No

1

A F 64 30

No

A M

70 28

No

A

M

69

1

No

B F 78

1

No

P

M

83

1

Si

B

F

69

42

No

B M 75 30

Si

P

M

77 29

Si

P

F

79

20

Si

A

F

69 12

No

B

F

65

14

No

B

M

67 23

No

A

M

76

25

Si

F

69

24

No

A M 70

12 No

B M 70

1

No

P M 78

12

Si

B

M

77

P M 66

4

Si

P

F

65

29 No

P M

60

26

Si

A M 78

15

1

Si

B

SI

B

M

75

21

Si

A

F

67

11

No

P F

72 27 No

P

F

70

13

Si

A M

75

6

Si

B F

65

Si

P M

68

11

Si

P M P F

No

P

F

68

27

67 17

Si

B

M

70

22 No

A M

65

15 No

67

Si

A

M

67

10 No

P

F

72

11

Si

B

M

80

21

A

F

69

3

No

A F 74

7 1

1 No

Si

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

66

; proc logistic data=Neuralgia; class Tratamiento Sexo; model Dolor = Tratamiento Sexo Tratamiento*Sexo Edad Duracion / expb; run;

En este modelo estamos considerando la interacción entre Tratamiento y Sexo. Es decir, estamos estimando el modelo

Donde la variable de respuesta, Dolor, es una variable categórica dicotómica mientras que las variables independientes son unas categóricas y otras numéricas. La estimación correspondiente es la siguiente:

The LOGISTIC Procedure Model Information Data Set

WORK.NEURALGIA

Response Variable

Dolor

Number of Response Levels 2 Model

binary logit

Optimization Technique

Fisher's scoring

Number of Observations Read 60 Number of Observations Used 60 Response Profile Ordered Total Value Dolor Frequency 1 No

35

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Response Profile Ordered Total Value Dolor Frequency 2 Si

25

Probability modeled is Dolor='No'. Class Level Information Class

Value Design Variables

Tratamiento A

1

0

B

0

1

P

-1

-1

F

1

M

-1

Sexo

Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied.

Model Fit Statistics Criterion Intercept Only Intercept and Covariates AIC

83.503

64.596

SC

85.598

81.351

-2 Log L

81.503

48.596

Testing Global Null Hypothesis: BETA=0

67

REGRESION Y MODELOS LINEALES JACMEN

Test

070819

UNIVERSIDAD DEL TOLIMA

68

Chi-Square DF Pr > ChiSq

Likelihood Ratio

32.9074

7

<.0001

Score

25.6812

7

0.0006

Wald

14.2879

7

0.0463

Joint Tests

Effect

Wald DF Chi-Square Pr > ChiSq

Tratamiento

2

11.9886

0.0025

Sexo

1

5.3104

0.0212

Tratamiento*Sexo

2

0.1412

0.9318

Edad

1

7.2744

0.0070

Duracion

1

0.0247

0.8752

Note:Under full-rank parameterizations, Type 3 effect tests are replaced by joint tests. The joint test for an effect is a test that all the parameters associated with that effect are zero. Such joint tests might not be equivalent to Type 3 effect tests under GLM parameterization.

Analysis of Maximum Likelihood Estimates

Parameter

DF Estimate

Intercept

Standard Wald Error Chi-Square Pr > ChiSq Exp(Est)

1

19.2236

7.1315

7.2661

0.0070

2.232E8

Tratamiento

A

1

0.8483

0.5502

2.3773

0.1231

2.336

Tratamiento

B

1

1.4949

0.6622

5.0956

0.0240

4.459

Sexo

F

1

0.9173

0.3981

5.3104

0.0212

2.503

Tratamiento*Sexo A F

1

-0.2010

0.5568

0.1304

0.7180

0.818

Tratamiento*Sexo B F

1

0.0487

0.5563

0.0077

0.9302

1.050

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

69

Analysis of Maximum Likelihood Estimates

Parameter

Standard Wald Error Chi-Square Pr > ChiSq Exp(Est)

DF Estimate

Edad

1

-0.2688

0.0996

7.2744

0.0070

0.764

Duracion

1

0.00523

0.0333

0.0247

0.8752

1.005

Odds Ratio Estimates

Effect

95% Wald Point Estimate Confidence Limits

Edad

0.764

0.629

0.929

Duracion

1.005

0.942

1.073

Association of Predicted Probabilities and Observed Responses Percent Concordant

90.5 Somers' D

0.810

Percent Discordant

9.5 Gamma

0.810

Percent Tied

0.0 Tau-a

0.401

Pairs

875 C

0.905

EJERCICIO Propuesto por Javier Morales. Universidad Miguel Hernández de Elche.

La Kifosis es una enfermedad que se manifiesta en la deformación de las vertebras después de una intervención quirúrgica en las mismas. Los datos de la tabla siguiente corresponden a un estudio sobre 81 niños que han sido intervenidos quirúrgicamente en su columna vertebral. La primera variable. Kifosis, indica si el niño presenta o no Kifosis (1 = sí presenta, 0 = no presenta), Edad representa la edad en meses al momento de hacer la cirugía, Número representa el número de vertebras intervenidas durante la cirugía y finalmente VInicio representa la primera vertebra involucrada en la cirugía.

REGRESION Y MODELOS LINEALES JACMEN

070819

70

UNIVERSIDAD DEL TOLIMA

Se pide estimar el correspondiente modelo logístico e interpreter los resultados.

Cierre del capítulo Los modelos lineales estudiados hasta el momento se conocen como Modelos Lineales Clásicos y han sido investigados desde la época de Gauss. Tienen un atractivo especial debido a que los efectos son de tipo aditivo y, en general, son bien estimados por métodos basados en mínimos cuadrados ordinarios. Algunas complicaciones se analizan con métodos especiales como mínimos cuadrados ponderados o mediante transformaciones de linealización como se mencionó anteriormente. Algunos de estos modelos forman una clase aparte debido a que su matriz de diseño no es de rango complete, pero aún así, todos ellos, de una u otra forma, descansan en supuestos de normalidad para la variable respuesta. Excepción a esta regla la constituyen los modelos logísticos vistos anteriormente, que son resueltos expresamente usando logaritmos basados en la maximización de la verosimilitud. Un estudio más profundo de los modelos lineales generales require de conceptos propios de la estadística multivariada, particulamente de la distribución normal pvariada, dada por la función de densidad

f (x) =

1 (2 )

p 2

 1  Exp  − ( x - μ) ' Σ −1 ( x - μ)  , x   2  Σ

p

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

71

p Y de las propiedades métricas del espacio en particular de la distancia de Mahalanobis inducida por la forma cuadrática Q(x) = (x - μ) ' Σ−1 (x - μ) a partir de la cual se puede definer un product interior e introducer el concepto de ortogonalidad.

En las anteriores condiciones podría definirse un modelo lineal de acuerdo con lo siguiente: Si Y = (Y1 , Y2 ,

, Yp ) ' es tal que Y ~ N p (μ, Σ) , un modelo lineal general para Y es

un modelo en el que para la media μ se fija una hipótesis del tipo siendo 0 un subespacio lineal de conocidos a priori.

p

H0 : μ - μ0 0 ,

de dimension k y μ 0 un vector de valores

Bajo esta concepción, la matriz de diseño del modelo lineal general es el conjunto de vectores que generan el subespacio lineal 0 . Y la hipótesis que se considera es

H0 : μ - μ0 = Xβ con β 

k

. Como es de esperarse, la solución de un modelo lineal

depende de la solución de la ecuación: X ' Σ−1Y = X ' Σ−1 Xβ . (una ampliación de este tema puede verse en Madsen y Thyregod). La clasificación de los modelos depende de la matriz de diseño , X , o más exactamente de su rango. Cuando el rango es completo los modelos son de regresión y cuando el rango no es completo los diseños se denominan de análisis de varianza o diseños ANOVA. En estas notas haremos una breve introducción a los modelos ANOVA en el siguiente capítulo.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Capítulo II

MODELOS DE ANOVA

72

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

73

Unidad 6

Modelos de diseño Como se dijo antes, los modelos de diseño son modelos lineales en los que la matriz de diseño no es de rango completo. Esto nos lleva a considerar una teoría especial para este tipo de modelos. Los aspectos más relevantes para tales modelos se consignan a continuación.

Las estimaciones de los parámetros pueden lograrse mediante una expresión del tipo

β = ( X'X)G (X'Y) donde

( X'X)G es una inversa generalizada de X'X . El principal

inconveniente que presenta este tipo de estimación es la falta de unicidad para las soluciones. Sin embargo, dos soluciones cualesquiera producen la misma estimación (ejercicio). Por lo anterior, cualquier inversa generalizada puede ser usada. Si se utiliza software de cálculo como Matlab u Euler es conveniente usar la inversa de MoorePenrose, la cual se define de la siguiente manera: Si A es una matriz n  m de rango k , la inversa de Moore (1920)-Penrose (1955) es una matriz

M de orden

condiciones: 1. AMA = A 2. MAM = M 3. AM es simétrica 4. MA es simétrica

m  n y de rango k que satisface las siguientes cuatro

REGRESION Y MODELOS LINEALES JACMEN

070819

74

UNIVERSIDAD DEL TOLIMA

La inversa de Moore Penrose de una matriz A , a veces notada A + , siempre existe y es única pero su cálculo no es sencillo: se basa en la factorización

A = KL donde

K y L son matrices de rango columna y fila completos respectivamente. En tal caso

M = L'(K'AL')-1 K' . Tanto Matlab como Euler usan el comando pinv() para calcular la inversa de Moore-Penrose.

2 4 Ejemplo 1: Considérese A =  1  2

1 2 1 2

0 1  que es una matriz de rango 3. El comando 2  4

 −3.0 pinv(A) produce M =  7.0  −2.0

2.0 −0.2 −0.4  −4.0 0.4 0.8 como inversa de A 1.0 0.0 0.0 

m

Es de mucho interés estimar combinaciones lineales del tipo λ' β =  i i , razón por i =1

la cual se establece el siguiente: Teorema: La combinación lineal λ' β (denominada función paramétrica lineal o fpl) es estimable si y solamente si existe una solución para la ecuación (X'X)γ = λ .

Se establece igualmente que si

λ' β es estimable entonces γ 0' (X'Y) , donde γ 0 es

una solución de la ecuación planteada en el teorema, constituye la mejor estimación lineal insesgada (MELI) de λ' β .

Pueden formularse varios resultados importantes, a saber:

1. Si X es de rango k entonces existen exactamente k fpl independientes 2. Tanto Xβ como (X'X)β son estimables 3. Si λ1β, λ 2β,

, λ sβ son fpl estimables, entonces cualquier combinación lineal

de ellas es también estimable.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

75

4. La MELI de cualquier combinación lineal de fpl estimables es la combinación lineal análoga de las MELI de dichas funciones

siendo a , b , c , … el número de valores diferentes que pueden tomar cada una de las variables X1 , X 2 ,

, X m respectivamente. Esto es así porque una variable categórica

de q categorías puede ser sustituída por q variables categóricas dicotómicas (con valores 0 y 1) mediante el siguiente artificio (parecido pero diferente a lo visto en páginas anteriores): Si X es una variable categórica con con los valores 1, 2, 3, …, q i = 1, 2,

podemos definir

q categorías identificadas

1 Si X = i Xi =  0 Si X  i

para

,q

Ejemplo 2: Consideremos Y, variable aleatoria, como función lineal de una variable X, categórica, con tres categorías , identificadas con 1, 2 y 3. Podemos entonces definir tres variables categóricas dicotómicas X1 , X 2 , X 3 de la siguiente manera:

REGRESION Y MODELOS LINEALES JACMEN

1 Si X = 1 X1 =  ¨ 0 Si X  1

070819

UNIVERSIDAD DEL TOLIMA

1 Si X = 2 X2 =  0 Si X  2

y

76

1 Si X = 3 X3 =  0 Si X  3

De esta manera, una forma alternativa y más usual de escribir el modelo correspondiente, será:

Y =  + i + 

con i = 1, 2, 3

En la teoría del diseño, cada una de las categorías de las variables independientes se denomina un nivel y, con frecuencia, cada variable independiente se llama un factor.

Así, el ejemplo anterior corresponde a un diseño de un solo factor con tres niveles. En la teoría del diseño de experimentos denominaremos tratamiento a cada combinación de niveles de los factores. En los diseños unifactoriales al no existir combinaciones de niveles, éstos coinciden con los tratamientos.

En la práctica y con el fin de estudiar la variabilidad de las respuestas ya que Y es una variable aleatoria, se hace necesario observar varios valores de respuesta por cada tratamiento. Aparece así la idea de repetición o replicación de un experimento, concepto necesario para poder estimar varianzas y otros parámetros. Posteriormente ampliaremos este tema. Bástenos por ahora con lo dicho anteriormente, para presentar el siguiente ejemplo.

Ejemplo 3:

Consideremos el ejemplo 2, dado anteriormente y supóngase que la

respuesta fue observada dos veces en el nivel 1 de X, tres veces en el nivel 2 de X y tres veces en el nivel 3 de X. Mas aún, supóngase que los correspondientes valores observados de Y fueron: 3 y 5 en el nivel 1; 2, 4 y 3 en el nivel 2; en el nivel 3. Si escribir:

1, 3 y 2

yi j representa la j-ésima observación en el i-ésimo nivel, podremos

REGRESION Y MODELOS LINEALES JACMEN

070819

 y11   3  1  y   5  1  12      y21   2  1       y22  =  4  = 1  y23   3  1       y31  1  1  y   3  1  32      y33   2  1

1 1 0 0 0 0 0 0

UNIVERSIDAD DEL TOLIMA

0 0 1 1 1 0 0 0

77

0  11    0   12  0      21     0  1   22  + 0   2   23      1   3   31    1  32   1   33 

Esta expresión corresponde al siguiente esquema de diseño:

Nivel 1 3 5 --

Como puede observarse, la matriz

Nivel 2 2 4 3

Nivel 3 1 3 2

X es de rango 3 ya que la primera columna es la

suma de las otras tres que son linealmente independientes entre sí.

En este ejemplo se cumple:

8 2 X'X =  3  3

2 2 0 0

3 0 3 0

3 0  0  3

 23 8 X'Y =   9   6

Queremos saber, por ejemplo, si  −  2 es una función paramétrica lineal estimable o no. Como puede observarse  −  2 = (1, 0, −1, 0) ' β . En consecuencia, examinemos si ( X'X) γ = λ

el sistema de ecuaciones

escribir como

8 2  3  3

2 2 0 0

3 0 3 0

tiene solución o no. Este sistema se puede

3   1   1  0   2   0  = 0   3   −1     3   4   0 

de donde se deduce que es un sistema

incompatible, por tanto, sin solución. En consecuencia lector puede verificar que, por ejemplo,

1 − 3

 −  2 no es estimable. El

sí es una función paramétrica

REGRESION Y MODELOS LINEALES JACMEN

070819

78

UNIVERSIDAD DEL TOLIMA

estimable. Es más, puede verificar que el valor de la mejor estimación de dicha función paramétrica es 2.

¿podría el lector calcular tres funciones paramétricas lineales

independientes que existen en este caso?

Se puede probar que, en general, son estimables todas aquellas funciones que puedan escribirse como combinaciones lineales de las filas de Xβ

Por otra parte resulta de interés tener una expresión para estimar la varianza de una fpl ya que esto permite construir intervalos de confianza para ella. Se tiene: Cov(λ 1 ' β, λ 2 ' β) = E (λ 1 ' β - λ 1β)(λ 2 ' β - λ 2β) ' = E ( γ 1'X'Y - λ 1'β )( γ 2'X'Y - λ 2'β ) '

= E ( γ 1'Xε )( γ 2'Xε ) ' =  2 γ 1'(X'X)γ 2

La varianza se obtiene cuando λ1 = λ 2 = λ con lo cual se tendrá: Por

γ1 = γ 2 = γ , en consecuencia

V (λ'β) =  2 (λ'γ) siendo γ una solución del sistema antes mencionado.

ejemplo,

para

 = (0,1, 0, −1) '

 = (0,

tanto V( 1 − 3 ) =

el

caso

presentado

anteriormente,

se

obtiene

1 1 , 0, − ) ' (una de las infinitas soluciones posibles). Por 2 3

5 2  . Como 6

2 =

1 Y'(I − X( X'X)G X')Y , n−m

al utilizar los

6 5

y, por tanto,

valores observados de Y con n = 8 y m = 3, se obtiene:

2 =

V(1 − 3 ) = 1 (Los cálculos pueden verificarse con Matlab).

Reparametrización de un modelo de diseño Con el fin de transformar los modelos anteriores en otros de rango completo, en los cuales X'X sea invertible, se suelen hacer reparametrizaciones.

REGRESION Y MODELOS LINEALES JACMEN

Dado

070819

79

UNIVERSIDAD DEL TOLIMA

Y = βX + ε , por una reparametrización de este modelo se entenderá una

transformación α = Uβ del vector β donde cada elemento de α es una función lineal estimable.

Puesto que X'X es definida positiva de rango k existen matrices WF , WC de orden m  m (m en general es el número de tratamientos) tal que

B 0   0 0

( WF )( X'X ) WC = 

donde B es matriz cuadrada k  k de rango k. WF se puede particionar en la forma

WF = [ W | W1 ] =  W, W1  donde W , de orden m  k . De esta manera se tiene  W'  B 0   ( X'X )  W, W1  =   lo que produce: W'(X'X)W = B y W1'(X'X)W1 = 0  0 0  W1'  lo que implica en particular que W'X es de rango k y W1'X' = 0 . De aquí XW1 = 0 .

( )

El modelo Y = βX + ε puede ser escrito como Y = X  W* W*  hacer

(W )

* -1

U = U* =    U1 

Z = XW y

 β + ε y, entonces, al 

U Y = X  W, W1    β + ε , esto es:  U1 

se tendrá:

Y = ( XW ) (Uβ) + (XW1 ) ( U1β ) + ε , o lo que es igual: expresión se puede hacer

-1

α = Uβ

Y = ( XW )( Uβ ) + ε . En esta

con lo cual se obtiene el modelo

transformado o reparametrizado: Y = Zα + ε , completamente equivalente al original y donde Z es una matriz de orden n  k y de rango completo k. . Para estimar α o cualquier combinación lineal de sus componentes, pueden usarse las ecuaciones normales, dadas por: α = ( Z'Z )

-1

Nota: Puesto que existen muchas matrices

( Z'Y ) . W* que diagonalizan a X'X , existen

también muchas formas de reparametrizar un modelo pero cualesquiera dos de ellas producen la misma estimación de la fpl λ'β . Resulta entonces de interés seleccionar algunas reparametrizaciones que presentan propiedades especiales. Por ejemplo, son muy importantes aquellas en las cuales Z'Z es una matriz diagonal de rango completo,

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

80

llamadas reparametrizaciones ortogonales. Siempre es posible encontrar una reparametrización ortogonal pues bastará para ello tomar como W* la matriz ortogonal formada por los vectores propios unitarios correspondientes a los valores propios de

X'X . Ejemplo 4. Consideremos el modelo lineal yi j =  +  i +  i j con i = 1, 2 y j = 1, 2, 3 , el cual puede ser escrito matricialmente como:  y11  1  y  1  12    y  1 Y =  13  =   y21  1  y22  1     y23  1

1 1 1 0 0 0

0  11    0  12     0     13    1 +   = Xβ + ε 1     21   2  1     22     1   23 

Si se hace el usual y recomendado cambio de variable i =  +  i para i = 1, 2 , se

  1  1 1 0    obtiene α =   =    1  y, por tanto,  2  1 0 1     2

1 1 0  U=  . Para construir una 1 0 1 

matriz no singular U* , debemos construir U1 de modo que al agregarla a U se forme

U una matriz cuadrada   de rango completo. Hay muchas formas de hacerlo. Por  U1 

1 1 0  ejemplo, se puede tomar U1 = (0, 1, 1) , con lo cual U = 1 0 1  . De esta manera: 0 1 1  *

W =  W, W1  = ( U *

aquí:

)

* -1

 0.5 0.5 −0.5 =  0.5 −0.5 0.5   −0.5 0.5 0.5 

y entonces

 0.5 0.5 W =  0.5 −0.5 . De  −0.5 0.5

REGRESION Y MODELOS LINEALES JACMEN

1 1  1 Z = XW =  1 1  1

1 1 1 0 0 0

070819

0 1  1 0  0.5 0.5  0   1   0.5 −0.5 =  1 0  −0.5 0.5  0 1   1  0

81

UNIVERSIDAD DEL TOLIMA

0 0  0 3 0  . Además Z'Z =   , lo que nos dice 1 0 3 1  1 

que la reparametrización encontrada es ortogonal.

En este modelo, conocido como modelo W por la manera como ha sido

  reparametrizado, se tiene Y = Zα + ε con α =  1  y, por tanto,  2 

 3  −1   y1 j     3 0   j =1  −1  Y  α =  1 = = ( Z'Z )  1 •   3  2   0 3   y  Y2 •   2 j   j =1  Se puede probar que si Y = Zα + ε es una reparametrización ortogonal de Y = βX + ε entonces las componentes de α son incorrelacionadas y, por tanto, independientes.

Estimación de funciones paramétricas lineales Como se vió antes, la varianza de la fpl λ'β es  2 γ'λ . En la práctica resulta de interés no sólo estimar el valor puntual de una fpl

λ'β , - lo que se obtiene mediante la

expresión λ'β - sino construir un intervalo de confianza para dicha estimación. Bajo el supuesto de que el modelo cumple las condiciones de Gauss-Markov, un intervalo de confianza para la flp mencionada está dado por

λ'β − b(λ'β)  t ee(V(λ'β)) , donde

b(λ'β) es el sesgo del estimador y ee(V(λ'β)) es el error estándar del estimador de la

varianza de la fpl.. Se puede probar que cuando se cumplen las condiciones de GaussMarkov el estimador de λ'β es insesgado, eficiente, consistente, suficiente, completo y de mínima varianza. Además en tal caso β estimadores

de

β y 2

son

N(β,  2 ( X'X ) ) , razón por la cual los −1

independientes,

además

de

que

REGRESION Y MODELOS LINEALES JACMEN

(n − m)

S2



2

1

=

2

070819

(Y - Xβ) '(Y - Xβ) tiene distribución Ji-cuadrado con n − m grados de

libertad. Si se usa el modelo W para estimar los parámetros

i

82

UNIVERSIDAD DEL TOLIMA

 i , se sigue que

N(i , ci i 2 ) siendo ci i el i-ésimo elemento de la diagonal de ( Z'Z ) . En −1

consecuencia

i − i ci i S 2

t con  = n − k , donde k es el rango de X.

Pruebas de hipótesis sobre los parámetros de un modelo

Con mucha frecuencia en los procesos de investigación se plantean hipótesis sobre los parámetros de un modelo lineal y en particular sobre los parámetros de un modelo de diseño. Tales hipótesis pueden ser formuladas en general en términos de funciones paramétricas lineales. Puede afirmarse que las hipótesis de interés son en general del tipo Ho: λ'β = 0 donde  0

es una constante, fija y conocida. Si λ'β es una fpl

estimable se puede reparametrizar el modelo a uno de rango completo de la forma

Y = αZ + ε . En tal caso, si se hace 1 = λ'β y si Ho es verdadera se cumple que

( −  )  = 1 20

2

1 (λ'β - β 0 ) 2cii 2

es el parámetro de no

Podrían también formularse hipótesis del tipo 1 =  2 =

=  q con q  m las cuales

2

ci i S

F 1,  ,  donde

=

centralidad para la distribución F.

constituyen hipótesis muy frecuentes sobre los parámetros en los modelos de rango incompleto. Para hipótesis estimables (cfr Graybill 11.15), lo anterior equivale a probar que λ1'β = λ 2'β =

= λ r'β = 0 para ciertos vectores λ1 , λ 2 ,

, λ r y el procedimiento

de prueba puede resumirse en lo siguiente:

1. Obtener una solución cualquiera de la ecuación

(

)(

Q0 = Y - X'β ' Y - X'β

)

( X'X ) β = X'Y

y calcular

REGRESION Y MODELOS LINEALES JACMEN

070819

83

UNIVERSIDAD DEL TOLIMA

2. Obtener una solución de las ecuaciones normales reparametrizado bajo las condiciones  =   =

( Z'Z ) α = Z'Y

del modelo

= q .

3. Hacer ahora Q0 + Q1 = (Y - Zγ)'(Y - Zγ) . Se cumple  =

n − q Q1 r Q0

Fr , n−q, 

donde  es el parámetro de no centralidad para la distribución F. En particular las hipótesis del tipo H0 : λ'β = 0 donde las componentes del vector λ m

satisfacen

 i =1

i

= 0 , llamadas contrastes, son de utilidad y aplicación en el análisis de

los modelos de diseño. Es de gran interés estimar contrastes y probar la hipótesis de que un contraste λ'β = 0 . Usualmente esto se hace aplicando lo que se ha dicho en los párrafos anteriores. Es decir: estimando el contraste, estimando su varianza y construyendo intervalos de confianza centrados en la estimación puntual del contraste. Cuando un intervalo de confianza contiene al valor 0, se concluye que dicho contraste es igual a cero. Se pueden aplicar también los resultados anteriores ya que al suponer verdadera la hipótesis nula, la distribución del estadístico  es una F central. Más adelante se volverá sobre este tema.

Otros métodos de solución para modelos de diseño En la sección anterior se han presentados algunos resultados generales para estimar los coeficientes de un modelo lineal en general.

Dichos métodos son de naturaleza

universal y aplicables en cualquier situación. Sin embargo, en la práctica se utilizan otros métodos más específicos basados principalmente en la estimación por mínimos cuadrados (MCO). Bajo el supuesto de validez de las condiciones Gauss-Markov los métodos de mínimos cuadrados producen estimaciones equivalentes a las que se obtienen por métodos de máxima verosimilitud (MV). Esta es una de las razones por las cuales se hacen supuestos de normalidad, independencia en las observaciones y homocedasticidad (igual varianza) en los modelos de diseño.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

84

Como se dijo al comienzo de estas notas, suponer que un modelo de diseño se ajusta a los supuestos Gauss-Markov conduce a una teoría demasiado restrictiva que sólo produce soluciones para los relativamente escasos modelos que los satisfacen. Quisiéramos poder presentar una teoría más amplia que ofrezca soluciones para diseños más generales pero el tema resultaría tan amplio y complejo que nos pondría a nivel de un curso de profundización para maestría. Baste saber que en la actualidad la estadística investiga modelos muchos más generales, por ejemplo con distribuciones diferentes a la normal o incluso con funciones de varianza más generales que las que comúnmente se tratan en los libros corrientes de estadística.

Esta segunda unidad sigue los delineamientos tradicionales para el estudio de los modelos de diseño, a sabiendas de que la teoría aquí expuesta no puede resolver muchos problemas que se presentan en la vida diaria, pero resaltando - eso sí- que los métodos tradicionales de solución tienen una base teórica importante que los justifica. Por otra parte conviene advertir que la mayor parte del software existente para realizar el análisis de los diseños suponen en gran medida las condiciones de normalidad, independencia y homocedasticidad propias de los modelos ajustados a las hipótesis Gauss-Markov. Son muy pocos los paquetes estadísticos que enfrentan situaciones más generales como las que hemos mencionado. Entre ellos cabe destacar el paquete SAS, uno de las más potentes, completos y eficientes para el análisis de esos tipos de diseños.

Vimos en la unidad anterior cómo el uso de matrices inversas generalizadas pueden ayudar a encontrar una estimación de los coeficientes de un modelo aunque tienen el inconveniente de la falta de unicidad. Vimos también cómo puede usarse la inversa generalizada de Moore - Penrose –que sí es única- para obtener estimaciones. Sin embargo, al deseo de evitar engorrosos cálculos como los que trae el uso de tales matrices, queremos buscar otro tipo de soluciones que aunque no sean exactas sí sean lo suficientemente buenas para fines prácticos. Son soluciones aproximadas que aunque produzcan ligeros errores respecto de las soluciones teóricas ideales, tales errores puedan ser considerados como de poca magnitud frente al grado de aproximación que se logre.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Se dice que un sistema de ecuaciones lineales existe un vector

85

AX = Y es incompatible cuando no

X que lo satisfaga. Puede pensarse entonces en una solución

aproximada Y con la cual se logre una “buena” aproximación de utilidad práctica. Puesto que puede haber muchas soluciones aproximadas, un criterio muy extendido es considerar como mejor solución aproximada aquella solución Y = AX0 para la cual el vector de errores

e = Y - AX0 = Y - Y tenga longitud mínima. Es decir, aquella n

solución para la cual se cumpla que SCE = e =  ei 2 tiene un mínimo valor. Esta 2

i =1

solución –que siempre existe- se denomina solución de mínimos cuadrados y, al menos transitoriamente, se denominará

Ym c . Se puede probar que la solución de mínimos

cuadrados se obtiene mediante una matriz inversa generalizada A0 , llamada inversa de mínimos cuadrados (inversa MCO) que se caracteriza por cumplir las dos condiciones siguientes: 1. AA0 A = A 2.

( AA ) ' = AA 0

0

Una matriz inversa MCO puede construirse mediante la fórmula

A0 = (A'A)G A'

donde A G es una inversa condicional de A , es decir, A G es una matriz que satisface AAG A = A .

1

 2   y11  1  3   y  1 Ejemplo 5. Considérese el modelo Y =   =  12  =   5   y21  1       4   y22  1

1 1 0 0

0 11      0    12  1 + = Xβ + ε 1     21    2    1  21 

que no tiene solución ya que X no es de rango completo. Si usamos la inversa de Moore-Penrose para X , esto es:

REGRESION Y MODELOS LINEALES JACMEN

070819

86

UNIVERSIDAD DEL TOLIMA

1 1 1  14   1 6 6 6 6  6   + +   1 X = 1 −1 −1 se obtiene la estimación β p = X Y =  8  la cual 3 6 6  6  3 13  − 1  1 1 −1 6 3 3   6  6 

1 1 produce la solución aproximada YP =  1  1

1 1 0 0

0  14  3.66   6 0   8  3.66  = 1   6   4.50      1  13 6   4.50 

Si buscamos otra solución aproximada mediante la matriz MCO, (un poco traída por arte de magia, pero que ya pronto se sabrá cómo se logra):

0  0 X = 1  2 0 

1  2 2  1 −1 − 1  se obtiene la estimación 2 2 2 0 0 0   0

1

β mc

 9   2   − 4  , dada por:  2  0   

2  9  0 0.5 0.5     2  0 3 = X0 Y = 0.5 0.5 −0.5 −0.5   =  − 4  5  2   0 0 0 0     0    4  

estimación que produce la solución de mínimos cuadrados: Ymc = Xβ mc

 2.5  2.5 =   4.5    4.5

Para ver cuál de las dos soluciones anteriores es mejor, se pueden calcular las correspondientes

4 3 3  10 SCE, dadas por los residuos: e P = Y - YP =  − , − , , −  6 6 6  6

para el caso Penrose y cuales arrojan valores de

e mc

1  1 1 1 = Y - Ymc =  − , , , −  2  2 2 2

eP

2

= 3.72

A es de rango k, la matriz A G  ( A* )−1 0  *  obtenida del arreglo A =  11  0  0  

1

Si

y

e mc

2

'

para el caso MCO, las

= 1 , lo que permite asegurar que es

puede obtenerse

 A11   A21

'

arreglando en orden inverso la matriz

A12   de A , de modo que A 11 sea de orden k. A22 

REGRESION Y MODELOS LINEALES JACMEN

070819

87

UNIVERSIDAD DEL TOLIMA

mejor la solución dada por el método MCO que la obtenida por la inversa de Penrose. Se puede observar además que la solución dada por el método MCO produce errores cuyo promedio es cero, cosa que no ocurre con la otra solución.

Lo observado en el ejemplo anterior es cierto en general: las soluciones obtenidas mediante matrices MCO tienen la menor SCE siendo, por tanto, las mejores soluciones para el problema que se ha venido estudiando. Además el promedio de los errores de tales soluciones es cero. Resulta evidente que las soluciones MCO no son únicas pero cualesquiera dos de ellas producen siempre la misma estimación β mc . En razón a esto, optaremos por el método MCO como la herramienta usual para producir estimaciones del vector de parámetros, β mc , estimación que en general denotaremos simplemente por

β.

Un resultado adicional de gran importancia es que el vector de errores

e = emc es

ortogonal al espacio vectorial C( X) generado por las columnas de X . En otras se cumple A e = 0 , lo cual se comprueba

palabras, para todo vector

A  C( X)

simplemente

multiplicación

mediante

la

X'e = 0 . En nuestro ejemplo:

 −0.5 1 1 1 1    0  1 1 0 0   0.5  = 0     0.5    0 0 1 1    0   −0.5

4. Proyecciones ortogonales y sumas de cuadrados X es una matriz de orden n  p donde n es el número de observaciones y p el de variables del modelo. Podemos considerar los espacios vectoriales n y C( X) , este último, el espacio generado por las columnas de dimensión es menor o igual que

X , es un espacio vectorial cuya

p. Sus elementos son

n-uplas de n , por ser

combinaciones lineales de las columnas que a, a su vez, son n-uplas de reales. Es decir, se cumple que C( X) es un subespacio vectorial de n y, por tanto, C(X)  n .

REGRESION Y MODELOS LINEALES JACMEN

070819

88

UNIVERSIDAD DEL TOLIMA

Ahora bien, se puede considerar la suma directa n = C( X)  C( X)⊥ . Cualquier vector V de n

puede ser escrito como

V = T+S

donde

T ⊥ S , ( T  C( X)

y

S  C(X)⊥ ). Todo vector V de n puede ser proyectado sobre C( X) en una dirección paralela a

C( X)⊥ , la matriz que realiza esta operación es: P = X(X'X)G X' para cualquier Ginversa de

X'X . Es fácil ver que la matriz

P = X(X'X)G X'

es una matriz de

proyección ya que ella es idempotente. Además, sin importar cuál sea la inversa generalizada que se use, P siempre logrará el mismo objetivo. Se puede construir otra matriz de proyección Q dada por Q = In - P , la cual obviamente proyecta los vectores V de n sobre el espacio C( X)⊥ en la dirección de C( X) .

De acuerdo con lo anterior, si Y = βX + ε , se cumple Y = Xβ = X (X'X)G (X'Y)  =  X(X'X)G X' Y = PY

y ésta es la mejor estimación MCO debido a que P es una matriz simétrica.

De lo anterior también se deduce que

e = Y - Y = I n Y - PY = (I n - P)Y = QY

y, puesto que P y Q son matrices de proyecciones complementarias, se concluye que

Y y e son ortogonales entre sí. En otras palabras, se cumple Y e = 0 o, lo que es igual, PY ⊥ QY (ver figura):

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

89

La gráfica anterior , mediante la aplicación del teorema de Pitágoras, permite deducir que Y = PY + QY . Esto es: ( In Y ) '(I n Y) = ( PY ) ' ( PY ) + (QY) ' ( QY ) o bien: 2

2

2

Y'In Y = Y'PY + Y'QY La expresión anterior, que no es más que una versión del teorema de Pitágoras, se conoce como descomposición de las sumas de cuadrados. Ella establece una relación entre la suma de cuadrados de las observaciones (suma total de cuadrados) con la suma de cuadrados de valores estimados por el modelo (suma de cuadrados explicada por el modelo) y la suma de cuadrados de los residuos. Por esta razón se acostumbra a usar las siglas SCT, SCR y SCE, estableciendo entonces la expresión típica del análisis de varianza:

SCT = SCR + SCE Ejemplo 6:

Consideremos nuevamente los datos del ejemplo 5, correspondientes al

siguiente esquema de diseño:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Tratam 1

Tratam 2

2 3

5 4

90

2  3 El modelo correspondiente puede escribirse Y = Xβ + ε donde Y =   ,  =  1  ¨ y 5   2    4 1 1 X= 1  1

1 1 0 0

0  4 2 2 0  . Se tiene entonces: X'X =  2 2 0  que es una matriz de rango 2. 1  2 0 2   1

Aplicando lo dicho en el pie de la página 20 se obtiene la G-inversa

( X'X )

G

 0.5 −0.5 0.0  =  −0.5 1.0 0.0  ¨y, en consecuencia, las matrices de proyección P y Q  0.0 0.0 0.0 

está dada por:

 0.5  0.5 P = X(X'X)G X' =  0.0  0.0

0.5 0.5 0.0 0.0

0.0 0.0 0.5 0.5

0.0  0.0  0.5   0.5 

 0.5 −0.5 0.0 0.0   −0.5 0.5 0.0 0.0   Q=  0.0 0.0 0.5 −0.5     0.0 0.0 −0.5 0.5

 −2.5   2.5  = Y y la proyección de Y sobre La proyección de Y sobre C( X) será PY =   4.5    −4.5 

 −0.5  0.5 ⊥  =e C( X) es: QY =   0.5    −0.5

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

91

La tabla siguiente muestra tres maneras típicas de descomponer la suma total de cuadrados SCT:

PRIMERA FORMA

SEGUNDA FORMA

TERCERA FORMA

SCM = Y'P0 Y = n ( Y )

2

SCR = Y'PY

SCRm = Y'PY - SCM

SCRm = Y'PY - SCM

SCE = Y'QY

SCE = Y'QY

SCE = Y'QY

SCT = Y'In Y

SCT = Y'In Y

SCTm = Y'In Y - SCM

Diferentes maneras de descomponer la suma total de cuadrados

La expresión SCM se denomina corrección por la media y se incluye en los cálculos por razones teóricas. Se cumple en general

SCM =

1 (Y'P0 )(P0' Y) donde P0 es la n

submatriz de X correspondiente al parámetro  , es decir, la primera columna de unos.

La primera forma de descomponer la suma total de cuadrados, llamada descomposición no corregida por la media, corresponde a la fórmula vista anteriormente. La segunda forma de descomposición resalta el hecho de que se utilice la corrección por la media pero no es muy usual. La tercera forma de presentación es la más utilizada. Casi todo el software disponible para análisis de datos provenientes de diseños de experimentos presenta esta forma, llamada comúnmente descomposición corregida por la media. Todos los sumandos considerados en la tabla anterior , vale decir todas estas sumas de cuadrados, son variables aleatorias cuyos valores dependen de las respuestas proporcionadas por las unidades experimentales. Por tratarse de sumas de cuadrados ellas tienen distribuciones Ji cuadrado con diferentes grados de libertad que dependen de cada modelo considerado. Ellas resultan ser elementos claves en la construcción de las tablas de análisis de varianza, una de las herramientas importantes para el análisis de la información proporcionada por los diseños experimentales, tema que será visto en las páginas que vienen más adelante.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

92

Ejemplo 8 Considere el diseño a cuatro niveles dado por el siguiente esquema:

En este ejemplo queremos: 1. Formular el modelo matricial Y = Xβ + ε , equivalente al esquema de diseño anterior. 2. Realizar una reparametrización de la forma Y = Zα , donde α = Uβ 3. Estimar el vector de parámetros α y calcular la estimación de Y , el vector de residuos e, y la suma de cuadrados del error SCE, bajo esta estimación. 4. Encontrar la estimación de Y mediante MCO y calcular los residuos y la suma de cuadrados del error, bajo esta nueva estimación. 5. Usando los resultados en 4, mostrar la descomposición de la suma de cuadrados total (SCT) en las sumas SCR y SCE, además mostrar cómo serían las tablas ANOVA para este caso.

En nuestro ejemplo se cumple lo siguiente: Se trata de un diseño balanceado de una vía de clasificación con k = 4 niveles y r = 4 réplicas. Según se vió en páginas anteriores, si tenemos formulado el modelo matricial Y = Xβ + ε , donde X es la matriz de diseño y β el vector de parámetros, (modelo que está sobreparametrizado pues tiene 5 parámetros mientras que X es de rango 4), se puede hacer una reparametrización del tipo α = Uβ mediante el cambio de variable i =  + i , i = 1, 2, , k con lo cual, al tomar A = U'(UU')-1 y Z = XA , el modelo original Y = Xβ + ε se transforma en un modelo reparametrizado Y = Zα + ε que es de rango completo y que, por consiguiente, puede ser solucionado mediante la ˆ = Zαˆ . estimación αˆ = (Z'Z)-1 (Z'Y) , ya que Y Una vez lograda la solución anterior, podemos calcular los residuos ˆ y la suma de cuadrados de residuos mediante SCR = e, e  . e = Y-Y

mediante

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

93

En consecuencia, para los objetivos 1, 2 y 3, tendremos:

1. Formulación matricial del modelo:

 y11   2  1  y   4  1  12      y13   6  1       y14   2  1  y21   4  1       y22   3  1  y   4  1  23      y24   2  1  y  =  6  + 1  31      y32   6  1       y33   5  1  y34   4  1       y41  8  1  y   6  1  42      y43   5  1  y   6  1  44    

1 0 0 0  11     1 0 0 0  12   13  1 0 0 0    1 0 0 0 14   21  0 1 0 0    0 1 0 0  22     0 1 0 0     23   1   0 1 0 0     24  2  + 0 0 1 0     31   3   0 0 1 0     32     4    0 0 1 0  33   34  0 0 1 0    0 0 0 1  41    0 0 0 1  42   0 0 0 1  43    0 0 0 1   44 

En este modelo, El vector Y = ( yij )161 corresponde a las 16 respuestas, La matriz X165 es la matriz de diseño y el último vector a la derecha es un vector de errores que se supone con distribución normal multivariada de media 0 y varianza  2 I16 Calcularemos todas las matrices en Matlab. Así se tiene:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

94

1 =  + 1 2 =  + 2 Reparametrizamos el modelo tomando  3 =  + 3 4 =  + 4  1  1 1 0 0 0      1 0 1 0 0   1     .  1 =  con lo cual 1  1 0 0 1 0   2    3     1  1 0 0 0 1      4 Por consiguiente tomamos la matriz U en Matlab así:

1. La reparametrización del modelo se logra así:

El nuevo modelo tendrá la forma:

Y = Zα + ε y es de rango completo, así que

2. La estimación de α , la de Y , los residuos y la suma de cuadrados del error bajo esta estimación, serán las siguientes:

REGRESION Y MODELOS LINEALES JACMEN

αˆ = Alfa = (Z'* Z)-1 (Z'* Y) , SCE = < e,e >

070819

UNIVERSIDAD DEL TOLIMA

ˆ = Z * αˆ , Y

95

ˆ , e = Y-Y

De acuerdo con ésto, los valores estimados de respuesta, según el nuevo modelo, los residuos y la suma de cuadrados de los errores, son:

Para los objetivos 4 y 5, tendremos: La estimación mediante un modelo MCO es mucho más simple: solo requiere del cálculo de dos matrices de proyección que son ortogonales entre sí, P, Q , y, ocasionalmente, una tercera matriz P0 , definidas como se estipula a continuación: •



P = X(X'X)G X' donde (X'X)G es una inversa generalizada de X'X . En particular podemos tomar la inversa de Moore-Penrose ya que es única. Q = I-P

• La matriz P0 = X0 (X'0 X0 )G X'0 , definida por X0 , la columna completa de 1s en la matriz X , que corresponde al parámetro  . Calculamos en Matlab las matrices P0 = X0 *pinv(X'0 X0 )X'0 que siempre es de rango 1, P = X*pinv(X'*X)*X' , I = eye(16) y Q = I-P pero no presentamos estas matrices pues son muy grandes: 16x16. ˆ = PY , e = QY , SCR = Y'PY , Con las dos matrices P, Q anteriores se obtiene: Y SCE = Y'QY y SCT = Y'IY . La suma de cuadrados de la media corresponde al

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

96

valor SCM = Y'* P0* Y y se usa cuando queremos presentar la tabla ANOVA en su tercera forma -corregida por la media- como se muestra a continuación.

Continuando con Matlab:

Como se ve: SCR + SCE = SCT La tabla ANOVA (Primera forma) para el caso sería: Sumas de Cuadrados

Grados de Libertad

SCR = 357.75 SCE = 21.25

rank( P ) = 4 rank( I - P ) =12

SCT

=

379.00

Rank( I ) = 16

Si queremos presentar la tercera forma -más usual- usamos la matriz P0

y calculamos

Es decir, la suma de cuadrados de la media vale SCM = 333.0625 , en consecuencia, la tercera forma de la tabla ANOVA será la siguiente:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

97

Esta tercera forma de presentar los datos, corresponde realmente a la siguiente formulación, basada en la igualdad (P - P0 ) + (I - P) = I - P0 :

Fuente de Variación Modelo

Suma de cuadrados

SCR m = Y'(P - P0 )Y

Grados de Libertad rank(P - P0 )

Error

SCE=Y'(I - P)Y

rank(I - P)

Total

SCTm = Y'(I - P0 )Y

rank(I - P0 )

Esta última presentación es la que aparece en todos los paquetes estadísticos que hacen análisis de varianza, como Infostat. Este paquete presenta algunos elementos adicionales: los cuadrados medios (que son varianzas obtenidas al dividir las sumas de cuadrados entre sus correspondientes grados de libertad) y el cociente F de la varianza ENTRE, correspondiente al modelo, y la varianza DENTRO. Este cociente es una variable aleatoria con distribución F -por ser cociente de dos varianzas- y se usa para realizar cierto tipo de inferencia relacionada con las medias de los niveles. La siguiente es la salida de Infostat para los datos del ejemplo que estamos analizando:

REGRESION Y MODELOS LINEALES JACMEN

070819

98

UNIVERSIDAD DEL TOLIMA

5 Clasificación de los modelos Según la estructura que adopte un modelo lineal Y = Xβ + ε , éste suele clasificarse en una de las siguientes categorías: •

Modelos S o modelos sobreparametrizados



Modelos W o modelos de medias de celdas



Modelos Σ o modelos con restricción en los parámetros



Modelos R o modelos de regresión

5.1 Modelos S. Los modelos sobreparametrizados son aquellos en los que aparece un parámetro por cada efecto de los factores involucrados. Corresponden a los casos de modelos de diseño que hemos visto hasta el momento. Otro ejemplo típico puede ser el sugerido por el siguiente esquema de diseño desbalanceado (diferente número de réplicas en los tratamientos):

FACTOR 2

F A C T O R 1

Nivel 1

Nivel 2

Nivel 3

Nivel 1

y111 y112 y113

y121 y122 ---

y131 y132 ---

Nivel 2

y211 y212 y213 y214

y221 -------

--y232

y233 y234

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

99

En este diseño se observa la presencia de dos factores (el primer factor podría ser, por ejemplo, la variedad de una planta y el segundo factor podría ser la alcalinidad del

yi j k representa una respuesta a las condiciones en que

terreno). En este caso cada

crecen las plantas y podría indicar, por ejemplo, producción, altura, resistencia a una plaga, etc Es claro que en este diseño puede haber interacción entre los factores (el tipo de terreno y la variedad de la planta), por consiguiente, el modelo debe incluir: •

Dos parámetros 1 ,  2 para los niveles del primer factor.



Tres parámetros 1 , 2 , 3 para los niveles del segundo factor



Seis parámetros  11 ,  12 ,  13 ,  21 ,  22 ,  23 para los seis cruces de niveles de los factores que representan las posibles interacciones.



Un parámetro general  que representa la respuesta media general en ausencia de tratamientos.

Se tiene así un espacio de parámetros para el modelo, dado por:

 =  , 1 ,  2 , 1 ,  2 , 3 ,  11,  12 ,  13 ,  21,  22 ,  23  y la matriz de diseño correspondiente:

1 1  1  1 1  1 1  X = 1 1  1  1 1  1 1  1

1 1 1 1 1 1 1 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 1 1 1 1 1 1 1 1

1 1 1 0 0 0 0 1 1 1 1 0 0 0 0

0 0 0 1 1 0 0 0 0 0 0 1 0 0 0

0 0 0 0 0 1 1 0 0 0 0 0 1 1 1

1 1 1 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 1 1 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 1 1 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 1 1 1 1 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 1 0 0 0

0 0  0  0 0  0 0  0 0  0  0 0  1 1  1 

Algunos ejemplos de modelos sobreparametrizados son los siguientes:

REGRESION Y MODELOS LINEALES JACMEN

070819

100

UNIVERSIDAD DEL TOLIMA



yi j =  +  i +  i j

Modelo de clasificación simple (ya visto)



yi j k =  + i +  j +  i j k

Modelo de clasificación doble sin interacción



yi j k =  + i +  j +  i j +  i j k Modelo de clasificación doble con interacción

Los modelos sobreparametrizados se notan Y = Xβ + ε y se parecen a los que hemos estudiado hasta el momento. En todos ellos la matriz de diseño es de rango incompleto y las estimaciones de sus parámetros pueden hacerse mediante el uso de inversas generalizadas de la matriz X'X , tal como se ha indicado anteriormente. Entre tales soluciones se destacan, como lo hemos hecho, las matrices de MCO que proporcionan las mejores soluciones. Por otra parte, en tales modelos la estimación de fpl del tipo λ'θ 0

λ'β está dada por

donde

θ0

es una solución cualquiera del sistema de

ecuaciones normales. El intervalo de confianza para λ'β está dado por λ'θ0  t

n−k ,



v(λ'β)

donde k es el

2

rango de la matriz de diseño y v(λ'β) es la varianza estimada de la fpl, la cual está dada por  2 γ ' ( X'X ) γ

donde

γ es una solución del sistema

( X'X ) γ = λ ,

según se

desprende de lo dicho en páginas anteriores.

Ejemplo 9. Volvamos a los datos del ejemplo 6 anterior, caso correspondiente a un diseño unifactorial con dos niveles (y dos réplicas por nivel). Se tiene  =  , 1 ,  2  y el modelo correspondiente será: yi j =  + i +  i j i = 1, 2 j = 1, 2 . Los cálculos para este ejemplo pueden corroborarse con el siguiente programa Matlab:

REGRESION Y MODELOS LINEALES JACMEN

Se tiene:

070819

 4 2 2 14    X'X =  2 2 0  , X'Y =  5   2 0 2   9 

UNIVERSIDAD DEL TOLIMA

101

 4.5 y, como se vió anteriormente, β =  −2.0   0.0 

 es una estimación del vector de parámetros, β = 1  .  2  Consideremos la fpl λ'β = 1 −  2 = (0, 1, − 1)β

En este caso la ecuación

( X'X ) γ = λ

equivale a

4 2 2   1   0  2 2 0    =  1  y una   2    2 0 2   3   −1

 0.0  solución particular de este sistema es γ =  0.5  , lo que muestra que la fpl sí es  −0.5  estimable. Una estimación particular de esta fpl es λ'θ 0 donde θ 0 es una solución particular de sistema de ecuaciones normales

( X'X ) β = X'Y ,

esto es, del sistema de ecuaciones

 4 2 2     14 0.0        0 lineales:  2 2 0  1  =  5  . Por ejemplo, θ =  2.5 . Así pues: λ'θ0 = −2 es una  2 0 2   2   9   4.5 estimación particular de la fpl en consideración.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

102

Para construir un intervalo de confianza de esta fpl se debe estimar V(λ'β) . Para ello,

 0.0  γ =  0.5  , encontrada arriba, y la estimación de la  −0.5 

usamos la solución particular

varianza de los datos

 0.5 −0.5 0.0 0.0  2   −0.5 0.5 0.0 0.0  3  SCE Y'QY 1 2 2   = 1 s = = = = (2,3,5, 4)   0.0 0.0 0.5 −0.5  5  2 n−k n−k 2     0.0 0.0 −0.5 0.5  4 

 4 2 2   0.0  1 1 En consecuencia: v(1 −  2 ) = (0.0, 0.5, − 0.5)  2 2 0   0.5 = 2 2  2 0 2   −0.5  Por consiguiente el intervalo del 95% para la fpl estará dado por: −2  t4−2, 0.025

1 1 = −2  4.303 = (−5.0427 , 1.0427) 2 2

Puesto que 0 pertenece a este intervalo, se puede concluir que 1 −  2 = 0 o, lo que es igual, 1 =  2

La descomposición de la suma de cuadrados para este ejemplo, teniendo en cuenta que

  yi j 2  SCM = n ( y ..) = 4  i j 4  

2

   = 49 , se resume en la siguiente tabla:  

Primera forma

Segunda forma

Tercera forma

SCM = 49

SCR = 53

SCR m = 4

SCR m = 3

SCE = 1

SCE = 1

SCE = 1

SCT = 54

SCT = 54

SCTm = 5

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

103

5.2 Modelos W Los modelos sobreparametrizados, vistos anteriormente, han sido importantes debido a que muestran todos los parámetros pero esto a la vez constituye su mayor debilidad, pues son más los parámetros que las medias disponibles para estimarlos. Los modelos de medias de celdas son reparametrizaciones de los modelos S, en las que se busca un modelo Y = Wμ + ε definido mediante una matriz W de rango completo. En este caso μ es un nuevo vector de parámetros más reducido que el anterior vector β. Los modelos de medias de celdas más comunes, para una y dos vías de clasificación, son los siguientes: •

yi j = i +  i j , corresponde al modelo de una vía, yi j =  +  i +  i j , al hacer el cambio de variable i =  + i .



yi j k = i j +  i j k , que viene del modelo de dos vías sin interacción yi j k =  + i +  j +  i j k , al realizar el cambio de variable i j =  + i +  j



yi j k = i j +  i j k obtenido del modelo de dos vías con interacción, yi j k =  + i +  j +  i j +  i j k mediante el cambio de variable

i j =  + i +  j +  i j Mediante transformaciones adecuadas, todo modelo S puede ser transformado en un modelo de medias de celdas, de la forma Y = Wμ + ε de rango completo. Como es de esperarse, el vector de parámetros μ , se estima mediante las ecuaciones normales μ = ( W'W ) (W'Y) . -1

Como antes, las fpl son combinaciones lineales de los parámetros del modelo, es decir, de las medias de las celdas. Digamos que son expresiones del tipo L = λ'μ cuya MELI, en caso de que sean estimables, tendrá la forma L = λ'Y , donde Y es el vector formado por las medias estimadas de las celdas con las observaciones. Su varianza estará dada por V( L) =  2 γ'(W'W)γ donde γ es solución del sistema (W'W)γ = λ . Como antes, esta varianza puede ser estimada utilizando la estimación SCE s 2 =  2 =CME= donde k es el rango de X. n−k

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

104

Ejemplo 10 Considérese el diseño de clasificación cruzada a dos vías sin interacción, dado por el siguiente esquema, en el cual los asteriscos representan observaciones perdidas a lo largo del proceso. Aunque una línea de conducta debe ser la de diseñar experimentos balanceados, suele ocurrir a lo largo del desarrollo de un experimento que se pierdan unidades experimentales, razón por la cual los resultados finales puedan dar origen a diseños desbalanceados, es decir, diseños en los que el número de observaciones no es el mismo para todas las celdas.

Factor 2 Nivel 1

Nivel 2

2 4 * * 3 5

* * 6 2 3 4

Nivel 1 Factor 1 Nivel 2

El modelo S correspondiente a este diseño, yi j k =  + i +  j +  i j k , puede explicitarse de la siguiente manera:

 y111   2  1  y   4  1  112      y123   6  1       y212  =  3  = 1  y213   5  1       y221   2  1  y   3  1  222      y223   4  1

1 1 1 0 0 0 0 0

0 0 0 1 1 1 1 1

1 1 0 1 1 0 0 0

0  111     0 112      1     123    1  0     212   2  + 0     213    1  1     221    2    1  222   1   223 

El cambio de variable i j =  + i +  j produce el nuevo modelo de rango completo:

REGRESION Y MODELOS LINEALES JACMEN

070819

 y111   2  1  y   4  1  112      y123   6   0       y212  =  3  =  0  y213   5   0       y221   2   0  y   3 0  222      y223   4   0

0 0 1 0 0 0 0 0

UNIVERSIDAD DEL TOLIMA

0 0 0 1 1 0 0 0

0  111     0  112  0   11   123     0   12   212  + 0   21   213      1   22   221    1  222   1   223 

que es de la forma Y = Wμ + ε

El proceso para encontrar W es sencillo si se observa el esquema siguiente:

En este caso W'W es la matriz diagonal de rango completo, dada por:

2 0 W 'W =  0  0

0 1 0 0

0 0 2 0

0 0  0  3

matriz de la cual, al resolver el sistema de ecuaciones normales, se obtiene

 y11.   3   y  6 μ =  12.  =   = Y  y21.   4       y22.   3 

105

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

106

que es el vector de estimación de los cuatro parámetros (11 , 12 , 21 , 22 ) ' y que, como se ve, está formado por las medias de los datos en cada celda. Nota 1: En el modelo Σ que se presentará en la siguiente sesión se mostrará que al fijar condiciones sobre los parámetros, es posible estimar los valores de i y  j , es decir de los efectos del diseño en cada nivel. Nota 2: De acuerdo con lo dicho anteriormente, para los modelos de doble clasificación las fpl son combinaciones lineales de los parámetros del modelo, es decir, de las medias de las celdas. Digamos que son expresiones del tipo a

b

L =  i j i j i =1 j =1

La MELI de tales fpl, en caso de que ellas sean estimables, tendrá la forma a

b

L =  i j yi j i =1 j =1

y su varianza estará dada por

  2i j V( L ) =     i j  ni j 2

  

Como antes, esta varianza

SCE donde k es el n−k rango de X. La sigla CME significa cuadrado medio del error y aparece generalmente en las tablas de análisis de varianza que se verán en la segunda parte de este documento.

puede ser estimada utilizando la estimación

s 2 =  2 =CME=

Continuando con el ejemplo y utilizando Matlab para construir las matrices proyectoras P y Q a partir del modelo S correspondiente, se tendrá:

SCR = Y'PY = 106.1429 SCE = Y'QY = 12.8571 SCT = Y'I8 Y = SCR+SCE = 119.0000 En general SCM = Y'P0 Y donde P0 = X0 (X'0 X0 )G X'0 siendo X0 la primera columna de la matriz X. El programa adjunto en Matlab, permite calcular las estimaciones correspondientes, a saber:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

107

En consecuencia la tabla de descomposición de sumas de cuadrados para este ejemplo, será la siguiente:

Primera forma

Segunda forma

Tercera forma

SCM = 105.1250 SCR = 106.1429 SCE = 12.8571 SCT = 119.0000

SCR m = 1.0179 SCE = 12.8571 SCT = 119.0000

SCR m = 1.0179 SCE = 12.8571 SCTm = 13.8750

Puesto que la matriz de diseño X del modelo S, tiene rango 3, se concluye que una SCE 12.8571 estimación de  2 es CME = = = 2.5714 n−k 8−3

5.3 Descomposición última de la suma de cuadrados del modelo La suma de cuadrados de la regresión, SCR, es decir la suma explicada por el modelo, generalmente se puede descomponer en varias sumas de cuadrados, debido a diferentes fuentes de variación. Una de ellas es la SCM. La parte restante, es decir SCR – SCM se puede descomponer en una parte debida a un factor, otra debida a otro factor y otra a las interacciones, etc. Generalmente, todas estas descomposiciones, si se desea conocerlas, se hacen sobre la tercera forma de descomposición de las sumas de cuadrados. Para ello, la matriz X debe ser particionada en varias submatrices Xi correspondientes a cada una de las fuentes de variación. Con cada una de tales submatrices se construye una matriz proyectora que permite el cálculo de la correspondiente suma de cuadrados.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

108

Siguiendo el esquema Pi = Xi (Xi'Xi )G Xi' donde G indica una inversa generalizada, se pueden construir matrices proyectoras ortogonales P0 , P1 , P2 , las cuales, combinadas adecuadamente, permiten la descomposición de SCR en componentes debidas al factor 1 y al factor 2 respectivamente. Puesto que se cumple P - P0 = (P1 - P0 ) + (P - P1 ) es posible escribir:

Y'(P - P0 )Y = Y'(P1 - P0 )Y + Y'(P - P1 )Y expresión que sugiere, en la forma tres, cómo se puede descomponer SCR m en dos (o más) sumandos, dependiendo de la manera como se distribuyan los rangos de las diferentes matrices que intervienen en dicha descomposición, ya que se debe cumplir:

Rango(P - P0 ) = Rango(P1 - P0 ) + Rango(P - P1 ) estos rangos corresponden realmente a los grados de libertad de las sumas de cuadrados como variables aleatorias que tienen distribución Ji cuadrado.

Y'(P1 - P0 )Y + Y'(P - P1 )Y no sea exactamente igual al valor de SCR m en cuyo caso la descomposición debe ser corregida. El exceso, en caso de que exista, junto con los correspondientes grados de libertad constituyen el valor de la suma de cuadrados de la interacción en el modelo. Estas descomposiciones se suelen disponer en una tabla, como se muestra en los ejemplos siguientes. Puede ocurrir que

Ejemplo 11 Considerando la matriz X del ejemplo anterior

1 1  1  1 X= 1  1 1  1

1 1 1 0 0 0 0 0

0 0 0 1 1 1 1 1

1 1 0 1 1 0 0 0

0 0  1  0 0  1 1  1 

X0 , X1 , X2 correspondientes X se puede descomponer en tres submatrices respectivamente a la media, a los efectos del primer factor y a los efectos del segundo factor, de la siguiente manera:

REGRESION Y MODELOS LINEALES JACMEN

1 1  1  1 X0 =   1  1 1  1

070819

1 1  1  0 X1 =  0  0 0   0

109

UNIVERSIDAD DEL TOLIMA

0 0  0  1 1  1 1  1 

1 1  0  1 X2 =  1  0 0  0

0 0  1  0 0  1 1  1 

estas matrices dan origen a las siguientes matrices proyectoras:

P = X(X'X)G X' P0 = X0 (X0'X0 )G X0' G

P1 = X1 (X1'X1 ) X1' G

P2 = X2 (X2'X2 ) X2' Q = I-P T = I - Po

de rango 3 de rango 1

(siempre es de rango 1))

de rango 2 de rango 2 de rango n − rango(P) = 8 – 3 = 5 de rango 7 (siempre es de rango n − 1 ).

La tabla de descomposición de suma de cuadrados junto con los grados de libertad es la siguiente:

Fuente de variación

Sumas de Cuadrados

Grados de libertad (rango del proyector)

Y'(P - P0 )Y = 1.0179

3 −1 = 2

Factor 1

Y'(P1 - P0 )Y = 0.6750

2 −1 = 1

Factor 2

Y'(P - P1 )Y = 0.3429

3− 2 =1

ERROR

Y'(I - P)Y = 12.8571

8−3 = 5

TOTAL

Y'(I - P0 )Y = 13.8750

n −1 = 7

MODELO

Ejemplo 12 Considérese el diseño cuyos datos obedecen al esquema de la tabla adjunta:

REGRESION Y MODELOS LINEALES JACMEN

070819

110

UNIVERSIDAD DEL TOLIMA

Factor 2

1

Factor 1

2

1

2

3 5 3 2

6 4 5 3

Cuya matriz de diseño es la siguiente:

1 1  1  1 X= 1  1 1  1

1 1 1 1 0 0 0 0

0 0 0 0 1 1 1 1

1 1 0 0 1 1 0 0

0 0 1 1 0 0 1 1

1 1 0 0 0 0 0 0

0 0 1 1 0 0 0 0

0 0 0 0 1 1 0 0

0 0  0  0 0  0 1  1 

En este caso se tiene:

1 1  1  1 X0 =   1  1 1  1

1 1  1  1 X1 =  0  0 0   0

0 0  0  0 1  1 1  1 

1 1  0  0 X2 =  1  1 0  0

0 0  1  1 0  0 1  1 

1 1  0  0 X12 =  0  0 0  0

0 0 1 1 0 0 0 0

0 0 0 0 1 1 0 0

0 0  0  0 0  0 1  1 

Es decir, la matriz de diseño se ha particionado en la forma X = [X0 X1 X2 X12 ] , matrices que corresponden respectivamente a la media, al primer factor (con dos niveles), al segundo factor (con dos niveles) y a las interacciones 11 , 12 ,  2 1 ,  2 2 entre los dos factores.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

111

El modelo del diseño es en este caso: yi j k =  + i +  j +  i j +  i j k donde  i j = i  j para i = 1, 2

j = 1, 2 .

Igual que antes, se pueden construir las matrices proyectoras Pi = Xi (Xi'Xi )G Xi ´ donde el exponente G indica una inversa generalizada que coincide con la inversa {ñcorriente cuando Xi sea de rango completo. Esta misma fórmula se aplica para

P = X(X'X)G X´ . Se calcula además Q = I - P , con lo cual se obtienen los siguientes resultados •

SCM = Y'P0 Y = 120.125



SCR m = Y'(P − P0 )Y = 6.375 SCR1 = Y'(P1 − P0 )Y = 3.125 SCR 2 = Y'(P − P1 )Y = 3.25 SCE = Y'(I - P)Y = Y'QY = 6.50 SCTm = Y'(I - P0 )Y = 12.875

• • • •

Nótese que:

P - P0 = (P1 - P0 ) + (P - P1 ) , por lo que podemos asegurar que que acompaña algunas sumas de SCR m = SCR1 + SCR 2 . El subíndice m cuadrados indica que ellas han sido corregidas por la media, es decir, se les ha sustraído el valor SCM , lo que se refleja en la sustracción de la matriz P0 . En nuestro ejemplo

Los cálculos anteriores pueden verificarse con el siguiente programa en Matlab

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

112

Lo anterior nos lleva a la siguiente tabla de análisis de varianza:

Fuente variación Modelo

Sumas de cuadrados SCR m = 6.375

G.L

Debido a X1 Debido a X 2

SCR1 = 3.125 SCR 2 = 3.250

1 2

Error Total Corr

SCE = 6.500

5 7

SCTm = 12.875

3

MODELOS CON INTERACCION En los modelos de dos y más factores puede ocurrir que además de los efectos de los factores existan efectos conjuntos producidos por la combinación de dos o mas de los factores. Tales efectos se denominan interacciones y, cuando existen, constituyen otra fuente de variación que dificulta un poco la interpretación de los resultados. En estas notas nos limitamos al caso de modelos de dos vías de clasificación, pero el lector queda avisado de que la situación también se puede presentar cuando se manejan más de dos factores.

Cuando no hay interacción interacción entre los factores en un modelo de doble clasificación, se cumple

SCR m = SCR1 + SCR 2

donde SCR1 y SCR 2 son las

sumas de cuadrados correspondientes a cada uno de los factores

F1 y F2

respectivamente. Cuando existe una interacción significativa entre estos dos factores la suma anterior toma la forma SCR m = SCR1 + SCR 2 + SCI , donde la suma SCI está asociada a la matriz (P - P1 )(P - P2 ) . La presencia de esta suma obliga a recomponer la tabla ANOVA que ahora toma la forma siguiente:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Fuente de

Suma de cuadrados

variación

Corregidos por la media

Grados de Libertad

Modelo

SCR m

rank( P − P0 )

Factor F1

SCR1 = Y'* (P - P1 )* Y

(# niveles de F1) – 1

Factor F2

SCR 2 = Y'* (P - P2 )* Y

(# niveles de F2) – 1

113

Interacción F1*F2

SCI = Y'(P - P1 )(P - P2 )Y  = rank((P - P1 )(P - P2 ))

Error

Y'(I - P)Y

rank(I - P) −

Total

Y'(I - P0 )Y

n -1 = rank( I − P0 )

EJEMPLO: Considérese un diseño bifactorial determinado por el siguiente esquema:

El lector puede intentar la formulación matricial de este modelo, el cual puede ser analizado con el siguiente programa en MATLAB:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

114

La ejecución del programa arroja los siguientes resultados:

El lector puede realizar los calculos para completar las tablas siguientes:

Nótese cómo al eliminar la interacción los correspondientes grados de libertad pasan al error. Algunos paquetes como SAS o Minitab pueden realizar estimaciones de ambos tipos de modelo, según como éste se especifique. El primer modelo se especifica con la expresión Y = X1 + X 2 + X1 * X 2 mientras que el segundo se hace con Y = X1 + X 2 , tal como se ilustra en los siguientes programas para SAS:

REGRESION Y MODELOS LINEALES JACMEN

070819

Estimación del modelo SIN interacción Data ejemplo; Input Y X1 X2; Datalines; 3 1 1 5 1 1 6 1 2 4 1 2 3 2 1 2 2 1 5 2 2 3 2 2 ; proc anova; class X1 X2; model Y = X1 X2; run;

115

UNIVERSIDAD DEL TOLIMA

Estimación del modelo CON interacción: Data ejemplo; Input Y X1 X2; Datalines; 3 1 1 5 1 1 6 1 2 4 1 2 3 2 1 2 2 1 5 2 2 3 2 2 ; proc anova; class X1 X2; model Y = X1 X2 X1*X2; run;

Programas en SAS para la descomposición de las sumas de cuadrados

Modelos



Los modelos con restricción paramétrica se han introducido con el fin de lograr soluciones únicas en las estimaciones de los parámetros. En tales modelos se condicionan los valores que pueden tomar los parámetros mediante algunas ecuaciones que se les imponen. Casi siempre dicha condición es que la suma de los parámetros correspondientes sea 0. En tales condiciones los modelos resultantes se representan mediante la expresión: Y = ZΘ + ε Por ejemplo, al modelo

yi j k =  + i +  j +  i j +  i j k

se le pueden imponer las

condiciones:

i = i −

1 a i y entonces a i =1

j = j −

1 a   j y entonces b j =1

i j = i j −

a

 i =1

=0

i

a

 i =1

j

=0

1 b 1 a 1  − i j − i j   ij a j =1 b i =1 ab i j =1

a

con lo cual

 i j = 0 y i =1

b

 j =1

ij

=0

REGRESION Y MODELOS LINEALES JACMEN

070819

116

UNIVERSIDAD DEL TOLIMA

Lo anterior se enuncia comúnmente diciendo que “las sumas de los efectos de diseño valen cero”. Ejemplo 13 Considérense tres tipos de sondas pedológicas en dos tipos de terreno. Se mide la cantidad en mg de P2O3 por cada 100 gr de tierra extraída, como muestra el cuadro siguiente (Iemma, Simposio 1993).

Sonda 1 j =1

Sonda 2 j=2

Sonda 3 j =3

43 45 40 40 *

41 * 35 37 33

42 44 * * *

Suelo 1 i =1 Suelo 2 i=2

Este diseño incompleto y desbalanceado puede representarse matricialmente de la siguiente manera:

 43 1  45 1     41 1     42  1  44  1  =  40  1  40  1     35  1 37  1     33  1

1 1 0 1  111     1 1 0 1  112   121  1 0 1 −1      1 −1 −1 0     131  1 1 −1 −1 0    132     1  ¨+  −1 1 0 −1    211  2 −1 1 0 −1    212     11   −1 0 1 1   221    −1 0 1 1   222    223  −1 0 1 1 

lo anterior, debido a que  2 = −1 ,

3 = −1 − 2 ,  21 = − 11 ,  12 = − 11 ,

 22 =  11 a causa de las relaciones que deben cumplir los parámetros. Lo anterior implica (Z'Z)Θ = Z'Y , de donde:

 13 = 0 ,

REGRESION Y MODELOS LINEALES JACMEN

070819

117

UNIVERSIDAD DEL TOLIMA

2 2 2    0  400  10 0  0 10 −2 −4 0   0   30    1     2 −2 6 2 0   10  =  82       2 6 2    20   60   2 −4  2 0 0 2 8   110   72  y, en consecuencia,

 0 = 40.1667 10 = 2.5000 10 = 1.8333  20 = −2.1667  110 = −0.5000 de donde se pueden encontrar los valores de los demás parámetros.

5.4 Modelos R Diremos brevemente que los modelos clásicos de regresión pueden ser usados para resolver modelos de diseño siempre que se haga una conveniente utilización de variables indicadoras. En tales casos, los modelos de regresión pueden ser considerados como reparametrizaciones del modelo S. Para el modelo de clasificación simple

yi j =  +  i +  i j

1 si i = k considerar a variables indicadoras: U i j k =  0 si i  k

i = 1, 2,

para k = 1, 2,

, a , bastará

,a

Si se fija un nivel, por ejemplo el nivel a como básico (testigo o control), usualmente denotado por  , se tendrá:

yi j =  0 + 1U i j 1 +  2U i j 2 +

+  a −1U i j a −1 +  i j

cumpliéndose entonces que  i = i −  a para i = 1, 2,

, a −1

Algo semejante puede formularse para otros modelos, pero en este momento no insistiremos más en el tema.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

118

Los modelos de regresión pueden ser escritos en la forma Y = Uδ + ε de donde se deducen las ecuaciones normales (U'U)δ = U'Y que permiten la estimación de los parámetros. Ejemplo 14 El ejemplo anterior escrito en forma de modelo R tiene la siguiente formulación:

0  111     0  112  1    0   121     0   11   131  0   21  132    + 0   22   211  0   31   212      0   32   221    0  222    223  0 

 y111   43 1  y   45 1  112      y121   41 1       y131   42  1  y132   44  1  = =  y211   40  1  y   40  1  212      y221   35  1  y  37  1  222      y223   33  1

1 1 1 1 1 0 0 0 0 0

1 1 0 0 0 1 1 0 0 0

0 0 1 0 0 0 0 1 1 1

10 5  4  4 2   1

4 1 0 4 0 1

2 2 2 0 2 0

1    0   400  1   11   215  0   21  168    =   1   22  146  0   31   88      1   32   41 

1 1 0 0 0 0 0 0 0 0

lo que produce:

y, por tanto:

5 5 2 1 2 1

  0   127      −84   11     21   −87   =   22   −92   31   88       32   90 

4 2 4 0 2 0

REGRESION Y MODELOS LINEALES JACMEN

070819

119

UNIVERSIDAD DEL TOLIMA

Tablas de análisis de varianza Las tablas de descomposición de las sumas de cuadrados, vistas anteriormente, corresponden realmente a formas cuadráticas de la forma Q = Y'AY donde la matriz proyectora A que es de la forma Xi (Xi'Xi )Xi' es simétrica (verificarlo!). En consecuencia, tales formas cuadráticas tienen distribución Ji cuadrado no central de 1 -1 parámetros q y  = μ i' ( Σ i ) μ i , donde q es el rango de la matriz A y  , el 2 parámetro de no centralidad, está determinado por la esperanza y la varianza del correspondiente vector Y visto como variable aleatoria de respuesta. Bajo la hipótesis de que los efectos son nulos, las distribuciones Ji cuadradas no centrales se convierten en distribuciones Ji cuadradas centrales cuyos grados de libertad corresponden a los rangos de las matrices proyectoras que las definen. Esto, a su vez, implica que los cocientes de dos cualesquiera de tales formas cuadráticas, definidas previamente entre sus grados de libertad, correspondan a una variable aleatoria con distribución F. Las sumas de cuadrados divididas entre sus grados de libertad (que realmente son varianzas) reciben usualmente el nombre de cuadrados medios y el cociente de dos cuadrados medios cualesquiera es entonces una variable aleatoria con distribución F. Por lo general se hacen los cocientes tomando como denominador el cuadrado medio correspondiente a SCE, conformándose con ello una tabla que, por su naturaleza, recibe el nombre de tabla de análisis de varianza (ANOVA) que en su forma más general, corresponde a lo siguiente: Fuente de Variación Modelo (corregido) Error Total (corregido)

Suma de cuadrados

SCR m = Y'(P - P0 )Y SCE = Y'(I - P)Y

SCTm = Y'(I - P0 )Y

Grados de Libertad H =

Cuadrados Medios SCR m CMR =

H

rango(P - P0 )

E = rango(I - P) n −1 = rango(I - P0 )

CME =

SCE

CME =

SCTm n −1

F Calculada F=

CMR CME

E

Típica tabla de Análisis de varianza

Cuando SCR m se descompone en otras sumas de cuadrados más elementales es posible ampliar la tabla de análisis de varianza y obtener otros cocientes F con los cuales es posible probar otras hipótesis. Este tema se verá en la segunda parte en cada uno de los diseños particulares que se estudiarán. El cociente F de la tabla anterior, corresponde al valor particular que toma una variable aleatoria F que tiene  H y  E grados de libertad en el numerador y el

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

120

denominador respectivamente, con los valores de respuesta observados. Ella constituye pieza esencial para probar la hipótesis de que los efectos del modelo son nulos, lo que en últimas equivale a probar que todos los tratamientos tienen la misma media. En el anexo este documento se estudiarán con más detenimiento algunos modelos comunes de diseño a los que se les puede aplicar la técnica anterior, conocida como técnica de análisis de varianza. El análisis de varianza es una de las técnicas más populares y usuales para realizar el análisis de un diseño de experimentos. Sin embargo existen otras técnicas basadas en los modelos lineales que son más generales y aplicables, por consiguiente, en situaciones en las que el ANOVA es francamente inapropiado.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Capítulo III

MODELOS LINEALES GENERALIZADOS

INTRODUCCION

121

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

122

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

123

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

UNIDAD 7

FUNDAMENTOS TEORICOS DE LOS MODELOS LINEALES GENERALIZADOS

124

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

125

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

126

Más adelante se ampliarán algunos conceptos sobre los modelos de conteos que casi siempre obedecen a modelos con distribuciones Poisson y que con mucha frecuencia presentan problemas relacionados con la varianza o con la presencia de ceros.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

127

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

128

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

129

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

130

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

131

REGRESION Y MODELOS LINEALES JACMEN

070819

132

UNIVERSIDAD DEL TOLIMA

Dedicaremos las páginas siguientes al estudio de algunos de los casos más típicos de modelos lineales generalizados, los que por alguna razón no encajan dentro de los modelos estudiados en los capítulos estudiados hasta ahora.

Recapitulando un poco sobre lo escrito en páginas anteriores temenos lo siguiente: Los modelos lineales generalizados tienen tres components claramente establecidas, a saber: 1. Una componente aleatoria conformada por la variable de respuesta Y que puede ser numérica o categórica, junto con su distribución de probabilidad, sus parámetros y todas las propiedades de cualquier variable aleatoria. La componente aleatoria está representada por n observaciones aleatorias y1 , y2 , , yn . Estas observaciones pueden ser categorías de una variable categórica o valores numéricos de una variable aleatoria numérica discrete o continua. 2. Una componente sistemática conformada por las variables explicativas o regresoras, en forma de combinación lineal. Este parte se conoce también como función

predictora

y

tiene

la

 =   j xij

forma

=

j

0 + 1 xi1 + 2 xi 2 +

+  p xip i = 1, 2,

,n

3. Una función link o de enlace que es una función del valor esperado de Y ,  = E(Y ) como combinación lineal de las variables predictoras. Esta función g (  ) relaciona el valor E(Y ) con el predictor lineal en la forma g (  ) =  , lo que implica que i = 1, 2, , n : g(i ) = i =   j xij j

La función de enlace más simple es g (  ) =  , o sea la idéntica, y se da con los modelos clásicos que son casos particulares de los GLM. Es decir, los GLM son verdaderas generalizaciones de los modelos de regresión corriente en dos sentidos: a. De una parte, permiten el uso de variables de respuesta con distribuciones diferentes a la normal. b. De otro lado, el uso de funciones diferentes a las idénticas permiten la inclusion de los modelos de ANOVA y de datos categóricos dentro del campo más amplio de los modelos lineales. En general las estimaciones se hacen por máxima verosimilitud. En esto se basan, por ejemplo, el procedimiento GENMOD del SAS y la función glm de R.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

133

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

134

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

135

En resumen: Los modelos para datos binaries corresponden a los casos en los que la variable de respuesta Y tiene dos categorías del tipo SI/NO, Exito/Fracaso, codificadas con 0 y 1. Es decir, Y ~ b( )=B(1, ) , y, por tanto:

       = (1 −  )   = (1 −  )Exp  y log    con y = 0,1  1−    1 −    y

f ( y |  ) =  (1 −  ) y

1− y

   El parámetro natural es Q( ) = log   = log it( ) . En este caso:  1−   1. E(Y ) = P(Y = 1) =  (x) , expresion que depende de p variables explicativas x1 , x2 , , x p 2.

V (Y ) =  (x)(1 −  (x))

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

136

EJEMPLO: Se han examinado 2374 pacientes y se han clasificado de acuerdo con la intensidad con que roncan la cual se ha valorado en 0, 2, 4, 5 de acuerdo con lo expresado en la table siguiente:

Frecuencia de Ronquido Nunca Ocasionalmente Casi siempre Siempre

Intensidad 0 2 4 5

SI roncan 24 35 21 30

NO roncan 1355 603 192 224

Proporción Del SI 0.0174 0.0549 0.0986 0.1181

PROGRAMA R: ronca = c(0, 2, 4, 5) prop.SI = c(24/(24+1355), 35/(35+603), 21/(21+192), 30/(30+224)) modelo = glm(prop.SI ~ ronca) summary(modelo)

RESULTADOS: Call: glm(formula = prop.SI ~ ronca) Deviance Residuals: 1 2 3 4 0.0010917 -0.0021289 0.0009281 0.0001090 Coefficients: (Intercept) ronca

Estimate 0.0163122 0.0203378

Std. Error 0.0015862 0.0004729

t 10.28 43.01

value Pr(>|t|) 0.00932 ** 0.00054 ***

(Dispersion parameter for gaussian family taken to be 3.298632e-06) Null deviance: 6.1076e-03 on 3 degrees of freedom Residual deviance: 6.5973e-06 on 2 degrees of freedom AIC: -35.909 Number of Fisher Scoring iterations: 2

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

137

MODELOS DE REGRESION LOGISTICA:   ( x)  Como ya se sabe, en este tipo de modelos se tiene log   =   j xij = logit(x)  1 −  ( x)  j En consecuencia , la función de enlace es logit(x) EJEMPLO: Usaremos los mismos datos del ejemplo anterior para formular un modelo de regresión logística dicotómica. PROGRAMA EN R: ronca = c(0, 2, 4, 5) propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224)) fit <- glm((propor ~ ronca), family = binomial(link=logit)) summary(fit)

RESULTADOS: Call: glm(formula = (propor ~ ronca), family = binomial(link = logit)) Deviance Residuals: 1 2 3 4 -0.8346 1.2521 0.2758 -0.6845 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.86625 0.16621 -23.261 < 2e-16 *** ronca 0.39734 0.05001 7.945 1.94e-15 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: 65.9045 on 3 degrees of freedom Residual deviance: 2.8089 on 2 degrees of freedom AIC: 27.061 Number of Fisher Scoring iterations: 4

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

138

MODELOS PROBIT: Estos Modelos se obtienen cuando  (x) = F (x) , siendo F una función de distribución de probabilidad. El caso más frecuente ocurre cuando F (x) = (x) , la distribución normal estándar.   Esto es:  ( x) =     j xij  , o lo que es igual  −1 ( (x) ) =   j xij . Es decir, la j  j  −1 función de enlace se define como probit(x) =  ( x ) EJEMPLO: Usando los mismos datos del ejemplo anterior, ronca = c(0, 2, 4, 5) propor <- cbind(SI = c(24, 35, 21, 30), NO = c(1355, 603, 192, 224)) fit <- glm((propor ~ ronca), family = binomial(link=probit)) summary(fit)

RESULTADOS: Call: glm(formula = (propor ~ ronca), family = binomial(link = probit)) Deviance Residuals: 1 2 3 4 -0.6188 1.0388 0.1684 -0.6175 Coefficients: (Intercept) ronca

Estimate -2.06055 0.18777

Std. Error 0.07017 0.02348

z -29.367 7.997

value Pr(>|z|) < 2e-16 *** 1.28e-15 ***

(Dispersion parameter for binomial family taken to be 1) Null deviance: 65.9045 on 3 degrees of freedom Residual deviance: 1.8716 on 2 degrees of freedom AIC: 26.124 Number of Fisher Scoring iterations: 4

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

139

MODELOS PARA CONTEOS: Son los modelos en los que Y representa conteos de individuos. Con mucha frecuencia tales conteos aparecen formando parte de tablas de contingencia obtenidas mediante el cruce de dos o más variables categorizadas. Se habla entonces de modelos loglineales. Un ejemplo sencillo es el siguiente: Se han examinado 400 pacientes que presentan diferentes tipos de melanomas. Se han tenido en cuenta de una parte el tipo de cancer (clasificado en cuatro categorías) y de otra la parte o sitio del cuerpo donde aparecieron. Los conteos aparecen en la table siguiente:

Tipo de cáncer Hutchinson Superficial Nódulos Indeterminado

Sitio de aparición CabezaCuello Tronco Extremidades 22 16 19 11

2 54 33 17

10 115 73 28

La estimación del modelo se realiza con SAS UNIVERSITY EDITION siguiendo el siguiente programa: data melanomas; input tipo $ sitio $ conteo; datalines; Hutchinson CabezaCuello 22 Hutchinson Tronco 2 Hutchinson Extremidades 10 Superficial CabezaCuello 16 Superficial Tronco 54 Superficial Extremidades 115 Nodulos CabezaCuello 19 Nodulos Tronco 33 Nodulos Extremidades 73 Indetermina CabezaCuello 11 Indetermina Tronco 17 Indetermina Extremidades 28 ; run; proc genmod data = melanomas; class tipo sitio / param = glm; model conteo = tipo sitio / type3 dist = poisson; run;

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Se obtienen los siguientes resultados: Procedimiento GENMOD Información del modelo Conjunto de datos

WORK.MELANOMAS

Distribución

Poisson

Función de vínculo

Log

Variable dependiente N.º observaciones leídas

conteo 12

N.º observaciones usadas 12 Información del nivel de clase Clase Niveles Valores tipo

4 Hutchins Indeterm Nodulos Superfic

sitio

3 CabezaCu Extremid Tronco Criterio para evaluar bondad de ajuste

Criterio

DF

Valor Valor/DF

Desviación

6

51.7950

8.6325

Desviación escalada

6

51.7950

8.6325

Chi-cuadrado de Pearson

6

65.8129

10.9688

Pearson X2 escalado

6

65.8129

10.9688

Verosimilitud log

1124.3272

Verosimilitud log completa

-55.4532

AIC (mejor más pequeño)

122.9064

AICC (mejor más pequeño)

139.7064

140

REGRESION Y MODELOS LINEALES JACMEN

070819

141

UNIVERSIDAD DEL TOLIMA

Criterio para evaluar bondad de ajuste Criterio

DF

BIC (mejor más pequeño)

Valor Valor/DF 125.8159

Algoritmo convergido. Análisis de estimadores de parámetro de verosimilitud máxima

Error DF Estimación estándar

Parámetro Intercept

1

3.8923

0.1111

Límites de confianza de Wald al 95% 3.6746

Chicuadrado de Wald Pr > ChiSq

4.1100

1227.80

<.0001

tipo

Hutchins

1

-1.6940

0.1866 -2.0597 -1.3283

82.42

<.0001

tipo

Indeterm

1

-1.1950

0.1525 -1.4939 -0.8961

61.39

<.0001

tipo

Nodulos

1

-0.3920

0.1158 -0.6190 -0.1651

11.47

0.0007

tipo

Superfic

0

0.0000

0.0000

.

.

sitio

CabezaCu

1

-0.4439

0.1554 -0.7485 -0.1394

8.16

0.0043

sitio

Extremid

1

0.7571

0.1177

0.5264

0.9878

41.36

<.0001

sitio

Tronco

0

0.0000

0.0000

0.0000

0.0000

.

.

0

1.0000

0.0000

1.0000

1.0000

Escala

0.0000

0.0000

Note:The scale parameter was held fixed. Estadísticos LR para análisis de tipo 3 Origen DF Chi-cuadrado Pr > ChiSq tipo

3

145.11

<.0001

sitio

2

98.30

<.0001

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

ANEXO

DISEÑOS CLASICOS DE ANOVA (INTRODUCCION A LOS DISEÑOS EXPERIMENTALES CLASICOS)

142

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

143

1. Introducción

Podría pensarse, de acuerdo con Campbell y Stanley, que la investigación científica se divide en dos: la investigación experimental y la no experimental. Esta postura, puede ser polémica, pero ayuda a ubicar el trabajo que hace un investigador cuando diseña un experimento con fines investigativos. Sin entrar en detalles, la investigación experimental ha sido clasificada en pre-experimental, experimental pura y cuasi experimental, mientras que la investigación no experimental suele dividirse en transversal y longitudinal. Sea como fuere, puede afirmarse, desde el punto de vista estadístico, que en cualquiera de los casos se busca construir un modelo matemático, que pueda ser utilizado para explicar un fenómeno.

Desde este punto de vista podemos esquematizar la situación planteada de acuerdo con lo siguiente:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

144

Podría pensarse en una clasificación de acuerdo con la forma como sean tomadas las variables independientes: En los estudios observacionales y exploratorios dichas variables se toman “como aparezcan”, es decir, no han sido planeadas, ni sus valores han sido definidos de antemano. Por el contrario en los experimentos diseñados dichas variables han sido cuidadosamente planeadas de antemano. En cualquiera de los dos casos se observan los valores de las variables respuestas. En los experimentos estadísticos o aleatorios dichas respuestas son variables aleatorias. No sucede lo mismo en la investigación de campos como la física, en la que tales variables son determinísticas. Comúnmente se entiende por experimento “un estudio de investigación en el que se manipulan deliberadamente una o más variables independientes (supuestas causas) para analizar las consecuencias que la manipulación tiene sobre una o más variables dependientes (supuestos efectos), dentro de una situación controlada por el investigador” (Sampieri, Fernández y Baptista).

Cuando se considera más de una variable respuesta el experimento es de naturaleza multivariada. En este curso se hará más énfasis en experimentos univariados con una o más variables independientes.

Las variables independientes deben ser cuidadosamente seleccionadas dentro de un sinnúmero de posibles causas. Esta selección debe realizarse a la luz de un cuerpo de teorías que la sustenten. Unicamente desde la teoría de una ciencia en particular podría adivinarse cuáles pueden ser las variables importantes que deben ser manipuladas. Las variables de respuesta no se manipulan sino que se miden. Esta medición debe ser apropiadamente “operacionalizada” para que refleje claramente los efectos producidos, si es que ellos existen.

El diseño y análisis de un experimento comprende entonces la definición y planificación de los diferentes pasos que componen un experimento: desde el momento de selección de las diferentes variables que intervienen, pasando por la determinación de los valores que se van a considerar en las variables independientes, la operacionalización de las

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

145

variables de respuesta, la selección de una muestra de objetos o unidades experimentales que van a sufrir una acción y a producir una respuesta, la medición de los efectos en dichas unidades experimentales, hasta el análisis estadístico de la información resultante como fruto de dichas mediciones y la interpretación de tales análisis.

Se ha dicho anteriormente que uno de los objetivos perseguidos en los tipos de investigación que hemos considerado es la obtención de un modelo matemático que, a la vez que exprese las respuestas en función de las variables independientes, sirva para pronosticar otros valores que no han sido observados y que pueden ser producidos por valores no planificados de las variables independientes dentro del experimento. Tales modelos son ecuaciones o relaciones funcionales del tipo:

 X 1    Y1      X 2  Y 2   Y= = f ¨= f ( X 1 , X 2 ,           X p    Ym  En las que f

, X p)

es alguna función en el sentido matemático. La situación más frecuente

en este curso corresponde al caso univariado Y = f ( X1 , X 2 ,

, X p)

En la siguiente sesión presentaremos algunos conceptos básicos para los modelos de tipo lineal los cuales conforman las situaciones más importantes y usuales en el estudio de los diseños de experimentos.

Al diseñar un experimento el investigador fija los tratamientos y diseña la manera de medir los efectos, es decir, los cambios que se producen en el valor de la media al cambiar un nivel de un factor. Igualmente el investigador asigna las unidades experimentales (objetos o individuos que van a sufrir la acción del experimento) a cada uno de los tratamientos. Dicha asignación debe realizarse teniendo en cuenta principios de aleatoriedad, homogeneidad y conveniencia de modo que se garantice el cumplimiento de los principios teóricos en los que descansa el análisis de los datos según el modelo de experimento que se esté utilizando.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

146

4.1 Diseño de una vía (Diseño aleatorio completo) Se tienen en este caso k poblaciones X 1 , X 2 ,, X k con distribuciones normales de medias 1 ,  2 ,,  k y varianzas  12 , 22 ,, k2 respectivamente. Supondremos que

 12 =  22 =  =  k2 (homogeneidad de varianzas) y se desea probar la hipótesis H0:

1 =  2 =  =  k

contra la alternativa de que al menos una media difiere

significativamente de las demás.

La prueba de homogeneidad de varianzas suele hacerse mediante un estadístico propuesto por Bartlett y que está definido de la siguiente manera:

B = 2.3026

Q C

donde

Q = (n − k ) Log 10 ( S p2 ) −  (n j − 1) Log 10 ( S 2j )

 1 k −1 −1 C = 1+  (n j − 1) − (n − k )  3(k − 1)  j =1 

S p2 =

1 n−k

k

 (n j =1

j

− 1) S 2j

S 2j = Varianza muestral en el j-ésimo grupo

El estadístico de Bartlett, bajo la hipótesis de homogeneidad de las varianzas, tiene distribución Ji-cuadrado con k − 1 grados de libertad, lo que puede ser aprovechado para probar la hipótesis nula de que las varianzas son iguales ya que un valor grande de B, es decir un pequeño valor P, indica que tal hipótesis es falsa y que, por ende, debe ser rechazada.

REGRESION Y MODELOS LINEALES JACMEN

070819

147

UNIVERSIDAD DEL TOLIMA

El estadístico de Bartlett es sin embargo muy sensible a la falta de normalidad en los grupos y por esta razón suele acompañarse de otras pruebas más robustas como la prueba de Levene, la prueba de Hartley, la prueba de Box o la prueba Q de Cochran. Para la comparación de las k medias, se toman muestras aleatorias X j1 , X j 2 ,, X jn j con j = 1,2,, k , de cada una de las correspondientes poblaciones (los tamaños de estas

muestras pueden ser diferentes aunque se recomienda que sean iguales). De esta manera se obtienen estimadores X j =

nj

1 nj

X i =1

ji

para cada una de las medias  k y, a la vez,

reuniendo todas las muestras, se puede construir un estimador de la media general

X=

1  X ji . Igual cosa puede hacerse con las varianzas en cada grupo y la n j i

varianza general, también llamada varianza total. En cualquier caso, una varianza es un cociente del tipo

(X

i

− X )2

GL

donde el

numerador es una suma de desviaciones al cuadrado y el denominador es un número entero que representa unos grados de libertad. Si no se dividiera entre los grados de libertad se tendría sólo la sumatoria del numerador, denominada variabilidad o simplemente suma de cuadrados.

La técnica que se expondrá para comparar medias, se basa en una descomposición de la variabilidad, es el análisis de varianza o ANOVA, y que, en líneas generales puede resumirse en lo siguiente (Recordar lo visto en la página 89 y siguientes): La suma de cuadrados

SCT =

 ( X

ji

− X ) 2 puede descomponerse en dos sumas

nj

de cuadrados,

SCB = n ( X ji − X ) , 2

i =1

respectivamente

k

y

nj

SCW =   ( X ji − X j ) 2 , llamadas j =1 i =1

Variabilidad Entre y variabilidad Dentro o también suma de

cuadrados entre y suma de cuadrados dentro. Se cumple la igualdad siguiente:

SCT = SCB + SCW

REGRESION Y MODELOS LINEALES JACMEN

070819

148

UNIVERSIDAD DEL TOLIMA

Se puede probar que SCB ~  k −1 , SCW ~  k ( n −1) y, de aquí, SCT tiene distribución Jicuadrado con n − 1 grados de libertad

Si las sumas de cuadrados anteriores se dividen entre los grados de libertad se obtienen los cuadrados medios, CMB y CMW respectivamente, los cuales realmente representan varianzas y para los que se cumple:

k

E(CMB) =  2 +  i =1

ni ( i −  ) 2 k −1

y

E(CMW ) =  2

Como se desprende de las expresiones anteriores, cuando las medias de los tratamientos son

iguales

entre



e

iguales

a

la

media

general,

se

cumple

que

E(CMB) = E(CMW ) =  2 . Y, por tanto, en tales circunstancias, tanto CMB como CMW SCB CMB k −1 son estimadores insesgados de la varianza. Además F = es una = CMW SCW k (n − 1) variable aleatoria con distribución F de k − 1 y k (n − 1) grados de libertad.

El no cumplimiento de la hipótesis nula, es decir, cuando no todas las medias de los tratamientos son iguales, se traduce en valores grandes de F, ya que en tales casos el numerador es sensiblemente mayor que el denominador. Esto, a su vez, se ve reflejado en pequeños valores P, bajo la cola derecha de la distribución F correspondiente a los grados de libertad k − 1 y k (n − 1)

Teniendo en cuenta lo expuesto en los párrafos anteriores es frecuente resumir la información en una tabla denominada tabla de análisis de varianza o tabla ANOVA (ver tabla 6.1) la cual facilita la interpretación de los resultados y la toma de decisiones respecto al rechazo de la hipótesis nula . En esta tabla aparecen los valores calculados de las diferentes variabilidades (Entre, Dentro y Total) al igual que los correspondientes valores de varianza (Entre, dentro y Total) y el valor calculado de la F.

REGRESION Y MODELOS LINEALES JACMEN

070819

149

UNIVERSIDAD DEL TOLIMA

Cuando se rechace la hipótesis nula, se concluye que no todas las medias poblacionales son iguales y, en consecuencia, habrá alguna(s) más pequeña(s) que las demás y alguna(s) mayor(es) que todas las demás, resultando de interés el compararlas entre sí con el fin de ordenarlas de menor a mayor para, de esta manera, poder decir cuál es el peor y cuál el mejor tratamiento. Este proceso de comparación se conoce con el nombre de comparaciones múltiples y puede realizarse de varias formas, como se muestra más adelante.

Suma de Cuadrados

GL

Cuadrados medios (Varianzas)

F Calculada

SCB

k −1

CMB = SCB

F=

Error o DENTRO

SCW

k (n − 1)

CMW = SCW

TOTAL

SCT

n −1

Fuente de variación Tratamientos o ENTRE

(k − 1)

CMB CMW

k (n − 1)

Tabla de un análisis de varianza para un diseño aleatorio completo

Es conveniente saber que tanto las medias por tratamiento como las diferencias de medias pueden estimarse de acuerdo con las siguientes fórmulas:

Ti s2 t  1. Intervalos para la media de cada tratamiento: ni n − k , 2 ni  T Tj  1 1 + 2. Intervalos para diferencias de medias:  i −   t n −k , s n n  2 n nj i j i  

EJEMPLO 4.1: Este ejemplo ha sido tomado del texto de Kuehl y se basa en datos de B. Nichols (Universidad de Arizona 1980). Es un ejemplo interesante debido a los elementos tanto teóricos como prácticos que involucra. Se trata de comparar cuatro

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

150

métodos de empaque de carnes para determinar cuál de ellos es más efectivo. Los métodos de empaque (tratamientos) son los siguientes: Tr1: Envoltura en papel plástico especial Tr2: Empaque en bolsas selladas al vacío Tr3: Empaque en atmósfera de CO2 (1%), O2 (40%) y N (59%) Tr4: Empaque en atmósfera de CO2 (100%)

El experimento comienza con la selección de 12 trozos de carne muy homogéneos y semejantes entre sí (unidades muestrales), tomados de la misma res y de la misma porción mayor, los cuales son asignados aleatoriamente a cada uno de los cuatro tratamientos. De esta manera en cada tratamiento se encuentran tres trozos que se empacan de acuerdo con el proceso correspondiente. Ellos forman las réplicas necesarias para que dentro de cada tratamiento haya variabilidad. Cuando en un diseño hay igual número de réplicas en todos los tratamientos -como es el caso que nos ocupase dice que el experimento es balanceado. Los diseños de una vía pueden ser desbalanceados pero es recomendable mantener el balanceo mientras sea posible.

Para medir el efecto del empaque, se contabiliza el número de bacterias psicotrópicas por centímetro cuadrado en la superficie de la carne empacada, al cabo de nueve días de permanencia a una temperatura de 4 grados Celsius. A mayor número de bacterias menor efectividad del empaque. Puesto que dicho número es demasiado grande se prefiere tomar su logaritmo natural. Así pués, la variable respuesta o dependiente es el logaritmo natural del número de bacteria por cm cuadrado. Esta es una variable numérica

Los datos correspondientes a las mediciones de contaminación por bacterias son los siguientes:

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Tratam 1 Plástico

Tratam 2 Vacío

7.66

5.26

7.41

3.51

6.98

5.44

7.33

2.91

7.80

5.80

7.04

3.66

151

Tratam 3 Tratam 4 Co2 O2 N CO2

Con el fin de poder analizar los datos mediante software estadístico (ESM en este caso), los datos deben ser dispuestos en un archivo en la forma siguiente:

7.66 6.98 7.80 5.26 5.44 5.80 7.41 7.33 7.04 3.51 2.91 3.66

1 1 1 2 2 2 3 3 3 4 4 4

Este archivo contiene los valores observados de la variable respuesta más un rótulo que identifica el tratamiento correspondiente. Esta última columna conforma la variable independiente o de tratamientos.

La tabla ANOVA junto con el valor P de probabilidad para la hipótesis nula es la siguiente: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 32.8728 3 10.9576 94.5844 Error 0.9268 8 0.1158 ***** Total 33.7996 11 ***** ***** --------------------------------------------------------------------------R2 = .972579 F tiene 3 y 8 Grados de libertad Valor P de probabilidad: 0.00003000

Resultado del análisis de varianza del ejemplo 4.1

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

152

En esta tabla puede observarse un valor F de 94.5844 al cual corresponde un valor de probabilidad demasiado pequeño (0.00003) en la cola derecha. Este valor, al ser inferior al nivel de significancia establecido de 0.05, nos obliga a rechazar la hipótesis de igualdad de las medias correspondientes a los tratamientos.

El cuadrado medio correspondiente al error se denomina también error cuadrático medio, se representa por s 2 y es una estimación de la varianza no explicada en los datos.

Antes de entrar a comparar las diferentes medias de tratamientos debemos verificar que se cumplan las hipótesis básicas del modelo: homogeneidad de las varianzas y normalidad de los residuos.

Homogeneidad de las varianzas. La prueba de Bartlett arroja los siguientes resultados:

** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS: (Hipótesis nula:

Ho:

12 =  22 =  32 =  42 )

PRUEBA CONJUNTA DE BARTLETT: B = 1.207904 P = 0.75110913 Tabla 4.4 Prueba de homogeneidad de varianza del ejemplo 4.1

Puesto que la prueba arroja un valor P de 0.7512 aproximadamente, se concluye que no es posible rechazar la hipótesis nula de que las varianzas son iguales. Es decir, podemos suponer que se cumple la homogeneidad de las varianzas.

Normalidad de los residuos. El experimento analizado se ajusta al siguiente modelo:

xij =  + ( i −  ) + ( xij − i )

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

153

siendo xij la j-ésima observación del i-ésimo tratamiento, μ la media general y i la media del i-ésimo tratamiento, considerado como una población. La diferencia

i −  es el efecto del i-ésimo tratamiento y el valor xij − i

es el error entre cada

observación y la media del tratamiento al que ella pertenece. Es frecuente utilizar la siguiente escritura para el modelo analizado: xij =  +  i +  ij . En consecuencia, al utilizar las medias proporcionadas por los datos se pueden tener estimaciones de los efectos y de los errores respectivamente mediante las expresiones:

ˆi = xi − x

y

ˆij = xij − xi . Estos últimos valores se conocen como residuos.

En teoría los errores deben tener distribución normal para que el modelo sea apropiado. El cumplimiento de este supuesto se verifica utilizando los residuos como estimaciones de los errores, ya que ellos constituyen la única información tangible acerca de los errores de ajuste de los datos al modelo.

En el ejemplo que estamos analizando se obtienen los siguientes resultados:

INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO: _________________________________________________________ MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 : Media: 7.48 Err.Stand: .1965112380162134 Inter95%: [ 7.0268, 7.9332] MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 : Media: 5.5 Err.Stand: .1965112380162134 Inter95%: [ 5.0468, 5.9532] MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 : Media: 7.26 Err.Stand: .1965112380162134 Inter95%: [ 6.8068, 7.7132] MEDIAS E INTERVALOS PARA TRATAMIENTO # 4 : Media: 3.36 Err.Stand: .1965112380162134 Inter95%: [ 2.9068, 3.8132] __________________________________________________________ MEDIA GENERAL DE LOS DATOS:

5.90

Estimación de intervalos para las medias de tratamientos. Ejemplo 4.1

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

154

Este cuadro proporciona los valores estimados de las medias por tratamiento, junto con los errores estándar y el intervalo del 95% de confianza para cada caso.

Aplicando las fórmulas anteriores para estimar efectos y residuos se tendría: •

Estimación del efecto del primer tratamiento:

7.48 – 5.90 = 1.58



Estimación del efecto del segundo tratamiento:

5.50 – 5.90 = -0.40



Estimación del efecto del tercer tratamiento:

7.26 – 5.90 = 1.36



Estimación del efecto del cuarto tratamiento:

3.36 – 5.90 = -2.54

Como puede observarse, la suma de los efectos de los tratamientos es cero.

Los residuos, para este ejemplo, son los siguientes 7.66 6.98 7.80 5.26 5.44 5.80 7.41 7.33 7.04 3.51 2.91 3.66

– – – – – – – – – – – –

7.48 7.48 7.48 5.50 5.50 5.50 7.26 7.26 7.26 3.36 3.36 3.36

= = = = = = = = = = = =

0.18 -0.50 0.32 -0.24 -0.06 0.30 0.15 0.07 -0.22 0.15 -0.45 0.30

Residuos del ejemplo 4.1

Frecuentemente se calculan los residuos estandarizados que se obtienen dividiendo los residuos anteriores entre la raiz cuadrada del error cuadrático medio. En nuestro caso, se obtendrían dividiendo los residuos anteriores entre siguientes residuos estandarizados:

0.1158 = 0.3403 , lo que arroja los

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

155

0.52884023 -1.46900064 0.94016041 -0.70512031 -0.17628008 0.88140038 0.44070019 0.20566009 -0.64636028 0.44070019 -1.32210058 0.88140038 Tabla 4.7 Residuos estandarizados. Ejemplo 4.1

Sobre estos valores debe realizarse una prueba de normalidad. En nuestro caso, la prueba de Geary arroja los siguientes resultados:

Número de observaciones:

12

HIPOTESIS NULA: Las observaciones de la variable analizada SE AJUSTAN A UNA DISTRIBUCION NORMAL con Media (estimada): -4.625929269271485E-018 Varianza (estimada): 8.425454545454544E-002 Valor crítico de Z para H0: 1.365614709913629 VALOR P: 0.17204250 Tabla 4.8 Prueba de normalidad de residuos del ejemplo 4.1

El valor P de 0.17204, al ser mayor que el nivel de significancia 0.05, no nos permite rechazar la hipótesis nula. En consecuencia, los residuos se ajustan a una distribución normal y entonces, el modelo cumple con los supuestos básicos para una correcta toma de decisiones.

4.2 Comparaciones múltiples Entraremos ahora sí a realizar comparaciones múltiples entre las medias de los diferentes tratamientos. Estas comparaciones, como se dijo anteriormente, permiten comparar dos a dos las diferentes medias poblacionales de los tratamientos para

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

156

determinar cuáles de ellos producen efectos similares (es decir, no difieren) y cuáles producen efectos significativamente distintos. Lo anterior permite, entre otras cosas, decir cuál tratamiento es el peor y cuál es el mejor.

Una primera herramienta muy popular para realizar estas comparaciones la constituyen los intervalos de confianza para las medias obtenidos anteriormente. Cuando dos intervalos se intersecan las medias de los respectivos tratamientos no difieren significativamente. Por el contrario, intervalos disjuntos corresponden a medias que difieren significativamente; y será mayor la media correspondiente al intervalo situado más a la derecha.

En el ejemplo que estamos presentando los intervalos para las medias de los tratamientos son respectivamente: Tr1: Tr2: Tr3: Tr4:

(7.02 , 7.93) (5.05 , 5.96) (6.80 , 7.71) (2.91 , 3.81)

Una gráfica aproximada de los intervalos del 95% de confianza para las medias de los tratamientos es la siguiente:

En ella puede observarse que los intervalos correspondientes a los tratamientos Tr1 y Tr3 son intersecantes lo que significa que entre ellos no hay diferencias significativas. Por otra parte a ellos corresponden los intervalos situados más a la derecha lo que significa que sus medias son las de mayor valor. Es decir, en este caso corresponden a

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

157

los métodos de empaque menos efectivos. Se puede observar que la menor media corresponde al tratamiento Tr4, el cual difiere significativamente de los demás. Este es el tratamiento que produce mejores resultados. Es decir, de acuerdo con este método de comparación, el mejor sistema de empaque es una atmósfera al 100% de CO2. Los peores métodos de empaque son envolturas en plástico y empaque en atmósfera CO2+O2+N que prácticamente no presentan diferencias. El empaque al vacío presenta una efectividad intermedia.

Una segunda herramienta de comparación se conoce con el nombre de diferencias mínimas significativas (LSD o Least Significative Differences). Esta técnica es muy similar a la anterior. En opinión de D. Montgomery es una de las técnicas de comparación múltiple más efectivas cuando la F de la tabla ANOVA ha resultado significativa.

Se definen las diferencias mínimas significativas mediante la expresión:

LSD(i, j ) = tn −k , s 2

1 1 + ni n j

donde s 2 es el error cuadrático medio.

Se rechaza

H0: i =  j

siempre que LSD(i, j ) | xi − x j | . En otras palabras dos

medias difieren significativamente cuando la diferencia en valor absoluto de las respectivas medias muestrales es mayor que la correspondiente LSD.

Este método de comparación es muy simple pero tiene la desventaja de que exige numerosos cálculos ya que se deben realizar k(k -1)/2 comparaciones de medias. En el ejemplo que venimos presentando se requieren 6 comparaciones. ESM realiza los diferentes cálculos como se ve a continuación (en este caso el archivo de salida se ha editado para dejar solamente los LSD correspondientes al 5% de significancia):

REGRESION Y MODELOS LINEALES JACMEN

070819

158

UNIVERSIDAD DEL TOLIMA

COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD): Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -1.98000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -0.22000000 LSD(α=0.05) = 0.6409 *ND* MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ): Diferencia de medias = 1.76000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -4.12000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 2 ): Diferencia de medias = -2.14000000 LSD(α=0.05) = 0.6409 *DS* MEDIA DE TRATAM( 4 ) - MEDIA DE TRATAM( 3 ): Diferencia de medias = -3.90000000 LSD(α=0.05) = 0.6409 *DS*

Tabla 4.9 Comparación de medias en el ejemplo 4.1

Como puede observarse los resultados coinciden con lo calculado anteriormente aunque es menos evidente la interpretación. Mencionaremos muy brevemente el método de Tukey – Kramer, también muy utilizado para realizar comparaciones múltiples.

Este método produce intervalos de confianza simultáneos de la forma: xi − x j + qk ,  ,  DHS(k ,  E )

donde DHS(k ,  E ) =

s2  1 1   +  y 2  ni n j 

qk ,  , 

es un

valor que depende del nivel mínimo de significancia  E , de los grados de libertad ν correspondientes al error cuadrático medio s, y del número de tratamientos k.

Este

valor se busca en una tabla (ver anexo 2). De acuerdo con lo anterior, las medias de dos tratamientos difieren significativamente cuando el valor absoluto de la diferencia de sus medias muestrales es mayor que qk ,  ,  DHS(k ,  E ) .

Para el ejemplo que nos ocupa se tiene:

REGRESION Y MODELOS LINEALES JACMEN

070819

159

UNIVERSIDAD DEL TOLIMA

qk ,  ,  = q4, 8, 0.05 = 4.53 , DHS(k ,  E ) = 4.53

0.116 2 = 0.8907 2 3

En consecuencia:

Medias compar. 1 con 2 1 con 3 1 con 4 2 con 3 2 con 4 3 con 4

Valores de medias 7.48 7.48 7.48 5.50 5.50 7.26

5.50 7.26 3.36 7.26 3.36 3.36

DHS

Difer medias

Difieren?

0.8907 0.8907 0.8907 0.8907 0.8907 0.8907

1.98 0.22 4.12 1.76 2.14 3.90

Sí No Sí Sí Sí Sí

Tabla 4.10. Comparación de medias mediante prueba de Tukey en ejemplo 4.1

Existen otros métodos de comparación recomendables en diferentes circunstancias pero que no serán tratados en este libro. Algunos de ellos son: Scheffé, Bonferroni, Duncan, Gabriel, NKS, etc.

4.3 Contrastes Dedicaremos unas líneas al método de comparación de medias mediante la técnica de contrastes. Este método, de gran importancia en investigación, se usa cuando un experimento se ha diseñado para comparar específicamente ciertos tratamientos. La diferencia con los métodos anteriores, también denominados post hoc, es que aquellos tienen sentido cuando el valor de la F ha resultado significativo, es decir, cuando la prueba ANOVA ha detectado diferencias significativas y se desea saber cuáles son las medias que difieren. En cambio los contrastes planificados pueden realizarse en cualquier circunstancia. k

Se define un contraste C como cualquier combinación lineal

C =   i i i =1

escalares  i satisfacen

k

 i =1

i

=0.

donde los

REGRESION Y MODELOS LINEALES JACMEN

070819

160

UNIVERSIDAD DEL TOLIMA

Aunque en principio los escalares  i podrían ser cualesquiera números reales, en la práctica sólo son fracciones sencillas que, por lo general, se reducen a números enteros multiplicándolas por una cantidad conveniente: casi siempre por el mínimo común múltiplo de sus denominadores.

Por ejemplo, en el caso de empaques de carnes, si quisiéramos comparar los efectos del empaque plástico frente a los de los demás tratamientos, un contraste adecuado sería: 1 C1 = 1 − ( 2 + 3 + 4 ) . Igualmente el contraste que permite comparar el empaque al 3 1 vacío frente a los empaques con gases sería: C2 = 2 − ( 3 + 4 ) y el que permite 2

comparar el empaque en una atmósfera, mezcla de gases, frente al empaque con CO2 puro, sería C3 = 3 − 2 . Los dos primeros contrastes de estos ejemplos también pueden escribirse como

C1 = 31 − 12 − 13 − 14

y

C2 = 01 + 22 − 13 − 14 . De igual

manera C3 = 01 + 02 + 13 − 14

En general un contraste en un experimento de k tratamientos está determinado por k constantes enteras cuya suma vale cero.

En cualquier caso se prueba la hipótesis nula

H0 : Ci = 0

frente a la hipótesis

alternativa

H1 : Ci  0 . k

CM Contraste El estadístico de prueba está dado por FC = CM Error

donde CM Contraste =

 x i =1 k

i i

i

n i =1

y

i

CM Error = s 2 . El estadístico FC tiene distribución F1, n−k , lo que puede ser aprovechado para tomar la decisión de si se rechaza o no la hipótesis nula.

REGRESION Y MODELOS LINEALES JACMEN

070819

161

UNIVERSIDAD DEL TOLIMA k

La estimación de un contraste, como era de esperarse, está dada por Cˆ =   i xi . Su i =1

k

i

i =1

ni

varianza es V(C ) = s 2 

lo que permite construir intervalos de confianza para el

contraste, intervalos que están dados por: Cˆ  tn −k , 

V(C ) 2

Una expresión interesante, como se verá luego, es la suma de cuadrados del contraste, 2

 k     i xi   . dada por SS(C ) =  i =k1  nii i =1

En el ejemplo de las carnes que hemos estado analizando, los

tres contrastes

presentados anteriormente, junto con sus estadísticos de prueba y los correspondientes valores P, se resumen en la siguiente tabla:

Contraste Ci C1 C2 C3

1 3 0 0

Constantes del contraste

2

3

4

Estadístico FC (Ci )

-1 2 0

-1 -1 1

-1 -1 -1

86.12 0.6034 196.72

Valor P 0.0001 0.4608 0.0000

Tabla 4.11. Estimación y significancia de contrastes para el ejemplo 4.1

Lo que muestra que las hipótesis formuladas en los contrastes C1 y C3 se rechazan mientras que la formulada por el contraste C2 no se rechaza. En otras palabras, el promedio de bacterias en la carne empacada en plástico es mayor que el promedio de bacterias en las carnes empacadas en atmósferas de gases. Podemos afirmar esto porque la estimación del contraste es un número positivo: Cˆ1 = 2.11 aproximadamente. Análogamente, la conclusión que se puede obtener del contraste C2 es que el promedio de bacterias al empacar la carne al vacío es igual al promedio de bacterias al empacar con otros gases. Otra manera de probar hipótesis mediante contrastes es la utilización de los intervalos de confianza para ellos. Si el intervalo de confianza contiene al cero entonces el contraste se considera igual a cero. Por el contrario, si el cero no está dentro del

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

162

intervalo de confianza, el contraste es diferente de cero y será negativo o positivo según que el cero esté a la derecha o a la izquierda del intervalo de confianza. ESM V8 permite construir contrastes para el caso de comparación de varias medias en el diseño de una vía. Por ejemplo, para probar la hipótesis formulada por el contraste C3 (constantes 0, 0, 1 y -1), el paquete arroja los resultados consignados en la tabla 6.12. Nótese que el valor P, demasiado pequeño, nos lleva al rechazo de la hipótesis nula de que este contraste vale cero. Esto se confirma al observar los intervalos de confianza. En particular, el intervalo del 95% de confianza, situado a la derecha del cero, muestra que el contraste es positivo. Esto es: C3  0 . De aquí se deduce que 3  4 . Es decir, el promedio de bacterias en la carne al empacar en una atmósfera que es mezcla de gases, es mayor que el promedio de bacterias al empacar en una atmósfera de CO2 puro. Valor estimado del contraste: Varianza estimada del contraste: Suma de cuadrados del contraste: Valor F para H0:CONTRASTE=0: F(1, 8 ) =

3.90 0.0772 22.8150 196.9357

VALOR P: 0.000020 Intervalos Interv Interv Interv

de confianza para 90% ( 3.3831 , 95% ( 3.2591 , 99% ( 2.9676 ,

el contraste: 4.4169 ) 4.5408 ) 4.8324 )

Tabla 4.12 Estimación y significancia de un contraste con ESM v8.0

Con frecuencia resultan de interés ciertos contrastes, llamados contrastes ortogonales. k

Dos contrastes

C1 =   i i

k

y

i =1

C2 =  i i se dicen ortogonales si se cumple i =1

  i i   = 0. i =1  ni  k



En un diseño de una vía con k tratamientos existen exactamente k − 1 contrastes ortogonales entre sí. Por ejemplo, en el diseño del empaque de carnes que tiene cuatro tratamientos sólo es posible construir tres contrastes ortogonales. Ellos son (se dan solo las constantes): C1 = (3, -1, -1, -1),

C2 = ( 0, 2, -1, -1)

y

C3 = (0, 0, 1, -1).

Los contrastes ortogonales son interesantes entre otras cosas porque sus sumas de cuadrados proporcionan una descomposición de la suma de cuadrados de los tratamientos. Por ejemplo, las sumas de cuadrados de los tres contrastes ortogonales

REGRESION Y MODELOS LINEALES JACMEN

070819

163

UNIVERSIDAD DEL TOLIMA

dados anteriormente para el ejemplo 6.1 son respectivamente:

9.9856, 0.0722

y

22.8150, valores cuya suma es 32.8728, exactamente el valor de la suma de cuadrados de tratamientos (modelo) arrojado por la tabla anova.

4.4 Prueba de Kruskall y Wallis La correspondiente prueba no paramétrica para los diseños de una vía o completos aleatorios es la prueba de Kruskall y Wallis que busca probar la hipótesis nula de que las medianas de los tratamientos son iguales (H0: M 1 = M 2 = ... = M k ) y que puede ser resumida en lo siguiente:

Las observaciones de las diferentes muestras se reúnen en una sola gran muestra, dentro de la cual se asignan rangos que luego se separan dentro de cada tratamiento según a donde pertenezca la respectiva observación. De esta manera se pueden obtener las sumas de rangos por tratamiento T j para j = 1, 2,3

k , como se muestra en la tabla

siguiente:

TRA1 x11 x12  x1n1

TRA2 x 21 x 22 

...

...

x2n2

TRAk xk1

TRA1 TRA2 r( x11 ) r( x 21 ) r( x12 ) r( x 22 )   r( x1n1 ) r( x 2n ) 2

xk 2  x knk

T1

T2

...

...

...

TRAk r( xk1 ) r( x k 2 )  r( x knk )

Tk

Tabla 4.13 Transformación de rangos para una prueba de Kruskall y Wallis

Kruskall y Wallis propusieron el siguiente estadístico de prueba que tiene distribución asintótica Ji-cuadrado con k − 1 grados de libertad:

H =

2 12  k T j   − 3(n + 1) n(n + 1)  j =1 n j 

k

donde

n = n j j =1

REGRESION Y MODELOS LINEALES JACMEN

070819

164

UNIVERSIDAD DEL TOLIMA

De acuerdo con lo anterior se rechaza la hipótesis de igualdad de las medianas cuando el estadístico H determine un valor P muy pequeño bajo una Ji-cuadrado con k − 1 GL.

Se debe tener en cuenta, sin embargo, que la técnica no paramétrica aquí mencionada no proporciona herramientas de comparaciones múltiples. En caso de rechazo de la hipótesis nula, tales pruebas se hacen con base en los intervalos de confianza para las medias o para las diferencias de medias lo que implica que también debe realizarse tales cálculos paramétricos tal y como fueron expuestos anteriormente.

Ejemplo 4.2: Utilizando el archivo FINCAS.DAT

se hará una comparación de los

promedios de temperaturas (variable X3) en los diferentes tipos de terreno (variable X4). Es decir, se quiere saber si en promedio la temperatura del terreno plano es diferente a la del terreno quebrado y éstas diferentes a la de los terrenos mixtos.

El problema se analiza proponiendo como hipótesis nula que estas temperaturas sí son iguales y luego se decidirá si se rechaza o no esta hipótesis. En ESM se obtiene la salida que se presenta en la página siguiente. Como puede apreciarse en dicha salida, el análisis dice que no existen diferencias entre las temperaturas de los diferentes tipos de terreno. Sin embargo esta conclusión es dudosa ya que no se cumplen los supuestos para que el análisis de varianza sea confiable: No se puede garantizar la homogeneidad de las varianzas en los tres grupos y los residuos del modelo no son normales. Este es un ejemplo que debiera ser analizado además mediante el método no paramétrico que se expondrá más adelante. ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio) ANOVA: VAR-Clasif: TERRENO VAR-Análisis: TEMPER ____________________________________________________________________ PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA Variable analizada: TEMPER Variable Clasif: TERRENO Archivo de datos: finca150.dat GRUP 1 2 3

P 0.000563 0.003073 0.018234

#OBS 35 67 48

TOTAL OBSERVACIONES: 150

Z 3.450 2.961 2.361

MEDIA 17.8286 18.3881 18.6875

VARIANZA 22.2050 19.6653 23.7939

REGRESION Y MODELOS LINEALES JACMEN

070819

165

UNIVERSIDAD DEL TOLIMA

PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS: V/r de B:

0.5168

V/r P = 0.772300

Ji-2:

2

GL

______________________________________________________________________ Numero de observaciones: ...................... 150 Numero de tratamientos: ....................... 3 Suma total de observaciones: .................. 2753 Media general de las observaciones: ........... 18.35333333333333 Suma de cuadrados de observaciones: ........... 53713 Corrección para la media: ..................... 50526.72666666667 Suma de cuadrados corregida: .................. 3186.273333333331 ______________________________________________________________________ TABLA ANOVA: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 15.0790 2 7.5395 0.3495 Error 3171.1944 147 21.5728 ***** Total 3186.2733 149 ***** ***** --------------------------------------------------------------------------R2 = 4.732E-003 F tiene 2 y 147 Grados de libertad Valor P de probabilidad: 0.71089000 Valor exacto del CME = 21.57275085940558 ****

PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL (Prueba de Geary)

****

VARIABLE ANALIZADA: RESIDUO (No Clasificada) ARCHIVO DE DATOS: residuos.dat HIPOTESIS NULA: Las observaciones de la variable analizada SE AJUSTAN A UNA DISTRIBUCION NORMAL con Media (estimada): 4.333333333354024E-005 Varianza (estimada): 21.28318373468679 Valor crítico de Z para H0: VALOR P:

4.942729917122696 0.00000078

Ejemplo 4.3: Si se construye la proporción de hembras por finca como el total de hembras

sobre

PORCHE =

el

total

de

animales

en

cada

finca.

Esto

es:

HEMBRAS , podemos averiguar si este índice difiere MACHOS + HEMBRAS

significativamente en los diferentes tipos de terreno (variable X4). Para esto debemos construir la variable PORCHE ya que ella no se encuentra en el archivo de datos. Usando la rutina de transformación de variables construimos en primer lugar la totalidad de animales de cada finca, sumando las variables X7 y X8, y luego hacemos el cociente de

REGRESION Y MODELOS LINEALES JACMEN

070819

166

UNIVERSIDAD DEL TOLIMA

la variable X8 (HEMBRAS) entre la variable recién construída. Esta será la variable de análisis. La variable de clasificación o tratamientos será el TIPO DE TERRENO (X4). Con ellas se hace el análisis de varianza, cuyo resultados en ESM pueden verse en las páginas siguientes.

____________________________________________________________________ PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA Variable analizada: PORCHE Variable Clasif: TERRENO Archivo de datos: finca150.dat GRUP 1 2 3

P 0.478737 0.673503 0.200657

#OBS 35 67 48

Z 0.708 0.421 1.280

MEDIA 0.6739 0.6374 0.5698

VARIANZA 0.0395 0.0511 0.0489

TOTAL OBSERVACIONES: 150

PRUEBA BARTLETT PARA IGUALDAD DE VARIANZAS ENTRE GRUPOS: V/r de B: 0.7344 V/r P = 0.692688 Ji-2: 2 GL ____________________________________________________________________

ANALISIS DE VARIANZA DE UNA VIA - (Diseño Completo Aleatorio) ANOVA: VAR-Clasif: TERRENO VAR-Análisis: PORCHE ______________________________________________________________________ Numero de observaciones: ...................... 150 Numero de tratamientos: ....................... 3 Suma total de observaciones: .................. 93.64001000000005 Media general de las observaciones: ........... .6242667333333336 Suma de cuadrados de observaciones: ........... 65.70681572325402 Corrección para la media: ..................... 58.45634315200073 Suma de cuadrados corregida: .................. 7.250472571253297 ______________________________________________________________________ .. TABLA ANOVA: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 0.2399 2 0.1200 2.5155 Error 7.0105 147 0.0477 ***** Total 7.2505 149 ***** ***** --------------------------------------------------------------------------R2 = 3.3091E-002 F tiene 2 y 147 Grados de libertad Valor P de probabilidad: 0.08232000 Valor exacto del CME = 4.769077018326961E-002

REGRESION Y MODELOS LINEALES JACMEN

070819

167

UNIVERSIDAD DEL TOLIMA

** PRUEBAS DE IGUALDAD DE VARIANZAS ENTRE TRATAMIENTOS: (Hipótesis nula: 1.

Ho:

12 =  22 =  32

PRUEBA CONJUNTA DE BARTLETT: B = 0.734351 P = 0.69268793

2.

PRUEBAS INDIVIDUALES DE IGUALDAD DE VARIANZAS: (Comparan cada par de tratamientos ignorando los demás).

Tratamiento: 2 VS Razón de Varianza:

Tratamiento: 1 : 1.2931

P = 0.2083200

GL: 66

y

34

Tratamiento: 3 VS Razón de Varianza:

Tratamiento: 1 : 1.2384

P = 0.2588600

GL: 47

y

34

Tratamiento: 3 VS Razón de Varianza:

Tratamiento: 2 : 1.0441

P = 0.4429700

GL: 66

y

47

VALOR (MINIMO) DE

P: 0.20832000

INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO: Variable de análisis: PORCH Var Clasific: TERRENO _________________________________________________________________________ Numero de Tratamientos: 3 MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 : Media: .6738 Err.Stand: 3.691332325607792E-002 Inter90%: [ 0.6131, 0.7345] <-Inter95%: [ 0.6014, 0.7462] Inter99%: [ 0.5787, 0.7689] MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 : Media: .6373 Err.Stand: 2.667962780941294E-002 Inter90%: [ 0.5934, 0.6812] <-Inter95%: [ 0.5850, 0.6896] Inter99%: [ 0.5686, 0.7060] MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 : Media: .5698 Err.Stand: 3.152075050108183E-002 Inter90%: [ 0.5179, 0.6217] <-Inter95%: [ 0.5080, 0.6316] Inter99%: [ 0.4886, 0.6510] _________________________________________________________________________

COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD): Ho: μ(i)= μ(j) H1: μ(i) <> μ(j) *DS* = Difieren signif. *ND* = No dif NOTA: Se presentan todas las combinaciones de tratamientos por pares.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

168

MEDIA DE TRATAM( 2 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -0.03648184 LSD(α=0.10) = LSD(α=0.05) = LSD(α=0.01) =

0.0749 0.0893 0.1173

*ND* *ND* *ND*

<--

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 1 ): Diferencia de medias = -0.10404684 LSD(α=0.10) = LSD(α=0.05) = LSD(α=0.01) =

0.0798 0.0951 0.1250

*DS* *DS* *ND*

<--

MEDIA DE TRATAM( 3 ) - MEDIA DE TRATAM( 2 ): Diferencia de medias = -0.06756500 LSD(α=0.10) = LSD(α=0.05) = LSD(α=0.01) =

****

0.0679 0.0809 0.1064

*ND* *ND* *ND*

<--

PRUEBA DE AJUSTE A UNA DISTRIBUCION NORMAL (Prueba de Geary)

****

VARIABLE ANALIZADA: RESIDUOS (No Clasificada) ARCHIVO DE DATOS: residuos.dat Número de observaciones:

150

HIPOTESIS NULA: Las observaciones de la variable analizada SE AJUSTAN A UNA DISTRIBUCION NORMAL con Media (estimada): 5.006666666666789E-005 Varianza (estimada): 4.705062642451899E-002 Valor crítico de Z para H0: VALOR P:

.6525776466669402 0.51404673

Como se ve, en este caso se cumplen los supuestos y además se concluye que el terreno con mayor índice de hembras es el terreno plano, cuyas diferencia con el quebrado no es significativa.

4.5 Diseño de dos vías (Diseño aleatorio de bloques completos) La generalización inmediata de la comparación de dos medias pareadas es la comparación de k medias ligadas. Recuérdese que en caso de dos medias cada pareja de observaciones procedían del mismo individuo o de individuos muy semejantes

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

169

(gemelos). Siguiendo este mismo patrón de conducta, en el caso que nos ocupa se tendrán k-uplas de observaciones que deben proceder de individuos muy semejantes. Una k-upla de individuos semejantes o muy homogéneos recibe el nombre de bloque.

Cuando b bloques de k individuos cada uno, se asignan a k tratamientos de manera que los individuos de cada bloque se asignen a los tratamientos en forma aleatoria, se tiene un diseño aleatorio de bloques completos o diseño de dos vías de clasificación.

En este caso las observaciones tendrán la siguiente disposición:

BLOQUES Bloque 1

TRAT1 x11

TRAT2 x21

... ...

TRATk xk1

Bloque 2

x12  x1b

x22

...

xk 2

 x2b

 ...

 xkb

 Bloque b

Tabla4.14 Esquema de organización de datos para un ANOVA de dos vías

La correspondiente tabla ANOVA tiene el aspecto que muestra la tabla 6.15, donde

T2 (valor que se conoce como corrección por la media) y donde T*i , i = 1,2,..., b C= kb son los totales marginales para los bloques (por filas);

T j*,

j =1, 2,..., k

son los totales

marginales para los tratamientos (por columnas)

Como puede apreciarse, en este caso aparecen dos valores de F, uno para tratamientos (Ft) y el otro para bloques (Fb). Se pueden probar dos hipótesis, a saber:

En primer lugar la hipótesis nula de que no hay diferencias significativas entre la medias de los tratamientos, es decir: H0: 1 =  2 =  =  k , hipótesis que se prueba contra la alternativa de que no todas las medias son iguales. Esta hipótesis se prueba con la F de tratamientos (Ft) que tiene distribución con k − 1 y (k − 1)(b − 1) grados de libertad. El rechazo de esta hipótesis obliga a realizar comparaciones múltiples para determinar el

REGRESION Y MODELOS LINEALES JACMEN

070819

170

UNIVERSIDAD DEL TOLIMA

orden de las medias y de esta manera averiguar cuál es el mejor tratamiento (o el peor) y cuales no difieren entre sí. El criterio LSD sigue siendo el mejor en este caso.

ANOVA para un diseño aleatorio de bloques completos (dos vías) Fuente de Suma de cuadrados GL Cuadrados F calc Variación Medios SCTr CMTr 1 k 2 CMTr = Ft = SCTr = T j* − C  Tratamientos k −1 k −1 CME b j =1 Bloques Error

SCB =

1 b 2  T*i − C k i =1

SCE = SCT − SCTr − SCB k

TOTAL

b −1

CMB =

SCB b −1

Fb =

CMB CME

SCE

(k − 1)(b − 1) CME = (k − 1)(b − 1)

*****

b

SCT =  xij2 − C j =1 i =1

*****

*****

*****

Tabla 4.15 Tabla ANOVA para un diseño de bloques completos

En segundo lugar, se puede probar la hipótesis de que no hay diferencias entre las medias de los bloques. Esta se prueba con la F de bloques (Fb) que tiene b − 1 y (k − 1)(b − 1) grados de libertad. Sin embargo esta hipótesis es secundaria ya que si el

experimento ha sido bien diseñado, tales medias por principio deben ser diferentes.

ESM realiza la prueba anterior junto con los cálculos necesarios para aplicar los criterios LSD y comparaciones múltiples mediante intervalos de confianza, para lo cual es necesario que los datos se encuentren en una única columna y que existan dos columnas adicionales de tipo categórico, con códigos numéricos, que identifiquen el tratamiento y el bloque al que pertenece cada observación.

El cuadrado medio esperado para tratamientos en un diseño de dos vías está dado por la expresión E(CMTr) =  2 +

b k ( i −  ) 2 , lo que prueba que bajo la hipótesis nula  k − 1 i =1

de que las medias de tratamientos son iguales, el cuadrado medio de tratamientos es una estimación de la varianza y puede aplicarse el argumento presentado en el diseño de una

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

171

vía para determinar por qué la prueba F permite decidir si se cumple o no la igualdad de medias en los tratamientos.

Si designamos por c =

b(k − 1) CMB , la expresión ER = (1 − c) + c es conocida como bk − 1 CME

eficiencia relativa y mide la eficiencia que presenta el diseño de dos vías sobre el diseño de una vía. El diseño de dos vías es más eficiente que el de una vía siempre que

ER  1 .

4.6 La prueba de Friedman Cuando no sean aplicables los procedimientos anteriores bién sea porque se violan los supuestos de normalidad o porque los tamaños de muestra son extremadamente pequeños, es posible recurrir a la prueba no paramétrica de Friedman que es el correspondiente sustituto para el ANOVA de los diseños de dos vías. Sin embargo se debe tener presente que esta prueba por lo general tiene menos potencia que la prueba paramétrica y en consecuencia es posible que muestre no diferencias de medias entre tratamientos cuando realmente estos sí difieran.

Para la prueba de Friedman se asignan rangos a las observaciones de cada bloque (fila por fila) y luego se suman los rangos correspondientes a cada tratamiento. De esta manera se obtienen k sumas de rangos T1 , T2 , T3 , Tk con los cuales se construye el siguiente estadístico de prueba;

S=

12  k 2    T j  − 3b(k + 1) bk (k + 1)  j =1 

Friedman demostró que bajo la hipótesis nula de no diferencias entre las medias de tratamientos, este estadístico tiene distribución asintótica Ji-cuadrado con k − 1 grados de libertad. En consecuencia, un valor grande de S, es decir un pequeño valor P bajo

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

172

esta distribución, indica que la hipótesis nula es falsa y que, por tanto, debe ser rechazada.

4.7 El análisis de varianza en experimentos diseñados. El diseño de experimentos es la parte de la estadística que estudia la manera de organizar los materiales, disponer las unidades muestrales, asignar tratamientos, medir respuestas, analizar e interpretar información para obtener conclusiones acerca del comportamiento de la(s) variable(s) de respuesta en un experimento controlado. El diseño de experimentos constituye un tema demasiado amplio que no puede ser tratado en un libro como éste pero, dado que en este capítulo se ha venido hablando de la comparación de varias medias, justo es dar algunas nociones muy básicas acerca del diseño de experimentos en los modelos más elementales.

Sir Ronald Aylmer Fisher, estadístico y genetista inglés, inventor de las técnicas de máxima verosimilitud y análisis de varianza y pionero del diseño de experimentos, nació en Londres el 17 de febrero de 1890 y murió el 29 de julio de 1962 en Adelaida (Australia). Obtuvo en 1912 un título en matemáticas en la Universidad de Cambridge. Desde 1919 trabajó en la estación experimental Rothamsted. En 1933 llegó a ser profesor en University College London y en 1943 profesor de Cambridge. Es famosa una disputa científica que sostuvo con Pearson desde 1917 y que Fisher continuó aún después de la muerte de aquel, ocurrida en 1936, debido tal vez a su incontrolable temperamento que muchas veces obligó a sus estudiantes a abandonar sus clases.

Podemos afirmar que los experimentos son de dos clases fundamentalmente: comparativos y de pronóstico. Los primeros –casos de comparaciones de medias, por ejemplo- establecen conjuntos de circunstancias dentro del experimento y comparan las

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

173

respuestas en esas circunstancias. En esta clase de experimentos los tratamientos son las circunstancias creadas para cada respuesta. Los experimentos de pronóstico –casos de regresión o de superficies de respuesta, por ejemplo- proponen modelos que describen las respuestas en términos de las variables dependientes para pronosticar otros valores de respuesta en casos que no han sido observados.

Existe una gran variedad de diseños experimentales adecuados a diferentes situaciones y también existen varias técnicas estadísticas que permiten analizarlos. Pero podría decirse que todos los casos obedecen a un único modelo general, a saber: varias unidades experimentales, es decir, objetos físicos o individuos, son sometidos a la acción de uno o más agentes que producen un efecto sobre ellas. El efecto producido es cuantificable mediante una o más variables de tipo numérico mientras que los agentes transformadores son aplicados en dosis o niveles definidos previamente por el investigador.

(Y1 , Y2 ,

De esta manera se establece una relación funcional del tipo

, Yp ) = f ( X 1 , X 2 ,

(respuestas) y las

Xj

, X r ) donde las

Yi

son variables de tipo numérico

son variables de tipo categórico (variables independientes o

factores). Las categorías o modalidades de estas últimas variables se denominan niveles. Los modelos más simples de diseño corresponden a la situación en la cual Y = f ( X ) con X, variable categórica, Y variable numérica y f una función de tipo lineal. Los diseños en los cuales r  1 se denominan multifactoriales y los diseños en los cuales p  1 se dicen multivariados. En general las situaciones más estudiadas corresponden a

una o más variables independientes de tipo categórico y a una variable Y de tipo numérico como respuesta, enlazadas por una función de tipo lineal. En cambio de tomar factores de tipo categórico, también es posible tomar variables numéricas para observar el experimento únicamente en ciertos valores o niveles de dichas variables. En estos casos el objetivo perseguido es la construcción de una curva o superficie de respuesta en la que se pueda encontrar un máximo o un mínimo y determinar a cuál o cuáles valores de los factores corresponde.

De acuerdo con lo anterior se puede afirmar que un experimento diseñado puede ser estudiado como un caso de superficies (o curvas) de respuesta, tambíén podría

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

174

corresponder al estudio de modelos lineales generales e incluso podría corresponder a casos de modelos no lineales (cuando la función de enlace f no sea lineal). Desde este punto de vista, el estudio de la información de un experimento diseñado suele recurrir a herramientas matemáticas (principalmente cálculo y álgebra lineal) para su análisis.

Los diseños comparativos de experimentos son de dos tipos principalmente: unos, conocidos como diseños de efectos fijos porque los niveles de los diferentes factores han sido definidos a juicio y gusto de los investigadores. Es éste –el investigador- quien decide, por ejemplo, los niveles de temperatura, de humedad, de dosis químicas que usará en un experimento. En otros experimentos el investigador no puede seleccionar los niveles de los factores sino que éstos surgen aleatoriamente de una gran cantidad de posibilidades. Piénsese, por ejemplo, en una investigación en la que se pretende mostrar que la profundidad a la que se encuentre el carbón natural influye en sus propiedades bituminosas. Se debe extraer carbón de diferentes profundidades para analizarlo químicamente. Para ello se realizan perforaciones en diferentes sitios de una zona carbonífera y se toman muestras. En este caso el analista del experimento no puede determinar con anticipación la profundidad de las perforaciones, las cuales resultan aleatorias. Es decir, los niveles de profundidad no son definidos previamente sino que constituyen una muestra aleatoria de todos los posibles valores de profundidad a los que se pueda encontrar carbón. Los diseños que obedezcan a este último patrón se conocen como diseños de efectos aleatorios. Finalmente los diseños de dos o más factores podrían ser mixtos si algunos de dichos factores son de efectos fijos y los demás de efectos aleatorios.

Existe una variada gama de experimentos que se ajustan a determinados modelos predefinidos y que pueden ser estudiados mediante la técnica de descomposición de la variabilidad (ANOVA), tal como ocurrió con los modelos de una y dos vías estudiados anteriormente.

El propósito de esta sección es presentar la técnica ANOVA para el análisis de la información en experimentos de efectos fijos de dos o tres factores con una única respuesta Y. Se hará también una breve referencia a los experimentos de efectos

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

175

aleatorios al final de la sección. El caso de experimentos con un único factor y una única respuesta Y, es lo estudiado en las secciones anteriores de este mismo capítulo. Los casos más complejos de experimentos con uno o más factores y varias respuestas no se estudian en este libro, a excepción de los casos más sencillos, correspondientes a un único factor y varias respuestas que se ve usualmente en los cursos de análisis multivariado.

En el diseño y análisis de un experimento suelen presentarse ciertos elementos de tipo teórico y ciertos conceptos que deben ser entendidos para garantizar una adecuada aplicación de los datos a un determinado modelo y garantizar así correctas interpretaciones y decisiones. En los párrafos siguientes se busca sentar algunas bases para el diseño de un experimento sin pretender que con ello se agote el tema, por cierto amplio y complejo.

Una primera inquietud que se puede formular es acerca de la necesidad de planear un experimento. La investigación experimental tiene como inquietud frecuente comparar diferentes acciones, agentes o factores para determinar cuál de ellos es más eficiente o produce mejores resultados. Ante la carencia de una explicación natural que satisfaga esta pregunta, el científico experimental opta por ensayar diversos factores o diversos niveles de uno o más factores para determinar cuál combinación de ellos produce una mejor respuesta. Si este ensayo se hace de una manera organizada, ciñéndose a ciertos parámetros determinados por un modelo estadístico que ha sido probado teóricamente, se tendrá un experimento diseñado, cuyo análisis obedece a deducciones lógicas propias del modelo al cual se ajusta.

Se denominan unidades experimentales a cada una de las entidades físicas o sujetos expuestos al tratamiento, independientemente de otras unidades.

El error experimental describe la variabilidad entre las unidades experimentales tratadas de manera idéntica e independiente. Puede producirse por variación entre unidades experimentales, variabilidad en las mediciones, imposibilidad de reproducir con

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

176

exactitud las condiciones de los tratamientos en las unidades experimentales o por presencia de factores externos que no han sido controlados.

Existen varias estrategias para reducir el error experimental y aumentar la exactitud en las mediciones. Tales técnicas se conocen como técnicas de control local. Las dos más usadas son las siguientes: •

Selección de unidades experimentales uniformes (homogéneas)



Bloquización o agrupamiento de las unidades experimentales de modo que la variación dentro de cada grupo después del agrupamiento sea menor que antes del mismo

La bloquización suele realizarse de acuerdo con los siguientes criterios: o Por proximidad física o Por características físicas como edad, peso, tamaño, raza, etc o Por simultaneidad temporal (unidades examinadas en la misma época) o geográfica o Por administración de tareas en el experimento

En muchos experimentos se presentan tratamientos de control que, por lo general, son grupos de unidades experimentales a las que no se les da ningún tratamiento. Estos tratamientos son útiles y necesarios en determinadas circunstancias, especialmente cuando las condiciones del experimento sean un obstáculo para la efectividad de los tratamientos. Un tratamiento control revela las condiciones en que se efectuó el experimento. Por ejemplo, los fertilizantes con nitrógeno suelen ser efectivos pero en campos altamente fértiles no producen respuesta. Hay también casos en los cuales la manipulación de las unidades experimentales ya produce un efecto, en estos casos se usa un control placebo.

Se entiende por replicaciones las repeticiones independientes del experimento básico, las cuales se hacen por las razones siguientes: a. Muestran que se pueden reproducir los resultados

REGRESION Y MODELOS LINEALES JACMEN

070819

177

UNIVERSIDAD DEL TOLIMA

b. Proporcionan seguridad contra los resultados anormales por accidentes no previstos c. Permiten estimar la varianza del error experimental d. Aumentan la precisión en la estimación de las medias de los tratamientos

El número de réplicas mínimo por tratamiento no puede ser arbitrario. Dependiendo del nivel de significancia al que se desee realizar el experimento, de la precisión de las estimaciones y de la dispersión de las respuestas se debe calcular un mínimo de réplicas

(

para cada tratamiento. Dicho valor está determinado por r = 2 z + z 2

)

2

     

2

donde

δ es un porcentaje de la media general del experimento y 1 −  es la potencia de la prueba (usualmente 0.8 o una cantidad mayor hasta 0.95)

El cálculo del número de réplicas no es sencillo pues usualmente no se conoce la media general ni es fácil determinar el nivel de precisión de las estimaciones. Sin embargo, como sucede frecuentemente, un experimento se realiza varias veces perfeccionando cada vez su diseño. De esta manera los datos arrojados en las primeras realizaciones se convierten en insumos para las siguientes realizaciones.

Conviene llamar la atención sobre el siguiente hecho importante: para calcular los tamaños de muestra en cada tratamiento (número de réplicas) se fija un valor de significancia α el cual determina el cuantil z

que se usa en la fórmula anterior. Esto 2

implica que para otro nivel de significancia menor que el anterior, el correspondiente cuantil sea mayor y por tanto que se requiera un mayor tamaño de muestra, es decir, mayor número de réplicas. En consecuencia, las conclusiones que se obtengan para el nivel de significancia α posiblemente no sean válidas para niveles de significancia inferiores. Es un error entonces, sacar conclusiones sin haber verificado previamente que el número de réplicas del experimento es suficiente para ello.

Otro elemento importante en el diseño de los experimentos es el principio de aleatorización el cual se usa como sustituto de la hipótesis de normalidad cuando se

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

178

hace una selección cuidadosa de unidades experimentales. Según este principio, las unidades experimentales deben ser asignadas en forma aleatoria a los tratamientos. La aleatorización disminuye la correlación entre unidades próximas reafirmando con ello la independencia entre ellas. Además elimina sesgos producidos por la asignación sistemática de los tratamientos a las unidades experimentales. Es bueno saber que no siempre es posible aplicar el principio de aleatorización. Así sucede por ejemplo, en experimentos ecológicos.

En general los diseños de experimentos deben satisfacer ciertos supuestos bajo los cuales han sido desarrollados los principios teóricos que los sustentan. El cumplimiento de estos supuestos garantiza la validez de los resultados y, por ello, debe ser verificado cada vez que se analice un experimento. Son cuatro los supuestos más importantes que se debe cumplir en un diseño: 1) Aditividad de los efectos lo que implica ausencia de interacción. 2) Independencia de los términos de error 3) Normalidad de los errores y 4) Homogeneidad de la varianza de los términos de error sin importar la magnitud de los efectos.

Las condiciones anteriores imponen severas restricciones a los análisis de experimentos basados en la técnica ANOVA y, en consecuencia, en la práctica debe constatarse su cumplimiento antes de emitir juicios y tomar decisiones.

La violación fuerte de la normalidad afecta la validez de las pruebas F pues en tal caso no se cumple en general que los cuadrados medios tengan distribuciones Ji cuadrado independientes. Las inferencias que se realicen respecto a las medias en poblaciones no normales siguen siendo válidas siempre que se utilicen muestras grandes. Esto, infortunadamente, no funciona con las varianzas pues en tales casos la varianza de

s2

2

se incrementa en un factor proporcional a la curtosis afectando seriamente los niveles de potencia, calculados bajo el supuesto de normalidad. Este problema tiene un impacto menor cuando se usan muestras del mismo tamaño para todos los tratamientos (es decir, en todas las celdas).

REGRESION Y MODELOS LINEALES JACMEN

La falta de

070819

179

UNIVERSIDAD DEL TOLIMA

independencia de los términos de error

se presenta cuando las

observaciones presentan correlación serial Por ejemplo, si cada observación presenta con la siguiente una correlación

ρ (autocorrelación de primer orden) entonces se

cumple:

E( x ) =  ,

V( x ) =

2 

1  1 + 2  (1 − ) n  n 

y

E (s 2 ) =

2 n

(1 − 2  )

lo que hace que los intervalos de confianza calculados por los métodos corrientes no cubran el verdadero valor de la media en los niveles de probabilidad para el cual se construyen. Por ejemplo, para ρ = 0.5 la probabilidad de 0.95 se reduce drásticamente a 0.166. Esto da una idea del impacto negativo que puede traer la falta de independencia entre las observaciones de los tratamientos. Los problemas son mucho más graves cuando existen autocorrelaciones de primero y otros órdenes.

La falta de homogeneidad de las varianzas tiene también implicaciones negativas pero ellas dependen de los tamaños muestrales de los tratamientos. En los diseños balanceados (es decir con el mismo tamaño de muestra en todos los tratamientos) el impacto negativo de la carencia de homocedasticidad no es tan grave como en los diseños desbalanceados. Aún con muestras grandes, en los diseños desbalanceados, se incrementa la varianza del cociente de los cuadrados medios entre y dentro, lo que hace que se aumente la probabilidad de incurrir en error tipo I. La estrategia para reducir la heterocedasticidad es el uso de transformaciones monótonas –tales como el logaritmolo que puede afectar la normalidad. Con todo, como se dijo antes, es menos grave la trasgresión de la normalidad que la heterocedasticidad.

Mencionaremos por último la covariabilidad Con frecuencia es posible usar variables relacionadas con la variable de respuesta que permiten ejercer un control de tipo estadístico sobre la varianza del error experimental. Tales variables son conocidas como covariables o variables concomitantes. Los análisis de experimentos que contemplan este tipo de variables se conocen como análisis de covarianza.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

180

Todos los principios generales que hemos mencionado hasta el momento son aplicables a los diseños de experimentos de cualquier naturaleza, incluidos los ya estudiados experimentos unifactoriales de una y dos vías.

Muy brevemente presentaremos ahora dos tipos de experimentos univariados y multifactoriales: son los diseños de dos y tres factores.

4.8 Diseños multifactoriales Al diseñar un experimento resulta difícil aislar completamente una única causa (variable independiente) como responsable de los efectos que se producen en un fenómeno. Por lo general dichos efectos son producidos en mayor o menor grado por un sinnúmero de factores y, es un verdadero arte determinar cuáles de ellos son los más importantes. Es evidente que al diseñar un experimento con demasiados factores activos los costos y las dificultades teóricas de análisis pueden ser enormes. Por esta razón se busca reducir el número de factores activos y controlar o eliminar la mayor parte de factores externos (exógenos) que puedan causar interferencia. En la práctica se suelen admitir dos o tres factores activos. Muy excepcionalmente, otros números, y casi nunca más de cinco.

4.8.1 Diseños bifactoriales Existen varios diseños experimentales para dos factores. Aquí presentaremos únicamente los diseños completos y balanceados de dos factores. Un diseño es completo cuando en él se consideran todas las posibles combinaciones de niveles de cada factor. Así, por ejemplo, si un factor en un experimento agronómico es el tipo de terreno (ácido, neutro y alcalino) con tres niveles y otro factor es la temperatura con cuatro niveles (12°C, 16°C, 21°C y 25°C) habrá un total de 3  4 = 12 tratamientos posibles. Si a todos los 12 tratamientos se asigna unidades experimentales, el diseño será completo. Por el contrario, será incompleto si uno o más de los tratamientos no tiene unidades experimentales asignadas. Por otra parte un diseño factorial es balanceado cuando todos los tratamientos tienen el mismo número de unidades experimentales asignadas. Por ejemplo, en el caso citado, si cada uno de los 12 tratamientos tiene cuatro unidades

REGRESION Y MODELOS LINEALES JACMEN

070819

181

UNIVERSIDAD DEL TOLIMA

experimentales, es decir cuatro réplicas. Por razones de economía un experimento podría ser incompleto. Por razones fortuitas –como la muestre de un animal o una planta- un diseño puede ser desbalanceado. Tanto la incompletez como el desbalanceo son condiciones que complican el análisis de un diseño factorial. Existen tratamientos para remediarlos pero esos temas están fuera del alcance de esta obra.

Supóngase entonces que que se ha desarrollado un diseño completo y balanceado de dos factores

F1 y F2 con a y b niveles respectivamente. Supóngase además que en

cada uno de los ab tratamientos (combinaciones de los niveles) hay r réplicas y que todas ellas

han proporcionado una respuesta al final del experimento. Se tienen

entonces abr valores reales correspondientes a las respuestas de las correspondientes unidades experimentales observadas, las cuales corresponden a la siguiente representación del diseño:

Nivel 1 Nivel 1 F1

2 … a

Factor F2 Nivel 2

y111 , y112 ,

, y11r

y121 , y122 ,

y211 , y212 , … ya11 , ya12 ,

, y21r

y221 , y222 , , y22r … ya 21 , ya 22 , , ya 2 r

, ya1r

, y12 r



Nivel b



y1b1 , y1b 2 ,



y2b1 , y2b 2 , , y2br … yab1 , yab 2 , , yabr

… …

, y1br

Tabla 4.16 Disposición de los datos para un diseño de dos factores

Este diseño corresponde a un modelo estadístico de la forma yijk = ij +  ijk donde i = 1,2,…, a;

j = 1, 2, …, b;

k = 1, 2, …, r;

ij es la media del tratamiento

resultante al combinar los niveles i y j de F1 y F2 respectivamente y  ijk son los errores experimentales aleatorios que se suponen distribuídos normalmente con media 0 y varianza constante  2

En este tipo de diseños la suma de cuadrados de todas las observaciones a

b

r

SCT =  ( yijk − y )2 se descompone en cuatro sumas de cuadrados a saber: una i =1 j =1 k =1

REGRESION Y MODELOS LINEALES JACMEN

correspondiente al factor correspondiente a

F1,

070819

182

UNIVERSIDAD DEL TOLIMA

otra correspondiente al factor

F2, una tercera

las combinaciones de niveles y una cuarta que es la suma de

cuadrados residual, o no explicada, que se denomina suma de cuadrados del error; las cuales están dadas respectivamente por:

Suma de cuadrados para F1: SC1 = rb ( yi.. − y... ) 2 b

Suma de cuadrados para F2: SC 2 = ra  ( y. j . − y... ) 2 j =1

a

b

Suma de cuadrados para interacciones: SC12 = r  ( yij . − yi.. − y. j. − y... ) 2 i =1 j =1

La interacción puede definirse por ij − i. − . j + ... . Las interacciones, cuando existen, hacen que la respuesta a los tratamientos no sea dada exclusivamente por la suma de los efectos de cada factor sino que parte de esa respuesta se debe a la interacción de los factores. En otras palabras los efectos de los factores son aditivos en ausencia de interacción.

Las sumas de cuadrados son variables aleatorias cuyas distribuciones como las de todas las sumas de cuadrados son distribuciones Ji cuadrado con ciertos grados de libertad dados de acuerdo con la siguiente tabla de análisis de varianza

Fuente de Variación Factor F1

Suma de cuadrados SC1

Grados de libertad a–1

Cuadrados medios CM1=SC1/a-1)

Cuadrados medios esperados  2 + rb12

Factor F2

SC2

b–1

CM2=SC2/(b-1)

 2 + ra 22

Inter. F1*F2

SC12

(a - 1)(b - 1)

 2 + r122

Error Total

SCE SCT

ab( r - 1) rab - 1

CM12=SC12/(a-1)(b1) CME=SCE/ab(r-1) -------------

Tabla 4.17 Tabla de ANOVA para un diseño bifactorial completo

Donde 12 =

1 a ( i. − ... )2 ,  a − 1 i =1

 22 =

1 a ( . j − ... )2 ,  b − 1 i =1

2 -------------

REGRESION Y MODELOS LINEALES JACMEN

y

122 =

070819

183

UNIVERSIDAD DEL TOLIMA

a 1 ( ij − i. − . j + ... )2 ,  (a − 1)(b − 1) i =1

La tabla anterior proporciona los elementos necesarios para juzgar en primer lugar si las interacciones entre los factores son significativas o no y en segundo lugar para saber si existen efectos significativos de los factores, lo que finalmente se traduciría en diferencias de medias entre tratamientos.

En efecto: Si no existiera interacción entre los factores se tendría ij − i. − . j + ... = 0 lo que implicaría 122 = 0 y, entonces, E(CME) =  2 . En tal caso la razón CM 12 tendría distribución F con (a - 1)(b - 1) CME

y ab(r - 1) grados de

libertad. En consecuencia, una F con estas características proporciona un mecanismo de prueba para determinar la significancia de la interacción entre los factores. Una interacción significativa puede alterar la inferencia basada en las diferencias significativas entre las medias marginales de los factores.

En caso de que la interacción no sea significativa, un argumento similar al ya expuesto pero realizado sobre los cuadrados medios

CM1 y CM2,

permite concluir que bajo las hipótesis nulas de igualdad de medias para los niveles de los respectivos factores, los cocientes F2 =

CM 2 CME

F1 =

CM 1 CME

y

son variables aleatorias que tienen distribución F con grados

de libertad dados por los correspondientes grados de libertad de CM1,

REGRESION Y MODELOS LINEALES JACMEN

070819

184

UNIVERSIDAD DEL TOLIMA

CM2 y CME en la tabla. Esto proporciona herramientas para probar la igualdad de medias para cada uno de los respectivos factores.

En caso de obtener valores de F1 o F2 que obliguen a rechazar las correspondientes

hipótesis

nulas

se

pueden

realizar

pruebas

de

comparaciones múltiples para determinar cuáles medias difieren entre sí. Una de las pruebas más usadas en estos casos es la prueba de Tukey.

Ejemplo 4.5. El Mirogrex Terrae Santae es un pez semejante a la sardina que se encuentra en el mar de Galilea. Se realizó un estudio para determinar el efecto de la luz y la temperatura sobre el índice gonadosomático (GSI) que es una medida del crecimiento del ovario. Se utilizaron dos fotoperiodos: a) 14 horas de luz y 10 de obscuridad y b) 9 horas de luz con 15 de obscuridad los cuales se cruzaron con dos niveles de temperatura de agua: 16°C y 27°C. De esta manera se obtuvieron cuatro tratamientos: verano simulado, invierno simulado y dos climas no naturales. En cada uno de estos ambientes se han criado 5 peces. La variable respuesta es el GSI. Analizar este experimento si se obtuvieron los siguientes valores del GSI al final del mismo.

FACTOR 1 Fotoperiodos

9 horas de luz (1) 14 horas de luz (2)

FACTOR 2: Temperatura del agua 16°C (1) 27°C (2) 1.30 0.88 0.90 1.06 2.42 2.66 0.98 1.29 2.94 1.12 1.01 1.52 0.83 0.67 1.02 1.32 0.57 0.47 1.63 0.66

Tabla 4.18 Datos para el ejemplo 4.5

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

185

Lo primero que ha de hacerse es construir un archivo de datos en el que aparece la variable respuesta y la identificación de los niveles tanto del primero como del segundo factor. Es conveniente además incluir otra identificación para el número de réplica. Si el análisis se realiza con ESM, ésta última identificación es obligatoria. El archivo correspondiente tendrá el siguiente aspecto: 1.30 2.88 2.42 2.66 2.94 0.90 1.06 0.98 1.29 1.12 1.01 1.52 1.02 1.32 1.63 0.83 0.67 0.57 0.47 0.66

1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2

1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2 2 2 2 2

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

Tabla 4.19 Disposición de los datos del ejemplo 4.5 para análisis con software

Nótese cómo los niveles de los factores se han identificado con los códigos 1 y 2. En general es buena recomendación utilizar dígitos consecutivos para identificar los niveles de los factores. El análisis realizado con ESM produce los siguientes resultados

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

186

TABLA ANOVA: ------------------------------------------------------------------FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F ------------------------------------------------------------------F1 3.08 1 3.08 21.704 F2 5.15 1 5.15 36.285 F1*F2 0.63 1 0.63 4.439 Error 2.27 16 0.14 ******* TOTAL 11.13 19 ********* ******* ------------------------------------------------------------------FACTORES F1 = FOTOPE F2 = TEMPER F1*F2

VALOR P 0.000450 0.000070 0.048900

DISTRIBUCION F( 1 , 16 ) F( 1 , 16 ) F( 1 , 16 )

ESTIMACIONES DEL MODELO: MEDIA GENERAL: μ = VARIANZA GENERAL: MEDIAS POR CELDAS: Media de la celda( Media de la celda( Media de la celda( Media de la celda( V/R OBSERVADO 1.30 2.88 2.42 2.66 2.94 0.90 1.06 0.98 1.29 1.12 1.01 1.52 1.02 1.32 1.63 0.83 0.67 0.57 0.47 0.66

1.3625

2 1 1 2 2

= , , , ,

0.1420 1 2 1 2

) ) ) )

= = = =

V/R ESTIMADO 2.44 2.44 2.44 2.44 2.44 1.07 1.07 1.07 1.07 1.07 1.30 1.30 1.30 1.30 1.30 0.64 0.64 0.64 0.64 0.64

2.4400 1.0700 1.3000 0.6400 RESIDUO -1.1400 0.4400 -0.0200 0.2200 0.5000 -0.1700 -0.0100 -0.0900 0.2200 0.0500 -0.2900 0.2200 -0.2800 0.0200 0.3300 0.1900 0.0300 -0.0700 -0.1700 0.0200

El programa también estima los efectos de cada uno de los factores y las estimaciones, pero estas salidas han sido suprimidas para mayor sencillez.

Como puede observarse el valor F para interacción es 0.439 que corresponde un valor P de 0.0489

el cual, por ser muy cercano a 0.05, puede considerarse como no

significativo. Esto quiere decir que podríamos considerar que el modelo no tiene

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

187

interacción y, en consecuencia, es un modelo aditivo, así que podemos confiar en las deducciones acerca de las medias. Puesto que tanto la F del factor F1 como la del factor F2 son significativas por arrojar valores P muy pequeños (menores que 0.05) concluímos que hay diferencias significativas entre los promedios de los niveles de cada factor.

Los residuos que fueron calculados por el programa se pueden usar para realizar con ellos una prueba de validez del modelo. Deben tener distribución normal para que el modelo cumpla con los supuestos. En este caso la prueba de Geary arroja un valor P de 0.005036 por lo que se puede concluir que el modelo presenta un problema de normalidad.

A manera de ejemplo, podemos realizar la prueba de Tukey para determinar si dentro del fotoperiodo de 9 horas de luz hay diferencias entre los promedios de GSI para las dos temperaturas. Es decir, estamos comparando los promedios de los tratamientos CELDA(1,1)

y CELDA(1,2), o lo que es igual: TRAT(9h,16°C) y TRAT(9h,27°C). Los datos

correspondientes a estos dos tratamientos son: TRAT(9h, 16°C) 1.30 2.88 2.42 2.66 2.94

TRAT(9h, 27°C) 0.90 1.06 0.98 1.29 1.12

y las correspondientes medias son 2.44 y 1.07 En este caso n1 = n2 = 5 ,

k = 2,

ν = 16 (grados de libertad del error), en

consecuencia qk , , = 3.64 (valor buscado en tabla) y por tanto:

qk , ,

CME  1 1  0.14  1 1   +  = 3.64  +  = 0.61 2  ni n j  2 5 5

REGRESION Y MODELOS LINEALES JACMEN

Puesto que

070819

y11 − y12 = 2.44 − 1.07 = 1.37

188

UNIVERSIDAD DEL TOLIMA

es un valor mayor que 0.61, se

concluye que sí hay diferencias significativas entre las medias de estos dos tratamientos. Nótese que, en cambio, y12 − y22 = 1.07 − 0.64 = 0.43 es un valor menor que 0.61 lo que nos dice que entre los tratamientos

CELDA(1,2)

y

CELDA(2,2),

correspondientes a los dos fotoperiodos dentro de la temperatura de 27 grados, no hay diferencias significativas.

6.4.2 Diseño trifactorial

Una vez se ha estudiado el diseño bifactorial completo y balanceado resulta inmediata la comprensión de lo que sucede en el diseño trifactorial completo y balanceado. No entraremos a presentar fórmulas para las descomposiciones de las sumas de cuadrados. Tan solo diremos que en este caso la suma total de cuadrados se descompone en ocho (8) sumas de cuadrados de acuerdo con lo siguiente:

1. Suma de cuadrados correspondiente al factor F1, SC1 2. Suma de cuadrados correspondiente al factor F2, SC2 3. Suma de cuadrados correspondiente al factor F3, SC3 4. Suma de cuadrados para la interacción de segundo orden F1*F2, SC12 5. Suma de cuadrados para la interacción de segundo orden F1*F3, SC13

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

189

6. Suma de cuadrados para la interacción de segundo orden F2*F3, SC23 7. Suma de cuadrados para la interacción de tercer orden F1*F2*F3, SC123 8. Suma de cuadrados residual, no explicada o de error, SCE.

Todas las sumas de cuadrados anteriores son variables aleatorias con distribuciones Ji cuadrado y, por consiguiente al ser divididas entre sus grados de libertad (ver tabla ANOVA para este tipo de diseño) los cuadrados medios correspondientes

representan varianzas. Los siete

cocientes resultantes al dividir cada cuadrado medio entre el CME representan valores de cuantiles bajo distribuciones F con los grados de libertad apropiados que permiten probar hipótesis, en primer lugar sobre la significancia de las interacciones y, en segundo lugar, sobre la igualdad de las medias de los niveles en los respectivos factores. Igual que en los casos anteriores se puede aplicar la prueba de Tukey para comparar las medias de dos tratamientos cualesquiera.

El cuadro siguiente representa la tabla de análisis de varianza para un experimento factorial completo y balanceado de tres factores F1, F2 y F3 con niveles a, b y c, respectivamente.

REGRESION Y MODELOS LINEALES JACMEN

070819

190

UNIVERSIDAD DEL TOLIMA

Fuente de Variación

Suma de Cuadra dos

Grados de Libertad

Cuadrados medios (Varianzas)

Valor F

F1 F2 F3 F1xF2 F1xF3

SC1 SC2 SC3 SC12 SC13

ν1 = a-1 ν2 = b -1 ν3 = c -1 ν12 = (a-1)(b-1) ν13 = (a-1)(c-1)

CM1 = SC1 / ν1 CM2 = SC2 / ν2 CM3 = SC3 / ν3 CM12 =SC12 / ν12

f1= CM1 / CME f2=CM2 / CME f3=CM3 / CME f12=CM12 / CME f13=CM13 / CME

F2xF3

SC23

ν23 = (b-1)(c-1)

F1xF2xF3

SC123

ν123 = (a-1)(b-1)(c-1)

Error

SCE

Total

SCT

 E = abc(r – 1)  T = abcr - 1

ν13 CM23 =SC23 / ν23 CM123 =SC123 / ν123 CM13 =SC13 /

CME =SCE /

E

--------------

f23=CM23 / CME f123=CM123 / CME -------------------------------

Tabla 4.20 Tabla de Análisis de varianza para un diseño completo de tres factores

Ejemplo 4.6: Con el fin de determinar el efecto de los niveles de agua, la temperatura y el tipo de planta en la producción de guisantes, se disponen aleatoriamente 36 plantas sin hojas en 9 grupos de 4 plantas cada uno los cuales se asignan aleatoriamente a las combinaciones de tres niveles de agua (bajo, medio y alto) con tres temperaturas (15°C, 18°C y 21°C) en un invernadero. Este mismo experimento se repite simultáneamente y en las mismas condiciones con 36 plantas con hojas. Resulta así un experimento factorial 3  3  2 , lo que significa que el primer factor tiene 3 niveles, el segundo 3 niveles y el tercero 2 niveles. Los valores de producción de cada planta se resumen en la tabla 6.21.

Para el análisis estadístico con ESM se crea un archivo de datos en el que cada una de las 72 observaciones se escribe acompañada de cuatro identificadores según el nivel de cada factor y el número de réplica. Es decir, dicho archivo está conformado por una variable de respuesta y cuatro variables categóricas de identificación. Los resultados obtenidos están consignados en la salida de la página siguiente.

Como puede apreciarse en este ejemplo las interacciones son significativas lo que hace que el modelo no sea aditivo. Este resultado dificulta los análisis pues ahora no se puede

REGRESION Y MODELOS LINEALES JACMEN

070819

191

UNIVERSIDAD DEL TOLIMA

estar seguro sobre las pruebas de comparaciones de medias ni en los niveles de los factores ni en los diferentes tratamientos.

N I V E L D E A G U A = F1 1 = Bajo 2 = Medio 3 = Alto F2 = Temperatura 1 2 3 15° 18° 21°

F2 = Temperatura 1 2 3 15° 18° 21°

F2 = Temperatura 1 2 3 15° 18° 21°

Sin Hojas 1

69.1 70.2 68.3 72.1

87.3 80.1 78.6 74.3

72.3 73.1 74.1 72.6

80.4 83.5 84.1 79.6

93.1 88.6 90.2 101.3

94.3 96.1 96.5 91.4

100.1 97.3 90.6 94.1

121.2 120.5 119.3 115.6

100.1 98.3 103.1 92.1

Con Hojas 2

68.0 66.5 68.9 71.1

74.3 72.1 75.0 70.3

73.4 74.2 71.8 72.1

81.5 82.5 84.6 78.1

90.8 91.3 92.0 93.1

96.7 92.3 94.1 95.2

89.6 90.2 91.3 90.0

96.2 101.3 99.6 100.2

98.1 99.6 95.4 98.6

Tipo de Planta F3 P L A N T A

Tabla 4.21 Datos para el ejemplo 4.6

TABLA ANOVA: --------------------------------------------------------------------FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F --------------------------------------------------------------------F1 (A) 9029.73 2 4514.86 544.144 F2 (B) 1607.95 2 803.97 96.897 F3 (C) 286.00 1 286.00 34.470 A*B 469.45 4 117.36 14.145 A*C 200.49 2 100.24 12.082 B*C 285.41 2 142.70 17.199 A*B*C 180.01 4 45.00 5.424 Error 448.05 54 8.30 ******* TOTAL 12507.08 71 ********* ******* --------------------------------------------------------------------(A) = AGUA: P = 0.000000 F( 2 , 54 ) (B) = TEMP: P = 0.000000 F( 2 , 54 ) (C) = TIPO: P = 0.000010 F( 1 , 54 ) Interacción (A)*(B): P = 0.000000 F( 4 , 54 ) Interacción (A)*(C): P = 0.000140 F( 2 , 54 ) Interacción (B)*(C): P = 0.000020 F( 2 , 54 ) Interac (A)*(B)*(C): P = 0.001250 F( 4 , 54 ) ESTIMACIONES: a) Media General:

87.54861111111115

b) Varianza general (CME): c) Media Media Media Media Media Media Media Media

por celda: Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 2 ,

1 1 2 2 3 3 1

, , , , , , ,

1 2 1 2 1 2 1

8.297175925923959 ): ): ): ): ): ): ):

69.92500000000001 68.625 80.07499999999999 72.925 73.02499999999999 72.875 81.90000000000001

REGRESION Y MODELOS LINEALES JACMEN

Media Media Media Media Media Media Media Media Media Media Media

Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda( Celda(

2 2 2 2 2 3 3 3 3 3 3

, , , , , , , , , , ,

1 2 2 3 3 1 1 2 2 3 3

, , , , , , , , , , ,

2 1 2 1 2 1 2 1 2 1 2

070819

): ): ): ): ): ): ): ): ): ): ):

UNIVERSIDAD DEL TOLIMA

192

81.675 93.3 91.80000000000001 94.57499999999999 94.575 95.52500000000001 90.27500000000001 119.15 99.325 98.40000000000001 97.92500000000001

d) Medias por niveles de AGUA: Media Factor 1 Nivel ( 1 ): Media Factor 1 Nivel ( 2 ): Media Factor 1 Nivel ( 3 ):

72.90833333333332 89.63749999999999 100.1

e) Medias por niveles de TEMP: Media Factor 2 Nivel ( 1 ): Media Factor 2 Nivel ( 2 ): Media Factor 2 Nivel ( 3 ):

81.32083333333331 92.76249999999999 88.56249999999999

f) Medias por niveles de TIPO: Media Factor 3 Nivel ( 1 ): Media Factor 3 Nivel ( 2 ):

89.54166666666666 85.55555555555553

El siguiente ejemplo de mejor comportamiento ilustrará además el uso de la prueba de Tukey para comparar tratamientos.

Ejemplo 4.7: los datos siguientes representan los registros de producción de una empresa que ha estado ensayando diferentes políticas de trabajo entre sus empleados. El diseño muestra los resultados al implementar dos jornadas de trabajo, una de 10 horas diarias y otra de 8 horas diarias (4 días a la semana y 5 días respectivamente), dos turnos, uno diurno y otro nocturno y tres alternativas de descanso en cada jornada: uno con un solo descanso a la mitad de la jornada, otro con dos desacansos en la jornada y otro con tres descansos. El diseño es entonces un factorial 2  2  3 con dos réplicas en el que los factores son respectivamente: jornadas, turnos y descansos.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

Jornada

Turno diurno (1) Descansos 1 2 3

Turno nocturno (2) Descansos 1 2 3

(1) 10 horas

94 97

105 106

96 91

90 89

102 97

103 98

(2) 8 horas

96 92

100 82 103 88

81 84

90 92

94 96

193

Tabla 4.22 Datos para el ejemplo 4.7

El archivo de datos correspondiente para el análisis está consignado en la tabla 6.23. En él la primera variable es la respuesta (RENDIM = calificación del rendimiento), y cuatro variables categóricas que son respectivamente: jornada (JORNAD), turno (TURNOS), descansos (DESCAN) y réplica. En otros paquetes no es necesario contemplar la variable REPLICA dentro

del archivo de datos cuando el diseño es balanceado.

94 1 1 1 1 97 1 1 1 2 105 1 1 2 1 106 1 1 2 2 96 1 1 3 1 91 1 1 3 2 90 1 2 1 1 89 1 2 1 2 102 1 2 2 1 97 1 2 2 2 103 1 2 3 1 98 1 2 3 2 96 2 1 1 1 92 2 1 1 2 100 2 1 2 1 103 2 1 2 2 82 2 1 3 1 88 2 1 3 2 81 2 2 1 1 84 2 2 1 2 90 2 2 2 1 92 2 2 2 2 94 2 2 3 1 96 2 2 3 2 Tabla 4.23 Disposición de datos ejemplo 4.7 para análisis con ESM

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

194

Parte del archivo de resultados arrojado por ESM (se han omitido las estimaciones de los efectos) es lo siguiente: TABLA ANOVA: --------------------------------------------------------------------FUENTE SUMA DE CUADRADOS GL CUADR.MEDIOS F --------------------------------------------------------------------F1 (A) 204.17 1 204.17 29.878 F2 (B) 48.17 1 48.17 7.049 F3 (C) 334.08 2 167.04 24.445 A*B 8.17 1 8.17 1.195 A*C 8.08 2 4.04 0.591 B*C 385.58 2 192.79 28.213 A*B*C 21.58 2 10.79 1.579 Error 82.00 12 6.83 ******* TOTAL 1091.83 23 ********* ******* --------------------------------------------------------------------(A) = JORNAD: P = 0.000290 F( 1 , 12 ) (B) = TURNOS: P = 0.020060 F( 1 , 12 ) (C) = DESCAN: P = 0.000160 F( 2 , 12 ) Interacción (A)*(B): P = 0.296090 F( 1 , 12 ) Interacción (A)*(C): P = 0.573050 F( 2 , 12 ) Interacción (B)*(C): P = 0.000100 F( 2 , 12 ) Interac (A)*(B)*(C): P = 0.245510 F( 2 , 12 ) ESTIMACIONES: a) Media General:

94.41666666666667

b) Varianza general (CME): c) Media Media Media Media Media Media Media Media Media Media Media Media Media

por celda: Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 1 , Celda( 2 , Celda( 2 , Celda( 2 , Celda( 2 , Celda( 2 , Celda( 2 ,

1 1 1 2 2 2 1 1 1 2 2 2

, , , , , , , , , , , ,

1 2 3 1 2 3 1 2 3 1 2 3

6.833333333336564

): ): ): ): ): ): ): ): ): ): ): ):

95.5 105.5 93.5 89.5 99.5 100.5 94 101.5 85 82.5 91 95

d) Medias por niveles de JORNAD: Media Factor 1 Nivel ( 1 ): 97.33333333333333 Media Factor 1 Nivel ( 2 ): 91.5 e) Medias por niveles de TURNOS: Media Factor 2 Nivel ( 1 ): 95.83333333333333 Media Factor 2 Nivel ( 2 ): 93 f) Medias por niveles de DESCAN: Media Factor 3 Nivel ( 1 ): 90.375 Media Factor 3 Nivel ( 2 ): 99.375 Media Factor 3 Nivel ( 3 ): 93.5

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

195

Como puede observarse en la salida de la tabla de análisis de varianza, la interacción de los factores F1 y F2 es significativa lo que resta aditividad al modelo pero, dado que las demás interacciones no lo son, podemos aceptar las conclusiones sin demasiadas prevenciones. En este caso los valores P para los tres factores indican que las medias en los niveles de dichos factores no son iguales. Para determinar cuáles niveles o cuales tratamientos difieren se deben realizar comparaciones múltiples. Para ello podemos aplicar el método de Tukey, utilizando las diferentes medias que el programa ha calculado.

La comparación de las medias en los factores de dos niveles no requiere de la prueba de Tukey pues al ser sólo dos niveles y saber que ellos difieren será mayor la media del nivel que presente la mayor media muestral. Así, hay mayor rendimiento en la jornada de 10 horas que en la de 8 horas pues los valores respectivos de las medias muestrales son 95.83 para la primera y 93.0 para la segunda. Igualmente se puede concluir que el turno diurno produce mejores resultados que el nocturno

Aplicaremos la regla de Tukey para determinar cuál sistema de descansos produce mejores resultados. Para tal efecto ordenamos de menor a mayor las medias muestrales para los tres niveles obteniendo : 90.38 (un descanso), 93.5 (tres descansos) y 99.38 (para dos descansos). Puesto que el diseño es balanceado con ni = 8 (hay 8 observaciones en cada forma de descanso) y el error cuadrático medio ( s 2 = ECM = 6.83) tiene  = 12 grados de libertad, para k = 3 tratamientos, se encuentra en la tabla (anexo 2) que qk , , = 3.77 (se ha tomado α = 0.05, como es usual). Esto nos lleva a

 = qk , ,0.05

ECM 2

1 1  +  = 3.48 , valor que se compara con las diferencias entre  ni n j 

medias como lo sugiere el siguiente cuadro: Nivel: No de descansos: Media estimada: Diferencias:

(1) Uno 90.38

(3) Tres 93.5 3.12

(2) Dos 99.38 5.88

Tabla 4.24 Comparación de medias en el ejemplo 4.7 con el método de Tukey

REGRESION Y MODELOS LINEALES JACMEN

070819

196

UNIVERSIDAD DEL TOLIMA

Este cuadro muestra que la diferencia entre los niveles 1 y 3 no es significativa pues es menor que  , mientras que la diferencia entre los niveles 3 y 2 –y por consiguiente entre los niveles 1 y 2- sí es significativa ya que ella es mayor que  . En este caso la conclusión es que resulta mejor otorgar dos descansos en la jornada y que no hay diferencias entre uno y tres descansos.

En resumen el sistema de trabajo que proporciona mejores rendimientos es jornada diurna en turnos de 10 horas con dos descansos. Esto corresponde a la celda (1,1,2) cuya media es 105.5. Es decir, que la calificación de rendimiento en esta forma de trabajo se estima en 105.5. Nótese que si sólo interesa determinar cuál es el mejor tratamiento de los 12 posibles, bastaría seleccionar aquel correspondiente a la celda cuya media sea mayor. Sin embargo las comparaciones suelen ser útiles porque podría suceder que hubiera dos o más tratamientos cuyas medias no difieran significativamente y entonces podría escogerse aquel que resulte más benéfico según otros criterios. Por ejemplo, aquel que sea menos costoso, o el que implique menos riesgos laborales, etc.

Puesto que la interacción F2*F3 (es decir, TURNO*DESCANSO) ha resultado significativa podemos realizar una comparación de sus efectos utilizando también la regla de Tukey. Esta comparación puede hacerse por separado para la jornada de 10 horas y para la jornada de 8 horas. Aquí presentaremos la comparación para la jornada de 10 horas, dejando al lector que compare los efectos en la jornada de 8 horas. El cuadro siguiente presenta las medias ordenadas y sus diferencias:

Tratam. Celda: Media Diferencia

1,2,1 89.5

1,1,3 93.5 4.0

1,1,1 95.5 2.0

1,2,2 99.5 4.0

1,2,3 100.5 1.0

1,1,2 105.5 5.0

Tabla 4.25 Comparación de medias en ejemplo 4.7. Método de Tukey

En este caso el número de tratamientos es k = 6, cada uno con ni = 2 observaciones. Los grados de libertad del error y el valor de ECM son los mismos de antes, así que

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

197

q2, 12, 0.05 = 4.75 y, por tanto,  = 8.77 . Seleccionamos el primer par de celdas que difieran por una cantidad mayor que 8.77, en este caso las celdas 121 y 122. Entonces los tratamientos 121, 113 y 111 no difieren entre sí. 111, 122 y 123 tampoco difieren entre sí y finalmente 122, 123 y 112 tampoco difieren entre sí. Si dos tratamientos no difieren entre sí entonces dos tratamientos cualesquiera comprendidos entre ellos tampoco difieren. Esto permite señalar las medias que no difieren como se indica en el siguiente cuadro.

Tratamiento: Media: Vínculos:

1,2,1 1,1,3 1,1,1 1,2,2 1,2,3 1,1,2 89.5 93.5 95.5 99.5 100.5 105.5 AAAAAAAAAAAA BBBBBBBBBBBBB CCCCCCCCCCCCC

Tabla 4.26 Método de Tukey para comparación de medias. Ejemplo 4.7

En esta tabla cualesquiera dos medias o tratamientos unidos por la misma letra (es decir, con el mismo vínculo) no presentan diferencias significativas.

John W. Tukey nació en New Bedford, Massachussets, el 16 de junio de 1915. Obtuvo un magíster en química en la Universidad de Brown en 1936. Se trasladó a Princetown para obtener un grado en matemáticas y en dos años obtuvo su doctorado. Después de desempeñarse por varios años en una oficina de investigación del gobierno, llegó a ser profesor de Princetown en 1950. Recibió la medalla nacional de Ciencias en 1973. Fue miembro de la Academia Nacional de Ciencias y de la Royal Society de Inglaterra. En su época fue reconocido como uno de los mejores expertos en pronósticos electorales. Murió en el año 2000.

REGRESION Y MODELOS LINEALES JACMEN

070819

198

UNIVERSIDAD DEL TOLIMA

4.9 Diseños de efectos aleatorios Muy brevemente se hará una referencia a los diseños factoriales de efectos aleatorios ya mencionados anteriormente. Estos diseños se usan para estudiar el comportamiento de la variabilidad y en qué medida ella contribuye a los efectos de los tratamientos.

En un diseño unifactorial balanceado se construye una tabla ANOVA en la forma usual pero aparece una columna adicional en la que se encuentran los valores esperados de los cuadrados medios, ya que la varianza de cada observación  y2 puede verse como la suma  a2 +  2 donde  a2 (varianza entre grupos) es la varianza de la distribución de los efectos y  2 (varianza aleatoria) es la varianza residual. Estos dos valores se conocen como componentes de varianza. Si  a2 = 0 entonces los efectos de los tratamientos son iguales pero si  a2 > 0 existe variabilidad entre ellos. En este último caso la diferencia entre los efectos de los tratamientos puede deberse a la variabilidad entre las observaciones.

La tabla de análisis de varianza tiene la forma siguiente:

Origen de V Entre

S de C. SCTr

GL k-1

Cuadr.med. CMtr

C.M.Esperad ni a2 +  2

Dentro

SCErr

n-k

CMerr

 2

Total

SCtot

n-1

-------

-------

Tabla 4.27 Tabla ANOVA para un diseño de efectos aleatorios en una vía

F CMtr F= CMerr

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

199

Con la información proporcionada por esta tabla se prueba la hipótesis nula H0 :  a2 = 0 versus la alterna

H1 :  a2  0 lo que se hace utilizando el valor calculado F que tiene

distribución Fk −1,n −k .

Para hacer una estimación de las componentes de varianza se toma la columna de cuadrados medios como una estimación de los cuadrados medios esperados, lo que lleva al planteamiento del sistema de ecuaciones lineales:

ni a2 +  2 = CMtr  2    = CMerr

cuya solución está dada por  a2 =

CMtr − CMerr ni

y

 2 = CMerr

En algunos casos especiales estas soluciones pueden resultar extrañas pues pueden aparecer valores negativos los cuales no tienen una interpretación clara. Existen otros métodos de estimación que no se estudian en esta obra.

Si el diseño no es balanceado y el tamaño de muestra para los tratamientos es variable,

 a2 se estima por  a2 =

CMtr − CMerr r0

donde r0 =

k ni2  1  n −   . k −1  i =1 n 

Se define el coeficiente de correlación intraclase como  I = entre −

 a2 , el cual varía  a2 +  2

1 y 1 (en diseños balanceados). Si  I es grande el afecto aleatorio común r −1

a un grupo afecta por igual a todos los individuos de ese grupo, de manera que la similitud entre individuos es mayor dentro del mismo grupo que entre los individuos de grupos diferentes. Esto se debe a que la varianza residual es muy pequeña frente a la varianza entre clases. Por el contrario, si

 I es pequeño existe disimilaridad entre los

individuos de cada grupo lo que dice que la diferencia de medias puede deberse a la variabilidad interna de los grupos. Por ejemplo, en un problema de dietas los recursos

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

200

nutritivos pueden causar disparidad de crecimiento dentro de cada grupo. Esto puede suceder, por ejemplo, si los individuos más vigorosos y agresivos toman la mayor parte de dicho recurso.

El problema de componentes de varianza en diseños de efectos aleatorios puede ser extendido a diseños multifactoriales pero la teoría necesaria para su estudio escapa a la proyección de esta obra. El paquete ESM-plus V8 permite estimar componentes de varianza para diseños bifactoriales en los cuales ambos factores son de efectos aleatorios y para diseños bifactoriales mixtos en los cuales un factor es de efectos fijos y el otro de efectos aleatorios.

El siguiente ejemplo de un diseño unifactorial de efectos aleatorios, analizado con ESM, permite ilustrar lo dicho en los párrafos anteriores.

Ejemplo 4.8: En un estudio de genética con reses, varios machos se aparearon con grupos diferentes de hembras. Si nacían terneros (machos) se usaban en un estudio de pesos hereditarios. La tabla siguiente muestra el peso al nacer de 8 terneros por cada uno de los 5 grupos usados en el estudio.

Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 61 100 56 113 99 103 75 62

75 102 95 103 98 115 98 94

58 60 60 57 57 59 54 100

57 56 67 59 58 121 101 101

Tabla 4.28 Datos para el ejemplo 4.8

Resultados:

59 46 120 115 115 93 105 75

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

201

TABLA ANOVA PARA COMPONENTES DE VARIANZA: ---------------------------------------------------------------------------FUENTE: SUM.CUADR GL CUADR.MEDIO F ---------------------------------------------------------------------------Modelo 5591.1500 4 1397.7875 3.0138 Error 16232.7500 35 463.7929 ***** Total 21823.9000 39 ***** ***** --------------------------------------------------------------------------R2 = .256193 F tiene 4 y 35 Grados de libertad Valor P de probabilidad: 0.03042000 Valor exacto del CME = 463.7928571428571 ESTIMACION DE LAS COMPONENTES DE VARIANZA: ----------------------------------------------------------------------Varianza ENTRE: SIGMAa2 = 116.7493303571436 Varianza DENTRO: SIGMAe2 = 463.7928571428571 Coeficiente de Correlación Intraclases: .2011039557002796 -----------------------------------------------------------------------

Tabla 4.29 Salida de análisis con ESM del ejemplo 4.8

Puesto que el valor P de probabilidad para la F es menor que α = 0.05 se rechaza la hipótesis de que  a2 = 0 . Esto significa que existe varianza entre clases, es decir, que dentro de los grupos hay mucha disimilaridad. Esto implica que de existir diferencias en las medias de los tratamientos, dicha diferencia podría estar ocasionada por la variabilidad interna de los grupos. En este ejemplo  a2 = 116.75 ,

 2 = 463.79

y

 I = 0.2011 , valor que puede ser

considerado pequeño, confirmando la existencia de disimilaridad entre individuos de cada grupo. Esto, por supuesto, implica que hay diferencias entre los efectos de los tratamientos, pero, como se advirtió antes, dichas diferencias podrían estar causadas por la falta de homogeneidad dentro de los grupos y no por los tratamientos.

REGRESION Y MODELOS LINEALES JACMEN

070819

UNIVERSIDAD DEL TOLIMA

202

BIBLIOGRAFIA

1. MENDENHALL W. y T. SINCICH; A Second Course in Statistics – Regression Analysis. 5ª Ed. Prentice-Hall, London 1996 2. MENDENHALL W. y T. SINCICH; Probabilidad y Estadística para Ingeniería y Ciencias. 4ª Ed. Prentice-Hall.México. 1997 (Incluye programa ASP individual) 3. DRAPER N. R. y H. SMITH; Applied Regression Analysis. 2ª Ed. John Wiley & Sons. N.Y 1982 4. MONTGOMERY D. y E. PECK; Introduction to Linear Regression Analysis. John Wiley & Sons. N.Y. 1982 5. CHATTERJEE S. y B. PRICE; Regression Analysis by Example. John Wiley & Sons. N.Y. 1977 6. SILVA L. C.; Una excursión a la regresión logística en Ciencias de la Salud. Diaz Santos. Barcelona. 1997 (Incluye programas RELODI y RELOPO) 7. MADSEN H y P. THYREGOD; Introduction to General and Generalized Linear Models. Chapman & Hall / CRC. 2010 8. FARAWAY J.J; Linear Models with R. Chapman & Hall / CRC. 2009 9. STAPLETON J.H.; Linear Statistical Models. John Wiley & Sons. 1995 10. KUTNER M. et al. Applied Linear Statistical Models. McGraw- Hill. 2005

REGRESION Y MODELOS LINEALES JACMEN

070819

203

UNIVERSIDAD DEL TOLIMA

ANEXO Archivo de datos FINCAS Las variables contempladas en el archivo FINCAS.DAT son las siguientes: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12

EXTENSION DE LA FINCA EN HECTAREAS NUMERO DE HECTAREAS DEDICADAS AL CULTIVO TEMPERATURA PROMEDIO EN CADA FINCA TIPO DE TERRENO: 1=Plano 2=Quebrado 3=Mixto FINCA TECNIFICADA: 1=Sí 2=No NUMERO DE OBREROS QUE TRABAJAN EN LA FINCA NUMERO DE CABEZAS DE GANADO MACHO NUMERO DE CABEZAS DE GANADO HEMBRAS RAZA DE GANADO MAYORITARIA: 1=Ceb£ 2=Normando 3=Holstein EXISTENCIA DE HATO LECHERO: 1=Sí 2=No EXISTENCIA DE RIEGO ARTIFICIAL: 1=Sí 2=No TIPO DE CULTIVO PREDOMINANTE: 1=Maiz 2=Sorgo 3=Algodón 4=Trigo 5=Papa 6=Otro

120

100

15

1

2

14

12

75

1

1

1

6

458

360

21

1

2

25

148

140

18

2

1

18

124

58

2

2

1

1

15

125

2

2

1

2

200

160

25

2

2

25

14

200

2

2

2

3

150

76

21

2

400

320

25

2

1

24

18

157

1

1

1

3

1

33

19

42

1

1

1

4

150

98

20

3

1

24

25

15

1

1

2

1

125

105

250

200

21

2

1

7

54

6

3

1

2

4

15

3

2

25

55

25

3

1

2

4

145 400

125

18

2

2

21

12

158

3

1

2

1

375

14

1

2

26

6

145

3

1

2

1

75

68

19

2

1

23

24

162

3

2

1

4

25

22

18

2

2

30

78

145

3

2

2

2

162

145

14

3

1

25

125

45

3

2

2

2

185

164

15

1

1

54

14

25

2

2

2

3

220

210

16

1

2

24

7

28

2

1

2

5

150

140

12

1

2

15

25

145

2

1

1

2

220

200

17

2

2

25

14

25

1

1

1

6

250

125

21

1

2

26

16

158

1

1

1

6

145

120

25

2

2

25

25

200

1

2

2

2

200

78

24

1

1

24

89

125

1

2

2

4

230

170

28

3

1

12

35

456

2

2

2

2

REGRESION Y MODELOS LINEALES JACMEN

070819

204

UNIVERSIDAD DEL TOLIMA

148

68

26

3

1

32

47

25

1

2

2

5

205

145

25

3

1

25

45

145

2

2

1

1

420

300

21

2

1

21

48

13

2

1

1

3

358

260

20

2

1

24

21

15

1

1

1

2

320

150

24

1

1

28

25

258

2

1

1

1

180

120

25

2

1

14

24

25

2

2

2

4

200

110

21

1

2

12

15

21

1

2

2

1

150

98

14

2

1

25

19

22

2

1

2

5

100

75

18

1

2

24

25

48

3

2

2

2

75

32

15

3

1

21

125

75

2

1

2

2

310

140

14

2

2

24

478

145

2

1

2

1

250

200

16

2

2

20

14

400

3

1

1

1

148

48

12

1

1

20

478

125

3

1

1

4

150

36

15

2

2

23

14

256

3

1

1

3

200

100

14

1

2

22

15

25

3

2

1

3

230

126

15

3

2

21

78

470

3

2

1

5

400

268

12

2

1

22

48

145

2

2

2

2

350

239

25

1

1

24

58

125

2

2

2

1

320

169

21

2

2

23

74

58

2

2

2

6

125

85

24

1

1

21

25

54

1

2

2

2

100

24

25

2

1

25

24

47

2

1

2

1

90

45

21

1

1

36

13

45

1

1

1

4

120

62

20

3

2

21

25

46

2

1

1

2

220

156

20

3

2

24

14

25

1

1

1

1

250

200

20

3

2

25

15

185

2

1

1

4

320

260

21

3

2

26

18

26

1

1

2

2

250

235

20

2

1

20

19

456

2

1

1

1

200

128

25

2

1

21

52

125

3

1

1

3

120

90

25

3

1

20

45

100

2

1

1

2

200

135

26

3

1

20

45

78

1

1

1

1

320

300

28

3

1

20

48

12

2

1

1

5

250

160

24

3

1

24

47

45

1

2

1

2

390

310

14

2

1

21

14

45

2

1

2

1

225

198

15

2

1

20

25

125

2

2

2

4

220

195

16

3

1

23

54

215

1

1

1

1

150

87

12

1

1

25

51

200

1

1

1

1

75

36

14

2

1

28

42

180

1

2

1

2

80

56

12

2

1

27

15

57

2

2

1

1

140

112

15

2

1

24

14

45

2

1

2

2

200

180

18

3

1

26

14

12

2

1

2

1

180

145

19

1

1

25

15

45

2

1

1

2

125

112

20

2

2

21

25

25

2

1

2

1

145

110

17

2

1

23

14

17

3

2

2

1

180

135

15

2

2

22

17

18

3

2

2

1

200

160

12

1

2

20

18

54

3

2

2

3

125

112

14

3

2

25

15

21

3

2

2

2

REGRESION Y MODELOS LINEALES JACMEN

070819

205

UNIVERSIDAD DEL TOLIMA

100

90

12

1

1

21

13

20

3

1

1

2

120

100

25

2

1

14

26

14

2

1

1

5

150

132

14

2

1

18

25

16

2

1

1

2

200

187

15

1

1

17

14

40

2

1

2

2

256

225

14

2

1

13

16

12

2

1

2

1

400

358

14

1

2

21

14

16

1

2

2

1

75

70

15

1

2

25

145

200

2

1

1

1

125

110

25

1

2

21

14

15

1

1

1

1

200

159

24

2

1

25

12

25

3

2

2

4

90

69

25

2

1

14

78

15

2

1

2

4

180

125

14

3

1

28

54

14

2

1

2

4

150

67

24

2

1

23

51

13

3

1

1

6

75

68

15

2

2

25

12

145

2

2

1

2

452

398

12

2

2

22

125

12

2

2

1

1

125

110

15

2

2

56

14

14

2

2

2

2

258

203

25

2

2

35

16

16

3

2

2

2

415

387

21

3

2

32

25

25

3

2

2

5

225

183

24

3

1

25

128

35

2

2

2

2

78

58

13

3

1

18

25

58

3

2

2

5

45

30

25

2

1

19

21

59

2

1

1

2

25

24

14

2

1

15

25

65

1

1

1

1

145

119

12

3

1

14

26

25

1

1

1

1

258

45

14

2

2

26

21

24

1

1

1

1

451

32

11

2

2

25

25

75

2

2

2

4

132

36

15

2

2

22

23

14

2

2

2

1

256

220

12

1

2

35

265

16

1

2

2

4

200

185

15

1

2

32

56

58

2

2

2

1

220

90

14

1

2

31

25

29

1

2

2

4

125

104

15

1

1

30

58

59

1

1

2

1

325

312

12

2

1

17

25

54

1

1

1

5

236

201

18

2

1

18

26

58

2

1

1

5

145

137

17

2

2

19

124

49

2

2

1

5

258

231

19

2

2

11

125

43

2

2

1

2

451

301

18

2

1

12

25

25

1

2

2

2

235

67

17

2

1

15

11

56

1

2

2

1

89

60

15

2

1

12

25

52

1

2

2

2

95

87

16

3

1

45

21

14

1

1

1

1

25

12

20

3

1

26

14

15

3

1

2

2

45

6

20

2

1

35

15

28

3

1

1

6

36

31

20

2

2

25

16

46

3

1

2

6

75

70

20

3

2

14

21

254

3

2

1

3

58

52

21

3

2

19

51

54

3

2

2

3

60

56

12

3

2

25

44

87

3

1

1

2

145

101

15

3

2

28

25

225

2

1

2

3

180

87

18

3

2

29

22

12

1

2

1

2

200

139

11

3

2

26

15

14

1

1

1

3

REGRESION Y MODELOS LINEALES JACMEN

070819

125

111

25

3

2

32

136

117

21

3

2

200

186

20

3

2

400

315

21

3

450

381

21

236

230

25

225

205

125 236

206

UNIVERSIDAD DEL TOLIMA 24

56

1

2

1

6

35

15

35

2

1

1

1

36

232

58

2

2

1

2

1

24

25

35

1

2

1

5

3

1

15

215

22

1

2

1

6

2

1

25

25

58

3

2

2

3

21

2

1

26

21

56

3

1

2

2

105

22

3

1

25

45

66

3

1

2

2

200

15

3

2

22

54

58

3

1

2

3

200

160

14

3

2

22

51

45

2

2

2

2

258

232

12

1

1

22

22

85

2

1

2

1

32

25

25

1

2

26

20

58

1

2

2

2

325

238

23

1

1

24

12

69

2

1

2

2

236

200

22

1

1

26

12

97

1

2

2

5

308

185

25

2

1

24

18

85

2

1

2

6

204

196

22

2

1

26

21

45

1

2

1

4

125

109

21

2

2

25

25

55

2

1

1

6

456

303

25

3

1

23

21

78

1

1

1

5

108

58

24

3

0

25

25

47

2

1

1

5

100

68

10

3

1

24

15

45

1

1

1

4

100

81

11

3

2

25

22

49

2

1

1

4

92

53

15

3

2

26

45

25

2

2

2

2

95

42

17

3

2

35

15

44

2

2

2

5

148

126

16

2

1

21

14

87

1

2

2

2

300

234

15

2

1

25

25

44

1

2

2

1

105

84

11

2

1

15

14

45

2

1

1

2

200

154

14

2

1

25

18

44

1

1

1

1

45

32

12

2

1

12

17

65

2

1

1

6

128

108

21

1

1

25

19

58

1

2

1

2

256

126

24

1

2

26

12

78

2

2

2

1

150

105

20

1

2

23

15

45

1

2

2

5

75

60

22

2

2

25

14

25

2

2

2

2

96

72

22

2

2

24

15

59

1

1

2

4

182

145

21

2

2

25

12

75

1

2

2

1

160

138

15

3

1

26

16

125

1

1

1

5

110

105

14

3

2

21

15

103

3

2

1

6

Related Documents


More Documents from "omr7"