Loading documents preview...
´ ´ ESCUELA TECNICA SUPERIOR DE INGENIEROS AERONAUTICOS
ESTAD´ISTICA
Marta Cordero Gracia Jos´e Olarrea Busto Dpto. de Matem´atica Aplicada y Estad´ıstica
´Indice general 1. Estad´ıstica descriptiva
1
1.1. Notaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . . . . . . . .
3
1.3. Representaci´on gr´afica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4. Medidas num´ericas descriptivas . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4.1. Medidas de posici´on . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.4.2. Medidas de dispersi´on . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4.3. Medida de asimetr´ıa . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . .
9
2. An´ alisis combinatorio
11
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 ´ 3. Algebra de sucesos
19
3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.1. Uni´on de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.2. Intersecci´on de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.3. Propiedades de la uni´on y la intersecci´on . . . . . . . . . . . . . . . 21 3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . . . . 22 4. Teor´ıa de la probabilidad
23
4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.1. Probabilidad cl´asica
. . . . . . . . . . . . . . . . . . . . . . . . . . 24 i
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.3. Axiom´atica del c´alculo de probabilidades . . . . . . . . . . . . . . . 26 4.1.4. Axiom´atica de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 28 4.2. Teoremas del c´alculo de probabilidades . . . . . . . . . . . . . . . . . . . . 29 4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3.1. Regla de la multiplicaci´on . . . . . . . . . . . . . . . . . . . . . . . 32 4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 33 4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5. Variable aleatoria unidimensional
37
5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.1. Definici´on matem´atica . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.2. Definici´on intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.1. Funci´on de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.2. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.3.1. Funci´on de distribuci´on y funci´on de densidad . . . . . . . . . . . . 42 5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . 46 5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 46 5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 48 5.5.3. Transformaci´on integral . . . . . . . . . . . . . . . . . . . . . . . . 49 5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6. Momentos de una variable aleatoria unidimensional
53
6.1. Esperanza matem´atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.2. Momento de orden k de una variable aleatoria . . . . . . . . . . . . . . . . 55 6.3. Varianza y desviaci´on t´ıpica . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.4. Otros valores t´ıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.5. Coeficientes de asimetr´ıa y curtosis . . . . . . . . . . . . . . . . . . . . . . 58 6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . . . . . . . . . 60 6.7. Funci´on generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . 61 6.8. Funci´on caracter´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.8.1. Cambio de variable en la funci´on caracter´ıstica . . . . . . . . . . . . 64 ii
7. Variable aleatoria bidimensional y n-dimensional
65
7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 66 7.2.1. Funci´on de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 67 7.2.2. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . 67 7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 69 7.3.1. Funci´on de distribuci´on y funci´on de densidad . . . . . . . . . . . . 69 7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . . . . . . . . 72 7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 72 7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 73 7.5. Variables aleatorias bidimensionales independientes . . . . . . . . . . . . . 75 7.6. Momentos de una variable aleatoria bidimensional . . . . . . . . . . . . . . 76 7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . . . 78 7.6.2. Coeficiente de correlaci´on lineal . . . . . . . . . . . . . . . . . . . . 80 7.7. Funci´on caracter´ıstica de una variable aleatoria bidimensional . . . . . . . 81 7.8. Transformaci´on de variables aleatorias bidimensionales . . . . . . . . . . . 82 7.8.1. Una funci´on de dos variables aleatorias . . . . . . . . . . . . . . . . 82 7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . . . . 82 7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 83 7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 83 7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . 84 8. Distribuciones de probabilidad discretas
85
8.1. Distribuci´on de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . . . . . . . 86 8.2. Distribuci´on Binomial, B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 86 8.2.1. Teorema de adici´on para distribuciones Binomiales . . . . . . . . . 88 8.2.2. Distribuci´on de la proporci´on . . . . . . . . . . . . . . . . . . . . . 89 8.3. Distribuci´on de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.3.1. Teorema de adici´on para distribuciones de Poisson . . . . . . . . . . 90 8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 91 8.3.3. Aproximaci´on de una Binomial por una Poisson . . . . . . . . . . . 92 8.4. Distribuci´on Hipergeom´etrica, H(n, N, A) . . . . . . . . . . . . . . . . . . 92 8.5. Distribuci´on Geom´etrica, G(p) . . . . . . . . . . . . . . . . . . . . . . . . 94 8.6. Distribuci´on Binomial Negativa, BN(r, p) . . . . . . . . . . . . . . . . . . 95 8.6.1. Teorema de adici´on para distribuciones Binomiales Negativas . . . . 96
iii
9. Distribuciones de probabilidad continuas
99
9.1. Distribuci´on Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . 100 9.2. Distribuci´on Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . 101 9.2.1. Teorema de adici´on para distribuciones Normales . . . . . . . . . . 103 9.2.2. Distribuci´on Normal est´andar . . . . . . . . . . . . . . . . . . . . . 104 9.3. Distribuci´on Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . . . . . . 105 9.4. Distribuci´on χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . . . . . . . 107 9.4.1. Teorema de adici´on para distribuciones χ2 de Pearson
. . . . . . . 108
9.5. Distribuci´on t-Student, tn . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 9.6. Distribuci´on F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . 110 9.7. Distribuci´on Exponencial, Exp(λ) . . . . . . . . . . . . . . . . . . . . . . 111 9.7.1. Teorema de adici´on para distribuciones Exponenciales . . . . . . . . 113 9.8. Distribuci´on de Erlang Er(n, λ)
. . . . . . . . . . . . . . . . . . . . . . . 113
9.8.1. Teorema de adici´on para distribuciones de Erlang . . . . . . . . . . 115 9.9. Relaci´on entre las distribuciones de Poisson, Exponencial y Erlang . . . . . 115 9.10. Distribuci´on de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . . . . . . . 117 9.11. Distribuci´on Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 118 9.11.1. Teorema de adici´on para distribuciones Gamma . . . . . . . . . . . 119 9.12. Distribuci´on Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . . . . . . . . 121 9.14. Distribuci´on Normal Bidimensional . . . . . . . . . . . . . . . . . . . . . . 123 10.Convergencia de sucesiones de variables aleatorias
127
10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 10.2. Problema central del l´ımite . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . . . 129 10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.3. Aproximaciones a la distribuci´on Normal . . . . . . . . . . . . . . . . . . . 130 10.3.1. Distribuci´on Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 130 10.3.2. Distribuci´on de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 131 10.3.3. Distribuci´on χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 132 10.3.4. Distribuci´on t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 132 11.Regresi´ on y correlaci´ on
133
11.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 iv
11.2. Regresi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.1. M´etodo de los m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . 134 11.2.2. M´etodo de la distribuci´on condicional . . . . . . . . . . . . . . . . . 136 11.2.3. Regresi´on Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11.3. Correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 11.3.1. Coeficiente de correlaci´on lineal . . . . . . . . . . . . . . . . . . . . 140 12.Distribuciones de muestreo
143
12.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 12.2. Definici´on de estad´ıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3.1. Poblaci´on Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3.2. Poblaci´on Madre no Normal (n − 1)s2 12.4. Estad´ıstico . . . . . . . σ2 x ¯−µ 12.5. Estad´ıstico . . . . . . . . . √ s/ n 12.5.1. Poblaci´on Madre Normal . .
. . . . . . . . . . . . . . . . . . . . . . 146 . . . . . . . . . . . . . . . . . . . . . . 146 . . . . . . . . . . . . . . . . . . . . . . 147 . . . . . . . . . . . . . . . . . . . . . . 147
12.5.2. Poblaci´on Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 148 12.6. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . 148 12.6.1. Poblaci´on Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 148 12.6.2. Poblaci´on Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 149 12.7. Estad´ıstico desviaci´on t´ıpica muestral . . . . . . . . . . . . . . . . . . . . . 150 12.8. Estad´ıstico diferencia de medias muestrales . . . . . . . . . . . . . . . . . . 152 12.9. Estad´ıstico cociente de varianzas muestrales . . . . . . . . . . . . . . . . . 153 12.10.Estad´ıstico proporci´on muestral . . . . . . . . . . . . . . . . . . . . . . . . 154 12.11.Estad´ıstico elemento que ocupa el lugar r
. . . . . . . . . . . . . . . . . . 155
12.11.1.Estad´ıstico m´aximo valor de una muestra . . . . . . . . . . . . . . . 155 12.11.2.Estad´ıstico m´ınimo valor de una muestra . . . . . . . . . . . . . . . 156 12.11.3.Estad´ıstico recorrido de una muestra . . . . . . . . . . . . . . . . . 156 12.11.4.Estimaci´on de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 157 13.Estimaci´ on puntual y estimaci´ on por intervalo
159
13.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 13.2. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 163 13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . 163 13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . 164 13.2.3. Error cuadr´atico medio . . . . . . . . . . . . . . . . . . . . . . . . . 165 v
13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 166 13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 13.3. M´etodos de estimaci´on puntual . . . . . . . . . . . . . . . . . . . . . . . . 170 13.3.1. M´etodo de m´axima verosimilitud . . . . . . . . . . . . . . . . . . . 170 13.3.2. Propiedades de los estimadores de m´axima verosimilitud . . . . . . 172 13.3.3. M´etodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . 173 13.4. Estimaci´on por intervalo de confianza . . . . . . . . . . . . . . . . . . . . . 174 13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . 176 13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . 179 13.4.3. Intervalo de confianza para la diferencia de medias
. . . . . . . . . 180
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . . . 182 13.4.5. Intervalo de confianza para la proporci´on poblacional . . . . . . . . 183 13.5. Intervalo de confianza asint´otico . . . . . . . . . . . . . . . . . . . . . . . . 185 14.Teor´ıa de muestras de poblaci´ on finita
187
14.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 14.2.1. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . 189 14.2.2. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . 191 14.2.3. Estad´ıstico proporci´on muestral . . . . . . . . . . . . . . . . . . . . 193 14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 194 14.3.2. Intervalo de confianza para la proporci´on poblacional . . . . . . . . 195 15.Contraste de hip´ otesis
197
15.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 15.2. Las hip´otesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . 199 15.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.4. Nivel de significaci´on y regi´on cr´ıtica . . . . . . . . . . . . . . . . . . . . . 204 15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 15.7. Contrastes para la media de una poblaci´on . . . . . . . . . . . . . . . . . . 209 15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 211 15.8. Comparaci´on de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 vi
15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . 213 15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . . . . 213 15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . . . . 215 15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.1.Una poblaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.2.Comparaci´on de varianzas . . . . . . . . . . . . . . . . . . . . . . . 215 16.Contrastes no param´ etricos
219
16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . 221 16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . 222 16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . 223 16.2. Contraste de Kolmogorov-Smirnov
. . . . . . . . . . . . . . . . . . . . . . 223
16.3. Otros contrastes no param´etricos . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.1. Contrastes de posici´on . . . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . 228 16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 17.Regresi´ on lineal simple
251
17.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 17.3. M´etodo de m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 254 17.4. Propiedades de los estimadores de m´ınimos cuadrados . . . . . . . . . . . . 256 17.4.1. Propiedades generales
. . . . . . . . . . . . . . . . . . . . . . . . . 256
17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . . . . 257 17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 17.6. Inferencias respecto a los par´ametros . . . . . . . . . . . . . . . . . . . . . 258 17.7. Predicci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 17.7.1. Estimaci´on de la respuesta media . . . . . . . . . . . . . . . . . . . 259 17.7.2. Predicci´on de una observaci´on . . . . . . . . . . . . . . . . . . . . . 260 17.8. An´alisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 17.9. Coeficiente de correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 17.9.1. Inferencias sobre el coeficiente de correlaci´on . . . . . . . . . . . . . 264 17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 vii
A. Tablas estad´ısticas
271
B. Resumen de distribuciones
303
viii
Estad´ıstica descriptiva
1 ´Indice
1.1. Notaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2. Formas de agrupar los datos de una muestra . . . . . . . . . .
3
1.3. Representaci´ on gr´ afica . . . . . . . . . . . . . . . . . . . . . . .
4
1.4. Medidas num´ ericas descriptivas . . . . . . . . . . . . . . . . . .
5
1.4.1. Medidas de posici´ on . . . . . . . . . . . . . . . . . . . . . . . .
6
1.4.1.1.
Medidas de tendencia central . . . . . . . . . . . . . .
6
1.4.1.2.
Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.4.2. Medidas de dispersi´ on . . . . . . . . . . . . . . . . . . . . . . .
8
1.4.2.1.
Varianza y desviaci´on t´ıpica . . . . . . . . . . . . . .
8
1.4.2.2.
Desviaci´on media . . . . . . . . . . . . . . . . . . . .
8
1.4.2.3.
Coeficiente de variaci´ on de Pearson . . . . . . . . . .
8
1.4.2.4.
Recorrido . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4.3. Medida de asimetr´ıa . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4.4. Medida de apuntamiento
9
. . . . . . . . . . . . . . . . . . . . .
1
2
Estad´ıstica La estad´ıstica descriptiva tiene por objeto describir y analizar un determinado con-
junto de datos sin pretender sacar conclusiones de tipo m´as general. El conjunto de datos en cuesti´on representa una muestra de los distintos valores que puede tomar una poblaci´on (e.g. estatura de los alumnos de la Escuela, ingresos familiares de una unidad familiar, estado civil, n´ umero de grietas en las alas de un determinado modelo de avi´on) Las variables se pueden clasificar en: Cuantitativas: variables en las que los datos difieren en magnitud (e.g. estaturas, ingresos anuales, etc) Cualitativas: variables en las que los datos difieren en tipo (e.g. estado civil, nacionalidad, etc) En este cap´ıtulo se tratar´a u ´ nicamente con variables cuantitativas. Para obtener una muestra de valores de una variable cuantitativa es necesario realizar medidas con una determinada escala y unidad de medida. La unidad de medida puede ser infinitamente divisible (e.g. km, m, cm, mm, . . . ) o indivisible (e.g. tama˜ no de una unidad familiar). Cuando la unidad de medida es infinitamente divisible, la variable se dice que es continua. En el caso de unidad de medida indivisible, se dice que la variable es discreta. En otras palabras, Variable continua: aquella que puede tomar un n´ umero infinito no numerable de valores. Variable discreta: aquella que puede tomar un n´ umero finito o infinito numerable de valores.
1.1.
Notaci´ on
La notaci´on que vamos a utilizar a lo largo de este cap´ıtulo es la siguiente: • Disponemos de N observaciones, r de las cuales son distintas {x1 , x2 , . . . , xr }. • Las observaciones est´an ordenadas en forma creciente x1 < x2 < · · · < xr . • Cada observaci´on xi ha aparecido ni veces. • Se llama frecuencia absoluta de la observaci´on xi al valor ni , siendo r X i=1
ni = N
1 Estad´ıstica descriptiva
3
• Se llama frecuencia absoluta acumulada de la observaci´on xi , al valor Ni =
i X
nk
k=1
siendo Nr = N • Se llama frecuencia relativa de la observaci´on xi al valor fi = siendo
r X
ni N
fi = 1
i=1
• Se llama frecuencia relativa acumulada de la observaci´on xi , al valor Fi =
i X
fk
k=1
siendo Fr = 1
1.2.
Formas de agrupar los datos de una muestra
Tabla Tipo I. Se utiliza cuando el n´ umero de observaciones es reducido (N es peque˜ no), y cada valor distinto ha aparecido una sola vez (todas las frecuencias absolutas valen uno).
xi
ni
x1
1
x2 .. .
1 .. .
xN
1
Tabla Tipo II. Se utiliza cuando el n´ umero de observaciones es grande (N es grande), pero el n´ umero de valores distintos que han aparecido es peque˜ no (algunas frecuencias absolutas son distintas de uno).
4
Estad´ıstica xi
ni
x1
n1
x2 .. .
n2 .. .
xr
nr
Tabla Tipo III. Se utiliza cuando tanto el n´ umero de observaciones como el n´ umero de valores distintos que han aparecido es grande. En este caso, elegiremos unos intervalos, Li−1 — Li , de amplitud, ai = Li − Li−1 , fija o variable, que contengan
a la totalidad de los valores observados.
∈[L0 ,L1 )
∈[L1 ,L2 )
z }| {z }| { x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10 , .. .
x82 , x83 , x84 , x85 , x86 , x87 , x88 , x89 , x90 | {z }| {z } ∈[Lr−2 ,Lr−1 )
∈[Lr−1 ,Lr )
Li−1 — Li
ni
L0 — L1
n1
L1 — L2 .. .
n2 .. .
Lr−1 — Lr
nr
En las tablas tipo III, se sugieren las siguientes normas : • Se debe intentar que los intervalos sean de amplitud constante. • Los intervalos se deben tomar semiabiertos, [Li−1 , Li ). • Para facilitar los c´alculos, se definen las marcas de clase como xi =
Li−1 + Li 2
convirti´endolas en tablas tipo II.
1.3.
Representaci´ on gr´ afica
Hay muchas formas de representar gr´aficamente una tabla, aqu´ı veremos s´olo algunas de ellas.
1 Estad´ıstica descriptiva
5 Pol´ıgono de frecuencias
Diagrama de barras n 6
n 6
n2 n4 nr
n2 n3 n1
n1
"• " " •aa "" a•" %% % •
-
x1
x2
···
xr
-
x
x1 x2
x3
x4
Histograma
Histograma h 6
n 6
h2
n2
h3
n3 n2
A2 n3
h1
A3
n1
n1
A1 -
L0
L1
ai = Li − Li−1 ,
1.4.
x
L2 L3 hi =
x
-
L0
ni ai
L1
L2 L3
x
Ai = ai ni
Medidas num´ ericas descriptivas
Una vez que se han recogido y graficado los datos, es conveniente definir algunas medidas num´ericas para describirlos. Existen dos medidas de especial inter´es para cualquier conjunto de datos: la localizaci´on de su centro y su variabilidad. Adem´as, hay otras medidas tambi´en importantes como la localizaci´on de los extremos y la forma en que se distribuyen los datos.
6
Estad´ıstica
1.4.1.
Medidas de posici´ on
1.4.1.1.
Medidas de tendencia central
Estas medidas indican d´onde se encuentra el centro de los datos • Media muestral (¯ x) La medida de tendencia central m´as utilizada es la media muestral o simplemente media,
x¯ =
r x1 n1 + x2 n2 + · · · + xr nr 1 X xi ni = n1 + n2 + · · · + nr N i=1
• Otros tipos de medias – Media geom´etrica x¯G = (x1 n1 · x2 n2 · · · xr nr )1/N – Media cuadr´atica x¯Q = – Media arm´onica
r
x21 n1 + x22 n2 + · · · + x2r nr N
N x¯A = n1 n2 nr + +···+ x1 x2 xr
– Media ponderada x¯p =
x1 p1 + x2 p2 + · · · + xr pr p1 + p2 + · · · + pr
Se cumple: x¯A ≤ x¯G ≤ x¯ ≤ x¯Q • Mediana (Me) La mediana es la medida de tendencia central que, supuestos los valores de la muestra ordenados en forma creciente, deja igual n´ umero de observaciones por debajo y por encima de ella. As´ı, suponiendo que los valores de la muestra son x1 ≤ x2 ≤ · · · ≤ xN
1 Estad´ıstica descriptiva
7
Me =
xN [ 2 ]+1
Si
N ∈ /N 2
N 1 xN + xN Si ∈N +1 2 2 2 2
donde los corchetes, [ ], indican la parte entera. • Moda (Mo)
La moda se define como el valor de la muestra que tiene m´axima frecuencia. La moda no siempre es u ´ nica. As´ı, si una muestra tiene dos modas se llamar´a bimodal, si tiene tres modas trimodal, etc. 1.4.1.2.
Cuantiles
Ya hemos visto que la mediana divide el conjunto de datos en dos partes de igual tama˜ no. Para obtener medidas de localizaci´on m´as finas, solo es cuesti´on de dividir el conjunto de datos en m´as de dos partes. De esta forma se definen los p-cuantiles, siendo p la proporci´on de datos que deja el cuantil a su izquierda. Si tenemos la muestra ordenada de forma creciente, x1 ≤ x2 ≤ · · · ≤ xN , el p-cuantil viene dado por
xp =
x [N p]+1
Si Np ∈ /N
1 (x + x Np N p+1 ) Si Np ∈ N 2 donde los corchetes, [ ], indican la parte entera. Los casos particulares de cuantiles m´as utilizados son • Cuartiles (Q1/4 , Q2/4 , Q3/4 ) Son los 3 valores de la muestra que dividen las observaciones en 4 partes iguales. • Deciles (D1/10 , D2/10 , . . . , D9/10 ) Son los 9 valores de la muestra que dividen las observaciones en 10 partes iguales. • Centiles o percentiles (P1/100 , P2/100 , . . . , P99/100 ) Son los 99 valores de la muestra que dividen las observaciones en 100 partes iguales.
8
Estad´ıstica
1.4.2.
Medidas de dispersi´ on
1.4.2.1.
Varianza y desviaci´ on t´ıpica
Las medidas de dispersi´on m´as utilizadas son la varianza y la desviaci´on t´ıpica. La varianza muestral, s2 , es un tipo de promedio de las desviaciones de los valores observados respecto de su media, y se define como r
(x1 − x¯)2 n1 + · · · + (xr − x¯)2 nr 1 X s = (xi − x¯)2 ni = (n1 + n2 + · · · + nr ) − 1 N − 1 i=1 2
La desviaci´on t´ıpica se define como la ra´ız cuadrada de la varianza y tiene las mismas dimensiones que los datos originales.
s=
1.4.2.2.
√
v u u s2 = t
r
1 X (xi − x¯)2 ni N − 1 i=1
Desviaci´ on media
Se define la desviaci´on media respecto de un par´ametro cualquiera, p, como DMp =
r 1 X |xi − p| ni N i=1
donde, generalmente, como par´ametro p se utiliza la media o la mediana. 1.4.2.3.
Coeficiente de variaci´ on de Pearson
El coeficiente de variaci´on de Pearson, definido como el cociente s (¯ x 6= 0) x¯ mide la dispersi´on de la distribuci´on, al igual que la desviaci´on t´ıpica o la varianza, con C.V. =
la ventaja de ser un coeficiente adimensional. 1.4.2.4.
Recorrido
Es la diferencia entre el valor m´aximo y el valor m´ınimo que toma la muestra R = m´ax{xi } − m´ın{xi } Adem´as, se define
1 Estad´ıstica descriptiva • Rango intercuart´ılico • Rango semicuart´ılico
1.4.3.
9
RI = Q3/4 − Q1/4 RSI =
Q3/4 − Q1/4 RI = 2 2
Medida de asimetr´ıa
En un conjunto de datos sim´etricos respecto a su media, x¯, la suma
P (xi − x¯)3
ser´a nula, mientras que con datos asim´etricos esta suma crecer´a con el grado de asimetr´ıa. Para obtener una medida adimensional del grado de asimetr´ıa se define el coeficiente de asimetr´ıa o deformaci´on como P n (xi − x¯)3 CA = (n − 1)(n − 2)s3
(n ≥ 3 y s 6= 0)
donde s es la desviaci´on t´ıpica de la muestra. Valores grandes y negativos de CA son indicativos de asimetr´ıa hacia la izquierda (¯ x <Me<Mo) mientras que valores grandes y positivos son indicativos de asimetr´ıa hacia la derecha (¯ x >Me>Mo).
1.4.4.
Medida de apuntamiento
Para medir si una distribuci´on de datos es m´as puntiaguda o m´as achatada de lo “normal”, se define el coeficiente de apuntamiento o curtosis como P n(n + 1) (xi − x¯)4 3(n − 1)2 CAp = − (n − 1)(n − 2)(n − 3)s4 (n − 2)(n − 3)
(n ≥ 4 y s 6= 0)
donde s es la desviaci´on t´ıpica de la muestra. Si CAp> 0 indica que la distribuci´on es puntiaguda, mientras que si CAp< 0 indica que es achatada.
10
Estad´ıstica
An´alisis combinatorio
2 ´Indice
2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.0.1.
Sin repetici´on
. . . . . . . . . . . . . . . . . . . . . .
13
2.1.0.2.
Con repetici´on . . . . . . . . . . . . . . . . . . . . . .
14
2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.2.0.3.
Sin repetici´on
. . . . . . . . . . . . . . . . . . . . . .
14
2.2.0.4.
Con repetici´on . . . . . . . . . . . . . . . . . . . . . .
15
2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3.0.5.
Sin repetici´on
. . . . . . . . . . . . . . . . . . . . . .
15
2.3.0.6.
Con repetici´on . . . . . . . . . . . . . . . . . . . . . .
16
11
12 El principal objetivo de la combinatoria –o, por lo menos en el que estamos aqu´ı m´as interesados– es el de hallar el cardinal de un conjunto finito o, dicho de otro modo, contar. Una posible definici´on matem´atica de la acci´on que supone contar es la de establecer una biyecci´on entre el conjunto que se desea contar y los n´ umeros naturales, de modo que podamos enumerar los elementos como el uno, el dos, etc. Es f´acil, por ejemplo, contar el n´ umero de cuadrados perfectos que hay entre 100 y 1000. Basta observar que 100 = (9 + 1)2 y que el mayor cuadrado perfecto menor que 1000 es 961 = 312 = (9 + 22)2 . Hemos establecido una biyecci´on entre el conjunto que dese´abamos contar y los naturales entre el 1 y el 22. Hay, por tanto, 22 cuadrados perfectos entre 100 y 1000. Sin embargo, la mayor parte de las veces, no es evidente –o siquiera posible– c´omo establecer tal biyecci´on. Un primer procedimiento accesible en estos casos es el denominado constructivo. Se trata de recorrer los pasos necesarios para formar todos los elementos del conjunto anotando las alternativas que puedan elegirse en cada uno. Veamos un ejemplo: ¿De cu´antas maneras se pueden sentar tres chicas y tres chicos en seis butacas consecutivas de un cine de forma que no haya dos chicas ni dos chicos seguidos? Hay que ocupar seis sitios. Los indicaremos gr´aficamente as´ı:
La primera butaca puede ser ocupada por cualquiera de las seis personas. |{z} 6
Elegida la primera persona hay 3 elecciones posibles, entre las personas de sexo contrario, para ocupar el segundo lugar. |{z} 6
|{z} 3
La tercera butaca ha de ser ocupada por una de las 2 personas que quedan del mismo sexo de la primera y la cuarta por una de las dos del sexo de la segunda. |{z} 6
|{z} 3
|{z} 2
|{z} 2
Y, para terminar, las dos u ´ ltimas personas no tienen elecci´on. |{z} 6
|{z} 3
|{z} 2
|{z} 2
|{z} 1
|{z} 1
2 An´ alisis combinatorio
13
En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles. La intuitiva multiplicaci´on que proporciona el resultado final puede expresarse como una regla general matem´atica:
Si los conjuntos A1 , A2 ,. . .,Ak tienen n1 , n2 , . . .,nk elementos respectivamente, el producto cartesiano A1 × A2 × · · · × Ak tiene n1 · n2 · · · nk elementos.
En algunas ocasiones hay que resolver problemas que pueden reducirse a un peque˜ no n´ umero de patrones o formas de contar. Estos patrones se estudian en la educaci´on secundaria y haremos aqu´ı s´olamente un breve recordatorio. Sin embargo, la mayor parte de las veces tendremos problemas que no corresponden exactamente a alguno de estos patrones. Lo m´as recomendable suele ser recurrir antes a la l´ogica y al m´etodo constructivo que a buscar hipot´eticas f´ormulas que resuelvan nuestro problema concreto. Entre estos patrones fundamentales –que pueden resumirse esquem´aticamente en la tabla del final del cap´ıtulo – se encuentran los siguientes:
2.1.
Permutaciones
Supongamos un conjunto de n elementos. Se llaman permutaciones de estos n elementos a las distintas ordenaciones que podemos hacer con ellos. 2.1.0.1.
Sin repetici´ on
El m´etodo anterior nos da f´acilmente el n´ umero de permutaciones Pn que existen en el conjunto si no se repite ning´ un elemento (es decir, si son todos distintos o distinguibles): El primer elemento puede ser cualquiera de los n, el segundo cualquiera de los n − 1
restantes, el tercero cualquiera de los n − 2 restantes y as´ı sucesivamente. |{z} n
|{z} n−1
|{z} n−2
...
|{z} 3
El total de permutaciones de n elementos es, entonces:
|{z} 2
Pn = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 = n!
|{z} 1
14
Estad´ıstica
2.1.0.2.
Con repetici´ on
Supongamos ahora que no todos los n elementos del conjunto son distintos, sino que hay r grupos de elementos iguales entre s´ı (o indistinguibles), digamos n1 de una clase, n2 de otra, hasta nr de la u ´ ltima clase. Est´a claro que n1 + n2 + . . . + nr = n. ¿Cu´antas ordenaciones podr´ıamos distinguir? Un ejemplo t´ıpico de este problema podr´ıa ser el siguiente: disponemos de una bolsa en la que hay 11 bolas iguales; cuatro de ellas tienen un 1 escrito, otras tres un 2 y las cuatro restantes un 3. Sacando las once bolas una tras otra y anotando las cifras que aparecen ¿Cuantos n´ umeros distintos podemos obtener? Otro ejemplo cl´asico: ¿Cu´antas palabras distintas pueden formarse empleando las 8 letras del vocablo CASCARAS? Pensemos en el problema general. Si los n elementos fueran distintos tendr´ıamos n! permutaciones posibles. Dada una cualquiera de ellas, podr´ıamos sacar de la ordenaci´on los n1 elementos del primer grupo, reordenarlos arbitrariamente y volver a rellenar los huecos que hubieran dejado libres sin que fu´eramos capaces de distinguir la permutaci´on original del resultado final de esta operaci´on. Lo mismo es cierto para los n2 elementos del segundo grupo, los n3 del tercero, hasta los nr del u ´ ltimo. Puesto que hay ni ! ordenaciones parciales posibles de los elementos del grupo i-´esimo, tenemos que: P Rnn1 ,n2 ,...,nr =
2.2. 2.2.0.3.
n! n1 ! × n2 ! × · · · × nr !
Variaciones Sin repetici´ on
Sea ahora un conjunto de n elementos distintos. Se llama variaci´on de r elementos tomados de entre los n (Vn,r ) a una ordenaci´on de un subconjunto de tama˜ no r. Una variaci´on de 3 elementos tomados de entre 7 es, por ejemplo, el podio (los 3 primeros clasificados) de una carrera con 7 inscritos. Es muy f´acil calcular el n´ umero de variaciones Vn,r . Basta observar que hay que elegir r elementos de modo que el primero puede ser uno cualquiera de los n, el segundo uno cualquiera de los n − 1 restantes y as´ı sucesivamente: |{z} n |
|{z} n−1
... {z r
|{z} n−r+2
|{z} n−r+1 }
2 An´ alisis combinatorio
15
Y aplicando la regla del producto cartesiano: Vn,r = n × (n − 1) × · · · × (n − r + 2) × (n − r + 1) =
2.2.0.4.
n! (n − r)!
Con repetici´ on
Supongamos ahora que cada elemento del conjunto original pueda ser repetido al crear una ordenaci´on de tama˜ no r. Se hablar´a entonces de variaciones con repetici´on de r elementos tomados de entre n, V Rn,r . Pensemos, por ejemplo, en las palabras de 8 letras que pueden formarse con el alfabeto espa˜ nol. Hay que tomar 8 decisiones (cu´al es la primera letra, cu´al la segunda, etc.) teniendo 27 posibilidades de elecci´on cada vez (las 27 letras del alfabeto). El n´ umero total de palabras es, entonces 27 · · × 27 × 27} = 278 . | × 27 × ·{z 8veces Es f´acil observar que, en general: V Rn,r = nr
2.3.
Combinaciones
Una combinaci´ on de r elementos tomados de entre n es cualquier subconjunto de tama˜ no r de un conjunto de n elementos. Es importante resaltar que en una combinaci´on no interviene el orden de los elementos: si sacamos tres bolas de una bolsa que contiene diez, numeradas del uno al diez, podemos obtener las permutaciones distintas {1, 2, 7} y {7, 1, 2} que, sin embargo, son un mismo subconjunto de tama˜ no 3 (el obtenido por uni´on de {1}, {2} y {3}). Son, por tanto, la misma combinaci´on.
2.3.0.5.
Sin repetici´ on
Siguiendo la idea del ejemplo anterior, una manera sencilla de contar las combinaciones de r elementos tomados entre n (Cn,r ) es observar que, de las n!/(n−r)! variaciones posibles, r! de ellas son ordenaciones distintas de los mismos elementos y, por tanto, la misma combinaci´on. El n´ umero total de combinaciones ser´a entonces: Cn,r
n! = = (n − r)! r!
n r
!
16
Estad´ıstica
2.3.0.6.
Con repetici´ on
Supongamos ahora que tenemos la libertad de repetir los elementos del conjunto para formar un subconjunto de tama˜ no r, obtendremos una combinaci´on con repetici´on de r elementos tomados de entre n. En una de estas combinaciones cada uno de los n elementos del conjunto puede aparecer 0, 1, 2, 3, . . ., hasta r veces. Cada combinaci´on puede ser descrita por una n-upla de n´ umeros que indica cu´antas veces aparece el elemento 1, el 2, y as´ı hasta el n. Evidentemente, la suma de las cifras de cada n-upla es r, puesto que cada combinaci´on consta de r elementos. El n´ umero total de n-uplas tales que la suma de sus elementos sea r es el n´ umero de posibles combinaciones con repetici´on y lo que deseamos calcular. Olvid´emonos por el momento de las combinaciones y pensemos en los siguientes problemas: Introducimos r bolas id´enticas en n cajas. ¿Cu´antas configuraciones finales distintas podr´ıamos reconocer? ¿Cu´antas soluciones distintas tiene la ecuaci´on k1 + k2 + · · · + kn = r si cada ki debe
ser un n´ umero natural ´o 0?
Estos dos problemas aparentemente distintos son, en realidad, equivalentes. Supongamos r bolas iguales y n cajas. Las introducimos y contamos cu´antas bolas han ca´ıdo en la primera caja, cu´antas en la segunda, la tercera y la cuarta. Cada configuraci´on nos da una n-upla de n´ umeros (k1 , k2 , . . . , kn ) que resuelve el segundo problema. Obs´ervese, llegados a este punto, que el n´ umero de configuraciones distintas que obtenemos al introducir r bolas en n cajas y el n´ umero de combinaciones que busc´abamos P coinciden: ambas son el n´ umero de n-uplas (k1 , k2 , . . . , kn ) tales que la suma ni=1 ki = r. Vamos a calcular este n´ umero empleando un sencillo y original argumento para el problema de las bolas y las cajas. Supongamos las n cajas colocadas una a continuaci´on de la otra y pegadas entre s´ı. Representaremos las bolas mediante asteriscos y las cajas como los n espacios comprendidos entre n + 1 barras (las paredes de las cajas). Por ejemplo, la secuencia | ∗ ∗ ∗ |||| ∗ ∗|| ∗ | indica una manera de introducir 6 bolas en 7 cajas con el resultado de 3 en la primera, 2 en la quinta y 1 en la s´eptima. Cada secuencia que representemos empieza y termina por una barra vertical, pero las restantes n − 1 barras y r asteriscos aparecen en un orden
arbitrario. Por lo tanto, el n´ umero de configuraciones distinguibles es igual al n´ umero de formas de seleccionar r lugares de n + r − 1 posiciones posibles, es decir:
2 An´ alisis combinatorio
CRn,r
17 (n + r − 1)! = = (n − 1)! r!
n+r−1 r
!
Otro ejemplo cl´asico que puede reducirse al de introducir r bolas en n cajas: ¿Cu´antas derivadas parciales de orden r diferentes existen para una funci´on anal´ıtica de n variables f (x1 , x2 , . . . , xn )? Por ser una funci´on anal´ıtica, las derivadas parciales de orden r no dependen del orden de la derivaci´on, sino s´olo del n´ umero de veces que cada variable aparece. Si identificamos cada variable con una celda, cada configuraci´on obtenida al introducir r bolas nos da, de nuevo, una derivada posible de orden r. Hay, por tanto CRn,r derivadas distintas de f .
interviene el orden B B
B B B
B
si B
B
no
B
B B BN
puedo repetir
puedo repetir
A A A
r
=
=
(n + r − 1)! r! (n − 1)!
P Rnn1 ,n2 ,...,nr =
r 3 V Rn,r = n no
Pn = n!
n! n1 ! × n2 ! × · · · × nr !
3 Vn,r = n × (n − 1) × · · · × (n − r + 1) no Q Q si QQ s
!
n! r! (n − r)!
n+r−1
cojo todos
CRn,r =
r
!
me dicen cuantas veces A Q se repite AU Q si QQ cada uno s si A
A A
no
Q Q si QQ s
3 Cn,r = no
n
COMBINATORIA
18 Estad´ıstica
´ Algebra de sucesos
3 ´Indice 3.1. Experimento aleatorio
. . . . . . . . . . . . . . . . . . . . . . .
20
3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . .
21
3.3.1. Uni´on de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3.2. Intersecci´ on de sucesos . . . . . . . . . . . . . . . . . . . . . . .
21
3.3.3. Propiedades de la uni´ on y la intersecci´ on
. . . . . . . . . . . .
21
3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . .
22
3.3.5. Suceso complementario
22
. . . . . . . . . . . . . . . . . . . . . .
19
20
Estad´ıstica
3.1.
Experimento aleatorio
Por experimento entenderemos cualquier acci´on que pueda dar lugar a resultados identificables. Suponemos que podemos repetir el experimento gran n´ umero de veces bajo las mismas condiciones, y que todos los posibles resultados son conocidos antes de la realizaci´on del mismo. Si los resultados del experimento pueden ser distintos y no se sabe cu´al de ellos aparecer´a al final, el experimento se llamar´a aleatorio. Si el resultado del experimento es conocido de antemano, se llamar´a determinista.
3.2.
Sucesos
Llamaremos sucesos elementales de un experimento a un conjunto de resultados posibles que cumplen: 1. Siempre ocurre alguno de ellos 2. Son mutuamente excluyentes, es decir, la ocurrencia de uno de ellos implica la no ocurrencia de los dem´as Llamaremos espacio muestral, E, al conjunto de todos los posibles resultados de un experimento aleatorio. Si, por ejemplo, el experimento consiste en lanzar una moneda dos veces, el espacio muestral lo forman cuatro sucesos elementales, E = {c c, c +, + c, ++}.
En un experimento aleatorio podemos estar interesados no en un suceso elemental,
sino en un conjunto de sucesos elementales, conjunto que llamaremos suceso compuesto, es decir, un subconjunto del espacio muestral (que se obtiene mediante la uni´on de sucesos elementales). En el ejemplo anterior, un suceso compuesto ser´ıa obtener exactamente una cara, S = {c +, + c}
Si el u ´ nico resultado que interesa del experimento es el mismo espacio muestral E,
estamos ante el suceso seguro; mientras que si el resultado deseado es no obtener ninguno de los sucesos contenidos en E, tenemos el suceso imposible.
´ 3 Algebra de sucesos
3.3. 3.3.1.
21
Operaciones con sucesos Uni´ on de sucesos
Dados n sucesos S1 , S2 , . . . , Sn , la operaci´on uni´on de ellos
n [
Si
i=1
!
es otro suceso
constituido por los elementos comunes y no comunes a los sucesos S1 , S2 , . . . , Sn . Es decir, un suceso que aparece cuando tiene lugar S1 ´o S2 ´o · · · ´o Sn .
3.3.2.
Intersecci´ on de sucesos
Dados n sucesos S1 , S2 , . . . , Sn , la operaci´on intersecci´on de ellos
n \
i=1
Si
!
es otro
suceso constituido por los elementos comunes a los sucesos S1 , S2 , . . . , Sn . Es decir, un suceso que aparece cuando tiene lugar S1 y S2 y · · · y Sn .
Cuando n sucesos !no tienen ning´ un elemento com´ un, su intersecci´on es igual al n \ suceso vac´ıo Si = ∅ , y se dice que los sucesos son disjuntos o incompatibles. Como i=1
caso particular, n sucesos son disjuntos dos a dos si Si ∩ Sj = ∅ ∀i 6= j. n [
i=1
Si n sucesos son disjuntos dos a dos y la uni´on de todos ellos es el espacio muestral, !
Si = E , se dice que los sucesos Si forman una partici´on del espacio muestral E.
La definici´on de partici´on se puede ampliar a un conjunto numerable de sucesos disjuntos ∞ [ dos a dos y tales que Si = E. i=1
3.3.3.
Propiedades de la uni´ on y la intersecci´ on
• Conmutativa
S1 ∪ S2 = S2 ∪ S1
S1 ∩ S2 = S2 ∩ S1
• Asociativa
S1 ∪ (S2 ∪ S3 ) = (S1 ∪ S2 ) ∪ S3
S1 ∩ (S2 ∩ S3 ) = (S1 ∩ S2 ) ∩ S3 • Distributiva
S1 ∪ (S2 ∩ S3 ) = (S1 ∪ S2 ) ∩ (S1 ∪ S3 )
S1 ∩ (S2 ∪ S3 ) = (S1 ∩ S2 ) ∪ (S1 ∩ S3 )
22
Estad´ıstica
3.3.4.
Diferencia de sucesos
Dados dos sucesos S1 y S2 , la operaci´on diferencia (S1 − S2 ) es el suceso integrado
por los elementos de S1 que no pertenecen a S2 . Es decir, el suceso que tiene lugar cuando sucede S1 y no sucede S2 . La operaci´on diferencia no goza de la propiedad conmutativa, pues, en general, S1 − S2 6= S2 − S1 .
3.3.5.
Suceso complementario
¯ es la diferencia entre el El complementario de un suceso S, que notaremos por S, espacio muestral, E, y el suceso S, es decir S¯ = E − S. Es el suceso compuesto por los elementos de E que no pertenecen a S.
¯=S Se comprueba f´acilmente que S ∪ S¯ = E, S ∩ S¯ = ∅ y S • Leyes de De Morgan
n [
Si
i=1
n \
i=1
Si
!
=
!
=
n \
S¯i
i=1
n [
i=1
S¯i
4
Teor´ıa de la probabilidad
´Indice 4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . .
24
4.1.1. Probabilidad cl´ asica . . . . . . . . . . . . . . . . . . . . . . . .
24
4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . .
24
4.1.3. Axiom´ atica del c´alculo de probabilidades . . . . . . . . . . . . ´ 4.1.3.1. Algebra de sucesos . . . . . . . . . . . . . . . . . . . .
26 26
4.1.4. Axiom´ atica de Kolmogorov . . . . . . . . . . . . . . . . . . . .
28
4.2. Teoremas del c´ alculo de probabilidades . . . . . . . . . . . . .
29
4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . .
31
4.3.1. Regla de la multiplicaci´ on . . . . . . . . . . . . . . . . . . . . .
32
4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . .
33
4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . .
33
4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . .
34
23
24
Estad´ıstica
4.1. 4.1.1.
Concepto de probabilidad Probabilidad cl´ asica
Laplace define la probabilidad de un suceso como el cociente entre el n´ umero de casos favorables y el n´ umero de casos posibles, siempre que todos sean igualmente posibles. De la definici´on cl´asica de probabilidad se desprenden una serie de propiedades (S denota cualquier suceso ya sea compuesto o elemental): • P (S) ≥ 0 • P (S) ≤ 1 • Si tenemos dos sucesos disjuntos S1 y S2 , y su uni´on es S = S1 ∪ S2 , entonces P (S) = P (S1 ∪ S2 ) = P (S1 ) + P (S2 )
¯ = 1 − P (S) • Si S¯ es el suceso complementario de S, entonces P (S) La probabilidad cl´asica supone que el n´ umero de casos posibles sea finito.
4.1.2.
Probabilidad frecuentista
Esta teor´ıa se basa en dos aspectos fundamentales : – La estabilidad de las frecuencias o regularidad estad´ıstica :
En un experimento aleatorio, a pesar del comportamiento irregular de los resultados individuales, los resultados promedios, en largas sucesiones de experimentos aleatorios, muestran una sorprendente regularidad.
– La objetividad de la probabilidad
La probabilidad es una propiedad f´ısica de los objetos como la densidad, la temperatura, etc, y por tanto, medible.
4 Teor´ıa de la probabilidad
25
Si realizamos un experimento N veces, el n´ umero de veces, n, que ocurre un suceso particular, S, es su frecuencia absoluta, mientras que la frecuencia relativa se define como f (S) = n/N. As´ı, la teor´ıa frecuentista define la probabilidad del suceso S como el l´ımite n P (S) = l´ım f (S) = l´ım N →∞ N →∞ N Las frecuencias relativas verifican una serie de propiedades f´acilmente demostrables: • 0 ≤ f (S) ≤ 1 • Sean S1 , S2 , . . . , Sn sucesos disjuntos dos a dos y S = n 1 f (S) = = N N
n X
ni =
i=1
n X i=1
n [
Si , entonces
i=1 n
ni X = f (Si ) N i=1
Por todo ello, al identificar la probabilidad de un suceso con el valor tomado en el l´ımite por la frecuencia relativa, se admite que 0 ≤ P (S) ≤ 1
y
P (S) =
n X
P (Si )
i=1
Para poder definir la probabilidad frecuentista, debemos imponer dos condiciones 1. En la secuencia de observaciones, existe el l´ımite de las frecuencias relativas (principio de existencia del l´ımite). 2. Considerada aleatoriamente cualquier subsecuencia dentro del colectivo, existe en ella el l´ımite de la frecuencia relativa y es igual al obtenido en todo el colectivo (principio de aleatoriedad). Al igual que la teor´ıa cl´asica, esta teor´ıa tambi´en tiene sus inconvenientes : – Del principio de existencia del l´ımite se deduce que esta teor´ıa de la probabilidad no puede aplicarse a sucesos que no puedan repetirse. – Es necesario realizar el experimento para obtener la frecuencia relativa correspondiente al suceso en cuesti´on. – Habr´ıa que realizar el experimento infinitas veces para calcular el l´ımite, pues las reglas del c´alculo de l´ımites s´olo son aplicables a sucesiones no aleatorias, donde se supone que existe un t´ermino general.
26
Estad´ıstica
4.1.3.
Axiom´ atica del c´ alculo de probabilidades
Las limitaciones de las teor´ıas cl´asica y frecuentista de la probabilidad hacen imposible la formalizaci´on matem´atica de la asignaci´on de un modelo matem´atico a la probabilidad, consigui´endose ´este con el planteamiento axiom´atico de Kolmogorov (1933), al poner en relaci´on la teor´ıa de la probabilidad con la de conjuntos y con la teor´ıa de la medida. El planteamiento de Kolmogorov presenta la limitaci´on de no proporcionar un m´etodo pr´actico de obtenci´on de probabilidades de sucesos en el mundo real. Para salvar esta importante limitaci´on, Kolmogorov establece la conexi´on del modelo matem´atico con el mundo real recurriendo a la base emp´ırica de la teor´ıa frecuentista, al considerar que si un experimento aleatorio se repite gran n´ umero de veces, la frecuencia relativa de un suceso diferir´a ligeramente de la probabilidad del suceso. 4.1.3.1.
´ Algebra de sucesos
En el experimento del dado, el espacio muestral es el conjunto E = {1, 2, 3, 4, 5, 6},
pudiendo plantearse preguntas como : ¿qu´e probabilidad hay de obtener el n´ umero 5 en una tirada? En la pregunta, el suceso es 5, uno de los sucesos elementales constitutivos del
espacio muestral E. Sin embargo, existen otras muchas preguntas en las que se formulan sucesos compuestos, como la obtenci´on de : {n´ umero par}, {n´ umero distinto de 5}, etc.
Todos estos sucesos compuestos tienen un denominador com´ un : no figuran expl´ıcitamente
en el espacio muestral E, aunque proceden de los elementos constitutivos de ´el. Esto tiene como consecuencia que el n´ umero de sucesos que pueden plantearse en un experimento aleatorio es superior al de sucesos elementales integrantes de E, y son generados desde E mediante las operaciones de uni´on, intersecci´on y complementariedad, constituyendo todos ellos un nuevo conjunto denominado ´algebra. Lo anterior puede formalizarse de la siguiente manera : sea E el espacio muestral integrado por sucesos elementales. Sea A una colecci´on de subconjuntos de E, cumpli´endose las siguientes condiciones : 1. El espacio muestral, E, pertenece a A. ¯ Como 2. Si un suceso S pertenece a A, tambi´en pertenece su complementario S. consecuencia, el conjunto vac´ıo, ∅, pertenece a A.
4 Teor´ıa de la probabilidad
27
3. Si S1 y S2 son dos subconjuntos de A, su uni´on, S1 ∪ S2 , pertenece a A; y por tanto tambi´en su intersecci´on, S1 ∩ S2 .
La colecci´on de sucesos que cumple las tres condiciones se denomina ´algebra de Boole, siendo extensible a cualquier n´ umero finito de sucesos, sin m´as que reiterar las operaciones de uni´on e intersecci´on. Si en vez de tener n sucesos tenemos una sucesi´on numerable, S1 , S2 , . . . , Sn , . . . , ∞ ∞ \ [ Si tambi´en pertenecen a A, la colecci´on recibe Si y pertenecientes a A, entonces i=1
i=1
el nombre de σ-´algebra, que representaremos por Ω. El par (E, Ω) recibe el nombre de
espacio probabilizable o medible. Mediante dos ejemplos podremos apreciar con claridad la formaci´on de una σ-´algebra de sucesos, Ω, a partir de los elementos de un espacio muestral, E. En el primer caso tenemos el espacio muestral E = {1, 2, 3} y como σ-´algebra Ω, la
σ-´algebra completa que puede generarse desde ´el :
E
1 2 3
−−−−−−−−−−−→ Ω {ning´ un elemento}={∅} {1} {2} {3} −→ {no obtener el 1}={{2} ∪ {3}} {no obtener el 2}={{1} ∪ {3}} {no obtener el 3}={{1} ∪ {2}} {cualquier elemento}={E}
En el segundo ejemplo hemos elegido como σ-´algebra Ω de inter´es el n´ umero de caras resultante de lanzar una moneda dos veces : E
cc c+ +c ++
−−−−−−−−−−−→ Ω {ning´ un elemento}={∅} {2 caras}={c c} {como m´ınimo una cara}={{c c} ∪ {c +} ∪ {+ c}} {como m´aximo una cara}={{c +} ∪ {+ c} ∪ {+ +}} −→ {1 cara}={{c +} ∪ {+ c}} {no obtener una cara}={{c c} ∪ {+ +}} {0 caras}={++} {cualquier elemento}={E}
28
Estad´ıstica
4.1.4.
Axiom´ atica de Kolmogorov
El sistema axiom´atico de Kolmogorov consta de tres axiomas : A1. Si S es un suceso de una σ-´algebra, Ω, existe un n´ umero P (S) ≥ 0, denominado probabilidad del suceso S
A2. P (E) = 1 A3. Dada una sucesi´on numerable de sucesos S1 , S2 , . . . , Sn , . . ., disjuntos dos a dos, se verifica que P(
∞ [
i=1
Si ) =
∞ X
P (Si )
i=1
La tripleta (E, Ω, P ) se conoce como espacio probabil´ıstico. Ampliamos el doble ejemplo de espacio probabilizable (E, Ω) para disponer del espacio probabil´ıstico (E, Ω, P ). En el primer caso, suponemos que P (1) = 3/12, P (2) = 4/12 y P (3)=5/12
E
1 2 3
−−−−−−−−−−−→ Ω −−−−−−−−→ −→ {ning´ un elemento}={∅} −→ {1} −→ {2} {3} −→ −→ {no obtener el 1}={{2} ∪ {3}} −→ {no obtener el 2}={{1} ∪ {3}} −→ {no obtener el 3}={{1} ∪ {2}} −→ {cualquier elemento}={E} −→
P 0 3/12 4/12 5/12 9/12 8/12 7/12 1
4 Teor´ıa de la probabilidad
29
En el segundo ejemplo, se supone que P (c c) = P (c +) = P (+ c) = P (+ +) = 1/4
−−−−−−−−−−−−−−−−−−→ Ω −−−−−−−−−−−−−−−−−→ −→ {ning´ un elemento}={∅} −→ {2 caras}={c c} −→ {como m´ınimo una cara}={{c c} ∪ {c +} ∪ {+ c}} cc {como m´aximo una cara}={{c +} ∪ {+ c} ∪ {+ +}} −→ c+ + c −→ {1 cara}={{c +} ∪ {+ c}} −→ ++ {no obtener una cara}={{c c} ∪ {+ +}} −→ {0 caras}={++} −→ {cualquier elemento}={E} −→ E
4.2.
P 0 1/4 3/4 3/4 2/4 2/4 1/4 1
Teoremas del c´ alculo de probabilidades
TEOREMA 1. La probabilidad del suceso imposible es cero : P (∅) = 0 Sea una sucesi´on de sucesos disjuntos dos a dos S1 , . . . , Sn ,!. . . , todos ellos iguales ∞ ∞ X [ P (Si ), es decir al suceso imposible (Si = ∅). Seg´ un el tercer Axioma P Si = P (∅) =
∞ X
i=1
i=1
P (∅), y por el Axioma 1, debe ser P (∅) = 0
i=1
TEOREMA 2. La probabilidad de la uni´on de n sucesos disjuntos dos a dos, S1 , . . . , Sn , es igual a la suma de las probabilidades : ! n n [ X P Si = P (Si ) i=1
i=1
Consideremos la sucesi´on numerable S1 , . . . , Sn , Sn+1 , Sn+2, . . . , siendo los sucesos Sn+1 = ∅, Sn+2 = ∅, . . . Seg´ un el tercer Axioma ! ∞ ∞ [ X P Si = P (Si ) i=1
i=1
es decir, P
∞ [
i=1
Si
!
=P
"
n [
i=1
Si
!
∪
∞ [
i=n+1
Si
!#
=P
"
n [
i=1
Si
!#
=
∞ X i=1
P (Si ) =
n X
P (Si )
i=1
TEOREMA 3. La probabilidad de la uni´on de dos sucesos cualesquiera, S1 y S2 viene dada por P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 ) Descomponemos los sucesos S1 ∪ S2 , S1 y S2 en uniones de sucesos disjuntos :
30
Estad´ıstica
S1 ∪ S2 = (S1 ∩ S¯2 ) ∪ (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 ) S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 )
S2 = (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 ) por el teorema 2,
P (S1 ∪ S2 ) = P (S1 ∩ S¯2 ) + P (S¯1 ∩ S2 ) + P (S1 ∩ S2 ) P (S1) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 ) P (S2) = P (S¯1 ∩ S2 ) + P (S1 ∩ S2 )
por tanto, P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 ) Para n sucesos : ! n n n n X X [ X P (Si ∩ Sj ∩ Sk ) + P Si = P (Si ) − P (Si ∩ Sj ) + i=1
i=1
i<j
i<j
+ · · · + (−1)n+1 P (S1 ∩ S2 ∩ · · · ∩ Sn ) TEOREMA 4. Si un suceso S1 est´a contenido en otro S, (S1 ⊂ S), se verifica que P (S1 ) ≤ P (S) Descomponemos el suceso S en la uni´on de dos sucesos disjuntos S = (S1 ∩ S) ∪ (S¯1 ∩ S) por el teorema 2, P (S) = P (S1 ∩ S) + P (S¯1 ∩ S) Por el Axioma 1, P (S¯1 ∩ S) ≥ 0, por tanto P (S) ≥ P (S1 ∩ S), pero S1 ∩ S = S1 ,
con lo que P (S1 ) ≤ P (S)
TEOREMA 5. La probabilidad de cualquier suceso es menor o igual que la unidad : P (S) ≤ 1 Todo suceso, S, est´a contenido en el suceso seguro (S ⊂ E), por tanto P (S) ≤
P (E) ≤ 1
¯ = 1 − P (S) TEOREMA 6. La probabilidad del suceso complementario S¯ es P (S) Siendo S y S¯ disjuntos y tales que S ∪ S¯ = E, se tiene que ¯ = 1 ⇒ P (S) ¯ = 1 − P (S) P (E) = P (S) + P (S)
4 Teor´ıa de la probabilidad
4.3.
31
Probabilidad condicional
Consideremos las dos situaciones siguientes : acertar si la puntuaci´on resultante de lanzar un dado perfecto es 2, o acertarla sabiendo que ha salido un n´ umero par. No cabe duda que las dos situaciones son distintas en cuanto a nuestra certidumbre de ganar, pues parece m´as f´acil lograrlo en la segunda que en la primera. Este planteamiento conduce a un nuevo tipo de sucesos denominados condicionados, y de aqu´ı a la probabilidad condicional. En el ejemplo anterior, la probabilidad de obtener un 2 es 1/6. Si sabemos que ha salido un n´ umero par, la probabilidad de que sea 2 es 1/3. La diferencia en el valor de la probabilidad se debe a que tenemos m´as informaci´on en el segundo caso. El efecto de la informaci´on se centra en el espacio muestral. Si no existe ninguna informaci´on, el espacio muestral es E = {1, 2, 3, 4, 5, 6}, y si existe informaci´on, el espacio muestral se
reduce a E = {2, 4, 6}. En esta situaci´on, el conocimiento del suceso {par} condiciona la
probabilidad de obtener el suceso {n´ umero 2}, denominando al primero condicionante y al segundo condicionado, y design´andolo por {n´ umero 2/par}. Establecida la existencia de los sucesos condicionados, pasamos a su estudio.
Dados dos sucesos S1 y S, el suceso S1 est´a condicionado por el suceso S si la probabilidad de que suceda S1 depende de que haya sucedido S, y la probabilidad condicional se define como P (S1 /S) =
P (S1 ∩ S) P (S)
siempre que P (S) > 0. Hemos visto que la consecuencia de disponer de la informaci´on proporcionada por el conocimiento de la presencia del suceso S, radica en la modificaci´on del espacio muestral E, dando lugar a un nuevo espacio muestral ES = E ∩ S. Este espacio muestral genera, a
su vez, una nueva σ-´algebra ΩS = Ω ∩ S y teniendo, por u ´ ltimo, una nueva probabilidad sobre ΩS , que denominaremos PS y que ya hemos definido como PS (S1 ) = P (S1 /S). El
espacio probabil´ıstico resultante es (S, ΩS , PS ), siempre que P (S) > 0. Para concluir que PS es realmente una probabilidad, debemos comprobar que verifica los tres axiomas de Kolmogorov. 1 PS (S1 ) ≥ 0
Seg´ un la definici´on de probabilidad condicional, PS (S1 ) = P (S1 /S) =
P (S1 ∩ S) P (S)
y por el Axioma 1, P (S1 ∩ S) ≥ 0 y P (S) > 0, por tanto, PS (S1 ) ≥ 0
32
Estad´ıstica
2 PS (ES ) = 1 PS (ES ) = P (ES /S) =
3 PS
∞ [
Si
i=1
!
=
∞ X
P (ES ∩ S) P (S) = =1 P (S) P (S)
PS (Si ) siendo los Si disjuntos dos a dos
i=1
Por la propiedad distributiva, ∞ [
Si
i=1
por tanto,
PS
∞ [
i=1
=
Si
!
∞ X i=1
=P
∞ [
P (Si ∩ S) P (S)
Si /S
i=1
=
!
!
∩S =
P =
"
(Si ∩ S)
i=1
∞ [
Si
i=1
!
∩S
P (S)
∞ X P (Si ∩ S) i=1
∞ [
P (S)
=
∞ X
#
P =
"∞ [
P (Si /S) =
i=1
i=1
(Si ∩ S)
P (S)
∞ X
#
=
PS (Si )
i=1
La definici´on de probabilidad condicional se extiende f´acilmente a m´as de dos sucesos. Por ejemplo, para tres sucesos S1 , S2 y S3 , tenemos
4.3.1.
P (S1 /S2 ∩ S3 ) =
P (S1 ∩ S2 ∩ S3 ) P (S2 ∩ S3 )
P (S1 ∩ S2 /S3 ) =
P (S1 ∩ S2 ∩ S3 ) P (S3 )
Regla de la multiplicaci´ on
Dados n sucesos, S1 , . . . , Sn , se verifica ! n \ P Si = P (S1 )P (S2/S1 )P (S3 /S1 ∩ S2 ) · · · P (Sn /S1 ∩ S2 ∩ · · · ∩ Sn−1 ) i=1
Demostramos este teorema por inducci´on. Comenzamos con dos sucesos S1 y S2 P (S2 /S1 ) =
P (S1 ∩ S2 ) ⇒ P (S1 ∩ S2 ) = P (S1 )P (S2 /S1 ) P (S1 )
Pasamos a tres sucesos S1 , S2 y S3 P (S3 /S1 ∩ S2 ) =
P (S1 ∩ S2 ∩ S3 ) P (S1 ∩ S2 ∩ S3 ) = ⇒ P (S1 ∩ S2 ) P (S1 )P (S2/S1 )
4 Teor´ıa de la probabilidad
33
P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 /S1 )P (S3 /S1 ∩ S2 ) y as´ı sucesivamente
4.3.2.
Teorema de la probabilidad total
Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que n [ Si = E, y A ∩ Si 6= ∅ ∀i, se verifica i=1
P (A) =
n X
P (A/Si )P (Si )
i=1
Para la demostraci´on de este teorema, descomponemos el suceso A de la siguiente forma A=A∩E =A∩
n [
i=1
Si
!
=
n [
(A ∩ Si )
i=1
Tomando probabilidades, y teniendo en cuenta que los sucesos {A ∩ Si } son disjuntos dos a dos,
P (A) = P
"
n [
#
(A ∩ Si ) =
i=1
4.3.3.
n X i=1
P (A ∩ Si ) =
n X
P (A/Si )P (Si )
i=1
Teorema de Bayes
Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que n [ Si = E, y A ∩ Si 6= ∅ ∀i, se verifica i=1
P (Si /A) =
P (A/Si )P (Si ) n X P (A/Si )P (Si ) i=1
Por la definici´on de probabilidad condicional P (A/Si ) =
P (A ∩ Si ) P (Si )
P (Si /A) =
P (A ∩ Si ) P (A)
Por tanto, P (A ∩ Si ) = P (Si /A)P (A) = P (A/Si )P (Si ) ⇒ P (Si /A) =
P (A/Si )P (Si ) P (A)
34
Estad´ıstica
y, del teorema de la probabilidad total resulta P (Si /A) =
P (A/Si )P (Si ) n X
P (A/Si )P (Si )
i=1
4.4.
Independencia de sucesos
Consideremos el siguiente ejemplo. Una urna contiene 8 bolas blancas y 4 bolas negras. Se extraen consecutivamente dos bolas, y queremos determinar la probabilidad de que la segunda bola sea blanca. Para calcular esta probabilidad, debemos diferenciar los dos tipos de extracci´on, con o sin reemplazamiento. Cuando realizamos la extracci´on sin reemplazamiento, la probabilidad buscada estar´a condicionada por el color de la primera bola. Es decir, si la primera bola sacada es blanca, la probabilidad de que la segunda tambi´en lo sea es 7/11, mientras que si la primera bola es negra, la probabilidad de que la segunda sea blanca es 8/11. Si realizamos la extracci´on con reemplazamiento, la probabilidad de que la segunda bola sea blanca es 8/12, sea cual sea el color de la primera bola sacada. En el primer caso, el color de la segunda bola est´a condicionado por el color de la primera bola (sucesos condicionados), mientras que en la extracci´on con reemplazamiento, el color de la segunda bola es independiente del color de la primera bola (sucesos independientes). Dos sucesos, S1 y S2 , son independientes si P (S1 ∩ S2 ) = P (S1 )P (S2) es decir, cuando P (S1 /S2 ) = P (S1 ) y P (S2/S1 ) = P (S2) En el caso de tres sucesos, S1 , S2 , S3 , para que sean independientes, han de cumplirse las cuatro condiciones siguientes P (S1 ∩ S2 ) = P (S1 )P (S2)
P (S1 ∩ S3 ) = P (S1 )P (S3)
P (S2 ∩ S3 ) = P (S2 )P (S3)
P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 )P (S3) El cumplimiento de las tres primeras condiciones no implica el de la cuarta. Los sucesos que cumplen s´olo las tres primeras condiciones reciben el nombre de sucesos independientes dos a dos.
4 Teor´ıa de la probabilidad
35
Propiedad. Si S1 y S2 son dos sucesos independientes. Entonces, S1 y S¯2 son independientes (⇒ S¯1 y S¯2 son independientes) Descomponemos el suceso S1 en uni´on de dos sucesos disjuntos, S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 ) entonces P (S1 ) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 ) = P (S1 ∩ S¯2 ) + P (S1 )P (S2 ) ⇒ P (S1 ∩ S¯2 ) = P (S1) − P (S1 )P (S2 ) = P (S1 )[1 − P (S2 )] = P (S1 )P (S¯2 )
36
Estad´ıstica
5
Variable aleatoria unidimensional
´Indice 5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . .
38
5.1.1. Definici´ on matem´ atica . . . . . . . . . . . . . . . . . . . . . . .
38
5.1.2. Definici´ on intuitiva . . . . . . . . . . . . . . . . . . . . . . . . .
39
5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .
40
5.2.1. Funci´ on de probabilidad . . . . . . . . . . . . . . . . . . . . . .
40
5.2.2. Funci´ on de distribuci´on . . . . . . . . . . . . . . . . . . . . . .
41
5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . .
42
5.3.1. Funci´ on de distribuci´on y funci´on de densidad . . . . . . . . . .
42
5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . .
44
5.5. Transformaciones de variables aleatorias . . . . . . . . . . . .
46
5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .
46
5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . .
48
5.5.3. Transformaci´on integral . . . . . . . . . . . . . . . . . . . . . .
49
5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . .
50
37
38
Estad´ıstica
5.1. 5.1.1.
Variable aleatoria Definici´ on matem´ atica
Dado un espacio probabil´ıstico, (E, Ω, P ), pretendemos asignar un n´ umero a cada uno de los sucesos elementales, Ai , del espacio muestral. Es decir, creamos una funci´on X, llamada variable aleatoria, definida en E, que toma valores en R, con la condici´on de que X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω siendo b = (x, y) ´o [x, y] ´o (x, y] ´o [x, y) ´o [x, x] con − ∞ ≤ x, y ≤ +∞ es decir, b es un
subconjunto de la σ-´algebra completa de R, llamada σ-´algebra de Borel.
Veamos un par de ejemplos. Consideremos el experimento de lanzar una moneda dos veces. Entonces E = {{c, c}, {c, +}, {+, c}, {+, +}} = {A1 , A2 , A3 , A4 }
Ω = {∅, A1 , A4 , A2 ∪ A3 , A1 ∪ A2 ∪ A3 , A4 ∪ A2 ∪ A3 , A1 ∪ A4 , E} = {S1 , . . . , S8 } Y : E
−→ R
X: E
−→ R
A1 −→ 2
A1 −→ 2
A3 −→ 5
A3 −→ 1
A2 −→ 1
A4 −→ 0
A2 −→ 1
A4 −→ 0
En el primer caso, Y −1 ((4, 5]) = {Ai ∈ E/4 < Y (Ai ) ≤ 5} = A3 ∈ /Ω por tanto, Y no es una variable aleatoria de este espacio probabil´ıstico (E, Ω, P ). En cambio, si consideramos la σ−´algebra completa, Y s´ı es una variable aleatoria para este nuevo espacio probabil´ıstico. En el segundo caso, es f´acil comprobar que X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω ∀ b ∈ B El hecho de que X sea una v.a. de (E, Ω, P ) est´a directamente relacionado con la intenci´on con la que se cre´o el σ−´algebra Ω. Al tomar como sucesos que definen Ω los sucesos A1 , A4 y A2 ∪ A3 , estamos diciendo que lo que nos interesa del experimento es el
n´ umero de caras, lo que est´a de acuerdo con la filosof´ıa de X.
Si el n´ umero de valores que toma la variable aleatoria es finito o infinito numerable, se dice que es una variable aleatoria discreta. Si toma un n´ umero infinito no numerable
5 Variable aleatoria unidimensional
39
de valores se dice que es continua. Adem´as, una v.a. puede ser discreta en un conjunto numerable de puntos y continua en el resto. En este caso, se dice que es mixta.
5.1.2.
Definici´ on intuitiva
Una variable aleatoria es una regla que asigna a cada suceso un n´ umero real. Se puede interpretar, por tanto, como una funci´on que toma valores en el espacio muestral E y devuelve n´ umeros reales. El uso de variables aleatorias permite, como veremos, cambiar el ´algebra de sucesos por el c´alculo con n´ umeros reales, facilitando enormemente el manejo de probabilidades asociadas a experimentos aleatorios. Al definir una variable aleatoria cada suceso se convierte en un subconjunto de la recta real (en general un intervalo o un punto). En este sentido, uno de los conceptos fundamentales es el de sucesos generados por variables aleatorias. Supongamos un experimento aleatorio con espacio muestral E. Si asignamos a cada suceso elemental un n´ umero real (en principio de manera arbitraria) hemos definido una variable aleatoria X. Manejaremos la notaci´on {X ≤ x} ≡ conjunto uni´on de todos los sucesos de E a los que X asigna un
n´ umero menor o igual que x.
De la misma manera se pueden definir los conjuntos {x1 < X ≤ x2 } o´ {x1 ≤ X ≤ x2 }
´o {X ≥ x} ´o {X = x}. Obs´ervese que en cada caso hemos convertido un determinado
suceso (puesto que cualquier uni´on de sucesos elementales lo es) en un intervalo o punto de
la recta real. P ({X ≤ x}) ser´a entonces la probabilidad de que ocurra el suceso definido
por {X ≤ x}. Abusando de la notaci´on prescindiremos en lo sucesivo de las llaves y
escribiremos P (X ≤ x).
Consideremos por ejemplo el experimento de lanzar un dado. El espacio muestral
est´a formado por seis sucesos elementales E = {Si }i=1,...,6 donde Si ≡ valor obtenido en
la tirada es i. Podemos definir una variable aleatoria X asignando al suceso Si el n´ umero 10i. As´ı: • {X ≤ 35} = S1
S
S2
• {20 ≤ X ≤ 35} = S2 • {20 < X ≤ 35} = S2
S
S
S
S3 . El suceso representado es que salga 1, 2 o´ 3. S3 . El suceso representado es que salga 2 o´ 3. S3 . El suceso representado es que salga 3.
• {X ≤ 5} = ∅. Suceso imposible.
40
Estad´ıstica • {X = 40} = S4 . El suceso representado es que salga un 4. • {X = 35} = ∅. Suceso imposible. Las probabilidades asociadas ser´an: P (X ≤ 35) = 1/2, P (20 ≤ X ≤ 35) = 1/3,
P (20 < X ≤ 35) = 1/6, P (X = 5) = 0, P (X = 40) = 1/6, P (X = 35) = 0.
Para el mismo experimento podr´ıamos haber definido una variable asignando 0 a los
sucesos S2 , S4 y S6 y 1 a S1 , S3 y S5 . Parece claro que ´esta u ´ ltima variable resultar´a u ´ til si s´olo nos interesa que el resultado del experimento haya sido la obtenci´on de un n´ umero par o uno impar.
5.2.
Variable aleatoria discreta
5.2.1.
Funci´ on de probabilidad
Una vez que hemos definido una variable aleatoria, X, podemos definir una funci´on, llamada funci´ on de probabilidad asociada a X, de la siguiente forma f : R −→ [0, 1]
x −→ f (x) = P (X = x)
En particular, refiri´endonos al ejemplo de las dos monedas, tenemos f : R −→ [0, 1]
2 −→ f (2) = P (X = 2) = P (A1) = 1/4
1 −→ f (1) = P (X = 1) = P (A2 ∪ A3 ) = 1/2 0 −→ f (0) = P (X = 0) = P (A4) = 1/4
En general, para que una funci´on, f , sea la funci´on de probabilidad asociada a una variable aleatoria X, debe cumplir : i) f (x) ≥ 0 ∀ x ∈ R ii)
X
f (x) = 1
x
donde la suma en x en la segunda condici´on se realiza sobre todos los posibles valores que puede tomar la variable aleatoria.
5 Variable aleatoria unidimensional
5.2.2.
41
Funci´ on de distribuci´ on
Dada una v.a. discreta, X, se llama funci´on de distribuci´on a la funci´on F definida como F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
Veamos algunas propiedades de la funci´on de distribuci´on. 1 F (−∞) = 0 F (−∞) = l´ım F (x) = l´ım P (X ≤ x) = P (∅) = 0 x→−∞
x→−∞
2 F (+∞) = 1 F (+∞) = l´ım F (x) = l´ım P (X ≤ x) = P (E) = 1 x→+∞
x→+∞
3 P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 ) Consideremos los sucesos
A = {X ≤ x2 }
B = {X ≤ x1 }
C = {x1 < X ≤ x2 }
como A = B ∪ C, siendo B ∩ C = ∅, tenemos P (A) = P (B) + P (C) =⇒ F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 ) es decir, P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 ) De forma an´aloga se demuestra : P (x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ) + P (X = x1 ) P (x1 < X < x2 ) = F (x2 ) − F (x1 ) − P (X = x2 )
P (x1 ≤ X < x2 ) = F (x2 ) − F (x1 ) + P (X = x1 ) − P (X = x2 )
4 F es mon´otona creciente Sean x1 < x2 , por la propiedad anterior, F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 ) ≥ F (x1 ) 5 F es continua por la derecha Tenemos que comprobar que, dado ε > 0, se cumple l´ım (F (x + ε) − F (x)) = 0
ε→0
42
Estad´ıstica
pero l´ım (F (x + ε) − F (x)) = l´ım P (x < X ≤ x + ε) = P (∅) = 0
ε→0
ε→0
Si calculamos el l´ımite por la izquierda, l´ım(F (x) − F (x − ε)) = l´ım P (x − ε < X ≤ x) = P (X = x)
ε→0
ε→0
y, esta probabilidad puede ser cero o no. Por tanto, la funci´on de distribuci´on, en general, no es continua por la izquierda. De hecho, F (x) − F (x− ) = l´ım(F (x) − F (x − ε)) = P (X = x) ε→0
es decir, la probabilidad de que la v.a. discreta X tome un valor concreto es igual al salto de la funci´ on de distribuci´ on en ese punto. Ejemplo.- Sea X una v.a. discreta con funci´on de probabilidad xi
1
2
3
4
P (X = xi )
0.1
0.4
0.2
0.3
La funci´on de distribuci´on asociada es 0 0.1 F (x) = 0.5 0.7 1
5.3. 5.3.1.
x<1
F (x) 6 1
1≤x<2
r
0.7
2≤x<3
0.5
3≤x<4
0.1
r r
r
1
x≥4
-
2
3
4
x
Variable aleatoria continua Funci´ on de distribuci´ on y funci´ on de densidad
Dada una v.a. continua, X, se llama funci´on de distribuci´on a la funci´on absolutamente continua, F , definida como F : R −→ [0, 1]
x −→ F (x) = P (X ≤ x)
5 Variable aleatoria unidimensional
43
Decimos que F es absolutamente continua, si existe una funci´on f : R −→ R, no
negativa e integrable Lebesgue tal que Z F (x) =
x
f (t) dt
−∞
∀x ∈ R
La funci´on f se llama funci´on de densidad. En general, una funci´on f es funci´on de densidad si verifica i) f (x) ≥ 0 ∀x ∈ R Z ∞ ii) f (x) dx = 1 −∞
Veamos algunas propiedades de la funci´on de distribuci´on. 1 F (−∞) = 0 y F (∞) = 1 2 F es mon´otona creciente 3 F es continua en R l´ım (F (x + ε) − F (x)) = l´ım
ε→0
ε→0
Z
x+ε
−∞
f (t) dt −
Z
x
−∞
Z f (t) dt = l´ım ε→0
Por ser f integrable en [x, x + ε], ∃µ ∈ [inf f, sup f ] tal que (Primer Teorema de la Media). Por tanto,
Z
x+ε
f (t) dt x
x+ε
f (t) dt = µ ε x
l´ım (F (x + ε) − F (x)) = l´ım(µ ε) = 0
ε→0
ε→0
La continuidad por la izquierda se demuestra de forma an´aloga. Por ser F continua, se cumple P (X = x) = F (x) − F (x− ) = 0 ∀x ∈ R por tanto P (x1 < X ≤ x2 ) = P (x1 < X < x2 ) = P (x1 ≤ X ≤ x2 ) = P (x1 ≤ X < x2 ) = = F (x2 ) − F (x1 )
Como consecuencia de esta propiedad, al ser la funci´on de distribuci´on continua en R, no tiene discontinuidades (saltos), por tanto la probabilidad de que la v.a. continua X tome un valor concreto es cero (P (X = x) = 0). 4
Si f es continua, entonces F es de clase C 1 y F ′ (x) = f (x) ∀x ∈ R 1 F (x + ε) − F (x) = l´ım F (x) = l´ım ε→0 ε ε→0 ε ′
Z
x
x+ε
f (t) dt
44
Estad´ıstica
Por ser f continua en [x, x + ε], ∃x0 ∈ [x, x + ε] tal que (Primer Teorema de la Media). Por tanto,
Z
x+ε
f (t) dt = f (x0 ) ε x
F (x + ε) − F (x) 1 = l´ım f (x0 ) ε = f (x0 ) ε→0 ε→0 ε ε Como x0 ∈ [x, x + ε] ∀ε ⇒ x0 = x. La derivabilidad por la izquierda se demuestra de F ′ (x) = l´ım
forma an´aloga.
Ejemplo.- Sea X una v.a. continua con funci´on de densidad
f (x) =
3 2 2x 0
x ∈ [−1, 1] resto
La funci´on de distribuci´ on asociada Z x Z x es • Si x < −1 F (x) = f (t) dt = 0 dt = 0 −∞Z −∞Z Z x x −1 1 3 2 t dt = [x3 + 1] • Si −1 ≤ x < 1 F (x) = f (t) dt = 0 dt + 2 −∞ −1 2 Z Z x Z −1 −∞ Z 1 x 3 2 • Si x ≥ 1 F (x) = f (t) dt = 0 dt + t dt + 0 dt = 1 −∞ −∞ −1 2 1 F (x) 6 0 1 3 F (x) = [x + 1] 2 1
5.4.
1
x < −1 −1 ≤ x < 1 x≥1
-
-1
1
x
Variable aleatoria mixta
Una v.a. mixta viene caracterizada por su funci´on de distribuci´on, definida de igual forma que en los casos anteriores, que es continua por la derecha, con un n´ umero de discontinuidades a lo sumo numerable, pero que no es escalonada. Es decir, en algunos puntos es discreta (puntos de discontinuidad) y en el resto es continua. Por ejemplo, la v.a. X con funci´on de distribuci´on
5 Variable aleatoria unidimensional
45
0 (x + 1)2 + 1/4 F (x) = 5/8 x + 1/4 1
x < −1 −1 ≤ x < −1/2 −1/2 ≤ x < 1/2 1/2 ≤ x < 3/4 x ≥ 3/4
F (x) 6 1 3/4
r
r
1/2 1/4
r
-
-1
-1/2
1/2
3/4
x
Para esta v.a. se cumple 1 P (X = −1) = F (−1+ ) − F (−1− ) = 1/4 − 0 = 1/4 P (X = −1/2) = F (−1/2+ ) − F (−1/2− ) = 5/8 − 1/2 = 1/8 P (X = 1/2) = F (1/2+ ) − F (1/2− ) = 3/4 − 5/8 = 1/8 P (X = x) = 0 ∀ x 6= −1, −1/2, 1/2 2
P (X = −1)+
Z
−1/2 −1
(2x+2) dx+P (X = −1/2)+
Z
1/2
−1/2
0 dx+P (X = 1/2)+
Z
3/4
1/2
1 dx = 1
46
Estad´ıstica
NOTA: Tanto en el caso de variables discretas como continuas o mixtas, el conocimiento de la funci´on de distribuci´on (o la de probabilidad o la de densidad) es toda la informaci´on que necesitamos para manejar la v.a. y estudiar el experimento para el que ha sido definida. De hecho estas funciones constituyen la m´axima informaci´on posible acerca de la variable.
5.5.
Transformaciones de variables aleatorias
En muchas ocasiones deberemos hacer “operaciones¸con variables aleatorias. Dada una variable aleatoria X una funci´on de ella ser´a una nueva variable aleatoria Y = u(X). En esta secci´on trataremos de calcular la distribuci´on de esta nueva variable. Lo primero que debemos tener en mente es que la “aritm´etica” de las variables aleatorias no coincide con la de los n´ umeros reales. Supongamos que lanzamos un dado y definimos la variable aleatoria X cuyo valor asignado al suceso Si ( ≡ el resultado de la tirada es i) es i. X toma seis posibles valores {1, 2, 3, 4, 5, 6} seg´ un la cara que haya
mostrado el dado. Y1 = 2X es una nueva variable aleatoria que asigna un valor doble al definido anteriormente para cada suceso elemental. Sin embargo Y2 = X + X no tiene la
misma interpretaci´on. En este caso el dado es lanzado dos veces, sum´andose la puntaci´on obtenida en cada tirada. Los posibles valores de Y1 son {2, 4, 6, 8, 10, 12} mientras que
los de Y2 son {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para evitar confusiones es conveniente asignar sub´ındices distintos a las variables que representan cada resultado de un determinado
experimento que se repite varias veces, aun cuando cada una de ellas est´e definida de la misma forma. En el caso de lanzar un dado dos veces podemos considerar la variable X definida anteriormente y obtener los posibles resultados como X1 + X2 donde cada Xi tiene la misma distribuci´on de probabilidad que la X.
5.5.1.
Variable aleatoria discreta
Sea X una v.a. con funci´on de probabilidad f (x) y funci´on de distribuci´on F (x) e, Y = u(X) otra v.a. con funci´on de probabilidad g(y) y funci´on de distribuci´on G(y). Es decir, tenemos una funci´on que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y). Entonces
g(y) = P (Y = y) = P (u(X) = y) = P (X = u−1 (y)) = P (X = w(y)) = f [w(y)] G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)] En general el paso de una v.a. a otra es sencilla, s´olo hay que tener cuidado cuando la funci´on u no es biyectiva. Veamos un par de ejemplos para aclarar esto u ´ ltimo.
5 Variable aleatoria unidimensional
47
Ejemplo.- Sea X una v.a. con funci´on de probabilidad xi
-2
-1
0
1
2
P (X = xi )
0.1
0.2
0.2
0.4
0.1
La funci´on de distribuci´on de X es 0 0.1 0.3 F (x) = 0.5 0.9 1
x < −2
−2 ≤ x < −1
−1 ≤ x < 0 0≤x<1
1≤x<2
x≥2
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Los valores que
toma la v.a. Y son y = {−4, −2, 0, 2, 4}. Entonces
g(y) = P (Y = y) = P (2X = y) = P (X = y/2) = f (y/2) es decir yi
-4
-2
0
2
4
P (Y = yi )
0.1
0.2
0.2
0.4
0.1
Y, la funci´on de distribuci´on de Y es G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2) es decir 0 0.1 0.3 G(y) = 0.5 0.9 1
y < −4
−4 ≤ y < −2
−2 ≤ y < 0 0≤y<2
2≤y<4
y≥4
Sea ahora Y = u(X) = X 2 . Claramente, la funci´on u no es biyectiva. Tenemos entonces que los valores que toma la v.a. Y son y = {0, 1, 4}, y la funci´on de probabilidad es
es decir
√ √ g(y) = P (Y = y) = P (X 2 = y) = P ( (X = − y ) ∪ (X = + y ) ) = √ √ = P (X = − y ) + P (X = + y )
48
Estad´ıstica yi
0
1
4
P (Y = yi )
0.2
0.6
0.2
Y, la funci´on de distribuci´on de Y es √ √ G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y) = √ √ √ = P (X = − y) + P (− y < X ≤ + y) = √ √ √ = f (− y) + F (+ y) − F (− y) es decir 0 0.2 G(y) = 0.8 1
5.5.2.
y<0 0≤y<1
1≤y<4
y≥4
Variable aleatoria continua
Sea X una v.a. con funci´on de densidad f (x) y funci´on de distribuci´on F (x) e, Y = u(X) otra v.a. con funci´on de densidad g(y) y funci´on de distribuci´on G(y). Es decir, tenemos una funci´on que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y). Entonces G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)] g(y) = G′ (y) = F ′ [w(y)] |w ′(y)| = f [w(y)] |w ′(y)| Igual que en el caso de las v.a. discretas, hay que tener cuidado cuando la funci´on u no es biyectiva. Veamos un par de ejemplos para aclarar esto u ´ ltimo. Ejemplo.- Sea X una v.a. con funciones de densidad y distribuci´on
f (x) =
3 2 2x 0
−1 ≤ x ≤ 1 resto
F (x) =
0 1
2 1
x < −1 [x3 + 1]
−1 ≤ x < 1 x≥1
Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Entonces
5 Variable aleatoria unidimensional
49
G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2) g(y) = G′ (y) = F ′ (y/2) 12 = f (y/2) 12 es decir,
g(y) =
3 2 y 16
0
−2 ≤ y ≤ 2
G(y) =
resto
0 1
2 1
y < −2 [(y/2)3 + 1]
−2 ≤ y < 2 y≥2
Sea ahora Y = u(X) = X 2 . Claramente, la funci´on u no es biyectiva. √ √ √ √ G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y ) = F (+ y ) − F (− y ) √ √ √ √ 1 √ = f (+ y ) √ g(y) = G′ (y) = F ′ (+ y ) 2√1 y − F ′ (− y ) 2−1 + f (− y ) 2√1 y y 2 y es decir,
g(y) =
5.5.3.
3√ 2 y 0
0≤y≤1
G(y) =
resto
Transformaci´ on integral
0
√ y y
1
y<0 0≤y<1 y≥1
Sea X una v.a. con funci´on de distribuci´on, F , estrictamente creciente. Entonces, la transformaci´on biyectiva Y = F (X) da lugar a una nueva v.a. con funciones de distribuci´on y densidad
G(y) = P (Y ≤ y) = P (F (X) ≤ y) = P (X ≤ F −1 (y)) = F (F −1(y)) = y g(y) = G′ (y) = 1
50
Estad´ıstica
Ejemplo.- Sea X una v.a. con funciones de densidad 2 x 1 ≤ x ≤ 2 3 f (x) = F (x) = 0 resto
y distribuci´on 0 1 2 [x 3
x<1 − 1]
1≤x<2 x≥2
1
Realizamos la transformaci´on Y = 31 [X 2 − 1], entonces G(y) = P (Y ≤ y) = P 31 [X 2 − 1] ≤ y = P (X 2 ≤ 3y + 1) =
√ √ √ √ = P − 3y + 1 ≤ X ≤ + 3y + 1 = F + 3y + 1 − F − 3y + 1 =
√ = F + 3y + 1 3 3 √ √ g(y) = F ′ 3y + 1 2√3y+1 =f 3y + 1 2√3y+1 = = es decir,
2p 3 3y + 1 √ =1 3 2 3y + 1
g(y) =
5.6.
(
1
0≤y≤1
0 resto
0 G(y) = y 1
y<0 0≤y<1 y≥1
Distribuciones truncadas
En ocasiones, cuando se estudia el comportamiento de una v.a., resulta conveniente restringir su campo de variaci´on a un cierto subconjunto de especial inter´es, lo que conduce a un tipo de v.a. llamada variable aleatoria truncada. Expresado formalmente, sea X una v.a. cuyo campo de variaci´on es el conjunto E y su funci´on de distribuci´on es F (x); y sea S un subconjunto de E tal que P (X ∈ S) > 0.
El problema consiste en calcular la probabilidad de que X ∈ A sabiendo que X ∈ S, siendo A ⊂ S, es decir calcular la probabilidad del suceso condicionado {X ∈ A/X ∈ S}.
Para ello, recurrimos a la definici´on de probabilidad condicional P (X ∈ A/X ∈ S) =
P ((X ∈ A) ∩ (X ∈ S)) P (X ∈ S)
5 Variable aleatoria unidimensional
51
En particular, si consideramos el suceso A = {X ≤ x} entonces la probabilidad
buscada, P (X ≤ x/X ∈ S), es la funci´on de distribuci´on truncada de la v.a. X en el
nuevo campo de variaci´on, S, y la notaremos por FT . As´ı, FT (x) ≡ P (X ≤ x/X ∈ S) =
P ((X ≤ x) ∩ (X ∈ S)) P (X ∈ S)
Ejemplo.- Sea X una v.a. definida en el intervalo E = [xi , xf ] y con funci´on de distribuci´on F . Dados los sucesos S = {x0 < X ≤ x1 } y A = {X ≤ x} (Fig. 5.1), entonces la funci´on
de distribuci´on truncada es
P ((X ∈ A) ∩ (X ∈ S)) = P (X ∈ S)
FT (x) = P (X ∈ A/X ∈ S) = =
P ((X ≤ x) ∩ (x0 < X ≤ x1 )) P (x0 < X ≤ x) = = P (x0 ≤ X ≤ x1 ) P (x0 < X ≤ x1 )
=
F (x) − F (x0 ) , F (x1 ) − F (x0 )
x0 < x ≤ x1
• Si X es discreta, la funci´on de probabilidad truncada es PT (X = x) = P (X = x/X ∈ S) = =
P ((X = x) ∩ (x0 < X ≤ x1 )) = P (x0 ≤ X ≤ x1 )
P (X = x) , F (x1 ) − F (x0 )
x0 < x ≤ x1
• Si X es continua, la funci´on de densidad truncada es fT (x) = FT′ (x) =
xi
f (x) , F (x1 ) − F (x0 )
x0 < x ≤ x1
x0
x1
x
A S E
Figura 5.1: Esquema para una distribuci´on truncada
xf
52
Estad´ıstica
6
Momentos de una variable aleatoria unidimensional
´Indice 6.1. Esperanza matem´ atica . . . . . . . . . . . . . . . . . . . . . . .
54
6.2. Momento de orden k de una variable aleatoria . . . . . . . . .
55
6.3. Varianza y desviaci´ on t´ıpica . . . . . . . . . . . . . . . . . . . .
56
6.4. Otros valores t´ıpicos . . . . . . . . . . . . . . . . . . . . . . . . .
57
6.5. Coeficientes de asimetr´ıa y curtosis
58
. . . . . . . . . . . . . . .
6.6. Teorema de Markov. Desigualdad de Chebychev
. . . . . . .
60
6.7. Funci´ on generatriz de momentos . . . . . . . . . . . . . . . . .
61
6.8. Funci´ on caracter´ıstica . . . . . . . . . . . . . . . . . . . . . . . .
62
6.8.1. Cambio de variable en la funci´on caracter´ıstica . . . . . . . . .
64
53
54
Estad´ıstica
6.1.
Esperanza matem´ atica
Se define la esperanza matem´atica o media de una v.a. X como µ = E[X] =
X
xi P (X = xi )
v.a. discreta
i
µ = E[X] =
Z
+∞
xf (x) dx
v.a. continua
−∞
De forma m´as general, si tenemos una funci´on T (X), X
E[T (X)] =
T (xi ) P (X = xi )
v.a. discreta
i
Z
E[T (X)] =
+∞
T (x)f (x) dx
v.a. continua
−∞
Si la v.a. es discreta y toma un n´ umero finito de valores, entonces su esperanza siempre es finita, pero en el resto de los casos, la esperanza puede no ser finita. Ejemplo 1.- Sea X una v.a. discreta con funci´on de probabilidad
Entonces
pero,
xn
2n−1
P (X = xn )
2−n
∞ X
∞ X 1/2 1 = =1 P (X = xn ) = n 2 1 − 1/2 n=1 n=1
E[X] =
∞ X
∞ X
xn P (X = xn ) =
n=1
2
n−1
n=1
∞
X1 1 = =∞ 2n 2 n=1
Ejemplo 2.- Sea X una v.a. continua con funci´on de densidad
f (x) = Entonces
pero
Z
+∞
0
f (x) dx = −∞
E[X] =
Z
x<1
1 x2
Z
x≥1 +∞
1
+∞
−∞
xf (x) dx =
Z
1
1 dx = 1 x2 +∞
x
1 dx = ∞ x2
6 Momentos de una variable aleatoria unidimensional
55
En general, tomaremos como criterio de convergencia de la esperanza matem´atica, la convergencia absoluta de la serie o la integral, es decir si
X i
si
Z
|xi |P (X = xi ) < ∞ ⇒
+∞ −∞
|x|f (x) dx < ∞
⇒
X i
Z
xi P (X = xi ) = E[X] < ∞
+∞ −∞
xf (x) dx = E[X] < ∞
Veamos algunas propiedades de la esperanza matem´atica • La esperanza matem´atica de una constante es la misma constante : E[C]=C • E[T1 (X) + T2 (X)] = E[T1 (X)] + E[T2 (X)] • E[aX + b] = aE[X] + b
6.2.
Momento de orden k de una variable aleatoria
Como casos particulares de funci´on de una v.a. se pueden tomar las funciones T1 (X) = X k y T2 (X) = (X − µ)k con k ∈ N. De esta forma, se define el momento de orden k centrado en el origen de X como mk = E[X k ] =
X
xi k P (X = xi )
v.a. discreta
i
k
mk = E[X ] =
Z
+∞
xk f (x) dx
v.a. continua
−∞
y el momento de orden k centrado en la media de X como Mk = E[(X − µ)k ] =
k
Mk = E[(X − µ) ] =
X i
Z
Se comprueba f´acilmente que :
(xi − µ)k P (X = xi )
v.a. discreta
+∞ −∞
• m1 = E[X] = µ • M1 = E[X − µ] = E[X] − µ = 0
(x − µ)k f (x) dx
v.a. continua
56
Estad´ıstica Adem´as, podemos relacionar los momentos centrados en la media con los momentos
centrados en el origen, y viceversa. X Mk = E[(X − µ)k ] = (xi − µ)k P (X = xi ) = i
=
X i
"
!
k 0
xi k −
k
=
0
!
k 1
!
mk −
xi k−1 µ +
k 1
!
=
i
" =
6.3.
k 0
! k 0
!
Mk +
k 1
X i
k
k
(xi − µ) +
2
!
1 !
2
!
!
k
xi k−2 µ2 + · · · + (−1)k
k
µmk−1 +
mk = E[X k ] = E[(X − µ + µ)k ] = X
k
k
µk P (X = xi ) =
k
µ2 mk−2 + · · · + (−1)k
#
k
!
µk
(xi − µ + µ)k P (X = xi ) =
!
(xi − µ)
k−1
k
µMk−1 +
2
µ+···+
!
k k
!
2
µ
µ Mk−2 + · · · +
k
#
P (X = xi ) =
k k
!
µk
Varianza y desviaci´ on t´ıpica
Se define la varianza de una v.a., X, con media µ, como σ 2 = Var(X) = M2 = E[(X − µ)2 ] =
2
2
σ = Var(X) = M2 = E[(X − µ) ] =
X i
Z
(xi − µ)2 P (X = xi )
v.a. discreta
+∞
−∞
(x − µ)2 f (x) dx
v.a. continua
Veamos algunas propiedades : • Var(X) = E[X 2 ] − (E[X])2 X X Var(X) = (xi − µ)2 P (X = xi ) = xi 2 + µ2 − 2µxi P (X = xi ) = i
i
=
X i
xi 2 P (X = xi ) + µ2 − 2µ
X i
xi P (X = xi ) = E[X 2 ] + µ2 − 2µ2 = E[X 2 ] − (E[X])2
• Var(aX + b) = a2 Var(X)
Sea Y = aX + b ⇒ µY = E[Y ] = E[aX + b] = aE[X] + b = aµX + b. Entonces
Var(aX + b) = Var(Y ) = E[(Y − µY )2 ] =
= E[(aX + b − aµX − b)2 ] = E[(aX − aµX )2 ] = a2 E[(X − µX )2 ] = a2 Var(X)
6 Momentos de una variable aleatoria unidimensional
57
Generalmente, resulta m´as pr´actico utilizar una medida de la dispersi´on de los datos en las mismas unidades que los propios datos, por ello, se define la desviaci´on t´ıpica como σ=
6.4.
p Var(X)
Otros valores t´ıpicos
Mediana (Me) : es el punto que divide la distribuci´on en dos partes de igual probabilidad • v.a. discreta
P (X ≤ xn ) ≥ 1/2
Me=xn ∈ R tal que
P (X ≥ x ) ≥ 1/2 n
• v.a. continua
Me=x ∈ R tal que P (X ≥ x) = P (X ≤ x) = 1/2 Moda (Mo) : es el punto (o los puntos) de mayor probabilidad. Mo=xn ∈ R tal que P (X = xn ) ≥ P (X = xi ) Mo=x ∈ R tal que f (x) ≥ f (t)
∀i
∀t
v.a. discreta v.a. continua
Cuantiles : El cuantil de orden p es el valor xp de la variable tal que P (X ≤ xp ) = p
(0 < p < 1)
Como casos particulares citamos : • Cuartiles : Son tres valores, Qn , tales que P (X ≤ Qn ) =
n 4
(n = 1, 2, 3)
• Deciles : Son nueve valores, Dn , tales que P (X ≤ Dn ) =
n 10
(n = 1, . . . , 9)
• Percentiles : Son 99 valores, Pn , tales que P (X ≤ Pn ) =
n 100
(n = 1, . . . , 99)
58
Estad´ıstica
Figura 6.1: Funci´on de densidad de una distribuci´on Normal
6.5.
Coeficientes de asimetr´ıa y curtosis
Una distribuci´on continua muy utilizada es la llamada distribuci´on Normal (Fig. 6.1). En este apartado, pretendemos comparar la distribuci´on de una v.a. cualquiera, X, con media E[X] = µ y varianza Var(X) = σ 2 , con la distribuci´on Normal, en dos aspectos : grado de asimetr´ıa y grado de achatamiento. Una de las propiedades de la distribuci´on Normal, es que su funci´on de densidad es sim´etrica respecto a su media. En general, si la distribuci´on que estamos estudiando es sim´etrica respecto a su media, entonces P (X ≥ µ + x) = P (X ≤ µ − x) v.a. discreta f (µ + x) = f (µ − x)
(x > 0)
v.a. continua
y, es f´acil comprobar, que los momentos de orden impar centrados en la media son todos nulos, M2n+1 = E[(X − µ)2n+1 ] = 0
n = 0, 1, 2, . . .
Sabemos que M1 = 0 para toda v.a., por tanto, utilizamos el siguiente momento m´as f´acil de calcular, que es M3 . As´ı, definimos el coeficiente de asimetr´ıa o sesgo, como el escalar adimensional
6 Momentos de una variable aleatoria unidimensional
59
Figura 6.2: Asimetr´ıa
CA =
X
M3 M3 = 3/2 = " i 3 σ M2 X i
Z
M3 M3 CA = 3 = 3/2 = Z σ M2
(xi − µ)3 P (X = xi )
(xi − µ)2 P (X = xi )
#3/2
v.a. discreta
+∞
−∞ +∞
−∞
(x − µ)3 f (x) dx
3/2 2 (x − µ) f (x) dx
v.a. continua
de forma que si CA = 0 puede ser sim´etrica
CA > 0 es asim´etrica positiva o sesgada a la derecha (µ ≥ Me) CA < 0 es asim´etrica negativa o sesgada a la izquierda (µ ≤ Me)
Respecto al grado de achatamiento o apuntamiento, parece l´ogico utilizar un coeficiente que tenga en cuenta la dispersi´on de los datos en torno a la media. En una distribuci´on Normal, se cumple
M4 =3 M22
y, en general, definimos el coeficiente de apuntamiento o curtosis como el escalar adimensional
60
Estad´ıstica
Figura 6.3: Curtosis
CAp =
X
M4 M4 −3 = 2 −3 = " i 4 σ M2 X i
Z
(xi − µ)4 P (X = xi )
(xi − µ)2 P (X = xi )
v.a. discreta
+∞
M4 M4 CAp = 4 − 3 = 2 − 3 = Z −∞ +∞ σ M2 −∞
de forma que si
#2 − 3
(x − µ)4 f (x) dx
2 − 3 (x − µ)2 f (x) dx
v.a. continua
CAp > 0 distribuci´on leptoc´ urtica
CAp = 0 distribuci´on mesoc´ urtica CAp < 0 distribuci´on platic´ urtica
6.6.
Teorema de Markov. Desigualdad de Chebychev
Sea X una v.a. y g(X) una funci´on tal que g(X) ≥ 0. Entonces, ∀ k > 0 se cumple P (g(X) ≥ k) ≤
E[g(X)] k
La demostraci´ ya que Z +∞ on es muy sencilla, Z Z E[g(X)] = g(x)f (x) dx = g(x)f (x) dx + −∞
≥
Z
g(X)≥k
g(X)≥k
g(x)f (x) dx ≥ k
Z
g(X)≥k
g(X)
g(x)f (x) dx ≥
f (x) dx = kP (g(X) ≥ k)
6 Momentos de una variable aleatoria unidimensional
61
En la pr´actica, se utilizan otras versiones de este teorema, como : • P (g(X) < k) = 1 − P (g(X) ≥ k) ≥ 1 −
E[g(X)] k
• Si g(X) = (X − µ)2 y k = (kσ)2 entonces P ((X − µ)2 < k 2 σ 2 ) ≥ 1 −
E[(X − µ)2 ] =⇒ k2 σ2
σ2 =⇒ k2 σ2 1 P (µ − kσ < X < µ + kσ) ≥ 1 − 2 k P (|X − µ| < kσ) ≥ 1 −
que es la desigualdad de Chebychev. La probabilidad de que una v.a., X, tome un valor dentro de k desviaciones de la media es al menos (1 − 1/k 2 )
6.7.
Funci´ on generatriz de momentos
La funci´ on generatriz de momentos asociada a una v.a. X se define como X eθxi P (X = xi ) v.a. discreta g(θ) = E[eθX ] = i
θX
g(θ) = E[e
]=
Z
+∞
eθx f (x) dx
v.a. continua
−∞
La funci´on generatriz de momentos se utiliza, como su nombre indica, para calcular los momentos deZuna v.a., ya que Z +∞ g(θ) = E[eθX ] = eθx f (x) dx = −∞
+∞ −∞
θ2 2 θn n 1 + θx + x + · · · + x + · · · f (x) dx = 2! n!
θ2 θn = 1 + θm1 + m2 + · · · + mn + · · · 2! n! es decir, si g(θ) admite desarrollo de Taylor en torno a 0, entonces dr g(θ) mr = dθr θ=0
El inconveniente de utilizar la funci´on generatriz de momentos es que antes de utili-
zarla, hay que saber si la serie o la integral converge. Para evitar este problema, se define la funci´on caracter´ıstica, que estudiamos en el siguiente apartado.
62
Estad´ıstica
6.8.
Funci´ on caracter´ıstica
La funci´ on caracter´ıstica asociada a una v.a. X se define como X ϕ(t) = E[eitX ] = eitxk P (X = xk ) v.a. discreta k
itX
ϕ(t) = E[e
]=
Z
+∞
eitx f (x) dx
v.a. continua
−∞
Veamos algunas de sus propiedades. 1 La funci´on caracter´ıstica existe ∀t ∈ R
ϕ(t) = E[eitX ] = E[cos(tX) + isen(tX)] = E[cos(tX)] + iE[sen(tX)] pero E[|cos(tX)|] =
E[|sen(tX)|] =
Z
|cos(tx)| f (x) dx ≤
Z
|sen(tx)| f (x) dx ≤
Z
+∞ −∞
Z
+∞
−∞
+∞
f (x) dx = 1 < +∞
−∞ +∞
f (x) dx = 1 < +∞
−∞
por tanto, E[cos(tX)] y E[sen(tX)] son convergentes, y ϕ(t) tambi´en. 2 ϕ(0) = 1 3 |ϕ(t)| ≤ 1 itX
|ϕ(t)| = |E[e
itX
]| ≤ E[ |e
|] =
Z
+∞
−∞
itx
|e | f (x) dx =
Z
+∞
f (x) dx = 1 −∞
4 ϕ(−t) = ϕ(t) ϕ(−t) = E[ei(−t)X ] = E[cos(tX) − isen(tX)] = E[cos(tX)] − iE[sen(tX)] = ϕ(t) 5 Si ϕ(t) es la funci´on caracter´ıstica asociada a una v.a., X, con funci´on de distribuci´on F , y a < b son dos puntos de continuidad de F , entonces Z T −iat 1 e − e−ibt F (b) − F (a) = l´ım ϕ(t) dt 2π T →∞ −T it siempre que ϕ(t) sea integrable. En particular,
1 l´ım l´ım F (b) = F (b) − 0 = F (b) − F (−∞) = 2π z→−∞ T →∞
Z
T
−T
e−izt − e−ibt ϕ(t) dt it
6 Si ϕ(t) es integrable, y x un punto de continuidad de F , entonces Z +∞ 1 P (X = x) = e−itx ϕ(t) dt v.a. discreta 2π −∞ 1 f (x) = 2π
Z
+∞
−∞
e−itx ϕ(t) dt
v.a. continua
6 Momentos de una variable aleatoria unidimensional
63
7 Si ϕ(t) es la funci´on caracter´ıstica de una v.a., y admite un desarrollo de Taylor en torno a 0, entonces ϕ(t) = 1 + im1 t +
i2 ik m2 t2 + · · · + mk tk + · · · 2! k!
ϕ(t) = E[eitX ]
=⇒ ϕ(0) = 1
ϕ′ (t) = E[iXeitX ]
=⇒ ϕ′ (0) = E[iX] = im1
ϕ′′ (t) = E[i2 X 2 eitX ] .. .
=⇒ ϕ′′ (0) = E[i2 X 2 ] = i2 m2
dr ϕ(t) dr ϕ(0) r r itX = E[i X e ] =⇒ = E[ir X r ] = ir mr r r dt dt es decir,
1 dr ϕ(t) mr = r i dtr t=0
8 La funci´on caracter´ıstica es uniformemente continua en todo intervalo de la recta real. 9 La funci´on caracter´ıstica, ϕ(t), asociada a una v.a., X, es real si y s´olo si, X es sim´etrica. 10 A toda funci´on caracter´ıstica le corresponde una y s´olo una funci´on de distribuci´on. Es decir, si dos v.a. tienen la misma funci´on caracter´ıstica, entonces tienen la misma funci´on de distribuci´on y viceversa. 11 Sean {X1 , X2 , . . . , Xn } n variables aleatorias independientes con funciones carac-
ter´ısticas {ϕX1 , ϕX2 , . . . , ϕXn }, e Y = X1 + X2 + · · · + Xn . Entonces ϕY (t) =
n Y
ϕXi (t)
i=1
Es necesario resaltar que, a lo largo de este apartado, hemos visto c´omo dada una v.a. se puede calcular su funci´on caracter´ıstica e incluso, a partir de la funci´on caracter´ıstica podemos calcular el valor de la funci´on de distribuci´on asociada, en un punto. En cambio, en ning´ un momento hemos dado un criterio para saber, dada una funci´on cualquiera, ϕ(t), si es la funci´on caracter´ıstica asociada a alguna v.a. Veamos con un par de ejemplos, que la cosa no es sencilla.
1 ∀t ∈ R 1 + t4 Esta funci´on verifica las siguientes propiedades t´ıpicas de una funci´on caracter´ıstica :
Ejemplo 1.- Sea ϕ(t) =
64
Estad´ıstica • ϕ est´a definida en todo R • ϕ(0) = 1 • ϕ(−t) = ϕ(t) • ϕ es uniformemente continua en R • |ϕ(t)| ≤ 1 Supongamos que ϕ(t) es la funci´on caracter´ıstica de una v.a. X. Claramente, ϕ(t)
admite un desarrollo de Taylor, por tanto ϕ′ (0) µ = m1 = E[X] = =0 i ϕ′′ (0) Var(X) = E[(X − µ)2 ] = E[X 2 ] − µ2 = 2 = 0 i Es decir la v.a. X tiene que ser la v.a. degenerada que toma el valor 0 con probabilidad P (X = 0) = 1. Pero, la funci´on caracter´ıstica de esta v.a. degenerada es X ϕ(t) = E[eitX ] = eitxn P (xn ) = eit0 P (0) = 1 n
1 ∀t ∈ R 2 − eit Supongamos que ϕ(t) es la funci´on caracter´ıstica de una v.a., X, discreta. Como
Ejemplo 2.- Sea ϕ(t) =
ϕ(t) es un sumatorio de una serie de t´erminos, vamos a suponer que se trata de una serie de potencias. As´ı, ϕ(t) =
X x
∞
1 1/2 1er t´ermino X 1 ixt e P (x) = = = e = x+1 2 − eit 1 − raz´on 2 1 − 12 eit x=0 itx
es decir, se trata de una v.a. discreta que toma todos los valores enteros no negativos, 1 x, con P (X = x) = x+1 . Si calculamos ahora la funci´on caracter´ıstica de esta v.a., 2 comprobamos f´acilmente que es ϕ(t).
6.8.1.
Cambio de variable en la funci´ on caracter´ıstica
Sea X una v.a. con funci´on caracter´ıstica ϕX (t). Realizamos el cambio Y = aX + b, entonces itY
ϕY (t) = E[e
it(aX+b)
] = E[e
= eitb
Z
]=
Z
+∞
eit(ax+b) f (x) dx =
−∞
+∞
−∞
eitax f (x) dx = eitb E[ei(at)X ] = eitb ϕX (at)
7
Variable aleatoria bidimensional y n-dimensional
´Indice 7.1. Variable aleatoria bidimensional
. . . . . . . . . . . . . . . . .
66
7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . .
66
7.2.1. Funci´ on de probabilidad . . . . . . . . . . . . . . . . . . . . . .
67
7.2.2. Funci´ on de distribuci´on . . . . . . . . . . . . . . . . . . . . . .
67
7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . .
69
7.3.1. Funci´ on de distribuci´on y funci´on de densidad . . . . . . . . . .
69
7.4. Variable aleatoria bidimensional condicional . . . . . . . . . .
72
7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .
72
7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . .
73
7.5. Variables aleatorias bidimensionales independientes . . . . . .
75
7.6. Momentos de una variable aleatoria bidimensional . . . . . .
76
7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . .
78
7.6.2. Coeficiente de correlaci´ on lineal . . . . . . . . . . . . . . . . . .
80
7.7. Funci´ on caracter´ıstica de una variable aleatoria bidimensional 81 7.8. Transformaci´ on de variables aleatorias bidimensionales . . . .
82
7.8.1. Una funci´ on de dos variables aleatorias . . . . . . . . . . . . . .
82
7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . .
82
7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .
83
7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . .
83
7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . .
84
65
66
Estad´ıstica
7.1.
Variable aleatoria bidimensional
Cuando el resultado de un experimento aleatorio se traduce en una u ´ nica observaci´on, tenemos una variable aleatoria unidimensional. Si el resultado del experimento se materializa en dos observaciones simult´aneas, por ejemplo, el peso y la altura de un colectivo de individuos, estamos ante una variable aleatoria bidimensional (X, Y ). Expresado formalmente, partimos de un espacio probabil´ıstico (E, Ω, P ) y dos variables aleatorias X e Y definidas en ´el. El vector aleatorio cuyas componentes son X e Y , se denomina variable aleatoria bidimensional (X, Y ). Este vector aleatorio tendr´a un campo de variaci´on y una distribuci´on de probabilidad, que llamaremos conjunta. Por otra parte, tanto X como Y son v.a. unidimensionales, y tendr´an un campo de variaci´on y una distribuci´on de probabilidad que llamaremos marginales. De nuevo, lo que se pretende es sustituir el ´algebra de sucesos por el a´lgebra de n´ umeros reales y, otra vez, el concepto relevante es el de sucesos generados por variables aleatorias. Dadas dos variables aleatorias X e Y podemos definir los sucesos conjuntos {X ≤ x, Y ≤ y} como: {X ≤ x, Y ≤ y} ≡ {X ≤ x}
\
{Y ≤ y}
De la teor´ıa sabemos que el conocimiento de las probabilidades de los dos sucesos del miembro de la izquierda no basta para calcular la probabilidad de su intersecci´on. S´olo en el caso en que las dos variables unidimensionales X e Y representen resultados independientes la probabilidad de la intersecci´on ser´a el producto de las probabilidades. En general, por tanto, la m´axima informaci´on sobre una variable bidimensional no est´a en las distribuciones marginales sino que deberemos conocer la distribuci´on conjunta. En el caso de variables unidimensionales los sucesos se convierten en intervalos de la recta real y sus probabilidades asociadas pueden calcularse integrando la funci´on de densidad sobre dicho intervalo. Ahora, los sucesos conjuntos se convierten en subconjuntos de R2 . La probabilidad asociada a un suceso de este tipo puede calcularse tambi´en, como veremos, realizando la correspondiente integraci´on en el plano.
7.2.
Variable aleatoria bidimensional discreta
Una v.a. bidimensional, (X, Y ), es discreta cuando las v.a. que la componen, X e Y , son discretas.
7 Variable aleatoria bidimensional y n-dimensional
7.2.1.
67
Funci´ on de probabilidad
Dada una v.a. bidimensional (X, Y ), la funci´on de probabilidad conjunta viene dada por P (X = xi , Y = yj ) = pij
1 ≤ i, j ≤ +∞
debi´endose cumplir • pij ≥ 0 ∀i, j •
∞ X ∞ X
P (X = xi , Y = yj ) =
i=1 j=1
∞ ∞ X X
pij = 1
i=1 j=1
Las funciones de probabilidad marginales son: • v.a. X P (X = xi ) =
∞ X
P (X = xi , Y = yj ) = pi·
1 ≤ i ≤ +∞
P (X = xi , Y = yj ) = p·j
1 ≤ j ≤ +∞
j=1
• v.a. Y P (Y = yj ) =
∞ X i=1
Como tanto X como Y son v.a. unidimensionales, debe cumplirse que ∞ X
P (X = xi ) =
i=1
7.2.2.
∞ X
P (Y = yj ) = 1
j=1
Funci´ on de distribuci´ on
Dada una v.a. bidimensional (X, Y ), la funci´on de distribuci´on conjunta viene dada por
F (xn , ym ) = P (X ≤ xn , Y ≤ ym ) =
n X m X
P (X = xi , Y = yj ) =
i=1 j=1
n X m X
pij
i=1 j=1
La funci´on de distribuci´on conjunta verifica algunas de las propiedades t´ıpicas de la funci´on de distribuci´on unidimensional: (i) F (−∞, −∞) = F (xi , −∞) = F (−∞, yj ) = 0 (ii) F (+∞, +∞) = 1
68
Estad´ıstica
(iii) F es mon´otona creciente: Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y
Si y1 < y2
F (x, y1 ) ≤ F (x, y2 ) ∀x
Las funciones de distribuci´on marginales vienen dadas por • v.a. X FX (xn ) = F (xn , +∞) = P (X ≤ xn , Y ≤ +∞) =
=
∞ n X X
pij =
n X i=1
i=1 j=1
FY (ym ) = F (+∞, ym) = P (X ≤ +∞, Y ≤ ym ) =
=
pij =
i=1 j=1
m X j=1
P (X = xi , Y = yj ) =
i=1 j=1
pi· = P (X ≤ xn ) ∀xn
• v.a. Y
∞ X m X
n X ∞ X
m ∞ X X
P (X = xi , Y = yj ) =
i=1 j=1
p·j = P (Y ≤ ym ) ∀ym
Ejemplo.- Sea la v.a. bidimensional (X, Y ), con funci´on de probabilidad conjunta, HH HH H xi yj HH H
0
1
2
P (Y = yj )
-1
0.01
0.07
0.04
0.12
0
0.05
0.02
0.11
0.18
1
0.32
0.14
0.04
0.50
2
0.06
0.13
0.01
0.20
P (X = xi )
0.44
0.36
0.20
1
3 X 4 X
pij = 0.01 + · · · + 0.01 = 1
Se cumple, XX i
j
P (X = xi , Y = yj ) =
i=1 j=1
7 Variable aleatoria bidimensional y n-dimensional
69
Las funciones de probabilidad marginales son, • v.a. X xi
0
P (X = xi )
1
2
0.44 0.36 0.20
Se cumple, X
P (X = xi ) =
pi· = 0.44 + 0.36 + 0.20 = 1
i=1
i
• v.a. Y
3 X
yj
-1
P (Y = yj )
0
1
2
0.12 0.18 0.50 0.20
Se cumple, X
P (Y = yj ) =
j
7.3.
4 X j=1
p·j = 0.12 + 0.18 + 0.50 + 0.20 = 1
Variable aleatoria bidimensional continua
Una v.a. bidimensional, (X, Y ), es continua cuando las v.a. que la componen, X e Y , son continuas.
7.3.1.
Funci´ on de distribuci´ on y funci´ on de densidad
Dada una v.a. bidimensional (X, Y ), la funci´on de distribuci´on conjunta viene dada por F (x, y) = P (X ≤ x, Y ≤ y) ∀x, y ∈ R La funci´on de distribuci´on conjunta verifica algunas de las propiedades t´ıpicas de la funci´on de distribuci´on unidimensional: (i) F (−∞, −∞) = F (x, −∞) = F (−∞, y) = 0 (ii) F (+∞, +∞) = 1
70
Estad´ıstica
(iii) F es mon´otona creciente: Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y ∈ R
F (x, y1 ) ≤ F (x, y2 ) ∀x ∈ R
Si y1 < y2
En el caso de v.a. unidimensionales continuas, a la funci´on de distribuci´on est´a asociada la funci´on de densidad, que se obtiene derivando la primera. Para las v.a. bidimensionales continuas tambi´en hay una funci´on de densidad conjunta, f (x, y), asociada a la funci´on de distribuci´on conjunta, de tal forma que F (x, y) = P (X ≤ x, Y ≤ y) = Veamos algunas relaciones importantes 1
f (x, y) ≥ 0 ∀x, y ∈ R
2
Z
+∞ −∞
Z
x
−∞
Z
y
f (x, y) dxdy
−∞
+∞
f (x, y) dydx = 1
−∞
P (a ≤ X ≤ b, c ≤ Y ≤ d) =
3
Z
Z
b a
Z
d
f (x, y) dydx c
∂ 2 F (x, y) ∂ 2 F (x, y) = = f (x, y) ∀x, y ∈ R ∂x ∂y ∂y ∂x
4
Las funciones de distribuci´on marginales vienen dadas por, • v.a. X FX (x) = F (x, +∞) = P (X ≤ x, Y ≤ +∞) =
Z
x −∞
Z
+∞
f (x, y) dydx =
−∞
siendo fX (x) =
Z
+∞
−∞
f (x, y) dy ∀ x ∈ R
la funci´on de densidad marginal de X, que debe verificar Z
+∞
fX (x) dx = 1 −∞
Z
x
−∞
fX (x) dx
7 Variable aleatoria bidimensional y n-dimensional
71
• v.a. Y FY (y) = F (+∞, y) = P (X ≤ +∞, Y ≤ y) =
Z
y
−∞
Z
+∞
f (x, y) dxdy =
−∞
Z
y
fY (y) dy −∞
siendo Z
fY (y) =
+∞
f (x, y) dx ∀ y ∈ R
−∞
la funci´on de densidad marginal de Y , que debe verificar Z
+∞
fY (y) dy = 1
−∞
Ejemplo.- Sea (X, Y ) la v.a. bidimensional con funci´on de densidad conjunta 2 f (x, y) = (x + 6y) 0 ≤ x, y ≤ 1 7 •
Z
+∞
−∞
Z
+∞
f (x, y) dydx = −∞
Z
1
0
Z
1
0
2 (x + 6y) dydx = 7
Z
1
0
2 (x + 3) dx = 1 7
• Funci´on de distribuci´on conjunta F (x, y) = =
Z
x 0
Z
x −∞
Z
y
f (x, y) dydx = −∞
Z
0
x
Z
y 0
2 (x + 6y) dydx = 7
2 2 1 1 (xy + 3y 2) dx = ( x2 y + 3xy 2) = xy(x + 6y) 0 ≤ x, y ≤ 1 7 7 2 7
• Funci´on de densidad marginal de X fX (x) =
Z
+∞
f (x, y) dy = −∞
Z
1
0
2 2 (x + 6y) dy = (x + 3) 0 ≤ x ≤ 1 7 7
• Funci´on de densidad marginal de Y fY (y) =
Z
+∞
f (x, y) dx =
−∞
Z
0
1
2 1 (x + 6y) dx = (1 + 12y) 0 ≤ y ≤ 1 7 7
• Funci´on de distribuci´on marginal de X FX (x) =
Z
x −∞
Z
+∞
f (x, y) dydx = −∞
Z
0
x
fX (x) dx =
72
Estad´ıstica =
Z
x
1 2 (x + 3) dx = x(x + 6) 0 ≤ x ≤ 1 7 7
0
• Funci´on de distribuci´on marginal de Y FY (y) = =
Z
y
0
Z
y −∞
Z
+∞
f (x, y) dxdy = −∞
Z
y
fY (y)dy =
0
2 1 1 2 1 ( + 6y) dy = ( y + 3y 2) = y(1 + 6y) 0 ≤ y ≤ 1 7 2 7 2 7
• Se puede comprobar que fX (x) = FX′ (x) 0 ≤ x ≤ 1 Z
+∞
fX (x) dx =
−∞
7.4.
Z
y
fY (y) = FY′ (y) 0 ≤ y ≤ 1
+∞
fY (y) dy = 1
−∞
Variable aleatoria bidimensional condicional
Junto con las distribuciones marginales tenemos otras de gran importancia, las distribuciones condicionales, que surgen cuando en la distribuci´on conjunta se establece una condici´on sobre una de las variables. La distribuci´on condicional expresa el comportamiento probabil´ıstico de una variable aleatoria, cuando la otra est´a sujeta a ciertas condiciones. Partimos de la definici´on de probabilidad condicional de dos sucesos P (A/B) =
P (A ∩ B) P (B)
siempre que P (B) > 0.
7.4.1.
Variable aleatoria discreta
Sea (X, Y ) una v.a. bidimensional discreta con funci´on de probabilidad conjunta P (X = xi , Y = yj ) = pij Definimos la funci´on de distribuci´on de la variable Y condicionada por la variable X, {Y|X } como
P (X = xn , Y ≤ ym ) F (ym |xn ) = P (Y ≤ ym |X=xn ) = = P (X = xn )
m X
pnj
j=1
pn·
7 Variable aleatoria bidimensional y n-dimensional
73
De manera an´aloga, se define la funci´on de distribuci´on de la variable X condicionada por la variable Y , {X|Y } como
P (X ≤ xn , Y = ym ) F (xn |ym ) = P (X ≤ xn |Y =ym ) = = P (Y = ym )
n X
pim
i=1
p·m
Como casos particulares,
P (xr < X ≤ xs , Y ≤ ym ) • P (Y ≤ ym |xr <X≤xs ) = = P (xr < X ≤ xs )
s m X X
pij
i=r+1 j=1 s X
pi·
i=r+1
P (X ≤ xn , Y ≤ ym ) • P (Y ≤ ym |X≤xn ) = = P (X ≤ xn )
n X m X
pij
i=1 j=1 n X
pi·
i=1
7.4.2.
Variable aleatoria continua
Sea (X, Y ) una v.a. bidimensional discreta con funci´on de densidad conjunta f (x, y)
− ∞ ≤ x, y ≤ +∞
Definimos la funci´on de distribuci´on de la variable Y condicionada por la variable X, {Y|X } como
74
Estad´ıstica
F (y|x) = P (Y ≤ y|X=x ) = l´ım P (Y ≤ y|x−ε<X≤x+ε) = ε→0
P (x − ε < X ≤ x + ε, Y ≤ y) = l´ım = l´ım ε→0 ε→0 P (x − ε < X ≤ x + ε)
Z
x+ε
x−ε
Z
Z
y
f (x, y) dydx
−∞ x+ε
=
fX (x) dx
x−ε
Z = l´ım
ε→0
Z
−∞ y
x−ε
Z
x+ε
x+ε
f (x, y) dx dy 2ε
Z
y
f (x, y) dy
−∞
=
fX (x)
fX (x) dx
=
x−ε
=
Z
y −∞
2ε
f (x, y) dy = fX (x)
Z
y −∞
f (y|x) dy ∀y ∈ R
habiendo definido la funci´on f (y|x) como f (x, y) ∀y ∈ R fX (x) es decir, f (y|x) es la funci´on de densidad de la variable aleatoria Y condicionada por el f (y|x) =
valor de la variable aleatoria X = x. De manera an´aloga, se define la funci´on de distribuci´on de la variable X condicionada por la variable Y , {X|Y } como F (x|y) = P (X ≤ x|Y =y ) =
Z
x
−∞
f (x, y) dx = fY (y)
habiendo definido la funci´on f (x|y) como
Z
x −∞
f (x|y) dx ∀x ∈ R
f (x, y) ∀x ∈ R fY (y) es decir, f (x|y) es la funci´on de densidad de la variable aleatoria X condicionada por el f (x|y) =
valor de la variable aleatoria Y = y. Como casos particulares, P (X ≤ x, Y ≤ y) = • P (Y ≤ y|X≤x) = P (X ≤ x)
Z
x
−∞
Z
Z
y
f (x, y) dydx
−∞ x
−∞
fX (x) dx
7 Variable aleatoria bidimensional y n-dimensional
P (a ≤ X ≤ b, Y ≤ y) = • P (Y ≤ y|a≤X≤b ) = P (a ≤ X ≤ b)
Z
b
a
Z
75
y
f (x, y) dydx
−∞ Z b
fX (x) dx
a
7.5.
Variables aleatorias bidimensionales independientes
Cuando dos sucesos son independientes, se verifica que P (S1 ∩ S2 ) = P (S1 )P (S2 ) o, tambi´en P (S1 /S2 ) = P (S1 ) P (S2 /S1 ) = P (S2 ) Utilizando el mismo razonamiento, dos variables aleatorias X e Y con funci´on de probabilidad conjunta P (X = xi , Y = yj ) = pij si son discretas, y funci´on de densidad conjunta f (x, y) si son continuas, son independientes, si se verifica pij = pi· p·j
∀i, j
v.a. discreta
f (x, y) = f (x)f (y) ∀x, y v.a. continua X Y
TEOREMA 1. Si dos variables X e Y son independientes, cualquier par de variables que se obtengan cada una como funci´on de una sola de las anteriores, Z = g(X) y W = h(Y ) son independientes. TEOREMA 2. Si dos experimentos son independientes, dos variables aleatorias definidas respectivamente a partir de los resultados de cada uno de los experimentos anteriores son independientes.
76
Estad´ıstica
7.6.
Momentos de una variable aleatoria bidimensional
Dada una v.a. bidimensional (X, Y ), se pueden definir los momentos de orden r y s centrados en el origen o centrados en las medias. • Momento de orden r y s centrado en el origen
mrs = E[X r Y s ] =
XX xri yjs P (X = xi , Y = yj ) i j Z
+∞
−∞
Z
+∞
xr y s f (x, y) dxdy
−∞
Los momentos centrados en el origen m´as utilizados son 2 Momentos de primer orden
µX = m10 = E[X] =
µY = m01 = E[Y ] =
XX X x P (X = x , Y = y ) = xi pi· i i j i i j Z
+∞
−∞
Z
+∞
xf (x, y) dxdy =
−∞
Z
+∞
xfX (x) dx
−∞
XX X y P (X = x , Y = y ) = yj p·j j i j j i j Z
+∞
−∞
Z
+∞
−∞
yf (x, y) dxdy =
Z
+∞
yfY (y) dy
−∞
Como puede comprobarse, los momentos de primer orden centrados en el origen m10 y m01 son, respectivamente, las medias, µX y µY , de las distribuciones marginales X e Y .
7 Variable aleatoria bidimensional y n-dimensional
77
2 Momentos de segundo orden XX X 2 x P (X = x , Y = y ) = x2i pi· i j i i i j
m20 = E[X 2 ] =
Z
+∞
−∞
m02 = E[Y 2 ] =
Z
+∞
2
x f (x, y) dxdy =
−∞
Z
+∞
x2 fX (x) dx
−∞
XX X 2 y P (X = x , Y = y ) = yj2 p·j i j j j i j Z
Z
+∞
−∞
m11 = E[XY ] =
+∞
2
y f (x, y) dxdy =
−∞
Z
+∞
y 2 fY (y) dy
−∞
XX xi yj P (X = xi , Y = yj ) i j Z
+∞
−∞
Z
+∞
xyf (x, y) dxdy
−∞
• Momento de orden r y s centrado en las medias
Mrs = E[(X − µX )r (Y − µY )s ] =
XX (xi − µX )r (yj − µY )s P (X = xi , Y = yj ) i j Z
+∞
−∞
Z
+∞
−∞
(x − µX )r (y − µY )s f (x, y) dxdy
Los momentos centrados en las medias m´as utilizados son 2 Momentos de primer orden
M10 = E[X − µX ] =
M01 = E[Y − µY ] =
XX X (x − µ ) P (X = x , Y = y ) = (xi − µX ) pi· = 0 i X i j i i j Z
+∞
−∞
Z
+∞
−∞
(x − µX )f (x, y) dxdy =
Z
+∞
−∞
(x − µX )fX (x) dx = 0
XX X (yj − µY ) P (Y = xi , Y = yj ) = (yj − µY ) p·j = 0 i j i Z
+∞
−∞
Z
+∞
−∞
2 Momentos de segundo orden
(y − µY )f (x, y) dxdy =
Z
+∞
−∞
(y − µY )fY (y) dy = 0
78
Estad´ıstica
2 =M 2 σX 20 = E[(X − µX ) ] =
σY2 = M02 = E[(Y − µY )2 ] =
XX X 2 (x − µ ) P (X = x , Y = y ) = (xi − µX )2 pi· i X i j i i j Z
+∞
−∞
Z
+∞
−∞
(x − µX )2 f (x, y) dxdy =
Z
+∞
−∞
(x − µX )2 fX (x) dx
XX X 2 (y − µ ) P (Y = x , Y = y ) = (yj − µY )2 p·j j Y i j i i j Z
+∞
−∞
σXY = M11 = E[(X − µX )(Y − µY )] =
Z
+∞
−∞
2
(y − µY ) f (x, y) dxdy =
Z
+∞
−∞
(y − µY )2 fY (y) dx
XX (xi − µX )(yj − µY ) P (X = xi , Y = yj ) i j Z
+∞
−∞
Z
+∞
−∞
(x − µX )(y − µY )f (x, y) dxdy
Como puede comprobarse, los momentos de segundo orden centrados en las medias 2 M20 y M02 son, respectivamente, las varianzas, σX y σY2 , de las distribuciones marginales
X e Y. El momento de segundo orden centrado en las medias M11 se denomina covarianza de la v.a. bidimensional (X, Y ) y la notaremos por σXY o Cov(X, Y ).
7.6.1.
Propiedades de las varianzas y la covarianza
Veamos, en primer lugar, un m´etodo alternativo para el c´alculo de las varianzas y la covarianza. 2 Varianzas 2 σX = E[(X − µX )2 ] = E[(X 2 − 2µX X + µ2X ] = E[X 2 ] − 2µX E[X] + µ2X =
= E[X 2 ] − 2µ2X + µ2X = E[X 2 ] − µ2X = E[X 2 ] − E[X]2 = m20 − m210 σY2
= E[(Y − µY )2 ] = E[(Y 2 − 2µY Y + µ2Y ] = E[Y 2 ] − 2µY E[Y ] + µ2Y = = E[Y 2 ] − 2µ2Y + µ2Y = E[Y 2 ] − µ2Y = E[Y 2 ] − E[Y ]2 = m02 − m201
2 Covarianza
7 Variable aleatoria bidimensional y n-dimensional
σXY
79
= E[(X − µX )(Y − µY )] = E[XY − µX Y − µY X + µX µY ] = = E[XY ] − µX E[Y ] − µY E[X] + µX µY = E[XY ] − µX µY − µY µX + µX µY = = E[XY ] − µX µY = E[XY ] − E[X]E[Y ] = m11 − m10 m01
Ahora, veamos algunas propiedades de las varianzas y la covarianza. Sea (X, Y ) una v.a. bidimensional 1 Var(aX + b) = a2 Var(X) 2 Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y ) • E[aX + bY ] = aE[X] + bE[Y ] = aµX + bµY • Var(aX + bY ) = E [((aX + bY ) − E[(aX + bY )])2 ] = = E [((aX + bY ) − (aµX + bµY ))2 ] = = E [((aX − aµX ) + (bY − bµY ))2 ] = = E [(aX − aµX )2 + (bY − bµY )2 + 2(aX − aµX )(bY − bµY )] = = a2 E[(X − µX )2 ] + b2 E[(Y − µY )2 ] + 2abE[(X − µX )(Y − µY )] = = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y ) 3 Si X e Y son independientes, entonces Cov(X, Y ) = 0 Si X e Y son independientes, entonces • f (x, y) = fX (x)fY (y) Z +∞ Z +∞ Z • E[XY ] = xyf (x, y) dydx = −∞
=
Z
+∞ −∞
−∞
Z xfX (x) dx
+∞ −∞
Z
+∞
yfY (y) dy −∞
+∞
xyfX (x)fY (y) dydx =
−∞
= E[X]E[Y ]
• Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[X]E[Y ] − E[X]E[Y ] = 0
80
Estad´ıstica
4 Si X e Y son independientes, entonces Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) 5 Cov2 (X, Y ) ≤ Var(X) Var(Y )
7.6.2.
Coeficiente de correlaci´ on lineal
En el cap´ıtulo 6, vimos que la varianza de una v.a. unidimensional nos da una idea del grado de dispersi´on de los valores que toma la variable respecto a su media. Es decir, la varianza es una medida de dispersi´on. Sin embargo, lo que generalmente se utiliza es la ra´ız cuadrada de la varianza, o sea la desviaci´on t´ıpica, y as´ı trabajar con las mismas unidades que la media. La covarianza, en cambio, es un momento que se refiere a una v.a. bidimensional, (X, Y ), y da una idea del grado de asociaci´on lineal que existe entre ambas variables. As´ı, si Cov(X, Y ) > 0, hay una relaci´on lineal positiva entre X e Y en el sentido de, a valores grandes de X le corresponden valores grandes de Y y viceversa; mientras que si Cov(X, Y ) < 0, hay una relaci´on lineal negativa entre X e Y en el sentido de, a valores grandes de X le corresponden valores peque˜ nos de Y , y viceversa. Si Cov(X, Y ) = 0, no hay relaci´on lineal entre ellas. Para medir el grado de relaci´on lineal entre dos variables, conviene trabajar con un par´ametro adimensional. Para ello, se define el coeficiente de correlaci´on lineal,ρ, como ρ= p
Cov(X, Y ) Var(X)Var(Y )
=
σXY σX σY
tambi´en se utiliza el coeficiente de determinaci´on lineal, ρ2 ρ2 =
σ2 Cov2 (X, Y ) = 2XY2 Var(X)Var(Y ) σX σY
El concepto de asociaci´on lineal se estudiar´a m´as adelante, por lo que, ahora, s´olo nos detenemos en observar que −1 ≤ ρ ≤ 1
y
0 ≤ ρ2 ≤ 1
7 Variable aleatoria bidimensional y n-dimensional
7.7.
81
Funci´ on caracter´ıstica de una variable aleatoria bidimensional
Sea (X, Y ) una v.a. bidimensional con funci´on de probabilidad conjunta dada por P (X = x, Y = y) si es discreta, o funci´on de densidad conjunta f (x, y) si es continua. Se define la funci´on caracter´ıstica conjunta como,
ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] =
XX eit1 x+it2 y P (X = x, Y = y) x y Z
+∞
−∞
Z
+∞
eit1 x+it2 y f (x, y) dxdy
−∞
Algunas de las propiedades m´as importantes de la funci´on caracter´ıstica son • ϕ(0, 0) = 1 • Se cumple, ∂ r ϕ(t1 , t2 ) = E[ir X r−s Y s eit1 X+it2 Y ] ∂t1r−s ∂ts2 Entonces, los momentos centrados en el origen se pueden calcular como,
mr−s,s = E[X
r−s
1 ∂ r ϕ(t1 , t2 ) Y ]= r i ∂t1r−s ∂ts2 t1 =0,t2 =0 s
• Si ϕ(t1 , t2 ) es la funci´on caracter´ıstica conjunta de (X, Y ), entonces las funciones caracter´ısticas de las distribuciones marginales X e Y son ϕX (t) = E[eitX ] = ϕ(t, 0) ϕY (t) = E[eitY ] = ϕ(0, t) Si, adem´as, X e Y son independientes, entonces
ϕ(t1 , t2 ) = ϕ(t1 , 0)ϕ(0, t2) = ϕX (t1 )ϕY (t2 ) • Si ϕ(t1 , t2 ) es la funci´on caracter´ıstica conjunta de (X, Y ), y Z = X + Y , entonces, ϕZ (t) = ϕ(t, t)
82
Estad´ıstica Si, adem´as, X e Y son independientes, entonces
ϕZ (t) = ϕ(t, t) = ϕX (t)ϕY (t)
7.8.
Transformaci´ on de variables aleatorias bidimensionales
7.8.1.
Una funci´ on de dos variables aleatorias
Sean X e Y dos variables aleatorias con distribuci´on conjunta conocida f (x, y). Consideremos una nueva variable aleatoria Z definida mediante la funci´on Z = g(X, Y ). Definamos ∀z ∈ R el subconjunto de R2 Dz ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z
El suceso {Z ≤ z} es ahora {g(X, Y ) ≤ z} = {(X, Y ) ∈ Dz }, y la funci´on de
distribuci´on de la variable Z es
FZ (z) = P (Z ≤ z) = P ((X, Y ) ∈ Dz ) =
7.8.2.
Z Z
f (x, y) dxdy
Dz
Dos funciones de dos variables aleaorias
Supongamos ahora que dadas X e Y con distribuci´on conjunta conocida f (x, y), queremos calcular la distribuci´on de un par de variables Z y W dadas por Z = g(X, Y ) W = h(X, Y ) Definamos en subconjunto de R2 Dzw ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z , h(x, y) ≤ w
El suceso conjunto {Z ≤ z, W ≤ w} = {(X, Y ) ∈ Dzw }, y la funci´on de distribuci´on
del par (Z, W ) es
FZW (z, w) = P (Z ≤ z, W ≤ w) = P ((X, Y ) ∈ Dzw ) =
Z Z
Dzw
f (x, y) dxdy
7 Variable aleatoria bidimensional y n-dimensional
7.8.3.
Variable aleatoria discreta
Dada una v.a. bidimensional (X, Y ), con funci´on de probabilidad conjunta 1 ≤ i, j ≤ +∞
P (X = xi , Y = yj ) = pij definimos la transformaci´on biun´ıvoca
U = u(X, Y ) V = v(X, Y ) La funci´on de probabilidad conjunta de la nueva v.a. bidimensional (U, V ) ser´a
P (U = ur , V = vs ) = P ((X, Y ) ∈ S) =
7.8.4.
X
(xi ,yj )∈S
P (X = xi , Y = yj ) 1 ≤ r, s ≤ +∞
Variable aleatoria continua
Dada una v.a. bidimensional (X, Y ), con funci´on de densidad conjunta − ∞ ≤ x, y ≤ +∞
f (x, y) definimos la transformaci´on biun´ıvoca
U = u(X, Y ) V = v(X, Y ) La funci´on de densidad conjunta de la nueva v.a. bidimensional (U, V ) ser´a g(u, v) = f (x(u, v), y(u, v))|J|
− ∞ ≤ u, v ≤ +∞
siendo J el jacobiano de la transformaci´on, es decir ∂x ∂u J= ∂y ∂u
= ∂y ∂v
∂x ∂v
∂u ∂x ∂v ∂x
−1 ∂v ∂y
∂u ∂y
83
84
Estad´ıstica
7.9.
Variable aleatoria n-dimensional
Todo lo que se ha visto para v.a. bidimensionales se puede extender al caso de n variables aleatorias. Dado un espacio probabil´ıstico (E, Ω, P ) y n variables aleatorias X1 , X2 , . . . , Xn definidas en ´el, el vector aleatorio (X1 , X2 , . . . , Xn ), se denomina variable aleatoria n-dimensional. La funci´on de densidad conjunta viene dada por P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) v.a. discreta f (x1 , x2 , . . . , xn )
v.a. continua
Las distribuciones marginales se definen como,
P (Xr = xr ) =
X x1
fXr (xr ) =
Z
···
+∞
−∞
···
Z
X X
xr−1 xr+1
···
X
P (X1 = x1 , . . . , Xn = xn )
v.a. discreta
xn
+∞
f (x1 , . . . , xn ) dx1 . . . dxr−1 dxr+1 . . . dxn v.a. continua
−∞
Las n variables aleatorias son independientes si se verifica
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) × · · · × P (Xn = xn ) ∀x1 , . . . , xn fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 ) × · · · × fXn (xn ) ∀x1 , . . . , xn
8
Distribuciones de probabilidad discretas
´Indice 8.1. Distribuci´ on de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . .
86
8.2. Distribuci´ on Binomial, B(n, p)
. . . . . . . . . . . . . . . . . .
86
8.2.1. Teorema de adici´ on para distribuciones Binomiales . . . . . . .
88
8.2.2. Distribuci´on de la proporci´ on . . . . . . . . . . . . . . . . . . .
89
8.3. Distribuci´ on de Poisson, P(λ) . . . . . . . . . . . . . . . . . . .
89
8.3.1. Teorema de adici´ on para distribuciones de Poisson . . . . . . .
90
8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . .
91
8.3.3. Aproximaci´on de una Binomial por una Poisson . . . . . . . . .
92
8.4. Distribuci´ on Hipergeom´ etrica, H(n, N, A)
. . . . . . . . . . .
92
8.5. Distribuci´ on Geom´ etrica, G(p) . . . . . . . . . . . . . . . . . .
94
8.6. Distribuci´ on Binomial Negativa, BN(r, p) . . . . . . . . . . . .
95
8.6.1. Teorema de adici´ on para distribuciones Binomiales Negativas .
96
85
86
Estad´ıstica
8.1.
Distribuci´ on de Bernoulli, B(1, p)
Supongamos un experimento, llamado experimento de Bernoulli, en el que s´olo se pueden dar dos resultados, ´exito o fracaso. Generalmente, se asigna el valor 1 al suceso ´exito, y el valor 0 al suceso fracaso. Si la probabilidad de ´exito es p y la de fracaso es q = 1 − p, entonces, la funci´on de probabilidad de la v.a. X asociada a este experimento
es
P (X = x) = px q 1−x •
1 X
x = 0, 1
P (X = x) = P (X = 0) + P (X = 1) = p + q = 1
x=0
• Esperanza y Varianza E[X]
=
1 X x=0
xP (X = x) = 0 × P (X = 0) + 1 × P (X = 1) = p
2
2
Var(X) = E[X ] − (E[X]) =
1 X x=0
x2 P (X = x) − p2 =
= 02 × P (X = 0) + 12 × P (X = 1) − p2 = p − p2 = p(1 − p) = pq E[X] = p
Var(X) = pq
• Funci´on Caracter´ıstica ϕ(t) = E[eitX ] =
1 X
eitx P (X = x) = eit0 P (X = 0) + eit1 P (X = 1) = q + p eit
x=0
ϕ(t) = q + p eit
8.2.
Distribuci´ on Binomial, B(n, p)
Si realizamos un experimento de Bernoulli n veces, siempre en las mismas condiciones, y nos interesamos por el n´ umero de ´exitos obtenidos, tenemos una distribuci´on Binomial B(n, p), con funci´on de probabilidad ! n P (X = x) = px q n−x x
x = 0, 1, 2, . . . , n
8 Distribuciones de probabilidad discretas
•
n X
P (X = x) =
x=0
n X
n x
x=0
!
87
px q n−x = (p + q)n = 1
• Funci´on Caracter´ıstica itX
ϕ(t) = E[e
]=
n X
itx
e P (X = x) =
n X x=0
x=0
n x
!
(p eit )x q n−x = (p eit + q)n
ϕ(t) = (p eit + q)n • Esperanza ϕ′ (t) = npi eit (p eit + q)n−1 =⇒ ϕ′ (0) = npi =⇒ E[X] =
ϕ′ (0) = np i
E[X] = np • Varianza ϕ′′ (t) = npi2 eit [(p eit + q)n−1 + (n − 1)p eit (p eit + q)n−2] ϕ′′ (0) = npi2 [1 + (n − 1)p] = i2 [np + (np)2 − np2 ] E[X 2 ] =
ϕ′′ (0) = np + (np)2 − np2 i2
Var(X) = E[X 2 ] − (E[X])2 = np + (np)2 − np2 − (np)2 = np(1 − p) = npq Var(X) = npq • Moda Buscamos el valor de x tal que P (X = x) ≥ P (X = y)
Supongamos que x es la moda, entonces, ! n P (X = x) > P (X = x − 1) =⇒ px q n−x > x
n x−1
!
∀y = 0, 1, 2, . . . , n. px−1 q n−x+1 =⇒
n! p q n! px q n−x > px−1 q n−x+1 =⇒ > =⇒ x! (n − x)! (x − 1)! (n − x + 1)! x n−x+1
88
Estad´ıstica x < (n + 1)p Por otra parte, P (X = x) > P (X = x + 1) =⇒
n x
!
px q n−x >
n x+1
!
px+1 q n−x−1 =⇒
n! n! q p px q n−x > px+1 q n−x−1 =⇒ > =⇒ x! (n − x)! (x + 1)! (n − x − 1)! n−x x+1 (n + 1)p − 1 < x Por tanto, (n + 1)p − 1 < x < (n + 1)p es decir, la moda es el n´ umero entero, x, no negativo, que se encuentra entre los valores (n + 1)p − 1 y (n + 1)p. Si (n + 1)p es un n´ umero entero no negativo, entonces
la distribuci´on tiene dos modas :
x1 = (n + 1)p − 1
x2 = (n + 1)p
8.2.1.
Teorema de adici´ on para distribuciones Binomiales
Sean X1 ≡ B(n1 , p), . . . , Xr ≡ B(nr , p) r v.a. Binomiales independientes. Entonces
la nueva variable aleatoria
Y = X1 + · · · + Xr ≡ B(n1 + · · · + nr , p) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) = (q + p eit )nk
k = 1, 2, . . . , r
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] = = ϕX1 (t) × · · · × ϕXr (t) = (p eit + q)n1 × · · · × (p eit + q)nr = = (p eit + q)n1 +···+nr Pero, esta es la funci´on caracter´ıstica de una distribuci´on Binomial de par´ametros n = n1 + · · · + nr y p.
8 Distribuciones de probabilidad discretas
8.2.2.
89
Distribuci´ on de la proporci´ on
Si realizamos n veces un experimento de Bernoulli, podemos interesarnos por el n´ umero de ´exitos, para lo cual tenemos la distribuci´on Binomial, o podemos estar interesados en la proporci´on de ´exitos. Sean • X ≡ N´ umero de ´exitos al realizar n veces un experimento de Bernoulli ≡ B(n, p) X • Y ≡ Proporci´on de ´exitos al realizar n veces un experimento de Bernoulli = n La v.a. Y no sigue una distribuci´on Binomial, pero est´a relacionada con ella por una constante, n. Adem´as, se tiene itY
ϕY (t) = E[e
it X n
] = E[e
i nt X
] = E[e
]=
ϕX ( nt )
1 1 X = E[X] = np = p E[Y ] = E n n n
Var(Y ) = Var
8.3.
X n
n i nt = q +pe
1 1 pq Var(X) = npq = n2 n2 n
=
Distribuci´ on de Poisson, P(λ)
Sea X la v.a. que describe el n´ umero de eventos que ocurren por unidad de tiempo o espacio, y λ el n´ umero medio de estos eventos que ocurren por unidad de tiempo o espacio. Imponemos, adem´as, la restricci´on de que los eventos deben ser independientes entre s´ı y ocurrir con una tasa constante. En ese caso, se dice que X sigue una distribuci´on de Poisson de par´ametro λ, y cada uno de los eventos se denomina suceso de Poisson. De forma m´as general, una v.a. sigue una distribuci´on de Poisson, si su funci´on de probabilidad es de la forma P (X = x) = •
∞ X
P (X = x) =
x=0
∞ X λx x=0
x!
−λ
e
−λ
=e
λx −λ e x! ∞ X λx x=0
x!
x = 0, 1, 2, . . . = e−λ eλ = 1
• Funci´on Caracter´ıstica itX
ϕ(t) = E[e
]=
∞ X
itx
−λ
e P (X = x) = e
∞ X (λeit )x x=0
x=0
ϕ(t) = eλ(e
it −1)
x!
it
= e−λ eλe = eλ(e
it −1)
90
Estad´ıstica • Esperanza ϕ′ (t) = iλeit eλ(e
it −1)
=⇒ ϕ′ (0) = λi =⇒ E[X] =
ϕ′ (0) =λ i
E[X] = λ • Varianza ϕ′′ (t) = i2 λeit eλ(e E[X 2 ] =
it −1)
[1 + λeit ] =⇒ ϕ′′ (0) = i2 (λ + λ2 )
ϕ′′ (0) = λ + λ2 =⇒ Var(X) = E[X 2 ] − (E[X])2 = λ + λ2 − λ2 = λ i2 Var(X) = λ
• Moda Supongamos que la moda es x, entonces, λx −λ λx−1 −λ P (X = x) > P (X = x − 1) =⇒ e > e =⇒ x < λ x! (x − 1)! P (X = x) > P (X = x + 1) =⇒
λx+1 −λ λx −λ e > e =⇒ x > λ − 1 x! (x + 1)!
Por tanto, λ−1<x<λ es decir, la moda es el n´ umero entero, x, no negativo, que se encuentra entre λ − 1 y
λ. Si λ es un n´ umero entero no negativo, entonces la distribuci´on tiene dos modas : x1 = λ − 1 x2 = λ
8.3.1.
Teorema de adici´ on para distribuciones de Poisson
Sean X1 ≡ P(λ1 ), . . . , Xn ≡ P(λn ) n v.a. de Poisson independientes. Entonces la
nueva variable aleatoria
Y = X1 + · · · + Xn ≡ P(λ1 + · · · + λn ) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes,
8 Distribuciones de probabilidad discretas
ϕXk (t) = eλk (e
it −1)
91
k = 1, 2, . . . , n
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = = ϕX1 (t) × · · · × ϕXn (t) = eλ1 (e = e(λ1 +···+λn )(e
it −1)
× · · · × eλn (e
it −1)
=
it −1)
Pero, esta es la funci´on caracter´ıstica de una distribuci´on de Poisson de par´ametro λ = λ1 + · · · + λn .
8.3.2.
Probabilidad condicional
Sean X1 ≡ P(λ1 ) y X2 ≡ P(λ2 ), dos v.a. de Poisson independientes. Ya hemos visto
que entonces X1 + X2 ≡ P(λ1 + λ2 ). Pero, si consideramos la v.a. condicionada X1|X1 +X2 su funci´on de probabilidad ser´a
P (X1 = x, X1 + X2 = y) P (X1 = x, X2 = y − x) P X1 = x|X1 +X2 =y = = = P (X1 + X2 = y) P (X1 + X2 = y) P (X1 = x)P (X2 = y − x) = = P (X1 + X2 = y) λx1 λy−x y! 2 = = x! (y − x)! (λ1 + λ2 )y
y x
y−x λx 1 −λ1 λ2 e e−λ2 x! (y−x)! (λ1 +λ2 )y −(λ1 +λ2 ) e y!
!
λ1 λ1 + λ2
=
x
λ2 λ1 + λ2
y−x
Pero, esta es la funci´on de probabilidad de una distribuci´on Binomial de par´ametros n = y, p =
λ1 , λ1 +λ2
es decir X1|X1 +X2
≡ B n = y, p =
λ1 λ1 + λ2
92
Estad´ıstica
8.3.3.
Aproximaci´ on de una Binomial por una Poisson
Originalmente, Poisson determin´o la distribuci´on que lleva su nombre como el l´ımite de una B(n, p) cuando n tiende a infinito y p tiende a cero, manteniendo constante la esperanza, np. Si hacemos que n → ∞ bajo la condici´on de que λ = np = cte, entonces l´ım np = λ =⇒ p =
n→∞
λ −→ 0 n
Veamos qu´e ocurre al introducir estos l´ımites en la funci´on de probabilidad de una B(n, p) l´ım P (B(n, p) = x) =
n→∞ p→0
l´ım
n→∞ p→0
λx n! = l´ım n→∞ x! (n − x)! nx
n x
!
px q n−x = l´ım
n−x λ 1− n
n→∞
! n−x x λ λ 1− = n n x
n
1− λx n! l´ım = x! n→∞ nx (n − x)! 1−
l´ım 1 − λx n(n − 1) · · · [n − (x − 1)] n→∞ = l´ım x! n→∞ nx l´ım 1 − n→∞
n λ n x = λ n
n λ n λx λ n x = l´ım 1 − = x! n→∞ n λ n
!− nλ −λ x λ 1 = λ e−λ = P (P(λ) = x) = l´ım 1 + n x! n→∞ x! −λ x
Es decir, para valores grandes de n y peque˜ nos de p, de forma que el producto np tenga un valor moderado, una Binomial B(n, p) se puede aproximar por una Poisson, P(λ), siendo λ = np. En general, si np ≥ 5 y p ≤ 0.1 =⇒ B(n, p) ∼ = P(λ = np)
8.4.
Distribuci´ on Hipergeom´ etrica, H(n, N, A)
En urna hay N bolas de las cuales, A son blancas y N −A son negras. La probabilidad
de sacar una bola blanca es p = A/N. Extraemos n bolas, bien sacando todas a la vez o bien una a una sin reemplazamiento, y definimos la v.a. X como el n´ umero de bolas blancas entre las n extra´ıdas, entonces,
8 Distribuciones de probabilidad discretas
A x
P (X = x) =
!
93 !
N −A N n
n−x !
x = 0, 1, 2, . . . , n
NOTA.- Para algunos de estos valores de x, P (X = x) = 0. De hecho, debe ser m´ax{0, n − N + A} ≤ x ≤ m´ın{n, A} sin embargo, a lo largo del desarrollo, tomaremos 0 ≤ x ≤ n. ! ! n n X X A N −A 1 1 P (X = x) = • ! = ! x n − x N N x=0 x=0 n
!
N n
=1
n
• Esperanza !
A E[X] =
n X
xP (X = x) =
n X
n−x ! N
A! = x x! (A − x)! x=1
n−1 X y=0
!
=A
A−1 x−1
! N n
A−1 y
! N n
N −A
n−x !
n−x !
n X x=1
n
x=1
=A
N n
N −A
n X
=A
x
x=0
x=0
n X
x
N −A
!
=A
n−1
A =
n X
x
x
!
N −A N
x=1
n
n−x !
N −A
n−x ! N
(A − 1)! (x − 1)! (A − x)!
!
!
=
=
n
A−1
n−1 X
y
!
(N − 1) − (A − 1)
y=0
(N − 1) − (A − 1) (n − 1) − y ! N −1
!
(n − 1) − y ! N n
!
=n
A = np N
!
=
94
Estad´ıstica
E[X] = n
A = np N
• Varianza N −n A Var(X) = n N −1 N
8.5.
A (N − n)np(1 − p) 1− = N N −1
Distribuci´ on Geom´ etrica, G(p)
Partimos de un experimento de Bernoulli, siendo p = P (´exito) y q = 1 − p =
P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que
ocurre el primer ´exito. De esta forma, definimos la v.a. X, como el n´ umero de fracasos hasta que se obtiene el primer ´exito. Entonces, P (X = x) = p q x •
∞ X
P (X = x) =
x=0
∞ X
x
pq = p
x=0
∞ X
qx = p
x=0
• Funci´on de distribuci´on F (x) =
x X k=0
P (X ≤ k) =
x = 0, 1, 2, . . . 1 1 =p =1 1−q p
x X
p qk = p
k=0
1 − qxq = 1 − q x+1 1−q
• Funci´on Caracter´ıstica ϕ(t) = E[eitX ] =
∞ X
eitx P (X = x) = p
x=0
∞ X x=0
ϕ(t) =
(q eit )x =
p 1 − q eit
p 1 − q eit
• Esperanza
ϕ′ (t) = ipq
eit 1 q ϕ′ (0) q ′ =⇒ ϕ (0) = ipq = i =⇒ E[X] = = (1 − q eit )2 (1 − q)2 p i p E[X] =
q p
8 Distribuciones de probabilidad discretas
95
• Varianza ϕ′′ (t) = i2 pq eit
ϕ′′ (0) = i2 pq
E[X 2 ] =
(1 − q eit )2 + 2q eit (1 − q eit ) (1 − q eit )4
(1 − q)2 + 2q(1 − q) 2 q = i (p + 2q) (1 − q)4 p2
q ϕ′′ (0) = 2 (p + 2q) 2 i p qp + q 2 q(p + q) q qp + 2q 2 q 2 − = = = 2 2 2 2 2 p p p p p
Var(X) = E[X 2 ] − (E[X])2 =
Var(X) =
8.6.
q p2
Distribuci´ on Binomial Negativa, BN(r, p)
Partimos de un experimento de Bernoulli, siendo p = P (´exito) y q = 1 − p =
P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que
ocurre el n-´esimo ´exito. De esta forma, definimos la v.a. X, como el n´ umero de fracasos hasta que se obtiene el n-´esimo ´exito. Entonces, x+r−1
P (X = x) =
x
En general, si a ∈ R y n ∈ N, se define ! −a = (−1)n n
!
pr q x
x = 0, 1, 2, . . .
a+n−1 n
!
Utilizando esta expresi´on, tenemos P (X = x) = (−1)x
−r x
!
pr q x =
−r x
!
pr (−q)x
expresi´on similar a la de una distribuci´on Binomial. ! ∞ ∞ X X −r • P (X = x) = pr (−q)x = pr (1 − q)−r = 1 x x=0 x=0
x = 0, 1, 2, . . .
96
Estad´ıstica • Funci´on Caracter´ıstica
itX
ϕ(t) = E[e
]=
∞ X
itx
e P (X = x) = p
x=0
r
∞ X x=0
ϕ(t) =
p 1 − q eit
−r x
!
it x
(−q e ) =
p 1 − q eit
r
r
• Esperanza ϕ′ (t) = ipr qr
eit 1 q ϕ′ (0) q ′ r =⇒ ϕ (0) = ip qr = i r =⇒ E[X] = = r it r+1 r+1 (1 − q e ) (1 − q) p i p q E[X] = r p
• Varianza ϕ′′ (t) = i2 pr qr eit
ϕ′′ (0) = i2 pr qr
(1 − q eit )r+1 + (r + 1)q eit (1 − q eit )r (1 − q eit )2r+2
p + (r + 1)q (1 − q)r+1 + (r + 1)q(1 − q)r = i2 qr 2r+2 (1 − q) p2
ϕ′′ (0) p + (r + 1)q E[X ] = = qr 2 i p2 2
Var(X) = E[X 2 ] − (E[X])2 =
rpq + r(r + 1)q 2 q 2 r 2 rqp + rq 2 rq(p + q) q − = = = 2r 2 2 2 2 p p p p p Var(X) =
8.6.1.
q r p2
Teorema de adici´ on para distribuciones Binomiales Negativas
Sean X1 ≡ BN(r1 , p), . . . , Xn ≡ BN(rn , p) n v.a. Binomiales Negativas independien-
tes. Entonces la nueva variable aleatoria
Y = X1 + · · · + Xn ≡ BN(r1 + · · · + rn , p)
8 Distribuciones de probabilidad discretas
97
Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =
pr k (1 − q eit )rk
k = 1, 2, . . . , n
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = = ϕX1 (t) × · · · × ϕXn (t) = =
pr n pr 1 × · · · × = (1 − q eit )r1 (1 − q eit )rn
pr1 +···+rn (1 − q eit )r1 +···+rn
Pero, esta es la funci´on caracter´ıstica de una distribuci´on Binomial Negativa de par´ametros r = r1 + · · · + rn y p.
98
Estad´ıstica
9
Distribuciones de probabilidad continuas
´Indice 9.1. Distribuci´ on Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . 100 9.2. Distribuci´ on Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . 101 9.2.1. Teorema de adici´ on para distribuciones Normales . . . . . . . . 103 9.2.2. Distribuci´on Normal est´ andar . . . . . . . . . . . . . . . . . . . 104 9.3. Distribuci´ on Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . 105 9.4. Distribuci´ on χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . 107 9.4.1. Teorema de adici´ on para distribuciones χ2 de Pearson . . . . . 108 9.5. Distribuci´ on t-Student, tn . . . . . . . . . . . . . . . . . . . . . 109 9.6. Distribuci´ on F-Snedecor, Fn,m
. . . . . . . . . . . . . . . . . . 110
9.7. Distribuci´ on Exponencial, Exp(λ)
. . . . . . . . . . . . . . . . 111
9.7.1. Teorema de adici´ on para distribuciones Exponenciales . . . . . 113 9.8. Distribuci´ on de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . 113 9.8.1. Teorema de adici´ on para distribuciones de Erlang . . . . . . . . 115 9.9. Relaci´ on entre las distribuciones de Poisson, Exponencial y Erlang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.10. Distribuci´ on de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . 117 9.11. Distribuci´ on Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . 118 9.11.1. Teorema de adici´ on para distribuciones Gamma . . . . . . . . . 119 9.12. Distribuci´ on Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . 120 9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . 121 9.14. Distribuci´ on Normal Bidimensional . . . . . . . . . . . . . . . 123
99
100
Estad´ıstica
9.1.
Distribuci´ on Uniforme, U(a, b)
Una v.a. X se dice que sigue una distribuci´on Uniforme, X ≡ U(a, b), si su funci´on
de densidad es de la forma
f (x) =
1 b−a
si a < x < b a
b
Figura 9.1: Funci´on de densidad de una distribuci´on U(a, b)
•
Z
+∞
f (x) dx =
−∞
Z
b
a
1 dx = 1 b−a
• Funci´on de Distribuci´on Z +∞ Z F (x) = f (x) dx = −∞
x a
x−a 1 dx = b−a b−a
a≤x
• Esperanza y Varianza E[X] =
Z
+∞
xf (x) dx =
−∞
2
E[X ] =
Z
Z
b
x b+a = b−a 2
a
+∞ 2
x f (x) dx =
−∞
Z
a
b
x2 b2 + a2 + ab = b−a 3
b2 + a2 + ab − Var(X) = E[X ] − (E[X]) = 3 2
2
E[X] = • Funci´on Caracter´ıstica Z itX ϕ(t) = E[e ] =
+∞
b+a 2
1 e f (x) dx = b−a itx
−∞
Var(X) =
ϕ(t) =
Z
b+a 2
eibt − eiat i(b − a)t
=
(b − a)2 12
(b − a)2 12
b
a
2
eitx dx =
eibt − eiat i(b − a)t
∀t ∈ R
9 Distribuciones de probabilidad continuas
9.2.
101
Distribuci´ on Normal, N(µ, σ)
Una v.a. X se dice que sigue una distribuci´on Normal, X ≡ N(µ, σ), si su funci´on
de densidad es de la forma
1 f (x) = √ σ 2π
1 − e 2
x−µ σ
2
− ∞ ≤ x ≤ +∞
Figura 9.2: Funci´on de densidad de una distribuci´on N(µ, σ)
•
Z
+∞
−∞
Z +∞ Z +∞ 2 1 1 1 2 − 12 ( x−µ ) σ f (x) dx = √ dx = √ e e− 2 u du = σ 2π −∞ 2π −∞ Z +∞ Z +∞ 2 1 1 1 2 =√ e− 2 u du = √ z −1/2 e−z dz = √ Γ(1/2) = 1 π 0 π 2π 0
• Funci´on Caracter´ıstica
itX
ϕ(t) = E[e
Z
]=
+∞
−∞
1 = √ σ 2π
Z
1 = √ σ 2π
Z
=
+∞
−
e
1 2σ 2
−∞ +∞
√
−
e
1 2σ 2
Z
+∞
eitx e− 2 ( 1
[(x−µ)2 −2σ2 itx] dx = √1 σ 2π h
(x−(µ+σ2 it))
2
σ 2π
Z
+∞
−∞
− 12
e
x−µ 2 σ
) dx =
−∞
+µ2 −(µ+σ2 it)2
i
Z
+∞
−∞
dx =
−∞
µ2 −(µ+σ 2 it)2 − 2σ 2
e
1 e f (x) dx = √ σ 2π itx
2
x − (µ + σ 2 it) σ dx =
e− 2σ2 [x 1
2 −2(µ+σ 2 it)x+µ2
] dx =
102
Estad´ıstica
=
e−
σ 4 t2 −2µσ 2 it 2σ 2
√ σ 2π
Z
1
+∞
− 12 u2
e
−∞
2 2
1 2 2 eiµt− 2 σ t √ √ σ 2π = eiµt− 2 σ t σ du = σ 2π
1
ϕ(t) = eiµt− 2 σ
2 t2
• Esperanza 1
ϕ′ (t) = (iµ − σ 2 t)eiµt− 2 σ
2 t2
=⇒ ϕ′ (0) = iµ =⇒ E[X] =
ϕ′ (0) =µ i
E[X] = µ • Varianza 1
ϕ′′ (t) = [−σ 2 + (iµ − σ 2 t)2 ] eiµt− 2 σ E[X 2 ] =
2 t2
=⇒ ϕ′′ (0) = −σ 2 + i2 µ2
ϕ′′ (0) = σ 2 + µ2 i2
Var(X) = E[X 2 ] − (E[X])2 = (σ 2 + µ2 ) − µ2 = σ 2 Var(X) = σ 2 • Coeficiente de deformaci´on ϕ′′′ (0) = −3iσ 2 µ + i3 µ3 m3 =
M3 =
D=
ϕ′′′ (0) ϕ′′′ (0) = − = 3σ 2 µ + µ3 3 i i 3 0
!
m3 −
3 1
!
m2 µ +
3 2
!
m1 µ2 −
M3 =0 σ3
La distribuci´on Normal es sim´etrica respecto a la media
3 3
!
µ3 = 0
9 Distribuciones de probabilidad continuas
103
• Coeficiente de curtosis ϕ(iv (0) = 3σ 4 − 6i2 σ 2 µ2 + i4 µ4 m4 =
M4 =
C=
ϕ(iv (0) = 3σ 4 + 6σ 2 µ2 + µ4 i4 4 0
!
m4 −
!
4 1
4
m3 µ +
2
!
m2 µ2 −
4 3
!
m1 µ3 +
4 4
!
µ4 = 3σ 4
M4 −3 =0 σ4
La distribuci´on Normal es mesoc´ urtica
9.2.1.
Teorema de adici´ on para distribuciones Normales
Sean X1 ≡ N(µ1 , σ1 ), . . . , Xn ≡ N(µn , σn ), n v.a. Normales independientes. Enton-
ces, la nueva variable aleatoria
q 2 2 2 2 Y = b + a1 X1 + · · · + an Xn ≡ N b + a1 µ1 + · · · + an µn , a1 σ1 + · · · + an σn Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, 1
2 2
ϕXk (t) = eiµk t− 2 σk t
k = 1, 2, . . . , n
ϕY (t) = E[eitY ] = E ei(b+a1 X1 +···+an Xn )t = E eibt × eia1 tX1 × · · · × eian tXn = = eibt × E[eia1 tX1 ] × · · · × E[eian tXn ] = = eibt × ϕX1 (a1 t) × · · · × ϕXn (an t) = 1
1
2 2 2
2 2 2
= eibt × eia1 µ1 t− 2 σ1 a1 t × · · · × eian µn t− 2 σn an t = 1
2 2
2
2
2
= ei(b+a1 µ1 +···+an µn )t− 2 (a1 σ1 +···+an σn )t
104
Estad´ıstica Pero, esta es la funci´on caracter´ıstica de una distribuci´on Normal con media µ =
b + a1 µ1 + · · · + an µn y varianza σ 2 = a21 σ12 + · · · + a2n σn2 .
Tambi´en se puede demostrar el teorema inverso, es decir, si la distribuci´on de la
suma de n variables aleatorias independientes es Normal, entonces cada una de las variables sigue una distribuci´on Normal. Por otra parte, la distribuci´on Normal nunca puede obtenerse exactamente como suma de variables aleatorias no Normales.
9.2.2.
Distribuci´ on Normal est´ andar
Dentro de las distribuciones Normales, la m´as utilizada es la que tiene media µ = 0 y varianza σ 2 = 1, llamada distribuci´on Normal est´andar, N(0, 1). • Funci´on de densidad 1 2 1 f (x) = √ e− 2 x 2π
− ∞ ≤ x ≤ +∞
• Funci´on caracter´ıstica 1 2
ϕ(t) = e− 2 t
∀t ∈ R
• Como µ = 0, los momentos respecto a la media coinciden con los momentos respecto al origen, es decir, Mk = mk ∀k.
• Como la distribuci´on es sim´etrica, los momentos de orden impar son todos nulos, m2k+1 = 0 k = 0, 1, 2, . . . • Los momentos de orden par verifican m2k =
(2k)! 2k k!
k = 0, 1, 2, . . .
En general, siempre podemos pasar de una N(µ, σ) a una N(0, 1) (lo que se llama tipificar la variable N(µ, σ)) y viceversa, por medio de una transformaci´on lineal. 2
N(µ, σ) −→ N(0, 1) Sea Y ≡ N(µ, σ), entonces la nueva v.a. X=
Y −µ ≡ N(0, 1) σ
9 Distribuciones de probabilidad continuas
105
N(0, 1) −→ N(µ, σ)
2
Sea X ≡ N(0, 1), entonces la nueva v.a. Y = µ + σX ≡ N(µ, σ)
9.3.
Distribuci´ on Log-Normal, Log-N(µ, σ)
Sea X ≡ N(µ, σ). Si realizamos la transformaci´on Y = eX la distribuci´on de la nueva v.a., llamada distribuci´on Log-Normal, Log-N(µ, σ), es, GY (y) = P (Y ≤ y) = P (eX ≤ y) = P (X ≤ Ly) = FX (Ly) gY (y) = G′Y (y) = FX′ (Ly)
1 1 = fX (Ly) y y
Por tanto, la funci´on de densidad de una Log-N(µ, σ) es g(y) =
1 Ly−µ 2 1 √ e− 2 ( σ ) yσ 2π
y≥0
Figura 9.3: Funci´on de densidad de una distribuci´on Log-N(µ, σ)
•
Z
+∞
−∞
g(y) dy =
Z
0
+∞
1 √
yσ 2π
− 12 ( Ly−µ σ )
e
2
dy =
Z
+∞ −∞
1 x−µ 2 1 √ e− 2 ( σ ) dx = 1 σ 2π
106
Estad´ıstica
• Esperanza E[Y ] =
Z
+∞
−∞
1 = √ σ 2π
Z
1 = √ σ 2π
Z
1
+∞
2
− 12 ( x−µ σ )
e −∞ +∞
2
e− 2 ( 1
Ly−µ 2 σ
) dy =
0
1 e dx = √ σ 2π x
1
Z
+∞
e− 2σ2 [(x−µ) 1
2 −2σ 2 x
] dx =
−∞
2 ))2 +µ2 −(µ+σ 2 )2
] dx =
−∞
2
eµ+ 2 σ = √ σ 2π
+∞
e− 2σ2 [(x−(µ+σ
e− 2σ2 (µ −(µ+σ √ = σ 2π 1
Z
1 yg(y) dy = √ σ 2π
Z
Z
2 )2 )
+∞
− 12
e
x−(µ+σ 2 ) σ
1
dx =
−∞ 1
+∞
2
2
1 2 eµ+ 2 σ √ √ σ 2π = eµ+ 2 σ σ 2π
2
e− 2 u σ du =
−∞
1 µ + σ2 2 E[Y ] = e • Varianza 2
E[Y ] =
Z
+∞
−∞
1 y g(y) dy = √ σ 2π 2
1 = √ σ 2π
Z
+∞
− 12 ( x−µ σ )
2
e −∞
Z
1 = √ σ 2π
+∞
Z
+∞
ye− 2 ( 1
Ly−µ 2 σ
) dy =
0
1 e dx = √ σ 2π 2x
e− 2σ2 [(x−(µ+2σ 1
Z
+∞
e− 2σ2 [(x−µ) 1
2 −4σ 2 x
−∞
2 ))2 +µ2 −(µ+2σ 2 )2
] dx =
−∞
1
2
e− 2σ2 (µ −(µ+2σ √ = σ 2π 2
e2µ+2σ = √ σ 2π
Z
+∞
−∞
2 )2 )
Z
+∞
− 12
e
x−(µ+2σ 2 ) σ
2
dx =
−∞ 2
− 21 u2
e
e2µ+2σ √ 2 σ 2π = e2µ+2σ σ du = √ σ 2π 2
2
2
2
Var(Y ) = E[Y 2 ] − E[Y ]2 = e2µ+2σ − e2µ+σ = e2µ+σ (eσ − 1) 2 2 σ Var(Y ) = e − 1 e2µ + σ
] dx =
9 Distribuciones de probabilidad continuas
107
Distribuci´ on χ2 de Pearson, χ2n
9.4.
Sean X1 , . . . , Xn , n v.a. independientes e id´enticamente distribuidas seg´ un una N(0, 1). Entonces, la variable aleatoria X = X12 + · · · + Xn2 = [N(0, 1)]2 + · · · + [N(0, 1)]2 ≡ χ2n sigue una distribuci´on χ2 de Pearson con n grados de libertad, χ2n , con funci´on de densidad 1
f (x) =
2n/2 Γ
n
x
n x 2 −1 e− 2
x≥0
2
Figura 9.4: Funci´on de densidad de una distribuci´on χ2n
•
Z
+∞
1
f (x) dx =
2n/2 Γ
−∞
=
1 2n/2 Γ
Z
n 2
x
n
x 2 −1 e− 2 dx =
0
2
n
+∞
Z
+∞
n
n
2 2 −1 u 2 −1 e−u 2 du =
0
n 1 n Γ =1 2 Γ 2
• Funci´on caracter´ıstica
itX
ϕ(t) = E[e
]=
Z
+∞ itx
e f (x) dx =
−∞
=
1 2n/2 Γ
n 2
Z
0
+∞
n
1
1 2n/2 Γ
n
x 2 −1 e−( 2 −it)x dx =
2
Z
0
+∞
n
x
eitx x 2 −1 e− 2 dx =
108
Estad´ıstica 1
=
2n/2 Γ
n 2
1 = n Γ 2
Z
+∞
0
1 1 − 2it
2 1 − 2it
n2
Γ
n2 −1
n 2
=
n
u 2 −1 e−u
1 1 − 2it
2 du = 1 − 2it
n2
ϕ(t) = (1 − 2it)−n/2 • Esperanza ϕ′ (t) = in(1 − 2it)−1−n/2 =⇒ ϕ′ (0) = in =⇒ E[X] =
ϕ′ (0) =n i
E[X] = n • Varianza ϕ′′ (t) = i2 n(n + 2)(1 − 2it)−2−n/2 =⇒ ϕ′′ (0) = i2 n(n + 2) E[X 2 ] =
ϕ′′ (0) = n2 + 2n 2 i
Var(X) = E[X 2 ] − (E[X])2 = n2 + 2n − n2 = 2n Var(X) = 2n
9.4.1.
Teorema de adici´ on para distribuciones χ2 de Pearson
Sean X1 ≡ χ2n1 , . . . , Xr ≡ χ2nr , r variables aleatorias χ2 de Pearson independientes.
Entonces la nueva variable aleatoria
Y = X1 + · · · + Xr ≡ χ2n1 +···+nr Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) = (1 − 2it)−nk /2
k = 1, 2, . . . , r
9 Distribuciones de probabilidad continuas
109
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 ] × · · · × E[eitXr ] = = ϕX1 (t) × · · · × ϕXr (t) = (1 − 2it)−n1 /2 × · · · × (1 − 2it)−nr /2 = = (1 − 2it)−
n1 +···+nr 2
Pero, esta es la funci´on caracter´ıstica de una distribuci´on χ2 de Pearson con n = n1 + · · · + nr grados de libertad.
9.5.
Distribuci´ on t-Student, tn
Sean Y, X1 , . . . , Xn , n+1 v.a. independientes e id´enticamente distribuidas seg´ un una N(0, 1). Entonces, la variable aleatoria N(0, 1) = r ≡ tn X12 + · · · + Xn2 χ2n n n sigue una distribuci´on t-Student con n grados de libertad, tn , con funci´on de densidad X=r
Y
n+1 − n+1 Γ 2 x2 2 n 1 + f (x) = √ n nπ Γ 2
x∈R
Figura 9.5: Funci´on de densidad de una distribuci´on tn
•
Z
+∞
−∞
f (x) dx = 1 =⇒
Z
n √ n+1 − +∞ nπ Γ 2 x2 2 1+ dx = n + 1 n −∞ Γ 2
110
Estad´ıstica
• Esperanza
n+1 − n+1 Z +∞ Z +∞ Γ 2 x2 2 n E[X] = dx = 0 xf (x) dx = √ x 1+ n −∞ −∞ nπ Γ 2
pues el integrando es una funci´on impar.
E[X] = 0 (n > 1) • Varianza
E[X 2 ]
n+1 − n+1 Z +∞ Z +∞ Γ 2 x2 2 2 2 n = dx = x f (x) dx = √ x 1+ n −∞ −∞ nπ Γ 2
n+1 − n−1 Z +∞ Γ 2 x2 n 2 n 1+ =√ dx = n − 1 −∞ n nπ Γ 2 √ n+1 n−2 Γ nπ Γ n n 2 2 n = =√ n−1 n−1 n−2 nπ Γ Γ 2 2
Var(X) = E[X 2 ] − E[X]2 =
n n−2
Var(X) =
9.6.
n n−2
(n > 2)
Distribuci´ on F-Snedecor, Fn,m
Sean X1 , . . . , Xn e Y1 , . . . , Ym , n+m v.a. independientes e id´enticamente distribuidas seg´ un una N(0, 1). Entonces, la variable aleatoria χ2n X12 + · · · + Xn2 n = n2 ≡ Fn,m X= 2 Y1 + · · · + Ym2 χm m m
9 Distribuciones de probabilidad continuas
111
sigue una distribuci´on F-Snedecor con n y m grados de libertad, Fn,m , con funci´on de densidad n f (x) =
n+m m Γ 2 n m Γ Γ 2 2
n/2
m/2
n
x 2 −1 (m + nx)−
n+m 2
x≥0
Figura 9.6: Funci´on de densidad de una distribuci´on Fn,m • Esperanza E[X] =
m m−2
(m > 2)
• Varianza Var[X] =
• Si
9.7.
X ≡ Fn,m
=⇒
2m2 (n + m − 2) n (m − 2)2 (m − 4)
(m > 4)
1 ≡ Fm,n X
Distribuci´ on Exponencial, Exp(λ)
Una v.a. X se dice que sigue una distribuci´on Exponencial de par´ametro λ > 0, X ≡ Exp(λ), si su funci´on de densidad es de la forma f (x) = λ e−λx
x≥0
112
Estad´ıstica
Figura 9.7: Funci´on de densidad de una distribuci´on Exp(λ) •
Z
+∞
f (x) dx =
−∞
Z
+∞
λ e−λx dx = 1
0
• Funci´on de distribuci´on F (x) =
Z
x
f (x) dx =
−∞
Z
x
0
λ e−λx dx = 1 − e−λx
• Funci´on caracter´ıstica itX
ϕ(t) = E[e
]=
Z
+∞ itx
e f (x) dx = −∞
Z
+∞
0
ϕ(t) =
λ e−(λ−it)x dx =
λ λ − it
λ λ − it
• Esperanza ϕ′ (t) =
λi i ϕ′ (0) 1 ′ =⇒ ϕ (0) = =⇒ E[X] = = 2 (λ − it) λ i λ E[X] =
1 λ
• Varianza ϕ′′ (t) =
2λi2 (λ − it)3
ϕ′′ (0) =
2i2 λ2
9 Distribuciones de probabilidad continuas E[X 2 ] =
113
2 ϕ′′ (0) = 2 2 i λ 2 1 1 − 2 = 2 2 λ λ λ
Var(X) = E[X 2 ] − (E[X])2 = Var[X] =
9.7.1.
1 λ2
Teorema de adici´ on para distribuciones Exponenciales
Sean X1 ≡ Exp(λ), . . . , Xn ≡ Exp(λ), n v.a. Exponenciales independientes. Enton-
ces la nueva variable aleatoria
Y = X1 + · · · + Xn ≡ Er(n, λ) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =
λ λ − it
k = 1, 2, . . . , n
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = λ λ ×···× = = ϕX1 (t) × · · · × ϕXn (t) = λ − it λ − it
λ λ − it
n
Pero, esta es la funci´on caracter´ıstica de una distribuci´on de Erlang de par´ametros n y λ (Sec. 9.8).
9.8.
Distribuci´ on de Erlang Er(n, λ)
Una v.a. X se dice que sigue una distribuci´on de Erlang de par´ametros n y λ > 0, X ≡ Er(n, λ), si su funci´on de densidad es de la forma f (x) = •
Z
+∞
−∞
λn f (x) dx = Γ(n)
Z
λn n−1 −λx x e Γ(n)
+∞ n−1 −λx
x
e
0
1 = Γ(n)
Z
0
λn dx = Γ(n)
+∞
un−1 e−u du =
x≥0 Z
0
+∞
u n−1 λ
e−u
1 Γ(n) = 1 Γ(n)
1 du = λ
114
Estad´ıstica
Figura 9.8: Funci´on de densidad de una distribuci´on Er(n, λ) • Funci´on caracter´ıstica
itX
ϕ(t) = E[e
]=
Z
+∞
−∞
λn = Γ(n)
Z
+∞
0
λn e f (x) dx = Γ(n) itx
u λ − it
n−1
1 λn Γ(n) = = Γ(n) (λ − it)n
−u
e
Z
+∞
xn−1 e−(λ−it)x dx =
0
λn 1 1 du = λ − it Γ(n) (λ − it)n
λ λ − it
ϕ(t) =
Z
+∞
un−1 e−u du =
0
n
λ λ − it
n
• Esperanza ϕ′ (t) =
nλn i ni ϕ′ (0) n ′ =⇒ ϕ (0) = =⇒ E[X] = = n+1 (λ − it) λ i λ E[X] =
n λ
• Varianza ϕ′′ (t) =
n(n + 1)λn i2 (λ − it)n+2
ϕ′′ (0) =
n(n + 1)i2 λ2
9 Distribuciones de probabilidad continuas E[X 2 ] =
115
n(n + 1) ϕ′′ (0) = 2 i λ2
Var(X) = E[X 2 ] − (E[X])2 = Var[X] =
9.8.1.
n(n + 1) n2 n − 2 = 2 2 λ λ λ
n λ2
Teorema de adici´ on para distribuciones de Erlang
Sean X1 ≡ Er(n1 , λ), . . . , Xr ≡ Er(nr , λ), r v.a. de Erlang independientes. Entonces
la nueva variable aleatoria
Y = X1 + · · · + Xr ≡ Er(n1 + · · · + nr , λ) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =
λ λ − it
nk
k = 1, 2, . . . , r
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] = = ϕX1 (t) × · · · × ϕXr (t) =
λ λ − it
n1
×···×
λ λ − it
nr
=
λ λ − it
n1 +···+nr
Pero, esta es la funci´on caracter´ıstica de una distribuci´on de Erlang de par´ametros n = n1 + · · · + nr y λ.
9.9.
Relaci´ on entre las distribuciones de Poisson, Exponencial y Erlang
En la secci´on 8.3, definimos la v.a. de Poisson, P(λ), como la variable que cuenta el n´ umero de eventos que ocurren por unidad de tiempo o espacio, siendo λ el n´ umero medio de estos eventos que ocurren por unidad de tiempo o espacio. L´ogicamente, el n´ umero medio de eventos que ocurren en t unidades de tiempo o espacio ser´a (λ × t), por tanto, la v.a. que cuenta el n´ umero de eventos que ocurren en t unidades de tiempo o
espacio sigue una distribuci´on de Poisson, P(λ × t), de par´ametro (λ × t). As´ı, sean
116
Estad´ıstica
• X ≡ P(λ) ≡
N´ umero de eventos de Poisson que ocurren en una unidad de tiempo P (X = x) = P (ocurran x eventos en una unidad de tiempo) = =
λx −λ e x!
x = 0, 1, 2, . . .
• Xt ≡ P(λt) ≡ N´ umero de eventos de Poisson que ocurren en t unidades de tiempo
P (Xt = x) = P (ocurran x eventos en t unidades de tiempo) = =
(λt)x −λt e x!
x = 0, 1, 2, . . .
Supongamos que estamos interesados en saber cu´ando ocurre el primero de estos eventos de Poisson; es decir, sea • Y ≡ Tiempo transcurrido hasta que ocurre el primer evento de Poisson GY (t) = P (Y ≤ t) = = P (el primer evento ocurra antes de t unidades de tiempo) = = 1 − P (Y ≥ t) = = 1 − P (el primer evento ocurra pasadas t unidades de tiempo) = = 1 − P (en t unidades de tiempo ocurran 0 eventos de Poisson) = = 1 − P (Xt = 0) = 1 − e−λt
(λt)0 = 1 − e−λt 0!
Pero, esta es la funci´on de distribuci´on de una Exponencial de par´ametro λ. Por tanto, Y ≡ Exp(λ)
9 Distribuciones de probabilidad continuas
117
Supongamos ahora, que estamos interesados en saber cu´ando ocurre el n-´esimo de estos eventos de Poisson; es decir, sea • Z ≡ Tiempo transcurrido hasta que ocurre el n-´esimo evento de Poisson
Como los sucesos de Poisson ocurren de forma independiente, una vez que ocurre un
suceso de Poisson, ese instante es el origen de tiempos para el suceso siguiente, es decir
Z ≡ Tiempo transcurrido hasta que ocurre el n-´esimo evento de Poisson ≡ ≡ Tiempo transcurrido hasta que ocurre el 1er evento de Poisson+ +Tiempo transcurrido entre el 1o y el 2o eventos de Poisson+ +Tiempo transcurrido entre el 2o y el 3o eventos de Poisson+ + · · · + Tiempo transcurrido entre el (n − 1)o y el no eventos de Poisson ≡ ≡ Exp(λ) + Exp(λ) + Exp(λ) + · · · + Exp(λ) ≡ Er(n, λ) Por tanto, Z ≡ Er(n, λ)
9.10.
Distribuci´ on de Weibull, W(r, λ)
Sea X una v.a. con distribuci´on Exponencial de par´ametro λ, es decir, X ≡ Exp(λ).
Se dice que la variable aleatoria Y sigue una distribuci´on de Weibull de par´ametros r > 0 y λ, Y ≡ W(r, λ), si es
Y = X 1/r
Veamos algunas propiedades de la distribuci´on de Weibull • Funci´on de densidad GY (y) = P (Y ≤ y) = P (X 1/r ≤ y) = P (X ≤ y r ) = FX (y r ) gY (y) = G′Y (y) = FX′ (y r )ry r−1 = fX (y r )ry r−1 Por tanto,
118
Estad´ıstica
gY (y) = λ r y r−1e−λy
r
y≥0
• Esperanza E[Y ] = E[X
1/r
]=
Z
+∞ 1/r
x
fX (x) dx = λ
−∞
=λ
Γ 1+
1 r
1
λ1+ r
=λ
− r1
E[Y ]
= E[X
]=
Z
=λ
2 r
2
λ1+ r
1 r
+∞ 2/r
x
fX (x) dx = λ
−∞
Γ 1+
x1/r e−λx dx =
1 Γ 1+ r
• Varianza 2/r
+∞
0
E[Y ] = λ−1/r Γ 1 +
2
Z
=λ
Z
+∞
x2/r e−λx dx =
0
− r2
2 Γ 1+ r
2 Var(Y ) = E[Y 2 ] − (E[Y ])2 = λ− r Γ 1 + 2r − Γ2 1 + 1r Var(Y ) = λ−2/r Γ 1 + 2r − Γ2 1 + 1r
9.11.
Distribuci´ on Gamma, G(p, q)
Una v.a. X se dice que sigue una distribuci´on Gamma de par´ametros p > 0 y q > 0, X ≡ G(p, q), si su funci´on de densidad es de la forma q p p−1 −qx x e x≥0 Γ(p) Como se puede comprobar, la distribuci´on de Erlang es un caso particular de la f (x) =
distribuci´on Gamma, para p = n y q = λ. Es decir, Er(n, λ) = G(p = n, q = λ). Por tanto los c´alculos son los mismos y no los vamos a repetir, s´olo citaremos los resultados. • Funci´on caracter´ıstica ϕ(t) =
q q − it
p
9 Distribuciones de probabilidad continuas
119
Figura 9.9: Funci´on de densidad de una distribuci´on G(p, q) • Esperanza y Varianza E[X] =
9.11.1.
p q
Var[X] =
p q2
Teorema de adici´ on para distribuciones Gamma
Sean X1 ≡ G(p1 , q), . . . , Xn ≡ G(pn , q), n v.a. Gamma independientes. Entonces la
nueva variable aleatoria
Y = X1 + · · · + Xn ≡ G(p1 + · · · + pn , q) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =
q q − it
pk
k = 1, 2, . . . , n
ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = = ϕX1 (t) × · · · × ϕXn (t) =
q q − it
p1
×···×
q q − it
pn
=
q q − it
p1 +···+pn
Pero, esta es la funci´on caracter´ıstica de una distribuci´on Gamma de par´ametros p = p1 + · · · + pn y q.
120
Estad´ıstica
9.12.
Distribuci´ on Beta, B(p, q)
Una v.a. X se dice que sigue una distribuci´on Beta de par´ametros p > 0 y q > 0, X ≡ B(p, q), si su funci´on de densidad es de la forma f (x) =
1 xp−1 (1 − x)q−1 β(p, q)
0≤x≤1
Figura 9.10: Funci´on de densidad de una distribuci´on B(p, q)
•
Z
+∞
−∞
Z
1 f (x) dx = β(p, q)
1 0
1 β(p, q) = 1 β(p, q)
xp−1 (1 − x)q−1 dx =
• Esperanza
E[X] =
Z
+∞
−∞
=
1 xf (x) dx = β(p, q)
Z
0
1
xp (1 − x)q−1 dx =
1 β(p + 1, q) = β(p, q)
Γ(p + q) Γ(p + 1)Γ(q) Γ(p + q) p pΓ(p) = = Γ(p)Γ(q) Γ(p + q + 1) Γ(p) (p + q)Γ(p + q) p+q E[X] =
p p+q
• Varianza 2
E[X ] =
Z
+∞
−∞
=
1 x f (x) dx = β(p, q) 2
Z
1 0
xp+1 (1 − x)q−1 dx =
1 Γ(p + q) Γ(p + 2)Γ(q) β(p + 2, q) = = β(p, q) Γ(p)Γ(q) Γ(p + q + 2)
9 Distribuciones de probabilidad continuas =
(p + 1)p (p + 1)pΓ(p) Γ(p + q) = Γ(p) (p + q + 1)(p + q)Γ(p + q) (p + q + 1)(p + q)
(p + 1)p Var(X) = E[X ] − (E[X]) = − (p + q + 1)(p + q) 2
=
2
p p+q
2
=
pq (p + q + 1) (p + q)2 Var(X) =
9.12.1.
121
pq (p + q + 1) (p + q)2
Transformaciones
• Sean X1 ≡ G(p1 , 1) y X2 ≡ G(p2 , 1) dos v.a. Gamma independientes, entonces X1 ≡ B(p1 , p2 ) X1 + X2 • Sea X ≡ Fn,m una v.a. F-Snedecor, entonces
1+
n −1 X ≡ B(m/2, n/2) m
nX ≡ B(n/2, m/2) m + nX
9.13.
Relaciones entre distribuciones continuas
En la figura 9.13 se muestra un croquis de las relaciones que existen entre las distintas distribuciones continuas estudiadas en este cap´ıtulo.
122
Estad´ıstica
eX
µ=0 σ=1
N( µ,σ)
Log-N( µ,σ ) Ln X µ= pq σ 2 = p2 q
N(0,1)
X1
q 2
2
X1 + X2
B(p,q)
n
X + + Xn
n
1
G(p,q) /2
p=n q= λ
/2 q=1
p=n
χ
2 n
tn
p=1 q=1
Er(n, λ) n=2
n=1
χm m χn2 n 2
m=1
X1 +
+ Xn
Exp(λ)
U(0,1) −λLn X
Fm,n
( ver distribucion Beta ) r=1
X
1/r
a + (b-a) X
caso particular transformacion distribucion limite
W(r, λ)
Figura 9.11: Relaciones entre distribuciones continuas
a=0 b=1 U(a,b)
9 Distribuciones de probabilidad continuas
9.14.
123
Distribuci´ on Normal Bidimensional
Una v.a. bidimensional (X, Y ) se dice que sigue una distribuci´on Normal Bidimensional, si su funci´on de densidad conjunta, definida en R2 , es de la forma
f (x, y) =
2πσX σY (
1 p
1 − ρ2
1 exp − 2(1 − ρ2 )
× "
x − µX σX
2
− 2ρ
x − µX σX
y − µY σY
+
y − µY σY
2 #)
siendo
µX = E[X]
2 σX = Var(X)
µY = E[Y ]
σY2 = Var(Y )
ρ= p
Cov(X, Y ) σXY p = σX σY Var(X) Var(Y )
Coeficiente de correlaci´on lineal de (X, Y )
• Funci´on caracter´ıstica 1
2 2
2
2
ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] = ei(µX t1 +µY t2 )− 2 (σX t1 +2ρσX σY t1 t2 +σY t2 ) • Distribuciones marginales 1
2
1
2 2
2
ϕX (t) = ϕ(t, 0) = eiµX t− 2 σX t ϕY (t) = ϕ(0, t) = eiµY t− 2 σY t
=⇒ X ≡ N(µX , σX ) =⇒ Y ≡ N(µY , σY )
Por tanto, las funciones de densidad marginales son fX (x) =
Z
+∞
f (x, y) dy =
−∞
Z
+∞
1 √
e
1 √
e
σX 2π
− 12 (
− 21 (
x−µX 2 ) σX
y−µY σY
x∈R
)2
y∈R σY 2π Es decir, si (X, Y ) es una v.a. Normal Bidimensional, entonces X e Y son v.a. fY (y) =
−∞
f (x, y) dy =
Normales unidimensionales. En general, lo contrario no es cierto. O sea, si X e Y son v.a.
124
Estad´ıstica
Normales unidimensionales, la v.a. (X, Y ) no siempre es una Normal Bidimensional. Lo vemos con un ejemplo Ejemplo.- Sea (X, Y ) una v.a. bidimensional con funci´on de densidad conjunta 1 f (x, y) = 2
"
1 ρ − (x2 −2ρxy+y 2 ) p e 2(1−ρ2 ) + 2π 1 − ρ2 # 1 2 2 ρ (x +2ρxy+y ) − e 2(1−ρ2 ) + p 2 2π 1 − ρ
(x, y) ∈ R2
Claramente, (X, Y ) no es Normal Bidimensional, sin embargo, las distribuciones marginales de X e Y son fX (x) =
Z
+∞
−∞
fY (y) =
Z
+∞
−∞
x2 1 f (x, y) dy = √ e− 2 2π
x∈R
y2 1 f (x, y) dy = √ e− 2 2π
y∈R
es decir, X ≡ N(0, 1) e Y ≡ N(0, 1). • Distribuciones condicionadas − 2 1 2 f (x, y) 1 p f (x|y) = =√ e 2σX (1−ρ ) fY (y) 2πσX 1 − ρ2
− 2 1 2 1 f (x, y) p =√ e 2σY (1−ρ ) f (y|x) = fX (x) 2πσY 1 − ρ2
h
h
i2 σ x− µX +ρ σX (y−µY ) Y
i2 σ y− µY +ρ σ Y (x−µX ) X
Por tanto,
X|Y ≡ N(µ, σ) con
Y |X ≡ N(µ, σ) con
σX (y − µY ) µ = µX + ρ σ Y
σ = σX
σ = σY
p 1 − ρ2
σY µ = µY + ρ (x − µX ) σX
Como se puede comprobar, si ρ = 0, entonces
p
X|Y ≡ N(µX , σX ) Y |X ≡ N(µY , σY )
1 − ρ2
9 Distribuciones de probabilidad continuas
125
• Combinaci´on lineal de v.a. Normales
Sea (X, Y ) una v.a. Normal Bidimensional, entonces la variable aleatoria q 2 2 2 2 Z = aX + bY ≡ N aµX + bµY , a σX + 2abρσX σY + b σY
Vamos a demostrarlo utilizando la funci´on caracter´ıstica.
ϕZ (t) = E[eitZ ] = E[eit(aX+bY ) ] = E[ei(at)X+i(bt)Y ) ] = 1
2 σ 2 +2abρσ σ X Y X
= ϕ(at, bt) = ei(aµX +bµY )t− 2 (a
2 )t2 +b2 σY
Pero, esta es la funci´on caracter´ıstica de una distribuci´on Normal de par´ametros 2 µ = aµX + bµY y σ 2 = a2 σX + 2abρσX σY + b2 σY2 .
Como se puede comprobar f´acilmente, si ρ = 0, entonces q 2 2 2 2 Z = aX + bY ≡ N aµX + bµY , a σX + b σY • Independencia de v.a. Normales
Sea (X, Y ) una v.a. Normal Bidimensional, entonces se cumple X e Y son independientes ⇐⇒ ρ = 0
2 Si X e Y son independientes =⇒ Cov(X, Y ) = 0 =⇒ ρ = 0. (Esto es v´alido para cualquier v.a. bidimensional (X, Y )) 2 En sentido contrario, si ρ = 0 =⇒ −1 1 f (x, y) = e 2 2πσX σY
1 −1 √ e 2 2π σX
x−µX σX
x−µX σX
2
2 2 y−µ + σ Y Y
=
1 −1 ×√ e 2 2π σY
y−µY σY
2
= fX (x) fY (y)
Por tanto, f (x, y) = fX (x) fY (y), y X e Y son independientes.
• Resumen de las propiedades de la v.a. Normal Bidimensional 2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son Normales Unidimensionales. 2 Si X e Y son Normales Unidimensionales independientes =⇒ (X, Y ) es Normal Bidimensional.
126
Estad´ıstica
2 Si X e Y son Normales Unidimensionales no independientes =⇒ / (X, Y ) es Normal Bidimensional. 2 Si (X, Y ) es Normal Bidimensional =⇒ Z = aX + bY es Normal Unidimensional. 2 Si (X, Y ) es Normal Bidimensional =⇒ X|Y e Y |X son Normales Unidimensionales. 2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son independientes ⇐⇒ ρ = 0.
10
Convergencia de sucesiones de variables aleatorias
´Indice 10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . 128 10.2. Problema central del l´ımite . . . . . . . . . . . . . . . . . . . . 129 10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . 129 10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . 129 10.3. Aproximaciones a la distribuci´ on Normal . . . . . . . . . . . . 130 10.3.1. Distribuci´on Binomial . . . . . . . . . . . . . . . . . . . . . . . 130 10.3.2. Distribuci´on de Poisson . . . . . . . . . . . . . . . . . . . . . . 131 10.3.2.1. Correcci´on de Yates . . . . . . . . . . . . . . . . . . . 131 10.3.3. Distribuci´on χ2 de Pearson . . . . . . . . . . . . . . . . . . . . 132 10.3.4. Distribuci´on t-Student . . . . . . . . . . . . . . . . . . . . . . . 132
127
128
Estad´ıstica
10.1.
Convergencia en ley
Sea {Fn } una sucesi´on de funciones de distribuci´on. Se dice que {Fn } converge en
ley o en distribuci´ on a la funci´on de distribuci´on F , si
∀x ∈ CF
l´ım Fn (x) = F (x)
n→∞
siendo CF el conjunto de puntos de continuidad de F . La notaci´on ser´a L
{Fn } −→ F Ejemplo.- Sea 0 x<0 ( 1 0 x≤0 nx 0 ≤ x < Fn (x) = =⇒ l´ım Fn (x) = G(x) = n n→∞ 1 x>0 1 x≥ 1 n pero, G no es una funci´on de distribuci´on (no es continua por la derecha en x = 0), por tanto, {Fn } no converge en ley a G. En cambio, si consideramos ( 0 x<0 F (x) = 1 x≥0 F es funci´on de distribuci´on, y {Fn } converge en ley a F , pues l´ım Fn (x) = F (x) ∀x ∈ R − {0}
n→∞
pero 0 ∈ / CF , por tanto
l´ım Fn (x) = F (x) ∀x ∈ CF
n→∞
Consideremos ahora una sucesi´on de v.a., {Xn }, con funciones de distribuci´on {Fn }
y funciones caracter´ısticas {ϕn }. Y, sea X una v.a. con funci´on de distribuci´on F y funci´on
caracter´ıstica ϕ. Entonces
• Se dice que {Xn } converge en ley a la v.a. X, si {Fn } converge en ley a F , y se notar´a por
L
{Xn } −→ X • Si {Fn } converge en ley a F , entonces {ϕn } converge puntualmente a ϕ, es decir l´ım ϕn (t) = ϕ(t) ∀t ∈ R
n→∞
• Si {ϕn } converge puntualmente a una funci´on ψ continua en 0, entonces ψ es la funci´on caracter´ıstica asociada a una v.a. Y con funci´on de distribuci´on G, y se
cumple que {Fn } converge en ley a G.
10 Convergencia de sucesiones de variables aleatorias
10.2.
129
Problema central del l´ımite
Dada una sucesi´on de v.a., {Xn }, definidas sobre el mismo espacio probabil´ıstico, se
dice que verifica el problema central del l´ımite, si se cumple n X
Xk − E
" n X
Xk
k=1 v ! u n X u tVar Xk
k=1
#
L
−→ N(0, 1)
k=1
10.2.1.
Teorema de Levy-Lindeberg
Sea {Xn } una sucesi´on de v.a. independientes e id´enticamente distribuidas, con
E[Xn ] = µ < +∞ y Var(Xn ) = σ 2 < +∞. Entonces, {Xn } verifica el problema central del l´ımite. Es decir
n X
Xk =⇒
k=1
" # n n X X E[Xk ] = nµ Xk = E k=1 k=1
! n n X X Xk = Var(Xk ) = nσ 2 Var k=1
y, se cumple n X k=1
Xk − E
" n X k=1
Xk
v ! u n X u tVar Xk
#
=
k=1
n X k=1
Xk − nµ √
σ n
L
−→ N(0, 1)
k=1
o, lo que es lo mismo
n X k=1
10.2.2.
√ L Xk −→ N(nµ, σ n )
Teorema de Lindeberg
Sea {Xn } una sucesi´on de v.a. independientes tales que :
130
Estad´ıstica
i) Yn =
n X
Xi
i=1
ii) E[Xn ] = µn < +∞ ∀n ∈ N iii) ∃ k ≥ 3 tal que Mk (Xn ) = E[(Xn − µn )k ] < +∞ ∀n ∈ N
iv) l´ım
n→∞
n X
Mk (Xi )
i=1
σ k (Yn )
= l´ım
n→∞
n X i=1
E[(Xi − µi )k ]
hp
ik = 0
Var(Yn )
Entonces, {Xn } verifica el problema central del l´ımite.
Si k = 3, el Teorema de Lindeberg se conoce como Teorema de Liapunov.
10.3.
Aproximaciones a la distribuci´ on Normal
10.3.1.
Distribuci´ on Binomial
Sea {Xn } una sucesi´on de v.a. independientes e id´enticamente distribuidas seg´ un
una B(1, p), es decir, Xn ≡ B(1, p) ∀n ∈ N. Entonces,
n X k=1
Xk ≡ B(n, p) =⇒
" # n X Xk = np E k=1
! n X Xk = npq Var k=1
y, se cumple n X k=1
Xk − E
" n X k=1
Xk
v ! u n X u tVar Xk
#
=
B(n, p) − np L −→ N(0, 1) √ npq
k=1
Es decir, para un n suficientemente grande se cumple que B(n, p) − np ∼ √ = N(np, npq ) = N(0, 1) =⇒ B(n, p) ∼ √ npq En la pr´actica, esta aproximaci´on es buena cuando np(1 − p) > 5.
10 Convergencia de sucesiones de variables aleatorias
10.3.2.
131
Distribuci´ on de Poisson
Puesto que la distribuci´on Binomial se comporta en el l´ımite como una Poisson, tambi´en ´esta u ´ ltima se puede aproximar por una Normal. En la pr´actica, si λ > 5 entonces se puede utilizar la siguiente aproximaci´on √ P(λ) ∼ = N(λ, λ ) 10.3.2.1.
Correcci´ on de Yates
Cuando una variable aleatoria discreta se aproxima por una variable aleatoria continua, como es el caso de la Binomial o la Poisson por la Normal, surge un problema a la hora de calcular probabilidades. Por ejemplo, sabemos que P (x1 ≤ B(n, p) ≤ x2 ) 6= P (x1 < B(n, p) ≤ x2 ) P (B(n, p) = x) 6= 0 sin embargo, P x1 ≤ N(np, P N(np,
√
√
√ npq ) ≤ x2 = P x1 < N(np, npq ) ≤ x2
npq ) = x = 0
Para resolver este problema se aplica la correcci´on de Yates, que consiste en ampliar o reducir el intervalo de integraci´on de la v.a. continua, para asegurar la inclusi´on o exclusi´on de los l´ımites de la v.a. discreta. De forma general, si X es una v.a. discreta, e Y una v.a. continua tal que X ∼ = Y , entonces P (X = x) ≃ P (x − 0.5 ≤ Y ≤ x + 0.5) P (x1 < X ≤ x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 + 0.5) P (x1 ≤ X ≤ x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 + 0.5) P (x1 < X < x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 − 0.5) P (x1 ≤ X < x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 − 0.5)
132
Estad´ıstica
10.3.3.
Distribuci´ on χ2 de Pearson
Como la distribuci´on Chi-cuadrado con n grados de libertad se define como la suma de n v.a. independientes e id´enticamente distribuidas, cuando n ≥ 30 se puede utilizar la siguiente aproximaci´on
p
10.3.4.
2χ2n ∼ =N
√
2n − 1, 1
Distribuci´ on t-Student
Teniendo en cuenta que una distribuci´on t-Student con n grados de libertad se define como el cociente
N(0, 1) tn = r χ2n n 2 y, que la distribuci´on χn se puede aproximar por una Normal, cuando n ≥ 30 se puede utilizar la siguiente aproximaci´on
r n tn ∼ = N 0, n−2
11
Regresi´on y correlaci´on
´Indice 11.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2. Regresi´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.1. M´etodo de los m´ınimos cuadrados . . . . . . . . . . . . . . . . 134 11.2.2. M´etodo de la distribuci´on condicional . . . . . . . . . . . . . . 136 11.2.3. Regresi´on Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11.2.3.1. M´etodo de los m´ınimos cuadrados . . . . . . . . . . . 137 11.2.3.2. M´etodo de la distribuci´on condicional . . . . . . . . . 138 11.3. Correlaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 11.3.1. Coeficiente de correlaci´ on lineal . . . . . . . . . . . . . . . . . . 140
133
134
Estad´ıstica
11.1.
Introducci´ on
Sea (X, Y ) una v.a. bidimensional. Algo que nos podemos preguntar es si existe alg´ un tipo de relaci´on entre las dos variables que forman el par, es decir, si existe alguna funci´on que las relaciona. Por supuesto, el hecho de que exista alguna relaci´on entre ellas implica que no son independientes. Tenemos pues dos objetivos, 1.- Determinar la funci´on Y = h1 (X) que mejor expresa el comportamiento de la v.a. Y para cada valor que pueda tomar X. Esta funci´on se conoce como curva de regresi´ on de Y sobre X. Igualmente, se puede determinar la funci´on X = h2 (Y ) que mejor expresa el comportamiento de la v.a. X para cada valor que pueda tomar Y . Esta funci´on se conoce como curva de regresi´on de X sobre Y . 2.- Medir el grado de asociaci´on que pueda existir entre las dos v.a. Este par´ametro se conoce como coeficiente de correlaci´on. La regresi´on tiene dos significados. Uno, surge de la distribuci´on conjunta de las dos v.a., y es el que vamos a estudiar en este cap´ıtulo. El otro, que estudiaremos m´as adelante, es emp´ırico, y nace de la necesidad de ajustar una funci´on a un conjunto de datos.
11.2.
Regresi´ on
En la regresi´on de Y sobre X, como ya se ha dicho, se quiere encontrar una funci´on Y = h1 (X) que mejor exprese el comportamiento de la v.a. Y para cada valor que pueda tomar X. Para ello, podemos utilizar dos m´etodos
11.2.1.
M´ etodo de los m´ınimos cuadrados
Este m´etodo consiste en encontrar la funci´on Y = h1 (X) de forma que el error cuadr´atico medio (ECM) sea m´ınimo, siendo ECM = E (Y − h1 (X))2
Este m´etodo tiene el inconveniente de que es necesario conocer a priori la forma de la funci´on h1 . Ejemplo 1.- Dada una v.a. bidimensional (X, Y ), con funci´on de densidad conjunta 4 f (x, y) = x2 (x + y) 0 ≤ x ≤ 1; 0 ≤ y ≤ 3 9
11 Regresi´ on y correlaci´ on
135
De las variables X e Y se sabe que existe una relaci´on del tipo Y = aX +
b X
Se pide, calcular los valores de a y b que mejor ajustan este tipo de relaci´on.
ECM = E (Y − h1 (X))
2
" 2 # b = E Y − aX − X
Para calcular el m´ınimo de ECM, tenemos que derivar respecto de a y b ∂ECM b 2 = E 2(Y − aX − )(−X) = 2 −E[XY ] + aE[X ] + b =0 X ∂a
1 b 1 Y ∂ECM + a + bE = E 2(Y − aX − )(− ) = 2 −E =0 ∂b X X X X2
entonces,
aE[X 2 ] + b = E[XY ]
Y 1 a + bE =E 2 X X
2
• E[X ] =
Z
+∞ −∞
Z
+∞
Y E[XY ] − E E[X 2 ] X b= 1 1 − E[X 2 ]E X2
4 x f (x, y) dxdy = 9 2
−∞
=⇒
1 Y − E[XY ]E E X X2 a = 1 1 − E[X 2 ]E X2
Z
1
x=0
Z
3
x4 (x + y) dydx =
y=0
28 45
Z +∞ Z +∞ Z Z 3 1 4 1 8 1 • E = f (x, y) dxdy = (x + y) dydx = 2 X2 9 x=0 y=0 3 −∞ −∞ x
Z +∞ Z +∞ Z Z 3 y Y 8 4 1 • E = xy(x + y) dydx = f (x, y) dxdy = X 9 x=0 y=0 3 −∞ −∞ x • E[XY ] = Por tanto,
Z
+∞ −∞
Z
+∞
−∞
4 xyf (x, y) dxdy = 9
Z
1 x=0
Z
3
x3 y(x + y) dydx = y=0
7 5
136
Estad´ıstica 144 a= 89
b = 35 89 y, la relaci´on entre las dos variables es de la forma Y =
11.2.2.
144 35 X+ 89 89X
M´ etodo de la distribuci´ on condicional
Para cada valor x que toma la variable X, el comportamiento de la variable Y viene definido por la v.a. condicionada Y |X=x , con funci´on de densidad condicionada f (y|x).
El criterio de este m´etodo consiste en definir la funci´on h1 de tal forma que asigne
a cada valor x del campo de variaci´on de la variable X, el valor medio o esperanza de la variable Y condicionado a ese valor x. Es decir, y = h1 (x) = E [Y |X=x ] =
Z
+∞
yf (y|x) dy −∞
Ejemplo 2.- Dada la v.a. bidimensional (X, Y ) con funci´on de densidad conjunta f (x, y) = x + y
0 ≤ x, y ≤ 1
Se pide, calcular la curva de regresi´on de Y sobre X. Primero, tenemos que calcular la funci´on de densidad condicional f (y|x) • fX (x) = • f (y|x) =
Z
+∞
f (x, y) dy =
−∞
Z
1
(x + y) dy = x +
0
f (x, y) 2(x + y) = fX (x) 2x + 1
1 2
0≤x≤1
0≤y≤1
Ahora, h1 (x) = E [Y |X=x ] =
Z
+∞
yf (y|x) dy = −∞
Z
0
1
2y(x + y) 3x + 2 dy = 2x + 1 6x + 3
Por tanto, la relaci´on entre las dos variables es de la forma Y =
3X + 2 6X + 3
11 Regresi´ on y correlaci´ on
11.2.3.
137
Regresi´ on Lineal
Un caso particular de curva de regresi´on de Y sobre X se da cuando la curva que relaciona las dos variables es una recta del tipo Y = h1 (X) = a + bX 11.2.3.1.
M´ etodo de los m´ınimos cuadrados
ECM = E[(Y − h1 (X)2 ] = E[(Y − a − bX)2 ] ∂ECM = E [2(Y − a − bX)(−1)] = 2 (−E[Y ] + a + bE[X]) = 0 ∂a
∂ECM = E [2(Y − a − bX)(−X)] = 2 −E[XY ] + aE[X] + bE[X 2 ] = 0 ∂b
entonces,
a + bE[X] = E[Y ]
aE[X] + bE[X 2 ] = E[XY ]
=⇒
E[XY ] − E[X]E[Y ] Cov(X, Y ) b = E[X 2 ] − (E[X])2 = Var(X) a = E[Y ] − bE[X]
Por tanto, la recta de regresi´on lineal de Y sobre X es Y = a + bX, con b=
Cov(X, Y ) σXY = 2 Var(X) σX
a = E[Y ] − bE[X] = µY − bµX o, expresado de otra forma Y = a + bX = µY − bµX + bX = µY + b(X − µX ) =⇒ Y − µY =
σXY (X − µX ) 2 σX
De igual forma, la recta de regresi´on lineal de X sobre Y es X = a′ + b′ Y , con
138
Estad´ıstica
Cov(X, Y ) σXY = 2 Var(Y ) σY
b′ =
a′ = E[X] − b′ E[Y ] = µX − b′ µY o, expresado de otra forma X = a′ + b′ Y = µX − b′ µY + b′ Y = µX + b′ (Y − µY ) =⇒ X − µX =
σXY (Y − µY ) σY2
• Los coeficientes b y b′ (las pendientes de las rectas de regresi´on de Y sobre X y de X sobre Y , respectivamente), se llaman coeficientes de regresi´on lineal. Siempre
tienen el mismo signo, por tanto, o las dos rectas son crecientes o las dos rectas son decrecientes, siempre que Cov(X, Y ) 6= 0. • El punto de intersecci´on de las dos rectas de regresi´on se denomina centro de gravedad de la v.a. bidimensional (X, Y ).
11.2.3.2.
M´ etodo de la distribuci´ on condicional
Si al aplicar el m´etodo de la distribuci´on condicional para obtener la curva de regresi´on de Y sobre X obtenemos una recta, entonces y = E[Y |X=x ] = a + bx Es decir, E[Y |X=x ] =
Z
+∞
yf (y|x) dy =
−∞
1 = fX (x)
Entonces,
Z
+∞
Z
Z
+∞
y −∞
f (x, y) dy = fX (x)
+∞
yf (x, y) dy = a + bx −∞
yf (x, y) dy = afX (x) + bxfX (x) −∞
=⇒
11 Regresi´ on y correlaci´ on
139
Z +∞ Z +∞ Z +∞ Z +∞ yf (x, y) dydx = afX (x) dx + bxfX (x) dx −∞ −∞ −∞ −∞ Z
+∞
−∞
Z
+∞
xyf (x, y) dydx =
−∞
Y, despejando,
Z
+∞
axfX (x) dx +
−∞
E[Y ] = a + bE[X]
Z
=⇒
+∞
bx2 fX (x) dx
−∞
E[XY ] = aE[X] + bE[X 2 ] Cov(X, Y ) E[XY ] − E[X]E[Y ] b = E[X 2 ] − (E[X])2 = Var(X) a = E[Y ] − bE[X]
Por tanto, los coeficientes de la recta obtenidos con el m´etodo de la distribuci´on condicional coinciden con los obtenidos con el m´etodo de los m´ınimos cuadrados.
11.3.
Correlaci´ on
Ligado al concepto de regresi´on (relaci´on entre dos variables X e Y ), est´a el de correlaci´on (grado de relaci´on entre las variables X e Y ). Es decir, al calcular la curva de regresi´on de Y sobre X, Y = h1 (X), en realidad estamos calculando una funci´on que, con el criterio que hayamos escogido, mejor ajusta los valores de la variable Y para un valor dado de la variable X. Ahora, debemos cuantificar c´omo es de bueno ese ajuste. Una forma bastante l´ogica de cuantificar la bondad del ajuste consiste en medir la diferencia entre el verdadero valor de la variable Y , y el valor asignado por la curva de regresi´on, h1 (X). Para que las diferencias positivas no se cancelen con las negativas, generalmente se recurre al estudio de las diferencias al cuadrado. As´ı, se define la varianza residual, σR2 , como la media cuadr´atica de estos errores σR2 = E (Y − h1 (X))2
Como se puede comprobar, coincide con el error cuadr´atico medio. Partiendo de σR2 , Pearson defini´o el coeficiente general de correlaci´on como
140
Estad´ıstica
ρG =
s
1−
σR2 σY2
mientras que ρ2G se denomina coeficiente general de determinaci´on. En cualquier caso, se cumple 0 ≤ ρ2G ≤ 1 −1 ≤ ρG ≤ 1
11.3.1.
Coeficiente de correlaci´ on lineal
Ya que generalmente la regresi´on que m´as se utiliza es la lineal, vamos a estudiar con m´as profundidad el coeficiente de correlaci´on lineal. Si partimos de la recta de regresi´on de Y sobre X calculada en la secci´on 11.2.3, σXY (X − µX ) 2 σX
Y = h1 (X) = µY + La varianza residual ser´a
σR2 = E (Y − h1 (X))
2
=E
"
σXY Y − µY − 2 (X − µX ) σX
2 #
=
σ2 σXY 2 = E (Y − µY )2 + XY E (X − µ ) − 2 2 E[(Y − µY )(X − µX )] = X 4 σX σX = σY2 +
2 2 σXY σXY σXY 2 2 σ − 2 σ = σ − XY X Y 4 2 2 σX σX σX
Y, el coeficiente de correlaci´on lineal es
ρ =
=
s
σ2 = 1− R σY2
v u u u t
1−
σY2 −
2 σXY 2 σX
σY2
σXY Cov(X, Y ) =p σX σY Var(X) Var(Y )
=
s
1−1+
2 σXY = 2 2 σX σY
que, como se puede comprobar, coincide con el estudiado en la secci´on 7.6.2. Adem´as, el coeficiente de determinaci´on lineal viene dado por
11 Regresi´ on y correlaci´ on
141
2 Cov2 (X, Y ) σXY ρ = 2 2 = σX σY Var(X) Var(Y ) 2
Veamos algunas propiedades de estos coeficientes. • Como ocurre de forma general, 0 ≤ ρ2 ≤ 1 y
−1 ≤ρ≤1
• Los coeficientes de regresi´on lineal, b y b′ , y el coeficiente de correlaci´on lineal, ρ, tie-
nen el mismo signo, pues ´este s´olo depende del signo de Cov(X, Y ). Si Cov(X, Y ) >
0, entonces las rectas de regresi´on son crecientes y el coeficiente de correlaci´on lineal es positivo. Si Cov(X, Y ) < 0, entonces las rectas de regresi´on son decrecientes y el coeficiente de correlaci´on lineal es negativo. • Como b =
σXY σXY y b′ = 2 , entonces, 2 σX σY ρ=
• Como
√
b b′
b=
σXY σY σY σXY = =ρ 2 σX σX σY σX σX
b′ =
σX σXY σY σXY =ρ = 2 σY σX σY σY σY
las rectas de regresi´on tambi´en se pueden escribir como, Y − µY = ρ
σY (X − µX ) σX
X − µX = ρ
σX (Y − µY ) σY
142
Estad´ıstica
12
Distribuciones de muestreo
´Indice 12.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 12.2. Definici´ on de estad´ıstico . . . . . . . . . . . . . . . . . . . . . . 145 12.3. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . . 145 12.3.1. Poblaci´ on Madre Normal . . . . . . . . . . . . . . . . . . . . . 145 12.3.2. Poblaci´ on Madre no Normal . . . . . . . . . . (n − 1)s2 12.4. Estad´ıstico . . . . . . . . . . . . . . σ2 x ¯−µ . . . . . . . . . . . . . . . . 12.5. Estad´ıstico √ s/ n 12.5.1. Poblaci´ on Madre Normal . . . . . . . . . . .
. . . . . . . . . . 146 . . . . . . . . . . 146 . . . . . . . . . . 147 . . . . . . . . . . 147
12.5.2. Poblaci´ on Madre no Normal . . . . . . . . . . . . . . . . . . . . 148 12.6. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . 148 12.6.1. Poblaci´ on Madre Normal . . . . . . . . . . . . . . . . . . . . . 148 12.6.2. Poblaci´ on Madre no Normal . . . . . . . . . . . . . . . . . . . . 149 12.7. Estad´ıstico desviaci´ on t´ıpica muestral . . . . . . . . . . . . . . 150 12.8. Estad´ıstico diferencia de medias muestrales . . . . . . . . . . . 152 12.9. Estad´ıstico cociente de varianzas muestrales . . . . . . . . . . 153 12.10.Estad´ıstico proporci´ on muestral . . . . . . . . . . . . . . . . . . 154 12.11.Estad´ıstico elemento que ocupa el lugar r . . . . . . . . . . . . 155 12.11.1.Estad´ıstico m´ aximo valor de una muestra . . . . . . . . . . . . 155 12.11.2.Estad´ıstico m´ınimo valor de una muestra . . . . . . . . . . . . 156 12.11.3.Estad´ıstico recorrido de una muestra . . . . . . . . . . . . . . . 156 12.11.4.Estimaci´on de cuantiles . . . . . . . . . . . . . . . . . . . . . . 157
143
144
Estad´ıstica
12.1.
Introducci´ on
Consideremos una poblaci´on de la que necesitamos analizar alguna caracter´ıstica. Lo ideal ser´ıa estudiar todos y cada uno de los elementos de esa poblaci´on, pero esto, en la gran mayor´ıa de las ocasiones resulta dif´ıcil, caro e incluso, a veces, imposible. Ello obliga a elegir un determinado n´ umero de elementos (muestra) de la poblaci´on, analizar en ellos la caracter´ıstica antes mencionada y, de los resultados obtenidos, inferir lo que sucede en la totalidad de la poblaci´on. Esto nos lleva a la Teor´ıa de Muestras. A la poblaci´on objeto del estudio le damos el nombre de Poblaci´on Madre (P.M.). Consideramos ´esta en su totalidad, y por un m´etodo aleatorio elegimos n elementos, obteniendo lo que se llama una muestra de tama˜ no n. Ahora bien, los n elementos se pueden extraer de dos maneras: • Todos a la vez (o uno a uno sin reemplazamiento), con lo cual el n´ umero de! muestras N posibles de tama˜ no n que se pueden obtener est´a determinado por , siendo n N el n´ umero total de elementos de la Poblaci´on Madre. Adem´as, el n´ umero de muestras posibles, considerando todos los tama˜ nos, es finito: ! ! ! N N N + +···+ = 2N − 1 1 2 N Esto dar´a lugar al estudio de unas consecuencias que quedar´an reflejadas en la llamada Teor´ıa de Muestras de Poblaci´on Finita. • La muestra de tama˜ no n se obtiene sacando los elementos uno a uno, con reempla-
zamiento. A este tipo de muestra le daremos el nombre de muestra aleatoria simple (m.a.s.) de tama˜ no n. En este caso, no importa el tama˜ no N de la P.M., que incluso
pudiera ser N < n. Ahora, el n´ umero de muestras posibles, considerando todos los tama˜ nos, es infinito. Esto dar´a lugar al estudio de unas consecuencias que quedar´an reflejadas en la llamada Teor´ıa de Muestras de Poblaci´on Infinita. En general, mientras no se especifique lo contrario, a lo largo de este curso consideraremos siempre que, por defecto, la muestra se ha obtenido con reemplazamiento. Es decir, se trata de una m.a.s. S´olo en el cap´ıtulo 14 daremos una descripci´on de los resultados referentes a las muestras obtenidas sin reemplazamiento.
12 Distribuciones de muestreo
12.2.
145
Definici´ on de estad´ıstico
Consideremos, en un espacio unidimensional, una Poblaci´on Madre definida por su funci´on de densidad f (x). De ella, extraemos una m.a.s. de tama˜ no n, {x1 , x2 , . . . , xn }. Cada uno de los valores xi son extracciones aleatorias e independientes obtenidas de una
P.M. intacta (extracci´on con reemplazamiento). Los posibles valores de cada una de las extracciones, xi , es una variable aleatoria, Xi . Por tanto, con este procedimiento hemos construido una variable aleatoria n-dimensional X = (X1 , X2 , . . . , Xn ), donde todas las v.a. son independientes e id´enticamente distribuidas con la misma distribuci´on que la v.a. asociada a la P.M. Es decir, si la P.M. sigue una distribuci´on N(µ, σ), entonces cada Xi ≡ N(µ, σ).
LLamaremos Estad´ıstico a cualquier funci´on de las n variables aleatorias, T (X) = T (X1 , X2 , . . . , Xn )
El estudio de la teor´ıa de muestras que haremos en este curso estar´a dedicado a obtener la distribuci´on de la variable aleatoria T (X), cuando T (X) sea cierto tipo de funci´on conocida. Incurriendo en un abuso de notaci´on, utilizaremos la expresi´on xi para referirnos tanto a la v.a. Xi , como a un valor de la misma, xi .
12.3.
Estad´ıstico media muestral x ¯=
12.3.1.
n 1X
n
xi
i=1
Poblaci´ on Madre Normal
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que xi ≡ N(µ, σ)
y que las n v.a. son independientes. Entonces, la v.a. x¯ tambi´en sigue una distribuci´on Normal, por ser combinaci´on lineal de v.a. Normales. Adem´as, "
# n n n 1X 1X 1X E[¯ x] = E xi = E[xi ] = µ=µ n i=1 n i=1 n i=1 Var(¯ x) = Var
n 1X xi n i=1
!
n n 1 X 1 X 2 σ2 = 2 Var(xi ) = 2 σ = n i=1 n i=1 n
Por tanto, si la Poblaci´on Madre es N(µ, σ) el estad´ıstico media es
146
Estad´ıstica
√ x¯ ≡ N (µ, σ/ n )
12.3.2.
Poblaci´ on Madre no Normal
Dada una m.a.s., {x1 , . . . , xn } de una P.M.≡ ?(µ, σ) sabemos que xi ≡ ? (µ, σ) y que
las n v.a. son independientes. Entonces, se puede aplicar el Teorema de Levi-Lindeberg. n X i=1
xi − E
" n X
xi
i=1
v ! u n X u tVar xi
#
n¯ x − nµ x¯ − µ = √ = √ −→ N(0, 1) σ/ n nσ 2
i=1
Por tanto,
√ si n > 30 =⇒ x¯ ∼ = N (µ, σ/ n ) √ si n < 30 =⇒ x¯ ≡ ? (µ, σ/ n )
12.4.
Estad´ıstico
(n − 1)s2 σ2
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), definimos la varianza mues-
tral, s2 , como
n
1 X (xi − x¯)2 s = n − 1 i=1 2
Entonces,
12 Distribuciones de muestreo
147
n n (n − 1)s2 1 X 1 X 2 (xi − x¯) = 2 [(xi − µ) − (¯ x − µ)]2 = = σ2 σ 2 i=1 σ i=1
" n # n n X X 1 X 2 2 (xi − µ) + (¯ x − µ) − 2(¯ x − µ) (xi − µ) = = σ 2 i=1 i=1 i=1 # " n 1 X = (xi − µ)2 + n(¯ x − µ)2 − 2n(¯ x − µ)2 = σ 2 i=1 # " n 1 X = (xi − µ)2 − n(¯ x − µ)2 = σ 2 i=1 2 n X xi − µ
=
σ
i=1
−
x¯ − µ √ σ/ n
2
Pero,
xi ≡ N(µ, σ)
2 n X xi − µ xi − µ ≡ N(0, 1) =⇒ ≡ χ2n =⇒ σ σ i=1
√
x¯ − µ √ ≡ N(0, 1) =⇒ x¯ ≡ N(µ, σ/ n ) =⇒ σ/ n
x¯ − µ √ σ/ n
2
≡ χ21
y, aunque en general la diferencia de dos v.a. Chi-cuadrado no sigue una distribuci´on Chi-cuadrado, en este caso especial se puede demostrar que (n − 1)s2 ≡ χ2n−1 2 σ
x ¯−µ √ s/ n
12.5.
Estad´ıstico
12.5.1.
Poblaci´ on Madre Normal
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que x¯ − µ σ √ ≡ N(0, 1) =⇒ x¯ ≡ N µ, √ n σ/ n
148
Estad´ıstica
Por otra parte,
(n − 1)s2 ≡ χ2n−1 σ2
entonces, dividiendo,
Por tanto,
x¯ − µ √ N(0, 1) x¯ − µ σ/ n r =r 2 = √ ≡ tn−1 2 s/ n χn−1 (n − 1)s 1 2 σ n−1 n−1 x¯ − µ √ ≡ tn−1 s/ n
12.5.2.
Poblaci´ on Madre no Normal
Aunque la P.M. no sea Normal, si el tama˜ no de muestra es suficientemente grande, se puede hacer la aproximaci´on σ 2 ≃ s2 y aplicar el Teorema de Levy-Lindeberg. As´ı, si n > 30 =⇒
x¯ − µ ∼ √ = N(0, 1) s/ n
si n < 30 =⇒ —
12.6.
Estad´ıstico varianza muestral 2
s =
12.6.1.
1 n−1
n X i=1
(xi − x ¯ )2
Poblaci´ on Madre Normal
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), tenemos
entonces,
σ2 (n − 1)s2 2 2 ≡ χn−1 =⇒ s = X X= σ2 n−1 E[s2 ] =
σ2 σ2 E[X] = (n − 1) = σ 2 n−1 n−1
Var(s2 ) =
σ4 σ4 2σ 4 Var(X) = 2(n − 1) = (n − 1)2 (n − 1)2 n−1
12 Distribuciones de muestreo
149
Por tanto, r 2 2 ∼ si n > 100 =⇒ s = N σ , σ 2
2
si n < 100 =⇒ s ≡ ?
12.6.2.
2
σ ,σ
2
r
2 n−1
2 n−1
Poblaci´ on Madre no Normal
Aunque la P.M. no sea Normal, utilizando el desarrollo del apartado 12.4, llegamos a n
n 1 X (xi − µ)2 − (¯ x − µ)2 s = n − 1 i=1 n−1 2
y, por tanto
n
1 X n E[s ] = E[(xi − µ)2 ] − E[(¯ x − µ)2 ] n − 1 i=1 n−1 2
Pero,
E[xi ] = µ =⇒ E[(xi − µ)2 ] = Var(xi ) = σ 2 E[¯ x] = µ =⇒ E[(¯ x − µ)2 ] = Var(¯ x) =
σ2 n
entonces, n σ2 n 2 σ − = σ2 E[s ] = n−1 n−1 n Operando se puede demostrar tambi´en que 2
2
Var(s ) = σ
4
CAp 2 + n−1 n
siendo CAp el coeficiente de apuntamiendo o curtosis de la poblaci´on que, en caso de ser desconocido, se puede aproximar por el coeficiente de curtosis de la muestra. Por tanto r 2 CAp 2 2 2 ∼ + s = ? σ ,σ n−1 n
150
Estad´ıstica
12.7.
Estad´ıstico desviaci´ on t´ıpica muestral s=
"
1 n−1
n X i=1
(xi − x ¯)
2
#1/2
Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sea X=
n−1 2 s ≡ χ2n−1 σ2
=⇒
fX (x) =
n−3 x 1 x 2 e− 2 , n−1 n−1 2 2 Γ 2
x>0
σ2 X, es decir, Y = s2 . Entonces n−1 n−3 2 n−1 n−1 n−1 1 gY (y) = e− 2σ2 y y , y>0 2 n−1 n−1 σ σ2 2 2 Γ 2 √ Hacemos el cambio de variable T = Y , es decir, T = s. Entonces Hacemos el cambio de variable Y =
y, operando
1 hT (t) = n−1 n−1 2 2 Γ 2
n−1 2 t σ2
n−3 2
n−1 2
e− 2σ2 t
n−1 n−1 2 2 n−1 2 2 tn−2 e− 2σ2 t , hT (t) = n−1 σ n−1 Γ 2
Entonces,
n−1 2t , σ2
t>0
t>0
12 Distribuciones de muestreo
151
n−1 n−1 2 Z ∞ Z ∞ 2 n−1 2 2 E[T ] = t hT (t) dt = tn−1 e− 2σ2 t dt = n−1 0 0 σ n−1 Γ 2 n−1 n−1 2 Z ∞ 2 2 = n−1 0 n−1 σ Γ 2
= σ
= σ
r r
1 2 n −1 n−1 Γ 2
√ !n−1 1 σ √ σ 2u √ n − 1 √ du = e−u √ 2 u n−1 2 Z
∞
n
u 2 −1 e−u du =
0
n Γ 2 2 n−1 n−1 Γ 2
donde, para calcular la integral hemos realizado el cambio Por otra parte,
√
√ n−1 u= √ 2σ
E[T 2 ] = E[s2 ] = σ 2 Y, por u ´ ltimo, la varianza de T viene dada por
2 Var(T ) = E[T ] − (E[T ]) = 1 − n − 1 2
2
Por tanto, la distribuci´on del estad´ıstico s es r ∼ si n > 100 =⇒ s = N σ, σ
si n < 100 =⇒ s ≡ ? σ
r
1 2(n − 1)
n
Γ2 2 2 σ n−1 2 Γ 2
v u 2 n u Γ Γ 2 2 u 2 , σ u1 − 2 t n − 1 n−1 n−1 2 n−1 Γ Γ 2 2 n
152
Estad´ıstica
12.8.
Estad´ıstico diferencia de medias muestrales
De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )
extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1, y2 , . . . , ym }, de tama˜ nos n y m, con medias y varianzas
n
n
1X x¯ = xi n i=1
1 X = (xi − x¯)2 n − 1 i=1
s2x
m
m
1 X 1 X y¯ = yi s2y = (yi − y¯)2 m i=1 m − 1 i=1
Definimos el estad´ıstico diferencia de medias como n
x¯ − y¯ =
m
1X 1 X xi − yi n i=1 m i=1
• Si σx y σy son conocidos √ x¯ ≡ N (µx , σx / n )
=⇒
√ y¯ ≡ N (µy , σy / m )
(¯ x − y¯) − (µx − µy ) r ≡ N (0, 1) σx2 σy2 + n m
• Si σx y σy son desconocidos ◦ si σx2 = σy2 = σ 2 (¯ x − y¯) − (µx − µy ) r ≡ N (0, 1) 1 1 + σ n m
2 2 (n − 1)sx + (m − 1)sy ≡ χ2 n+m−2 σ2
donde
Sp =
s
=⇒
(¯ x − y¯) − (µx − µy ) r ≡ tn+m−2 1 1 Sp + n m
(n − 1)s2x + (m − 1)s2y n+m−2
12 Distribuciones de muestreo
153
◦ si σx2 6= σy2 (¯ x − y¯) − (µx − µy ) ∼ r = tγ s2x s2y + n m donde,
s2y s2x A= , B= n m
(A + B)2 γ= A2 B2 + n−1 m−1
12.9.
Estad´ıstico cociente de varianzas muestrales
De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )
extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1 , y2 , . . . , ym}, de tama˜ nos n y m, con medias y varianzas
n
n
1X xi x¯ = n i=1
s2x
1 X = (xi − x¯)2 n − 1 i=1
m
m
1 X 1 X y¯ = yi s2y = (yi − y¯)2 m i=1 m − 1 i=1
Definimos el estad´ıstico cociente de varianzas como n
s2x = s2y Del apartado 12.4 sabemos que
1 X (xi − x¯)2 n − 1 i=1 m
1 X (yi − y¯)2 m − 1 i=1
(n − 1)s2x ≡ χ2n−1 σx2 (m − 1)s2y ≡ χ2m−1 σy2 entonces, como
χ2n−1 /(n−1) χ2m−1 /(m−1)
≡ Fn−1,m−1 , s2x /σx2 ≡ Fn−1,m−1 s2y /σy2
154
Estad´ıstica
12.10.
Estad´ıstico proporci´ on muestral
Partimos de una P.M. Binomial de par´ametro p, es decir, p es la proporci´on de ´exitos de la Poblaci´on. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores ( 1 si es ´exito xi = 0 si es fracaso es decir, cada v.a. xi ≡ B(1, p) Sean las v.a.
X ≡ n´ umero de ´exitos de la muestra pb ≡ proporci´on de ´exitos de la muestra Entonces,
X=
n X i=1
"
n
1X X xi ≡ B(n, p) y pb = xi = n i=1 n
# n n 1X 1X 1 E[b p] = E xi = E[xi ] = np = p n i=1 n i=1 n n
Var(b p) = Var
1X xi n i=1
!
n 1 X 1 p(1 − p) Var(x ) = np(1 − p) = i n2 i=1 n2 n
=
Aplicando el Teorema de Levy-Lindeberg n X i=1
xi − E
" n X i=1
xi
v ! u n X u tVar xi
#
=
i=1
Por tanto,
si n > 30 =⇒ pb ∼ = N p, si n < 30 =⇒ pb ≡ ?
p,
r
r
nb p − np pb − p −→ N(0, 1) =r √ np p(1 − p) n
p(1 − p) n
p(1 − p) n
!
!
p y X ∼ = N np, np(1 − p) y X ≡ B(n, p)
12 Distribuciones de muestreo
12.11.
155
Estad´ıstico elemento que ocupa el lugar r
En ocasiones no estamos interesados en estimar un par´ametro de la poblaci´on sino, por ejemplo, el valor m´aximo o m´ınimo que puede tomar. As´ı, podemos interesarnos por la temperatura m´axima en vez de por la temperatura media. De esta forma surge el estad´ıstico que estima el lugar que ocupa un elemento de la muestra, al ordenarla de forma creciente. Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un r − 1 elementos ur−1
n − r elementos
1 elemento ur
ur + dur
ur+1
n g(ur )dur = [P (X < ur )]r−1 P (ur < X ≤ ur + dur ) [P (X > ur )]n−r P Rr−1,1,n−r
g(ur )dur = Por tanto,
g(ur ) =
12.11.1.
n! [F (ur )]r−1 f (ur )dur [1 − F (ur )]n−r (r − 1)! 1! (n − r)!
n! [F (ur )]r−1 f (ur ) [1 − F (ur )]n−r (r − 1)! 1! (n − r)!
ur ∈ R
Estad´ıstico m´ aximo valor de una muestra
Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un
Utilizando el mismo razonamiento que en la Sec. 12.11, el valor m´aximo de la muestra
viene dado por un , por tanto, g(un ) = n [F (un )]n−1 f (un )
un ∈ R
156
Estad´ıstica
12.11.2.
Estad´ıstico m´ınimo valor de una muestra
Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un
Utilizando el mismo razonamiento que en la Sec. 12.11, el valor m´ınimo de la muestra
viene dado por u1 , por tanto, g(u1) = n f (u1) [1 − F (u1 )]n−1
12.11.3.
u1 ∈ R
Estad´ıstico recorrido de una muestra
Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un As´ı, se define el recorrido de una muestra como
R = max{xi } − min{xi } = un − u1 Utilizando el mismo razonamiento que en la Sec. 12.11, se puede obtener la funci´on de densidad conjunta, g(ui , uj ), del lugar que ocupan dos elementos de la muestra, con i<j
g(ui, uj )dui duj = [P (X < ui )]i−1 × P (ui < X ≤ ui + dui ) × [P (ui < X < uj )]j−i−1 × n ×P (uj < X ≤ uj + duj ) × [P (X > uj )]n−j × P R i−1,1,j−i−1,1,n−j
Por tanto,
g(ui , uj ) =
n! × [F (ui )]i−1 × f (ui )× (i − 1)! (j − i − 1)! (n − j)! ×[F (uj ) − F (ui )]j−i−1 × f (uj ) × [1 − F (uj )]n−j
ui ≤ uj
Como R = un − u1 , entonces, un = R + u1 , y en particular g(u1 , un ) =
n! [F (un ) − F (u1 )]n−2 f (u1 )f (un ) (n − 2)!
− ∞ ≤ u1 ≤ un ≤ +∞
12 Distribuciones de muestreo
157
por lo que g(u1 , R) = n(n − 1) [F (R + u1 ) − F (u1)]n−2 f (u1 )f (R + u1 ) y la funci´on de densidad de R ser´a la marginal de g(u1, R), es decir
gR (R) =
Z
+∞
g(u1, R) du1 =
−∞
Z
+∞
−∞
n(n − 1) [F (R + u1 ) − F (u1)]n−2 f (u1)f (R + u1 ) du1
Mientras que la funci´on de distribuci´on de R se puede expresar como
GR (R) =
12.11.4.
Z
R 0
Z
+∞
g(u1 , R) du1 −∞
=n
Z
+∞
−∞
[F (R + u1 ) − F (u1)]n−1 f (u1 ) du1
Estimaci´ on de cuantiles
Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un .
Definimos el estimador, x bp , del p-cuantil poblacional, xp , como el p-cuantil de la muestra, es decir
x bp =
u [np]+1
Si np ∈ /Z
1 (u + u np np+1 ) Si np ∈ Z 2 donde los corchetes, [ ], indican la parte entera. Si f (xp ) > 0, el estimador p-cuantil tiene una distribuci´on asint´oticamente Normal, con E[b xp ] ≃ xp
y
Var(b xp ) ≃
p(1 − p) nf 2 (xp )
Ejemplo.- Dada una P.M.≡ N(µ, σ) con funci´on de densidad dada por ( 2 ) 1 x−µ 1 exp − f (x) = √ x∈R 2 σ 2πσ Un estimador de la mediana poblacional, Me, ser´ıa la mediana muestral, x e. Si la
muestra es suficientemente grande, entonces
158
Estad´ıstica
E[e x] ≃ Me = µ 0.5 × 0.5 πσ 2 2 = 2n 1 n √ 2πσ donde hemos utilizado el hecho de que en una distribuci´on Normal, Me = µ. As´ı, r π x e∼ = N µ, σ 2n Var(e x) ≃
p(1 − p) = nf 2 (Me)
13
Estimaci´on puntual y estimaci´on por intervalo
´Indice 13.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 13.2. Propiedades deseables de los estimadores puntuales
. . . . . 163
13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . 163 13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . 164 13.2.3. Error cuadr´atico medio . . . . . . . . . . . . . . . . . . . . . . 165 13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . 166 13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . 167 13.2.5.1. Teorema (Cota de Cram´er-Rao) . . . . . . . . . . . . 168 13.3. M´ etodos de estimaci´ on puntual . . . . . . . . . . . . . . . . . . 170 13.3.1. M´etodo de m´ axima verosimilitud . . . . . . . . . . . . . . . . . 170 13.3.2. Propiedades de los estimadores de m´ axima verosimilitud . . . . 172 13.3.3. M´etodo de los momentos
. . . . . . . . . . . . . . . . . . . . . 173
13.4. Estimaci´ on por intervalo de confianza . . . . . . . . . . . . . . 174 13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . 176 13.4.1.1. P.M. ≡ N(µ, σ) con σ conocido . . . . . . . . . . . . 176
13.4.1.2. P.M. ≡ N(µ, σ) con σ desconocido . . . . . . . . . . 177
13.4.1.3. P.M. ≡ ?(µ, σ) con σ conocido y n > 30 . . . . . . . 178
13.4.1.4. P.M. ≡ ?(µ, σ) con σ conocido y n < 30 . . . . . . . 178 13.4.1.5. P.M. ≡ ?(µ, σ) con σ desconocido y n > 30 . . . . . 179
13.4.1.6. P.M. ≡ ?(µ, σ) con σ desconocido y n < 30 . . . . . 179
13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . 179
13.4.2.1. P.M. ≡ N(µ, σ) con µ desconocido . . . . . . . . . . 179
159
160 13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . 180 13.4.3.1. P.M. Normales con σx y σy conocidas . . . . . . . . . 181 13.4.3.2. P.M. Normales con σx2 = σy2 = σ2 desconocida . . . 181 13.4.3.3. P.M. Normales con σx2 6= σy2 desconocidas . . . . . . 182
13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . 182 13.4.5. Intervalo de confianza para la proporci´ on poblacional . . . . . . 183
13.4.5.1. P.M. Binomial y n > 30 . . . . . . . . . . . . . . . . 184 13.5. Intervalo de confianza asint´ otico . . . . . . . . . . . . . . . . . 185
13 Estimaci´ on puntual y estimaci´ on por intervalo
13.1.
161
Introducci´ on
En el cap´ıtulo anterior hemos calculado la distribuci´on de algunos estad´ısticos y mencionado brevemente que los estad´ısticos se utilizan para estimar los valores de par´ametros desconocidos de una poblaci´on. En este cap´ıtulo se examinar´a con detalle el concepto de estimaci´on de par´ametros mediante la especificaci´on de las propiedades deseables de los estimadores (estad´ısticos), y el desarrollo de t´ecnicas apropiadas para implementar el proceso de estimaci´on. Se utilizar´a el punto de vista de la teor´ıa de muestras, que considera a un par´ametro poblacional como una cantidad fija (nunca una v.a.), pero desconocida. La estimaci´on de un par´ametro de la poblaci´on involucra el uso de los datos muestrales en conjunci´on con alg´ un estad´ıstico. Existen dos formas de realizar la estimaci´on: la estimaci´on puntual y la estimaci´on por intervalo. En la primera, se busca un estimador que, con base en los datos muestrales, d´e origen a una estimaci´on univaluada del valor del par´ametro poblacional, y que recibe el nombre de valor estimado. Para la segunda, se determina un intervalo en el que, en forma probable, se encuentra el valor del par´ametro. Este intervalo recibe el nombre de intervalo de confianza. Antes de entrar en materia, vamos a ver algunas definiciones que ser´an de utilidad. En general, el planteamiento del problema es el siguiente • En una P.M. definida por su funci´on de distribuci´on F (x, θ) existe un par´ametro, θ, cuyo valor es desconocido.
• Para poder asignar un valor a dicho par´ametro θ, extraemos una muestra aleatoria de tama˜ no n, X = {x1 , . . . , xn }.
b = T (X), que supone • Con los datos de la muestra, construimos un estad´ıstico, Θ una simplificaci´on de la informaci´on proporcionada por la muestra.
´ N DE VEROSIMILITUD DE LA MUESTRA FUNCIo Puesto que las n variables aleatorias de la muestra constituyen una v.a. n-dimensional, {x1 , . . . , xn }, se llama funci´on de verosimilitud de la muestra a la funci´on de densidad de dicha v.a. n-dimensional, y se denota por L(x1 , . . . , xn , θ).
∗ Si la P.M. es una v.a. continua con funci´on de densidad f (x, θ), y la muestra es aleatoria simple; entonces las n v.a. son independientes e id´enticamente distribuidas seg´ un la distribuci´on de la P.M. Por tanto, L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ)
162
Estad´ıstica
∗ Si la P.M. es una v.a. discreta, sea como sea la muestra aleatoria, con o sin reemplazamiento,
L(x1 , . . . , xn , θ) = P (de que salga la muestra obtenida) ´ PUNTUAL ESTIMACION b de un par´ametro poblacional θ, es un valor u Una estimaci´on puntual, θ, ´ nico del b Por ejemplo, el valor x¯ del estad´ıstico media muestral, X, ¯ calculado a partir estad´ıstico Θ.
de una muestra de tama˜ no n, es una estimaci´on puntual del par´ametro media poblacional µ.
ESTIMADOR El estad´ıstico que se utiliza para obtener una estimaci´on puntual es un estimador. Por ejemplo, el estad´ıstico varianza muestral, s2 , que es una funci´on de la muestra aleatoria, es un estimador de σ 2 . ESTIMADOR SUFICIENTE Estimador suficiente es el que proporciona la m´axima informaci´on posible sobre el par´ametro poblacional, θ, una vez determinado el tama˜ no n de la muestra. ESTIMADOR CONSISTENTE b es un estimador consistente del par´ametro θ si Se dice que un estad´ıstico, Θ, b − θ| ≤ ǫ) = 1 P (|Θ
cuando
n→∞
ESTIMADOR INSESGADO
b es un estimador insesgado del par´ametro θ si Se dice que un estad´ıstico, Θ, ESTIMADOR SESGADO
b =θ E[Θ]
b es un estimador sesgado del par´ametro θ si Se dice que un estad´ıstico, Θ, y b(θ) recibe el nombre de sesgo.
b = θ + b(θ) E[Θ]
ESTIMADOR EFICIENTE Si se consideran todos los posibles estimadores insesgados de un par´ametro poblacional, θ, aqu´el que tenga la varianza m´as peque˜ na se dir´a que es el estimador m´as eficiente.
13 Estimaci´ on puntual y estimaci´ on por intervalo
13.2.
163
Propiedades deseables de los estimadores puntuales
13.2.1.
Estimador suficiente
Un estad´ıstico T (X) es suficiente, si el conocimiento pormenorizado de los elementos de la muestra no a˜ nade ninguna informaci´on sobre θ que no proporcione la simplificaci´on T (X). Una definici´on m´as t´ecnica ser´ıa que un estad´ıstico T (X) es suficiente respecto al par´ametro θ, si la funci´on de distribuci´on de la muestra, condicionada por un valor del estad´ıstico (o sea, F (X|T (X)=t )) no depende de θ. Ejemplo.- De una P.M. Binomial, desconocemos la proporci´on de ´exitos. Es decir, θ = p es desconocido. Extraemos una m.a.s. de tama˜ no n = 50, {x1 , . . . , x50 }, de tal forma que ( 1 si es ´exito xi = 0 si es fracaso Construyo dos estad´ısticos T1 (X) =
50 X
xi
i=1
T2 (X) = m´ax {xi } Con los datos de la muestra obtenemos los valores de los estad´ısticos t1 = T1 (x) =
50 X
xi = 35
i=1
t2 = T2 (x) = m´ax {xi } = 1 En el primer caso, el hecho de que t1 = 35 significa que en la muestra han aparecido exactamente 35 ´exitos de 50 casos muestreados. Para realizar una estimaci´on de la proporci´on de ´exitos de la poblaci´on, me basta con este dato, podr´ıa suponer de forma razonable que p ≈ 35/50. No necesito conocer cu´ales de los elementos muestreados son
´exitos. Es decir, no necesito conocer de forma pormenorizada el valor de cada uno de los elementos de la muestra. En el segundo caso, sin embargo, el hecho de que t2 = 1 significa que en la muestra ha aparecido al menos un ´exito entre los 50 casos muestreados. En este caso, el conocimiento
164
Estad´ıstica
pormenorizado de los valores de la muestra s´ı a˜ nadir´ıa informaci´on, y bastante, sobre el posible valor de p. Claramente, T1 (X) es un estimador suficiente del par´ametro p, mientras que T2 (X) no lo es.
13.2.2.
Estimador consistente
Como hemos visto en el ejemplo anterior, los valores obtenidos con las muestras nos van a servir para estimar el verdadero valor del par´ametro θ desconocido. As´ı pues, es razonable pensar que un buen estimador debe ser capaz de aproximarse mejor al valor del par´ametro a medida que aumenta el tama˜ no de la muestra. Siguiendo con el ejemplo de la P.M. binomial, si en vez de una muestra de tama˜ no n = 50, saco una muestra de tama˜ no n = 5000, es de esperar que la proporci´on de ´exitos en esta segunda muestra se aproxime m´as al verdadero valor de p que los 35/50 obtenidos con la primera muestra. Sea T (X) un estimador de θ, y sean T1 (X), . . . , Tn (X) una secuencia de estimadores que representan a T con distintos tama˜ nos de muestra 1, . . . , n, respectivamente. Se dice que T es un estimador consistente para θ si l´ım P (|Tn − θ| ≤ ε) = 1
n→∞
Ejemplo.- Tenemos una P.M. con distribuci´on no Normal y media desconocida, es decir, θ = µ. Extraemos muestras de distintos tama˜ nos, y construimos los estad´ısticos n
1X Tn (X) = x¯n = xi n i=1
n = 1, 2, 3, . . .
De cada una de estas v.a. sabemos que E[¯ xn ] = µ y Var(¯ xn ) = σ 2 /n. Por el teorema de Chebychev, p √ 1 1 xn ) ≥ 1 − 2 =⇒ P |¯ P |¯ xn − E[¯ xn ]| ≤ k Var(¯ xn − µ| ≤ kσ/ n ≥ 1 − 2 k k √ n ε, tomando k = σ P (|¯ xn − µ| ≤ ε) ≥ 1 −
σ2 =⇒ l´ım P (|¯ xn − µ| ≤ ε) = 1 n→∞ nε2
Es decir, cuanto mayor es el tama˜ no de la muestra, m´as se aproxima el valor de la media muestral al valor de la media poblacional. Por tanto, la media muestral es un estimador consistente de la media poblacional.
13 Estimaci´ on puntual y estimaci´ on por intervalo
13.2.3.
165
Error cuadr´ atico medio
b se utiliza para estimar el valor de un par´ametro de Puesto que un estimador, Θ,
la poblaci´on, θ, es conveniente que el valor esperado del estimador coincida con el valor del par´ametro que va a estimar. Para que las diferencias negativas no se cancelen con las positivas, se define el Error Cuadr´atico Medio (ECM) como, i h b − θ)2 ECM = E (Θ
b es una v.a. (funci´on de Si desarrollamos esta expresi´on, teniendo en cuenta que Θ
los elementos de la muestra) y θ es una constante (par´ametro desconocido de la P.M.), 2 i h 2 b − E[Θ]) b − (θ − E[Θ]) b b − θ) = E (Θ = ECM = E (Θ 2 2 h i b b b b b b = E Θ − E[Θ] + E θ − E[Θ] − 2(θ − E[Θ])E Θ − E[Θ] = 2 b + θ − E[Θ] b = Var(Θ) −0
Es decir,
i 2 h b + θ − E[Θ] b b − θ)2 = Var(Θ) ECM = E (Θ
El ECM es la suma de dos cantidades no negativas, una es la varianza del estimador y la otra es el cuadrado del sesgo del estimador. Estas dos cantidades est´an relacionadas con las propiedades deseables de un estimador. Por una parte, la varianza (dispersi´on) de un estimador debe ser lo m´as peque˜ na posible y, por otra, el valor esperado del estimador debe coincidir con el valor del par´ametro a estimar. Por tanto, el problema de encontrar el mejor estimador de θ se puede plantear, de forma simplificada, en t´erminos de encontrar el estimador que tenga el ECM m´as peque˜ no de entre todos los estimadores factibles de θ. Sin embargo, en realidad el problema es mucho m´as complicado. Aun si fuese pr´actico calcular el ECM de un gran n´ umero de estimadores, para la mayor´ıa de los par´ametros poblacionales no existe ning´ un estimador que minimice el ECM para todos los posibles b 1 , puede tener un ECM m´ınimo para algunos valores valores de θ. Es decir, un estimador, Θ
b 2 , tendr´a la misma propiedad para otros valores de de θ, mientras que otro estimador, Θ
θ.
166
Estad´ıstica
Ejemplo.- De una P.M. se extrae una m.a.s. {x1 , . . . , xn }, de la cual se sabe que E[xi ] = µ y Var(xi ) = σ 2 ∀i = 1, n. Consideramos dos estimadores de la media n
X b 1 = x¯ = 1 Θ xi n i=1 n
Entonces n 1X b E[Θ1 ] = E[xi ] = µ n i=1
b2 = Θ
1 X xi n + 1 i=1
b 1) = =⇒ ECM(Θ
n X σ2 b 1) = 1 Var( Θ Var(x ) = i n2 i=1 n
n 1 X n b E[Θ2 ] = µ E[xi ] = n + 1 i=1 n+1
n X 1 n b Var(xi ) = σ2 Var(Θ2 ) = (n + 1)2 2 (n + 1) i=1
σ2 n
b 2) = =⇒ ECM(Θ
µ2 + nσ 2 (n + 1)2
Si n = 10 y σ 2 = 100, entonces,
b 1 ) = 10 ECM(Θ 2 b 2 ) = µ + 1000 ECM(Θ 121
Al igualar ambas expresiones y resolver para µ, se tiene que si µ < si µ >
√
√
b 1 ) > ECM(Θ b 2) 210 =⇒ ECM(Θ b 1 ) < ECM(Θ b 2) 210 =⇒ ECM(Θ
Por esta raz´on, se deben examinar criterios adicionales para la selecci´on de los estimadores de θ, aun cuando el error cuadr´atico medio es el concepto m´as importante.
13.2.4. que
Estimador insesgado
b es un estimador insesgado del par´ametro θ, si cumple Se dice que un estimador Θ b =θ E[Θ]
13 Estimaci´ on puntual y estimaci´ on por intervalo
167
para todos los posibles valores de θ. De esta forma, para cualquier estimador insesgado, b se cumple que ECM=Var(Θ). b Como vimos en el cap´ıtulo anterior, sea como sea la Θ,
P.M., la esperanza de la media muestral coincide con la media poblacional. Por tanto, la
media de la muestra, x¯, es un estimador insesgado de µ.
Si un estimador no es insesgado, se dice que es sesgado, y se llama sesgo a la funci´on b − θ. El sesgo puede ser positivo, lo cual implica que el estimador en (no v.a.) b(θ) = E[Θ]
cuesti´on est´a sobrevalorando, en media, el valor de θ; o puede ser negativo, lo cual implica que el estimador en cuesti´on est´a infravalorando, en media, el valor de θ.
Ejemplo.- De una P.M.≡ N(µ, σ) extraemos una m.a.s., {x1 , . . . , xn }, y construimos dos
estimadores de la varianza,
n
b 1 = s2 = Θ
1 X (xi − x¯)2 n − 1 i=1
n
X b2 = 1 Θ (xi − x¯)2 n i=1
En la secci´on 12.4 vimos que, si la poblaci´on es Normal, entonces (n − 1)s2 /σ 2 ≡
χ2n−1 . Por tanto,
b 1 ] = E[s2 ] = E[Θ
σ2 E[χ2n−1 ] = σ 2 n−1
n−1 2 1 n−1 b E[Θ1 ] = σ = σ2 − σ2 n n n P 2 2 b 1 = s = (xi − x¯) /(n − 1) es un estimador Por tanto, la varianza muestral, Θ b 2 = P(xi − x¯)2 /n es un insesgado de la varianza de la poblaci´on, σ 2 . En cambio, Θ b 2 es b(θ) = −θ/n < 0, es decir, el estimador estimador sesgado de σ 2 . Adem´as, el sesgo de Θ b 2] = E[Θ
b 2 est´a infravalorando, en media, el verdadero valor de la varianza de la poblaci´on σ 2 . Θ
Esta es la raz´on por la cual se define la varianza muestral con el dividendo igual a n − 1
en vez de igual a n. Por u ´ ltimo, hay que se˜ nalar que el hecho de que s2 sea un estimador insesgado de σ 2 , no implica que s sea un estimador insesgado de σ (ver Sec. 12.7).
13.2.5.
Estimador eficiente
Sin perder de vista el hecho de que estamos buscando aquellos estimadores con ECM b m´ınimo, si consideramos los estimadores insesgados, para ellos se cumple ECM=Var(Θ).
Por tanto, el problema se reduce a encontrar un estimador insesgado que tenga varianza b es un estimador insesgado de varianza m´ınima. En general, se dice que el estimador Θ
168
Estad´ıstica
b = θ), y Var(Θ) b es menor que la varianza de m´ınima uniforme de θ, si es insesgado (E[Θ] cualquier otro estimador de θ para todos los posibles valores de θ.
La varianza de un estimador insesgado es la cantidad m´as importante para decidir b1 y Θ b 2 son dos estimadores c´omo de bueno es el estimador para estimar θ. Por ejemplo, si Θ
b 1 es m´as eficiente que Θ b 2 si Var(Θ b 1 ) ≤Var(Θ b 2 ), cumpli´endose insesgados de θ, se dice que Θ
la desigualdad en el sentido estricto para alg´ un valor de θ. Es muy com´ un utilizar el b 1 )/Var(Θ b 2 ) para determinar la eficiencia relativa de Θ b 1 respecto a Θ b 2 . Si cociente Var(Θ
los estimadores son sesgados, las eficiencias relativas se calculan con los respectivos errores cuadr´aticos medios.
Pero, dicho todo esto, seguimos teniendo un problema. Una vez que tenemos un estimador y conocemos su varianza, ¿c´omo podemos saber si existe otro estimador con una varianza m´as peque˜ na? Para resolverlo, recurrimos al siguiente teorema. 13.2.5.1.
Teorema (Cota de Cram´ er-Rao)
Dada una P.M. con funci´on de densidad f (x, θ) y una muestra aleatoria simple de b es un estimador de θ, entonces se cumple tama˜ no n, {x1 , . . . , xn }, si Θ b ≥ Var(Θ)
E
(1 + b′ (θ))2
∂Ln L(x1 , . . . , xn , θ) ∂θ
2 =
(1 + b′ (θ))2 − (1 + b′ (θ))2 " # 2 = 2 ∂ Ln f (x, θ) ∂Ln f (x, θ) nE nE ∂2θ ∂θ
b y L(x1 , . . . , xn , θ) la funci´on de verosimilitud de la muestra. siendo b(θ) el sesgo de Θ
La primera expresi´on a la derecha de la desigualdad se conoce como cota de Cram´erRao. El resto de igualdades representan distintas versiones, generalmente m´as sencillas
de calcular, de dicha cota. Lo primero que debemos observar es que, si el estimador es insesgado, entonces b(θ) = 0. La cota de Cram´er-Rao establece un l´ımite inferior para la varianza de cualquier estimador de θ. Esto no implica necesariamente que deba existir un estimador de θ cuya varianza coincida con la cota de Cram´er-Rao. Es decir, es posible encontrar un estimador de θ que tenga la varianza m´as peque˜ na posible de entre todos los estimadores de θ, pero cuya varianza sea m´as grande que el l´ımite inferior establecido por la cota de Cram´er-Rao. Este estimador, en el caso de que adem´as fuera insesgado, seguir´ıa siendo un estimador insesgado de varianza m´ınima uniforme para θ. Un estimador cuya varianza coincide con la cota de Cram´er-Rao se dice que es un estimador eficiente. Si, adem´as, es insesgado, se llama estimador de eficiencia absoluta o
13 Estimaci´ on puntual y estimaci´ on por intervalo
169
completa. De esta forma, un estimador de θ de eficiencia absoluta es el mejor estimador de θ que se puede encontrar. Ejemplo.- De una P.M.≡ N(µ, σ), con σ conocido y θ = µ desconocido, se extrae una m.a.s. de tama˜ no n, {x1 , . . . , xn }. Como estimador de la media de la poblaci´on, utilizamos la media muestral
n
X b = x¯ = 1 Θ xi n i=1
√ de la que sabemos que su distribuci´on es x¯ ≡ N(µ, σ/ n ). Por tanto, E[¯ x] = µ = θ =⇒ es insesgado =⇒ b(θ) = 0 σ2 Var(¯ x) = n Vamos a calcular la cota de Cram´er-Rao (CCR) de los estimadores insesgados de la media de una poblaci´on Normal. CCR = nE
"
1 ∂Ln f (x, θ) ∂θ
2 # =
−1 ∂ Ln f (x, θ) nE ∂2θ
2
Como P.M.≡ N(µ, σ), su funci´on de densidad es de la forma 1 2 1 f (x, θ) = √ e− 2σ2 (x−θ) σ 2π
entonces Ln f (x, θ) = Ln
1 √ σ 2π
−
1 (x − θ)2 2σ 2
∂Ln f (x, θ) 1 = 2 (x − θ) ∂θ σ 1 ∂ 2 Ln f (x, θ) =− 2 2 ∂ θ σ
Por tanto,
∂ 2 Ln f (x, θ) 1 1 E =E − 2 =− 2 2 ∂ θ σ σ
CCR =
Es decir,
σ2 −1 = n ∂ 2 Ln f (x, θ) nE 2 ∂ θ
Var(¯ x) = CCR
170
Estad´ıstica
y, adem´as, x¯ es insesgado. Entonces, la media muestral de una poblaci´on Normal es un estimador de eficiencia absoluta de la media poblacional. Por u ´ ltimo, hay que se˜ nalar que, como se ha visto en este ejemplo, para calcular la cota de Cram´er-Rao es necesario conocer la distribuci´on de la P.M.
13.3.
M´ etodos de estimaci´ on puntual
En las secciones anteriores hemos comentado ampliamente las propiedades que debe tener un buen estimador. Incluso hemos visto, a trav´es de los ejemplos, que un estimador de la media poblacional podr´ıa ser la media muestral, un estimador de la varianza poblacional podr´ıa ser la varianza muestral, y un estimador de la proporci´on de ´exitos de la poblaci´on podr´ıa ser la proporci´on de ´exitos de la muestra. Pero, ¿qu´e ocurre si el par´ametro θ de la poblaci´on no es ni su media, ni su varianza ni su proporci´on de ´exitos? Por ejemplo, si la P.M. tiene una funci´on de densidad θ f (x, θ) = x ≥ 0, θ > 0 (1 + x)1+θ En este caso, θ no es ninguno de los par´ametros “conocidos”, por tanto, en un principio, no tenemos ninguna pista sobre c´omo podr´ıa ser un estimador de θ. En esta secci´on vamos a dar dos m´etodos para obtener un estimador de cualquier par´ametro poblacional θ.
13.3.1.
M´ etodo de m´ axima verosimilitud
La idea en la que se basa este m´etodo es muy sencilla y, adem´as, bastante l´ogica. Si de una poblaci´on cualquiera he obtenido una muestra en particular, es razonable pensar que la muestra obtenida es la que mayor probabilidad ten´ıa de salir. Veamos esta idea con un ejemplo Ejemplo.- Una urna contiene bolas rojas y blancas con una proporci´on de bolas rojas, p, desconocida. Extraemos 10 bolas con reemplazamiento (m.a.s. de tama˜ no n = 10) con el resultado de 3 bolas rojas y 7 blancas. Parece l´ogico pensar que el hecho de que en la muestra aparezcan 3 bolas rojas de 10 es porque, seg´ un la proporci´on real de bolas rojas que hay en la urna, es m´as probable que salgan 3 rojas a que salgan 5 o´ 9. Es decir, la muestra que ha salido es la que mayor probabilidad ten´ıa de salir. Vamos a trasladar este razonamiento a n´ umeros. La probabilidad de que salga la muestra que ha salido (o sea, la funci´on de verosimilitud de la muestra) es 10 L(p) = p3 (1 − p)7 P R3,7 = p3 (1 − p)7
10! 3! 7!
13 Estimaci´ on puntual y estimaci´ on por intervalo
171
Para calcular el valor de p que hace que esta probabilidad sea m´axima, basta con derivar respecto de p e igualar a 0. 10! ∂L(p) 2 10! = 3p (1 − p)7 − 7p3 (1 − p)6 = p2 (1 − p)6 [3 − 10p] =0 ∂p 3! 7! 3! 7!
Entonces, se pueden dar 3 casos • p=0
• p=1
imposible, pues hay al menos una bola roja imposible, pues hay al menos una bola blanca
∂ 2 L(p) • p = 3/10 adem´as, <0 ∂ 2 p p=3/10
Es decir, si en la muestra han salido 3 bolas rojas de las 10 muestreadas, el valor de p que hace de esta muestra la m´as probable es p = 3/10. Ahora, vamos a generalizar este ejemplo al caso de una P.M. cualquiera, con funci´on de densidad f (x, θ), siendo θ un par´ametro cualquiera de la poblaci´on. Extraemos una m.a.s. de tama˜ no n, {x1 , . . . , xn }. La funci´on de verosimilitud de la muestra, por ser muestra extra´ıda con reemplazamiento, viene dada por
L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ) La m´axima verosimilitud puede obtenerse derivando L con respecto a θ e igualando a cero. Para ello, es conveniente tomar primero logaritmos y luego derivar, ya que la funci´on logaritmo es estrictamente creciente. As´ı, obtenemos θ en t´erminos de los xi . El m´etodo puede generalizarse para el caso en que existan varios par´ametros poblacionales a estimar. Ahora, se toman las derivadas parciales respecto a cada uno de los par´ametros, se igualan a cero y se resuelven las ecuaciones resultantes. Ejemplo.- De una P.M. con funci´on de densidad f (x, θ) =
θ (1 + x)1+θ
x ≥ 0, θ > 0
b de θ. La extraemos una m.a.s. de tama˜ no n, {x1 , . . . , xn }, para calcular un estimador, Θ, funci´on de verosimilitud de la muestra es
L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ) =
θn
n Y i=1
(1 + xi )1+θ
172
Estad´ıstica Antes de derivar, tomamos logaritmos n n Y X 1+θ Ln L(x1 , . . . , xn , θ) = Ln θ − Ln (1 + xi ) = nLn θ − (1 + θ) Ln (1 + xi ) n
i=1
i=1
n
∂Ln L(x1 , . . . , xn , θ) n X b= = − Ln (1 + xi ) = 0 =⇒ Θ n X ∂θ θ i=1
n Ln (1 + xi )
i=1
∂ 2 Ln L(x1 , . . . , xn , θ) n =− <0 2 b2 ∂ θ b Θ θ=Θ
Por tanto, el estimador de m´axima verosimilitud (EMV) de θ viene dado por b= Θ
n n X
Ln (1 + xi )
i=1
Hay que se˜ nalar que no siempre es posible aplicar el m´etodo de m´axima verosimilitud para calcular un estimador (ver Sec. 13.3.2).
13.3.2.
Propiedades de los estimadores de m´ axima verosimilitud
En esta secci´on vamos a enumerar una serie de propiedades o teoremas que verifican los estimadores de m´axima verosimilitud (EMV), comenzando con una definici´on sobre las condiciones en las que se puede aplicar el m´etodo de m´axima verosimilitud. • Condiciones de regularidad de Fisher-Wolfowitz 1.- La P.M. de la que procede la muestra tiene un campo de variaci´on que no depende del par´ametro θ, y, por tanto, la muestra tampoco. 2.- La funci´on de verosimilitud de la muestra admite, por lo menos, las derivadas de primer y segundo orden respecto del par´ametro θ. 3.- Las operaciones de derivaci´on e integraci´on (o suma, en el caso de v.a. discretas) son intercambiables. • Bajo condiciones de regularidad, los EMV son consistentes. b entonces el EMV de θ es fun• Si un par´ametro θ posee un estimador suficiente, Θ, b Esto no implica que todos los EMV sean suficientes, pues no todos los ci´on de Θ. par´ametros poblacionales poseen un estimador suficiente.
13 Estimaci´ on puntual y estimaci´ on por intervalo
173
• Los EMV no siempre son insesgados, pero s´ı son asint´oticamente insesgados, es decir l´ım b(θ) = 0
n→∞
• Bajo condiciones de regularidad, si existe un estimador eficiente de θ, ´este coincide con el obtenido por el m´etodo de m´axima verosimilitud. De nuevo, esto no implica que todos los EMV sean eficientes. • Bajo condiciones de regularidad, los EMV son asint´oticamente eficientes y asint´otib es el EMV de θ, entonces camente Normales. Es decir, si Θ b ≡ N θ, p 1 l´ım Θ I(θ)
n→∞
siendo
I(θ) = E
"
!
∂Ln L(x1 , . . . , xn , θ) ∂θ
2 #
b es el EMV de θ, entonces g(Θ) b es el EMV de g(θ), siempre que g sea continua • Si Θ y biun´ıvoca.
13.3.3.
M´ etodo de los momentos
Este m´etodo consiste en igualar los momentos de la distribuci´on de la P.M., con los correspondientes momentos muestrales, teniendo en cuenta que, para una m.a.s. de tama˜ no n, {x1 , . . . , xn }, el momento centrado en el origen de orden r es n
1X r mr = x n i=1 i Ejemplo.- De una P.M. con funci´on de densidad f (x, θ) =
θ (1 + x)1+θ
x ≥ 0, θ > 0
b de θ. extraemos una m.a.s. de tama˜ no n, {x1 , . . . , xn }, para calcular un estimador, Θ, Los momentos de primer orden de la poblaci´on y la muestra son, Z +∞ Z +∞ θ 1 E[P.M.] = xf (x, θ) dx = x dx = (θ > 1) 1+θ (1 + x) θ−1 −∞ 0 n
1X xi m1 = n i=1
174
Estad´ıstica
e, igualando,
n
1 1X b= n xi =⇒ Θ = n X θ−1 n i=1
+1 xi
i=1
Como se puede comprobar, el estimador obtenido por el m´etodo de m´axima verosimilitud puede no coincidir con el obtenido por el m´etodo de los momentos.
13.4.
Estimaci´ on por intervalo de confianza
En lugar de hacer una estimaci´on puntual del par´ametro poblacional θ, se pretende dar un intervalo en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de θ. Es decir, un intervalo de confianza del par´ametro θ es de la forma θb − e < θ < θb + e
donde, generalmente, θb es una estimaci´on puntual de θ, obtenida con el estimador puntual b Se llama amplitud del intervalo o margen de error, al tama˜ Θ. no del intervalo, 2e. Cuando calculamos un intervalo para un par´ametro poblacional θ, tambi´en debemos
dar una medida de la bondad de la estimaci´on, es decir, la probabilidad de que el valor del par´ametro θ se encuentre realmente dentro del intervalo construido. As´ı, si P (θb − e < θ < θb + e) = 1 − α
decimos que el intervalo (θb − e, θb + e) es un intervalo de confianza del (1 − α)100 %. La fracci´on (1 − α) recibe el nombre de coeficiente de confianza o grado de confianza; y los puntos extremos, θb − e y θb + e, se llaman l´ımites de confianza. Se llama nivel de significaci´on (N.S.) a la probabilidad de que el verdadero valor de
θ est´e fuera del intervalo de confianza, es decir
N.S. = α100 % De esta forma, tenemos distintos niveles de significaci´on, seg´ un el grado de confianza obtenido. Algunos de ellos tienen nombre propio, por ejemplo • Confianza Casi Significativa Confianza = 1 − α = 95 % N.S. = α = 5 %
13 Estimaci´ on puntual y estimaci´ on por intervalo
175
• Confianza Significativa Confianza = 1 − α = 99 % N.S. = α = 1 %
• Confianza Muy Significativa Confianza = 1 − α = 99.5 % N.S. = α = 0.5 %
Por u ´ ltimo, se habla de seguridad estad´ıstica cuando se trabaja con un intervalo de confianza del tipo θb − 3σΘb < θ < θb + 3σΘb
b siendo σΘb la desviaci´on t´ıpica del estad´ıstico Θ.
En las secciones siguientes vamos a construir el intervalo de confianza de varios
par´ametros poblacionales tales como la media, la varianza o la proporci´on de ´exitos, siguiendo siempre el mismo esquema: 1.- Se definir´a la distribuci´on de la P.M. b del par´ametro poblacional θ. Si es posible, 2.- Se definir´a un estimador puntual, Θ, estimador insesgado.
b En cualquier caso, se 3.- Cuando sea posible, se definir´a la distribuci´on de la v.a. Θ. b y σ 2 =Var(Θ). b contar´a con la media y la varianza del estimador, µ b =E(Θ) Θ
b Θ
4.- Fijado un nivel de confianza, (1 − α)100 %, se construir´a un intervalo de confianza, partiendo de el hecho de que
b − θ| ≤ k) = 1 − α P (|Θ
b sea conocida, buscaremos en las tablas apropiadas el Cuando la distribuci´on de Θ b sea desconocida, calcularemos k aplicando valor de k y, cuando la distribuci´on de Θ
el teorema de Chebychev.
176
Estad´ıstica
13.4.1.
Intervalo de confianza para la media
Dada un P.M. con media µ, como estimador puntual de la media de la poblaci´on, se utiliza la media de la muestra n
1X x¯ = xi n i=1 13.4.1.1.
P.M. ≡ N(µ, σ) con σ conocido
Si tenemos una muestra de tama˜ no n, entonces el estad´ıstico media muestral sigue √ una distribuci´on x¯ ≡ N(µ, σ/ n ). Tipificando la variable, x¯ − µ √ ≡ N(0, 1) σ/ n entonces,
es decir
x¯ − µ P −zα/2 < √ < zα/2 = 1 − α σ/ n σ σ P x¯ − √ zα/2 < µ < x¯ + √ zα/2 = 1 − α n n
siendo zα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una N(0, 1) (Fig. 13.1). Por tanto, una estimaci´on puntual de la media poblacional µ, se obtiene seleccionando una muestra aleatoria simple de tama˜ no n, y calculando su media x¯. Mientras que un intervalo de confianza del (1 − α)100 % para la media poblacional viene dado por σ σ x¯ − √ zα/2 < µ < x¯ + √ zα/2 n n La semiamplitud del intervalo es σ e = √ zα/2 n Si e es un dato del problema, podemos determinar el tama˜ no de la muestra adecuado al nivel de confianza pedido, por medio de la expresi´on 2 σ zα/2 n= e
13 Estimaci´ on puntual y estimaci´ on por intervalo
177
Figura 13.1: P (−zα/2 < N(0, 1) < zα/2 ) = 1 − α 13.4.1.2.
P.M. ≡ N(µ, σ) con σ desconocido
Si x¯ y s son la media y la desviaci´on t´ıpica de una muestra aleatoria simple de tama˜ no n obtenida de una poblaci´on Normal con varianza σ 2 desconocida, entonces x¯ − µ √ ≡ tn−1 s/ n entonces, P es decir
−tα/2
x¯ − µ < √ < tα/2 s/ n
= 1−α
s s P x¯ − √ tα/2 < µ < x¯ + √ tα/2 = 1 − α n n
siendo tα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una tn−1 (Fig. 13.2). Por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional
viene dado por
s s x¯ − √ tα/2 < µ < x¯ + √ tα/2 n n
178
Estad´ıstica
Figura 13.2: P (−tα/2 < tn−1 < tα/2 ) = 1 − α 13.4.1.3.
P.M. ≡ ?(µ, σ) con σ conocido y n > 30
Aun cuando la forma de la P.M. sea desconocida o no Normal, si el tama˜ no de la muestra es suficientemente grande, n > 30, sabemos que x¯ − µ ∼ √ = N(0, 1) σ/ n y, por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional viene dado por
σ σ x¯ − √ zα/2 < µ < x¯ + √ zα/2 n n 13.4.1.4.
P.M. ≡ ?(µ, σ) con σ conocido y n < 30
Del estad´ıstico media muestral s´olo sabemos que su esperanza es E[¯ x] = µ y su varianza es Var(¯ x) = σ 2 /n, pero no conocemos su distribuci´on, por lo que s´olo podemos aplicar el Teorema de Chebychev. P
σ σ x¯ − √ k < µ < x¯ + √ k n n
≥ 1 − αk
13 Estimaci´ on puntual y estimaci´ on por intervalo
179
siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media poblacional viene dado por
σ σ x¯ − √ k < µ < x¯ + √ k n n 13.4.1.5.
P.M. ≡ ?(µ, σ) con σ desconocido y n > 30
Si x¯ y s son la media y la desviaci´on t´ıpica de una muestra aleatoria simple de tama˜ no n > 30 obtenida de una poblaci´on desconocida o no Normal, con varianza σ 2 desconocida, entonces se puede aproximar σ 2 ≃ s2 y,
x¯ − µ ∼ √ = N(0, 1) s/ n
y, por tanto, un intervalo de confianza del (1 − α)100 % para µ es s s x¯ − √ zα/2 < µ < x¯ + √ zα/2 n n 13.4.1.6.
P.M. ≡ ?(µ, σ) con σ desconocido y n < 30
Es el u ´ nico caso en el que no poseemos herramientas suficientes para obtener un intervalo de confianza v´alido para la media. En cualquier caso, como estimaci´on puntual de µ, siempre es v´alida la media muestral, sea cual sea el tama˜ no de la muestra.
13.4.2.
Intervalo de confianza para la varianza
13.4.2.1.
P.M. ≡ N(µ, σ) con µ desconocido
Dada un P.M.≡ N(µ, σ) con media µ desconocida, como estimador puntual de la varianza de la poblaci´on, se utiliza la varianza de la muestra n
1 X s = (xi − x¯)2 n − 1 i=1 2
En la secci´on 12.4, comprobamos que
(n − 1)s2 ≡ χ2n−1 2 σ Entonces, se puede escribir (n − 1)s2 2 2 < χα/2 = 1 − α P χ1−α/2 < σ2
180
Estad´ıstica
Figura 13.3: P (χ21−α/2 < χ2n−1 < χ2α/2 ) = 1 − α o bien 2
P
(n − 1)s (n − 1)s < σ2 < 2 χα/2 χ21−α/2
2
!
= 1−α
donde χ21−α/2 y χ2α/2 son los valores de la distribuci´on χ2n−1 que dejan a´reas de 1 − α/2 y α/2, respectivamente, a su derecha (Fig. 13.3)
Por tanto, un intervalo de confianza del (1 − α)100 % para la varianza muestral de
una poblaci´on Normal viene dado por
(n − 1)s2 (n − 1)s2 2 < σ < χ2α/2 χ21−α/2
13.4.3.
Intervalo de confianza para la diferencia de medias
Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡
N(µy , σy ). De cada una de ellas extraemos una muestra de tama˜ nos n y m, respectivamen√ te. El estad´ıstico media de la primera muestra ser´a x¯ ≡ N (µx , σx / n), y el estad´ıstico √ media de la segunda muestra ser´a y¯ ≡ N (µy , σy / m)
13 Estimaci´ on puntual y estimaci´ on por intervalo
181
Una estimaci´on puntual de la diferencia de medias, (µx − µy ), viene dada por la
diferencia de las medias de las muestras,
n
x¯ − y¯ =
m
1X 1 X xi − yi n i=1 m i=1
Para obtener un intervalo de confianza, debemos tener en cuenta si las varianzas son conocidas. 13.4.3.1.
P.M. Normales con σx y σy conocidas
En este caso, (¯ x − y¯) − (µx − µy ) q ≡ N(0, 1) σy2 σx2 + n m
Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es (¯ x − y¯) − 13.4.3.2.
r
σx2 σy2 + zα/2 < µx − µy < (¯ x − y¯) + n m
r
σx2 σy2 + zα/2 n m
P.M. Normales con σx2 = σy2 = σ 2 desconocida
En este caso, hemos visto que (¯ x − y¯) − (µx − µy ) r ≡ tn+m−2 1 1 Sp + n m
siendo
Sp =
s
(n − 1)s2x + (m − 1)s2y n+m−2
Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es
(¯ x − y¯) − Sp
r
1 1 + tα/2 < (µx − µy ) < (¯ x − y¯) + Sp n m
r
1 1 + tα/2 n m
siendo tα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una tn+m−2 .
182
Estad´ıstica
13.4.3.3.
P.M. Normales con σx2 6= σy2 desconocidas
En este caso, hemos visto que (¯ x − y¯) − (µx − µy ) ∼ r = tγ s2x s2y + n m
siendo
s2y s2x (A + B)2 A= , B= γ= B2 A2 n m + n−1 m−1 Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es (¯ x − y¯) −
r
s2x s2y + tα/2 < (µx − µy ) < (¯ x − y¯) + n m
r
s2x s2y + tα/2 n m
siendo tα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una tγ
13.4.4.
Intervalo de confianza para el cociente de varianzas
Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡
N(µy , σy ). De cada una de ellas extraemos una muestra de tama˜ nos n y m, respectivamente. Sean s2x y s2y las varianzas de las muestras. Una estimaci´on puntual del cociente de varianzas, σx2 /σy2 , viene dada por el cociente de las varianzas de las muestras
s2x s2y
1 n−1
= 1 m−1
n X
(xi − x¯)2
i=1 m X i=1
(yi − y¯)2
Para obtener un intervalo de confianza, consideramos el estad´ıstico s2x /σx2 ≡ Fn−1,m−1 s2y /σy2 Entonces, P
s2 /σ 2 f1−α/2 (n − 1, m − 1) < x2 x2 < fα/2 (n − 1, m − 1) sy /σy
=1−α
siendo f1−α/2 (n − 1, m − 1) y fα/2 (n − 1, m − 1), los n´ umeros reales que dejan un a´rea de 1 − α/2 y α/2 unidades a su derecha, respectivamente, en una Fn−1,m−1 (Fig. 13.4). O bien,
13 Estimaci´ on puntual y estimaci´ on por intervalo
183
Figura 13.4: P (f1−α/2 < Fn−1,m−1 < fα/2 ) = 1 − α
P
s2x 1 σx2 1 s2x < < s2y fα/2 (n − 1, m − 1) σy2 s2y f1−α/2 (n − 1, m − 1)
=1−α
Utilizando las propiedades de la distribuci´on F-Snedecor, tambi´en se puede escribir como P
s2x s2x 1 σx2 < fα/2 (m − 1, n − 1) < s2y fα/2 (n − 1, m − 1) σy2 s2y
= 1−α
Entonces un intervalo de confianza del (1 − α)100 % para el cociente de varianzas
poblacionales viene dado por
s2x s2x σx2 1 < fα/2 (m − 1, n − 1) < s2y fα/2 (n − 1, m − 1) σy2 s2y
13.4.5.
Intervalo de confianza para la proporci´ on poblacional
Partimos de una P.M. Binomial de par´ametro p, es decir, p es la proporci´on de ´exitos de la Poblaci´on. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores ( 1 si es ´exito xi = 0 si es fracaso
184
Estad´ıstica
es decir, cada v.a. xi ≡ B(1, p) Sean las v.a.
X ≡ n´ umero de ´exitos de la muestra pb ≡ proporci´on de ´exitos de la muestra
Una estimaci´on puntual de la proporci´on de ´exitos de la poblaci´on viene dada por la proporci´on de ´exitos de la muestra n
1X pb = xi n i=1
Para encontrar un intervalo de confianza, tenemos en cuenta el tama˜ no de la muestra. 13.4.5.1.
P.M. Binomial y n > 30
Si el tama˜ no de la muestra es suficientemente grande, entonces pb ≃ N p,
y,
r
p(1 − p) n
pb − p = 1−α r P −z < < z α/2 α/2 p(1 − p) n
Por tanto, P
!
pb −
r
p(1 − p) zα/2 < p < pb + n
r
p(1 − p) zα/2 n
!
= 1−α
Podr´ıamos decir que un intervalo de confianza del (1 − α)100 % para la proporci´on
de ´exitos de la poblaci´on viene dado por r r p(1 − p) p(1 − p) pb − zα/2 < p < pb + zα/2 n n
pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular los l´ımites del intervalo. Para resolver este problema se puede proceder de dos formas.
13 Estimaci´ on puntual y estimaci´ on por intervalo
185
• Una soluci´on consiste en aproximar el valor de p por el valor de la proporci´on
muestral. Por tanto, un intervalo de confianza del (1 − α)100 % para la proporci´on de ´exitos de la poblaci´on viene dado por pb −
r
pb(1 − pb) zα/2 < p < pb + n
r
pb(1 − pb) zα/2 n
• Otro m´etodo consiste en utilizar como valor aproximado del producto p(1 − p), su m´aximo valor posible. As´ı,
y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p =
1 1 ⇒ p(1 − p) = 2 4
Entonces, un intervalo de confianza del (1 − α)100 % para la proporci´on de ´exitos
viene dado por
pb −
13.5.
r
1 zα/2 < p < pb + 4n
r
1 zα/2 4n
Intervalo de confianza asint´ otico
b MV es su estimador de m´axima Si θ es cualquier par´ametro de una poblaci´on, Θ b MV es asint´otiverosimilitud y θbMV es su estimaci´on de m´axima verosimilitud entonces, Θ
camente Normal con par´ametros
b MV ] −→ θ µΘb MV = E[Θ
2 σΘ b
MV
b MV ) −→ = Var(Θ
−1 ∂ LnL(x1 , . . . , xn ; θ) b ∂θ2 θ=θMV 2
donde LnL(x1 , . . . , xn ; θ) es el logaritmo neperiano de la funci´on de verosimilitud de la muestra. Por tanto, si la muestra es suficientemente grande, podemos construir un intervalo de confianza para el par´ametro θ de la forma habitual, teniendo en cuenta que b MV − µ b Θ ΘMV ∼ = N(0, 1) σΘb MV
entonces P
−zα/2
b MV − µ b Θ ΘMV < < zα/2 σΘb MV
!
=1−α
186
Estad´ıstica
es decir, θbMV − zα/2 σΘb MV < θ < θbMV + zα/2 σΘb MV
Un inconveniente de este m´etodo general es que la convergencia de la distribuci´on de b MV hacia la Normal puede ser muy lenta y entonces el intervalo de confianza ser´a poco Θ
preciso. Esto no ocurre cuando θ es un par´ametro de centralizaci´on.
Ejemplo.- Vamos a obtener el intervalo de confianza asint´otico del par´ametro λ de una poblaci´on Exponencial Dada la P.M. = X ≡ Exp(λ), entonces f (x, λ) = λe−λx 1 1 µ = E[X] = σ 2 = Var(X) = 2 λ λ i) Obtenemos el estimador de m´axima verosimilitud de λ La funci´on de verosimilitud de una muestra de tama˜ no n es L(x1 , . . . , xn ; λ) = f (x1 , λ) × · · · × f (xn , λ) = λn e−λ
P
xi
Obtenemos el logaritmo neperiano Ln L(x1 , . . . , xn ; λ) = nLn λ − λ Entonces n P ∂Ln L = − xi = 0 ∂λ λ
1 n b λMV = P = xi x¯
ii) Realizamos las aproximaciones bMV ] ≃ λ E[λ
bMV ) ≃ Var(λ
n−λ
=⇒
−1 ∂ LnL ∂λ2 2
bMV λ=λ
=
P
P
xi
xi = 0
=⇒
1 −1 = n n¯ x2 − 2 λ λ=λbMV
iii) Si el tama˜ no de la muestra es suficientemente grande, un intervalo de confianza del (1 − α) % para el par´ametro λ de una poblaci´on Exponencial es 1 1 1 1 − zα/2 √ < λ < + zα/2 √ x¯ x¯ n x¯ x¯ n
14
Teor´ıa de muestras de poblaci´on finita
´Indice 14.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 14.2. Distribuciones de muestreo
. . . . . . . . . . . . . . . . . . . . 189
14.2.1. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . 189 14.2.2. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . 191 14.2.3. Estad´ıstico proporci´ on muestral . . . . . . . . . . . . . . . . . . 193 14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . 194 14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . 194 14.3.1.1. P.M. ≡ ?(µ, σ) con σ conocido . . . . . . . . . . . . . 195
14.3.1.2. P.M. ≡ ?(µ, σ) con σ desconocido . . . . . . . . . . . 195
14.3.2. Intervalo de confianza para la proporci´ on poblacional . . . . . . 195
187
188
Estad´ıstica
14.1.
Introducci´ on
A lo largo de este cap´ıtulo supondremos que la muestra aleatoria se ha realizado sin reemplazamiento o, lo que es equivalente, se han extra´ıdo los n elementos a la vez. Es importante resaltar dos cosas: • Si la muestra se extrae sin reemplazamiento, las v.a. {x1 , . . . , xn } que representan a la muestra no son independientes, pues cada extracci´on depende de las extracciones
anteriores y, adem´as, no est´an id´enticamente distribuidas, pues en cada extracci´on la configuraci´on de la poblaci´on es distinta. Por tanto, por muy grande que sea el tama˜ no de la muestra, en ning´ un caso estaremos en condiciones de aplicar el Teorema de Levy-Lindeberg. Es decir, en ning´ un caso podremos aproximar la distribuci´on del estad´ıstico muestral por una distribuci´on Normal. Por otra parte, el conocimiento de la distribuci´on poblacional es, en la mayor´ıa de los casos, irrelevante. • Aunque la diferencia te´orica entre la teor´ıa de poblaci´on infinita y poblaci´on finita
radica en el m´etodo de extracci´on de la muestra (con o sin reemplazamiento), en la pr´actica, casi todas las muestras se realizan sin reemplazamiento. Al fin y al cabo ser´ıa una p´erdida de tiempo y de dinero inspeccionar dos veces el mismo elemento de la poblaci´on. ¿C´omo se diferencian entonces en la pr´actica? Veamos un ejemplo. Supongamos que queremos estimar la proporci´on de ´exitos, p1 y p2 , de dos poblaciones. En el primer caso, la poblaci´on la constituyen los 34 millones de espa˜ noles con derecho a voto. Extraemos una muestra aleatoria, sin reemplazamiento, de 1000 personas. Extraemos el primer elemento, lo examinamos, y lo dejamos fuera. Cuando vamos a extraer el segundo elemento, la poblaci´on consta de 34.000.000 − 1 ≃ 34.000.000 elementos y la proporci´on de ´exitos de la “nueva” poblaci´on es ≃ p1 , por tanto, podemos considerar que x1 y x2 provienen de la misma P.M. y, adem´as, son independientes. Cuando vamos a extraer el tercer elemento,
la poblaci´on consta de 34.000.000 − 2 ≃ 34.000.000 elementos y la proporci´on de
´exitos de la “nueva” poblaci´on es ≃ p1 , por tanto, podemos considerar que x1 , x2 y x3 provienen de la misma P.M. y, adem´as, son independientes. Y as´ı sucesivamente.
Por tanto, en este caso, no importa c´omo se haya extra´ıdo la muestra, pues siempre podremos considerar que {x1 , . . . , x1000 } son independientes y est´an id´enticamen-
te distribuidas. En el segundo caso, supongamos que tenemos que inspeccionar un lote de 50 piezas. Extraemos una muestra aleatoria, sin reemplazamiento, de 20 piezas. Claramente, ahora cada extracci´on realizada modifica la composici´on de la
14 Teor´ıa de muestras de poblaci´ on finita
189
poblaci´on, tanto en tama˜ no como en proporci´on de piezas defectuosas, y, por tanto, {x1 , . . . , x20 } no son independientes ni est´an id´enticamente distribuidas. Como conclusi´on, en la pr´actica, lo que diferencia una muestra con reemplazamiento de otra sin reemplazamiento, es la relaci´on entre el tama˜ no de la poblaci´on y el tama˜ no de la propia muestra. Un criterio de uso generalizado es considerar como m.a.s. toda muestra que cumpla la relaci´on n/N < 0.10. A lo largo de este cap´ıtulo supondremos que la muestra la componen n v.a. que no son independientes ni est´an id´enticamente distribuidas. La nomenclatura empleada a lo largo de este cap´ıtulo es la siguiente • Poblaci´on Madre formada por N elementos {X1 , X2 , . . . , XN } N 1 X • Media Poblacional µ = Xi N i=1 N 1 X • Varianza Poblacional σ = (Xi − µ)2 N i=1 2
• Muestra sin reemplazamiento formada por n elementos {x1 , x2 , . . . , xn } n
1X xi • Media Muestral x¯ = n i=1 n
1 X • Varianza Muestral s = (xi − x¯)2 n − 1 i=1 2
14.2.
Distribuciones de muestreo
14.2.1.
Estad´ıstico media muestral n
1X x¯ = xi n i=1
Si llamamos η = x¯ y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces ! N 1 ! m= y P (η = zi ) = n N n
190
Estad´ıstica
Por tanto, E[η] =
m X
1
zi P (η = zi ) =
N
i=1
n N −1 1
=
N n
=
!
n−1
!
!
m X
1
zi =
N
i=1
n
(X1 + · · · + XN ) n
! (z1 + · · · + zm ) = N −1
n−1 ! N
=
!
N
1X Xi = n i=1
n
N N 1 X n1X Xi = Xi = µ N n i=1 N i=1
Es decir, E[¯ x] = µ Para calcular la varianza, Var(η) = E (η − µη )2 = E[η 2 ] − (E[η])2
Pero
2
• E[η ]
=
m X
zi2 P (η
= zi ) =
N
i=1
=
n 1
1 ! 2 n N n
=
• (E[η])
1
2
"
N −1 n−1
!
!
m X
zi2 =
i=1
N X
Xi2 + 2
N −2
i=1
n−2
!
X i<j
N X n−1 1 X 2 Xi + 2 Xi Xj nN i=1 Nn(N − 1) i<j
= µ2 =
N 1 X Xi N i=1
!2
1 = 2 N
N X i=1
Xi2 + 2
X i<j
Xi Xj
!
#
Xi Xj =
14 Teor´ıa de muestras de poblaci´ on finita
191
Entonces
Var(η) =
X N
1 1 − 2 nN N
Xi2
+2
i=1
1 n−1 − 2 Nn(N − 1) N
X
Xi Xj =
i<j
N
X N −nX 2 N −n = Xi Xj = X − 2 nN 2 i=1 i nN 2 (N − 1) i<j " # N N −n 2 X N −1X 2 = X − 2 Xi Xj = n(N − 1) N 2 i=1 i N i<j N −n = n(N − 1)
"
1 1 − 2 N N
X N i=1
"
N 1 N −n 1 X 2 Xi − 2 = n(N − 1) N i=1 N
# X 2 Xi Xj = Xi2 − 2 N i<j N X
Xi2 + 2
i=1
X
Xi Xj
i<j
!#
=
# " N N N −n 1 X N −n 1 X 2 2 ¯ ¯ 2= Xi − X = Xi − X = n(N − 1) N i=1 n(N − 1) N i=1 = Es decir,
N −n 2 σ n(N − 1)
N −n 2 σ n(N − 1) Adem´as, cuando N es grande con respecto a n, entonces Var(¯ x) =
estad´ıstico media es igual que en el caso de poblaci´on infinita. Por tanto, x¯ ≡ ?
14.2.2.
µ, σ
r
N −n n(N − 1)
Estad´ıstico varianza muestral n
1 X (xi − x¯)2 s = n − 1 i=1 2
N −n N −1
→ 1 y la varianza del
192
Estad´ıstica Si llamamos η = s2 y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces ! N m= n
y
z1 =
z2 =
.. . zm =
1 X (Xi − x¯1 )2 n−1
−→ x¯1 =
1 X (Xi − x¯2 )2 n−1
−→ x¯2 =
1X Xi n
−→ P (η = z1 ) =
1X Xi n
−→ P (η = z2 ) =
N n
1X 1 X (Xi − x¯m )2 −→ x¯m = Xi −→ P (η = zm ) = n−1 n
donde cada zi es de la forma
Entonces,
1
1 X 2 1 X 2 2 (Xi − x¯i ) = Xi − n¯ xi zi = n−1 n−1
1 N n 1 N n
! ! !
14 Teor´ıa de muestras de poblaci´ on finita
E[η] =
m X
zi P (η = zi ) =
i=1
=
z1 + · · · + zm = ! N n
1 ! n−1 N 1
"
N −1
"
N −1
n−1
n
=
193
1
1 ! n−1 N
n−1
n
1 − n 2 n
N −1 n−1
!
N X
!
!
N X
Xi2
i=1
N X i=1
−n
m X
x¯2i
i=1
#
=
Xi2 −
Xi2 + 2
i=1
N −2 n−2
!
X
Xi Xj
i<j
!#
=
N
=
=
n(n − 1) 1 1 X n 1 n−1X 2 Xi − 2 Xi Xj = N n − 1 n i=1 N(N − 1) n − 1 n i<j N X 1 X 2 2 N Xi − Xi Xj = σ2 N i=1 N(N − 1) i<j N −1
Por tanto, E[s2 ] =
14.2.3.
N σ2 N −1
Estad´ıstico proporci´ on muestral
Tenemos una P.M. ≡ B(1, p) de N elementos, {X1 , . . . , Xi }, entre los cuales hay A
´exitos y (N − A) fracasos; siendo
p = P (´exito) = proporci´on de ´exitos de la P.M. =
A N
q = P (fracaso) = proporci´on de fracasos de la P.M. = 1 − p por tanto, µ = E[P.M.] = p
y
σ 2 = Var(P.M.) = p(1 − p)
194
Estad´ıstica Sacamos una muestra aleatoria sin reemplazamiento, {x1 , . . . , xn }, entre los cuales
hay a ´exitos y (n − a) fracasos; siendo
pb = P (´exito) = proporci´on de ´exitos de la muestra =
a n
qb = P (fracaso) = proporci´on de fracasos de la muestra = 1 − pb
A cada elemento de la muestra le asignamos el valor 1 si es ´exito xi =
entonces
0 si es fracaso n
1X xi = x¯ pb = n i=1
es decir, la proporci´on muestral no es m´as que la media muestral por lo que podemos aplicar los resultados de la secci´on 14.2.1. As´ı E[b p] = E[¯ x] = µ = p Var(b p) = Var(¯ x) = Por tanto,
N −n 2 N −n σ = p(1 − p) n(N − 1) n(N − 1)
r N −n pb ≡ ? p, p(1 − p) n(N − 1)
14.3.
Intervalos de confianza
14.3.1.
Intervalo de confianza para la media poblacional
Dada un P.M. con media µ, como estimador puntual de la media de la poblaci´on, se utiliza la media de la muestra n
1X x¯ = xi n i=1
14 Teor´ıa de muestras de poblaci´ on finita 14.3.1.1.
195
P.M. ≡ ?(µ, σ) con σ conocido
Atendiendo a lo dicho en el apartado 14.2.1, la distribuci´on frecuencial del estad´ıstico media es x¯ ≡ ?
µ, σ
s
N −n n(N − 1)
!
Teniendo en cuenta que la u ´ nica herramienta aplicable es Chebychev, P
x¯ − σ
s
N −n k < µ < x¯ + σ n(N − 1)
s
N −n k n(N − 1)
!
≥ 1 − αk
siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media poblacional viene dado por x¯ − σ 14.3.1.2.
r
r
N −n k < µ < x¯ + σ n(N − 1)
N −n k n(N − 1)
P.M. ≡ ?(µ, σ) con σ desconocido
Atendiendo a lo dicho en el apartado 14.2.2, N −1 2 N 2 σ =⇒ E s = σ2 E[s ] = N −1 N 2
por tanto, podemos tomar como estimaci´on de la varianza poblacional, el valor de la varianza de la muestra, corregido por el factor
N −1 . N
A partir de aqu´ı, estamos en las
mismas condiciones que en el apartado anterior. As´ı, P
x¯ − s
r
N −n k < µ < x¯ + s nN
r
N −n k nN
!
≥ 1 − αk
siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media poblacional viene dado por
x¯ − s
14.3.2.
r
N −n k < µ < x¯ + s nN
r
N −n k nN
Intervalo de confianza para la proporci´ on poblacional
Dada un P.M. con una proporci´on de ´exitos p, como estimador puntual de dicho par´ametro se utilizar´a la proporci´on de ´exitos de la muestra, pb.
196
Estad´ıstica Seg´ un lo dicho en el apartado 14.2.3 pb ≡ ?
p,
s
N −n p(1 − p) n(N − 1)
!
Teniendo en cuenta que la u ´ nica herramienta aplicable es Chebychev,
P
pb −
s
N −n k < p < pb + p(1 − p) n(N − 1)
s
N −n k p(1 − p) n(N − 1)
!
≥ 1 − αk
siendo αk = 1/k 2 . Entonces, podr´ıamos decir que un intervalo de confianza del (1 − αk )100 % para la proporci´on de ´exitos de la poblaci´on vendr´ıa dado por s s N −n N −n pb − p(1 − p) k < p < pb + p(1 − p) k n(N − 1) n(N − 1)
pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular los l´ımites del intervalo. Para resolver este problema, se puede proceder de dos formas. • Una soluci´on consiste en aproximar el valor de p por el valor de la proporci´on muestral. Por tanto, un intervalo de confianza del (1 − αk )100 % para la proporci´on de ´exitos de la poblaci´on es
r r N −n N −n pb − pb(1 − pb) k < p < pb + pb(1 − pb) k n(N − 1) n(N − 1)
• Otro m´etodo consiste en utilizar como valor aproximado del producto p(1 − p), su m´aximo valor posible. As´ı,
y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p =
1 1 ⇒ p(1 − p) = 2 4
Entonces, un intervalo de confianza del (1 − αk )100 % para la proporci´on de ´exitos viene dado por
pb −
r
1 N −n k < p < pb + 4 n(N − 1)
r
1 N −n k 4 n(N − 1)
Contraste de hip´otesis
15 ´Indice
15.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 15.2. Las hip´ otesis nula y alternativa . . . . . . . . . . . . . . . . . . 199 15.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.4. Nivel de significaci´ on y regi´ on cr´ıtica
. . . . . . . . . . . . . . 204
15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . 209 15.7. Contrastes para la media de una poblaci´ on . . . . . . . . . . . 209 15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . 210 15.7.1.1. Poblaci´ on Madre Normal o n ≥ 30 . . . . . . . . . . 210
15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . 211
15.7.2.1. Poblaci´ on Madre Normal . . . . . . . . . . . . . . . . 211 15.7.2.2. Poblaci´ on Madre no Normal . . . . . . . . . . . . . . 213 15.8. Comparaci´ on de medias
. . . . . . . . . . . . . . . . . . . . . . 213
15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . 213 15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . 213 15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . 213 15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . 214 15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . 215 15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . 215 15.10.1.Una poblaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.2.Comparaci´on de varianzas . . . . . . . . . . . . . . . . . . . . . 215
197
198
Estad´ıstica
15.1.
Introducci´ on
Con frecuencia, los problemas a los que nos enfrentamos no se refieren s´olo a la estimaci´on de un par´ametro poblacional. Se nos puede plantear el problema de rechazar o aceptar cierta hip´otesis realizada sobre una poblaci´on, en base al estudio de una muestra m´as peque˜ na. Los procedimientos que conducen a la aceptaci´on o rechazo de una hip´otesis estad´ıstica se enmarcan dentro de la llamada Teor´ıa de la Decisi´on. Una Hip´otesis Estad´ıstica es una afirmaci´on o conjetura acerca de una o m´as poblaciones. Nunca se sabe con absoluta certeza la veracidad o falsedad de una hip´otesis estad´ıstica, a no ser que se examine la poblaci´on entera. Esto, por supuesto, es poco pr´actico en la mayor´ıa de las ocasiones. En su lugar, se toma una muestra aleatoria de la poblaci´on de inter´es, y se utilizan los datos de dicha muestra para obtener evidencias que confirmen o no la hip´otesis propuesta. La evidencia de la muestra que es inconsistente con la hip´otesis planteada conduce a un rechazo de la misma, mientras que la evidencia que la apoya, conduce a su no rechazo. Debe quedar claro que el dise˜ no de un procedimiento de decisi´on debe llevarse a cabo con la idea de la probabilidad de una conclusi´on equivocada. Por ejemplo, supongamos que la hip´otesis planteada es que la fracci´on, p, de art´ıculos defectuosos en un cierto proceso es de 0.10. El experimento consiste en observar una muestra aleatoria del producto en cuesti´on. Supongamos, adem´as, que se estudian 100 art´ıculos y se encuentran 12 defectuosos. Es razonable concluir que esta evidencia no refuta la hip´otesis de que p = 0.10, y entonces esto puede conducir a su aceptaci´on. Sin embargo, tampoco rebate que p = 0.12 o tal vez, incluso, que p = 0.15. Por tanto, debemos acostumbrarnos a entender que la aceptaci´ on de una hip´ otesis implica tan s´ olo que los datos no proporcionan evidencia suficiente para rechazarla. Por otra parte, el rechazo de una hip´ otesis implica que la evidencia de la muestra la refuta. Dicho de otra forma, el rechazo de una hip´ otesis significa que la probabilidad de que dicha hip´ otesis sea cierta es muy peque˜ na. Por ejemplo, en la hip´otesis de proporci´on de defectos, de una muestra de 100 art´ıculos, 20 son defectuosos. Esto es una evidencia para rechazar la hip´otesis, pues si en realidad fuese p = 0.10, la probabilidad de obtener 20 o m´as art´ıculos defectuosos es aproximadamente 0.0035. Con el peque˜ no riesgo de llegar a una conclusi´on equivocada, parece l´ogico rechazar la hip´otesis de que p = 0.10. Generalmente, en este tipo de problemas, si queremos respaldar un argumento, lo que debemos intentar es rechazar el argumento contrario. Es decir, si queremos mostrar una evidencia contundente a favor del argumento de que tomar caf´e aumenta el riesgo de
15 Contraste de hip´ otesis
199
infarto, la hip´otesis a probar debe ser de la forma “no hay aumento en el riesgo de infarto al tomar caf´e”. Como resultado, el argumento se alcanza v´ıa rechazo. De igual forma, para respaldar la afirmaci´on de que un tipo de medidor es m´as preciso que otro, se prueba con la hip´otesis de que no hay diferencia en la exactitud de los dos tipos de medidores.
15.2.
Las hip´ otesis nula y alternativa
La estructura de la prueba de hip´otesis se formula utilizando el t´ermino Hip´otesis Nula. Esto se refiere a cualquier hip´otesis que se desee probar, y se representa por H0 . El rechazo de H0 da como resultado la aceptaci´on de una Hip´otesis Alternativa, que se representa por H1 . Una hip´otesis nula referente a un par´ametro poblacional debe ser establecida de tal forma que especifique un valor exacto del par´ametro, mientras que la hip´otesis alternativa admite la posibilidad de varios valores. De aqu´ı que, si H0 es la hip´otesis nula p = 0.5 para una poblaci´on binomial, la hip´otesis alternativa, H1 , ser´ıa una de las siguientes: p > 0.5, p < 0.5 ´o p 6= 0.5.
Una hip´otesis como la hip´otesis nula anterior, p = 0.5, que especifica un valor
exacto del par´ametro se denomina simple, mientras que una hip´otesis como cualquiera de las hip´otesis alternativas anteriores que no especifican un valor exacto del par´ametro se denomina compuesta. Conviene observar que, seg´ un lo dicho anteriormente no hay diferencia entre el test H0 : p = 0.5 ; H1 : p > 0.5 y el test H0 : p ≤ 0.5 ; H1 : p > 0.5. En ambos, aceptar H0 significa que no hay evidencia suficiente para creer que p > 0.5 y por tanto que H1 sea cierta. Rechazar la hip´otesis nula significar´ıa, por el contrario, que la proporci´on p es superior a 0.5. As´ı, por simplicidad, la hip´ otesis nula se toma siempre simple. La hip´otesis alternativa se clasifica como unilateral si conocemos en qu´e direcci´on puede ser falsa H0 (los casos H1 : p > 0.5 ´o H1 : p < 0.5) y bilateral si no podemos saber la direcci´on (H1 : p 6= 0.5)
Para aclarar un poco los conceptos anteriormente expuestos, consideremos el siguien-
te ejemplo. Se sabe que, pasados 2 a˜ nos, cierto tipo de vacuna es eficaz s´olo en un 25 % de los casos. Para verificar si una vacuna nueva y algo m´as cara es mejor que la anterior para proporcionar protecci´on contra el mismo virus durante un periodo m´as largo, se inyecta en 20 personas elegidas al azar. Si m´as de 8 de los que recibieron la nueva vacuna superan el periodo de 2 a˜ nos sin contraer el virus, la nueva vacuna se considerar´a mejor que la que se utiliza actualmente. El requisito de que el n´ umero exceda de 8 es algo arbitrario,
200
Estad´ıstica
pero parece razonable en el sentido de que representa una peque˜ na ganancia respecto a las 5 personas que podr´ıa esperarse recibieran protecci´on contra el virus, pasados 2 a˜ nos, si a las 20 personas se les hubiera inyectado la vacuna antigua. La hip´otesis alternativa es la de que la nueva vacuna es mejor que la antigua. Esto equivale a probar la hip´otesis de que el par´ametro binomial para la probabilidad de un ´exito en un intento es p = 1/4, contra la alternativa de que p > 1/4. Por lo general, esto se escribe como sigue: H0 : p = 1/4 H1 : p > 1/4 Recordemos que, en realidad, queremos rechazar la hip´otesis nula de que las dos vacunas son iguales. El estad´ıstico de prueba sobre el cual se basa la decisi´on es X, la cantidad de individuos en el grupo de prueba que reciben protecci´on contra el virus con la nueva vacuna, para un periodo de al menos 2 a˜ nos, es decir X ≡ B(20, p). Los posibles valores de X, de 0 a 20, se dividen en dos grupos: aquellos valores menores o
iguales que 8, y los que son mayores que 8. Todos los posibles valores mayores que 8 constituyen la llamada Regi´on Cr´ıtica o de Rechazo, y todos los valores menores o iguales que 8 constituyen la Regi´on de Aceptaci´on. El u ´ ltimo valor que se tiene en la regi´on de aceptaci´on antes de pasar a la regi´on cr´ıtica (en este caso el 8), recibe el nombre de Valor Cr´ıtico. Por tanto, si x > 8, se rechaza H0 en favor de la hip´otesis alternativa H1 . Si x ≤ 8 se acepta H0 , siendo x el valor de X observado en la muestra.
El procedimiento de decisi´on que hemos descrito podr´ıa conducir a cualquiera de dos conclusiones err´oneas. Por ejemplo, la nueva vacuna puede no ser mejor que la antigua y, en particular para el grupo de individuos seleccionados aleatoriamente, m´as de 8 sobrepasan el periodo de 2 a˜ nos sin contraer el virus. Estar´ıamos cometiendo el error de rechazar H0 cuando realmente es cierta. De igual forma, podr´ıa ocurrir que 8 o menos individuos del grupo de prueba sobrepasan el periodo de 2 a˜ nos con ´exito, y se concluye que la nueva vacuna no es mejor, cuando en realidad s´ı lo es. Estar´ıamos aceptando H0 , cuando en realidad es falsa. • Se dice que se ha cometido un error tipo I, cuando se rechaza la hip´otesis nula siendo ´esta verdadera.
• Se dice que se ha cometido un error tipo II, cuando se acepta la hip´otesis nula siendo ´esta falsa.
La probabilidad de cometer un error tipo I se llama Nivel de Significaci´on o tama˜ no de la regi´on cr´ıtica, y se representa por α. En ejemplo anterior,
15 Contraste de hip´ otesis
201
α = P (error tipo I) = P Rechazar H0 = H0 es cierta
X 20 = P X > 8 P [B(20, 1/4) = x] = 0.0409 = p = 1/4 x=9
Se dice, entonces, que la hip´otesis nula, p = 1/4, se est´a probando con un nivel de significaci´on de α = 0.0409. Este nivel de significaci´on es bastante peque˜ no, por tanto, es poco probable que se cometa un error tipo I. Es decir, es poco probable que m´as de 8 individuos se mantengan inmunes al virus durante 2 o m´as a˜ nos utilizando una nueva vacuna que, en realidad, es equivalente a la que ya existe en el mercado. La probabilidad de cometer un error tipo II, representado por β, es imposible de calcular a no ser que se tenga una hip´otesis alternativa espec´ıfica. Si se prueba la hip´otesis nula de que p = 1/4 en contraposici´on con la hip´otesis alternativa de que p = 1/2, entonces estamos en condiciones de calcular la probabilidad de aceptar H0 cuando en realidad es falsa. Simplemente hay que calcular la probabilidad de obtener 8 o menos individuos en el grupo de prueba que sobrepasen el periodo de 2 a˜ nos, cuando p = 1/2. Es decir, β = P (error tipo II) = P Aceptar H0 = H0 es falsa
X 8 = P X ≤ 8 = P [B(20, 1/2) = x] = 0.2517 p = 1/2 x=0
´ Esta es una probabilidad bastante grande, lo que indica un procedimiento de prueba con el cual es muy probable que se rechace la nueva vacuna cuando, en realidad, es superior a la que se utiliza en la actualidad. En una situaci´on ideal, ser´ıa preferible utilizar un procedimiento con el que ambos tipos de error fuesen peque˜ nos. Siempre es posible disminuir el valor de β, incrementando el tama˜ no de la regi´on cr´ıtica. Por ejemplo, veamos qu´e ocurre con α y β cuando tomamos como valor cr´ıtico 7. Ahora, al probar p = 1/4 contra la hip´otesis alternativa de que p = 1/2, se encuentra que
202
Estad´ıstica
α = P (error tipo I) = P
= P
Rechazar H0 = H0 es cierta
X 20 X > 7 P [B(20, 1/4) = x] = 0.1018 = p = 1/4 x=8
β = P (error tipo II) = P Aceptar H0 = H0 es falsa = P
X 7 X ≤ 7 = P [B(20, 1/2) = x] = 0.1316 p = 1/2 x=0
Al adoptar un nuevo procedimiento de decisi´on, se reduce la probabilidad de cometer un error tipo II, a expensas de incrementar la probabilidad de cometer un error tipo I. Para una muestra de tama˜ no fijo, la disminuci´on en la probabilidad de un tipo de error casi siempre resulta en un aumento en la probabilidad del otro tipo de error. Sin embargo, se puede reducir la probabilidad de cometer ambos tipos de error, aumentando el tama˜ no de la muestra. Por ejemplo, supongamos que inyectamos la nueva vacuna a 100 individuos tomados aleatoriamente. Si m´as de 36 del grupo de muestra sobrepasan el periodo de 2 a˜ nos, se rechaza la hip´otesis nula de que p = 1/4 y se acepta la hip´otesis alternativa de que p = 1/2. Para determinar la probabilidad de cometer un error tipo I, utilizamos la aproximaci´on de la curva normal con 1 µ = np = 100 × = 25 4 Tipificamos la normal Z=
y
σ=
√
npq =
r
100 ×
1 3 × = 4.33 4 4
36.5 − 25 X −µ = = 2.66 σ 4.33
entonces α = P (error tipo I) = P = P X > 36
p = 1/4
= Rechazar H0 H0 es cierta
≃ P (Z > 2.66) = 0.0039
Para determinar la probabilidad de cometer un error tipo II, utilizamos de nuevo la aproximaci´on de la curva normal con
15 Contraste de hip´ otesis
203
Figura 15.1: Representaci´on esquem´atica de la probabilidad de cometer errores de tipo I y II en un contraste de hip´otesis. r 1 1 1 √ µ = np = 100 × = 50 y σ = npq = 100 × × = 5 2 2 2 Tipificamos la normal X −µ 36.5 − 50 Z= = = −2.70 σ 5 entonces β = P (error tipo II) = P Aceptar H0 = H0 es falsa = P
X ≤ 36 ≃ P (Z < −2.70) = 0.0035 p = 1/2
En la figura 15.1 se muestra un esquema de los errores tipo I y tipo II correspondientes al ejemplo anterior.
15.3.
Metodolog´ıa
Para establecer y realizar un contraste de hip´otesis sobre un par´ametro poblacional, θ, se realizan los siguientes pasos: 1. Definir las hip´otesis nula H0 y alternativa H1 . Recordamos que la hip´otesis nula siempre la consideramos simple (H0 : θ = θ0 ). b que permita medir si existe discrepancia entre los 2. Considerar un estad´ıstico, Θ, datos muestrales y la hip´otesis H0 . Para ello, es necesario conocer la distribuci´on de
este estad´ıstico bajo la suposici´on de que H0 es cierta.
204
Estad´ıstica
3. Definir la regi´on cr´ıtica del test, es decir, especificar qu´e valores del estad´ıstico consideramos inadmisibles para asumir H0 . Esta especificaci´on se cuantifica en t´erminos de probabilidades: nos interesa saber cu´ando la diferencia entre el valor esperado del estad´ıstico bajo la hip´otesis H0 y su valor obtenido para la muestra (lo que se conoce como “disparo”) es demasiado grande para poder atribuirse al azar. b y 4. Tomar una muestra, calcular el valor que toma el estad´ıstico en la muestra, θ, tomar una decisi´on seg´ un su valor caiga o no en la regi´on cr´ıtica.
Lo que debe especificarse al definir un contraste de hip´otesis es, por tanto, el estad´ıstico que vamos a utilizar y la regi´on cr´ıtica. En gran parte de los casos, la elecci´on del estad´ıstico o es evidente (la media muestral, por ejemplo, si las hip´otesis se refieren al valor medio de una cantidad) o ´este resulta ser est´andar, y por tanto conocido de antemano para un determinado tipo de problema (como el estad´ıstico de Pearson que estudiaremos posteriormente en los contrastes de bondad del ajuste). La elecci´on de la regi´on cr´ıtica se hace de acuerdo al inter´es que tengamos en minimizar el error de tipo I. Para reducir la posibilidad de un error de tipo II deberemos jugar con el tama˜ no de la muestra.
15.4.
Nivel de significaci´ on y regi´ on cr´ıtica
Tradicionalmente la regi´on cr´ıtica de un contraste se determina fijando de antemano b La regi´on un nivel de significaci´on α. Supongamos un contraste basado en un estad´ıstico Θ. b que consideramos tan poco probables como cr´ıtica ser´a el conjunto de posibles valores de Θ
para rechazar H0 . Llamemos a esta regi´on Dc , de tal modo que rechazaremos H0 si el valor b obtenido en el muestreo θb ∈ Dc . de Θ Recordando la definici´on del nivel de significaci´on:
Podemos reescribir:
α = P Rechazar H0 H0 es cierta α=P
b θ ∈ Dc H0 es cierta
Recordemos que es posible calcular esta probabilidad ya que conocemos la distrib bajo la suposici´on de que H0 es cierta. As´ı, fijado de antemano buci´on del estad´ıstico Θ
el nivel de significaci´on α podremos obtener de la ecuaci´on anterior la regi´on cr´ıtica Dc . Basta entonces tomar la decisi´on:
15 Contraste de hip´ otesis
205
• Si θb ∈ Dc se rechaza la hip´otesis H0
• En caso contrario no existe evidencia suficiente que permita rechazar H0 , para el nivel de significaci´on prefijado.
En general, en este curso vamos a trabajar solo con tres tipos de contrastes, para los cuales la relaci´on entre el nivel de significaci´on y la regi´on cr´ıtica es (Fig. 15.2): • Contraste bilateral ◦ Contraste H0 : θ = θ0 H1 : θ 6= θ0 ◦ C´alculo de la Regi´on Cr´ıtica
α/2 = P
α/2 = P
◦ Decisi´on
b Θ < a1 =⇒ a1 θ = θ0 b > a2 Θ =⇒ a2 θ = θ0
=⇒
RC = (−∞, a1)∪(a2, +∞)
Si θb < a1 ´o θb > a2 =⇒ Rechazo H0 en favor de H1 Si a1 < θb < a2 =⇒ No Rechazo H0
• Contraste unilateral por la derecha ◦ Contraste H0 : θ = θ0 H1 : θ > θ0 ◦ C´alculo de la Regi´on Cr´ıtica b α = P Θ > a
θ = θ0
=⇒
a
=⇒
RC = (a, +∞)
206
Estad´ıstica ◦ Decisi´on Si θb > a =⇒ Rechazo H0 en favor de H1 Si θb < a =⇒ No Rechazo H0
• Contraste unilateral por la izquierda ◦ Contraste H0 : θ = θ0 H1 : θ < θ0 ◦ C´alculo de la Regi´on Cr´ıtica b < a α=P Θ
θ = θ0
=⇒
a
=⇒
RC = (−∞, a)
◦ Decisi´on
Si θb < a =⇒ Rechazo H0 en favor de H1 Si θb > a =⇒ No Rechazo H0
Este mecanismo basado en la fijaci´on de un nivel de significaci´on no es completamente satisfactorio y, en la actualidad, se prefiere el enfoque basado en lo que se conoce como Valor-p de un contraste. Antes de definirlo conviene detenerse en las limitaciones del enfoque anterior. El resultado del test depende enormemente de la elecci´on del nivel α. As´ı, es posible rechazar H0 con un α = 0.05 y, sin embargo no hacerlo si α = 0.045. De hecho, con este enfoque, no queda constancia del grado de evidencia que la muestra indica a favor o en contra de H0 . En la figura 15.3 se muestran dos disparos que conducir´ıan al rechazo de H0 aunque, claramente, la evidencia de este rechazo es muy distinta.
15.5.
Valor-p
b para el que hemos Supongamos un contraste de hip´otesis basado en un estad´ıstico Θ b Se define Valor-p del contraste obtenido un disparo, o valor estimado en la muestra, de θ. como:
15 Contraste de hip´ otesis
207
Figura 15.2: Regi´on cr´ıtica para un nivel de significaci´on α. (a): contraste bilateral, (b): contraste unilateral por la derecha, (c): contraste unilateral por la izquierda. En todos los b cuando H0 es cierta, es decir cuando casos se ha dibujado la distribuci´on del estad´ıstico Θ
θ = θ0
208
Estad´ıstica
Rechazo
α
Figura 15.3: Dos disparos que conducen al rechazo de la hip´otesis H0 . Claramente la evidencia para este rechazo es muy distinta en ambos casos.
b b Contraste bilateral Valor-p = P |Θ| ≥ θ H0 es cierta
b ≥ θb Valor-p = P Θ
b ≤ θb Valor-p = P Θ
H0 es cierta
H0 es cierta
Contraste unilateral por la derecha
Contraste unilateral por la izquierda
La relaci´on del Valor-p con el nivel de significaci´on es evidente: seg´ un el enfoque anterior, no rechazar´ıamos H0 para ning´ un nivel de significaci´on α menor que el Valor-p. Habitualmente, el criterio basado en el Valor-p es como sigue: 1. Si Valor-p ≥ 0.2 se considera que no existe evidencia estad´ıstica para rechazar la hip´otesis H0 .
2. Si Valor-p ≤ 0.01 se considera que la evidencia es m´as que suficiente para rechazar H0 en favor de H1 .
3. Si 0.01 ≤ Valor-p ≤ 0.2 la aceptaci´on o rechazo de H0 depender´a de la confianza
que tengamos a priori en la hip´otesis H0 . Normalmente se rechaza H0 si el Valor-p es menor que 0.1
15 Contraste de hip´ otesis
15.6.
209
Potencia de un contraste
La potencia de un contraste se define en t´erminos de la probabilidad de cometer un error de tipo II (es decir, aceptar H0 siendo falsa): un test es tanto m´as potente cuanto menor sea esta probabilidad. Ya hemos visto que para calcular la probabilidad de error de tipo II necesitamos una hip´otesis alternativa H1 completamente especificada. Si nuestro contraste se refiere a alg´ un par´ametro poblacional, θ, deberemos especificar su valor. Se define la funci´ on o curva de operaci´on caracter´ıstica (O.C.) de un contraste, β(θ), como (Fig 15.4.a): β(θ) = P (error tipo II) = P Aceptar H0 = P Aceptar H0 H0 es falsa θ
Si el valor de θ se toma como aquel que especifica la hip´otesis nula θ0 , β(θ0 ) ser´a la
probabilidad de aceptar H0 cuando ´esta es cierta y, por tanto, est´a relacionada con el nivel de significaci´on mediante la igualdad: β(θ0 ) = 1 − α Para cualquier otro valor de θ se obtiene la probabilidad de error de tipo II si la hip´otesis alternativa H1 especifica dicho valor para el par´ametro. Se define la funci´ on o curva de potencia de un contraste como (Fig 15.4.b)
P otencia(θ) = 1 − β(θ) = P
Rechazar H0 = P Rechazar H0 H0 es falsa θ
Obs´ervese que para dos contrastes con igual nivel de significaci´on, el de mayor potencia es aquel en el que es menos probable cometer un error de tipo II. Como se ha visto en el ejemplo anterior una posible manera de aumentar la potencia de un contraste es aumentar el tama˜ no muestral.
15.7.
Contrastes para la media de una poblaci´ on
Vamos a establecer en esta secci´on una serie de contrastes relacionados con el valor de la media de una poblaci´on. Los estad´ısticos que vamos a emplear han sido estudiados en el cap´ıtulo dedicado a las distribuciones en el muestreo.
210
Estad´ıstica
15.7.1.
Varianza conocida
Supongamos una P.M. de media µ y varianza σ conocida. Sabemos que la distribuci´on en el muestreo del estad´ıstico media muestral n
es x¯ ≡
15.7.1.1.
√ N µ, σ/ n ? (µ, σ/√n )
1X x¯ = xi n i=1 si la poblaci´on madre es normal N(µ, σ) o n ≥ 30 si la poblaci´on madre es ? (µ, σ)
Poblaci´ on Madre Normal o n ≥ 30
• Contraste bilateral H0 : µ = µ 0 H1 : µ 6= µ0 Empleando la notaci´on zp para el cuantil 1 − p de una normal est´andar N(0, 1) (es
decir, zp es el valor para el que la funci´on de distribuci´on vale p o, dicho de otro modo, que deja una probabilidad 1 − p a su izquierda) tenemos, para un nivel de significaci´on α
x¯ − µ0 √ < zα/2 = 1 − α P −zα/2 < σ/ n √ √ y, por tanto, una regi´on de aceptaci´on (µ0 − zα/2 σ/ n, µ0 + zα/2 σ/ n). Tomando el valor muestral de x¯ rechazaremos H0 si obtenemos un valor fuera de este intervalo
y deberemos aceptarla en caso contrario. El nivel cr´ıtico del test, o Valor-p, ser´a x¯ − µ0 Valor-p = P |N(0, 1)| > √ σ/ n
• Contraste unilateral por la derecha
H0 : µ = µ 0 H1 : µ > µ 0 El contraste es completamente an´alogo al anterior salvo que ahora la regi´on de aceptaci´on no est´a limitada por la izquierda. Tenemos ahora que x¯ − µ0 √ < zα = 1 − α P σ/ n
15 Contraste de hip´ otesis
211
√ y, por tanto, una regi´on de aceptaci´on (−∞, µ0 + zα σ/ n). El nivel cr´ıtico del test, o Valor-p, ser´a ahora x¯ − µ0 √ Valor-p = P N(0, 1) > σ/ n • Contraste unilateral por la izquierda H0 : µ = µ 0 H1 : µ < µ 0 x¯ − µ0 √ > −zα = 1 − α P σ/ n √ y la regi´on de aceptaci´on es (µ0 − zα σ/ n, +∞). El nivel cr´ıtico del test, o Valor-p,
ser´a ahora
x¯ − µ0 √ Valor-p = P N(0, 1) < σ/ n
En ambos casos (prueba bilateral o unilateral), el tama˜ no de la muestra n puede fijarse con alguna suposici´on a˜ nadida. Lo m´as habitual es obligar a que, dada una hip´otesis alternativa determinada H1 : µ = µ0 + δ, el error de tipo II sea menor que una cantidad prefijada. Es f´acil demostrar que se obtiene una potencia 1 − β para un tama˜ no muestral
n∼
(zα + zβ )2 σ 2 δ2
si la prueba es unilateral
(z + zβ )2 σ 2 α/2 si la prueba es bilateral δ2
15.7.2.
Varianza desconocida
15.7.2.1.
Poblaci´ on Madre Normal
En el caso de que desconozcamos la varianza de la poblaci´on madre, pero ´esta sea N(µ, σ), hemos visto que
x¯ − µ √ ≡ tn−1 s/ n
siendo tn−1 una variable t de Student con n − 1 grados de libertad. • Contraste bilateral
212
Estad´ıstica
H0 : µ = µ 0 H1 : µ 6= µ0 Empleando la notaci´on tp para el cuantil 1 − p de una t de Student con n-1 grados
de libertad tn−1 tenemos, para un nivel de significaci´on α x¯ − µ0 √ < tα/2 = 1 − α P −tα/2 < s/ n √ √ y, por tanto, una regi´on de aceptaci´on (µ0 − tα/2 s/ n, µ0 + tα/2 s/ n). Tomando el valor muestral de x¯ rechazaremos H0 si obtenemos un valor fuera de este intervalo
y deberemos aceptarla en caso contrario. El nivel cr´ıtico del test, o Valor-p, ser´a x¯ − µ0 Valor-p = P |tn−1 | > √ s/ n
• Contraste unilateral por la derecha
H0 : µ = µ 0 H1 : µ > µ 0 Tenemos ahora que
x¯ − µ0 √ < tα = 1 − α P s/ n √ y, por tanto, una regi´on de aceptaci´on (−∞, µ0 + tα s/ n). El nivel cr´ıtico del test, o Valor-p, ser´a ahora Valor-p = P
tn−1
x¯ − µ0 √ > s/ n
• Contraste unilateral por la izquierda H0 : µ = µ 0 H1 : µ < µ 0 Tenemos ahora que
x¯ − µ0 √ > −tα = 1 − α P s/ n √ y, por tanto, una regi´on de aceptaci´on (µ0 − tα s/ n, +∞). El nivel cr´ıtico del test,
o Valor-p, ser´a ahora
Valor-p = P
tn−1
x¯ − µ0 √ < s/ n
15 Contraste de hip´ otesis 15.7.2.2.
213
Poblaci´ on Madre no Normal
Incluso en el caso de que la poblaci´on madre no sea normal, en virtud del teorema central del l´ımite, para valores grandes de n (n > 30) podemos utilizar la aproximaci´on x¯ − µ ∼ √ = N(0, 1) s/ n
15.8.
Comparaci´ on de medias
A partir de esta secci´on no seremos exhaustivos en la presentaci´on de los contrastes, sino que nos limitaremos a considerar el estad´ıstico m´as apropiado y su distribuci´on. El mecanismo para construir el contraste a partir de esta informaci´on es siempre igual. Sean dos muestras de tama˜ nos n y m sacadas de dos poblaciones normales con medias µx y µy y varianzas σx y σy respectivamente. La hip´otesis nula del contraste ser´a H0 : µ x − µ y = d 0
15.8.1.
Varianzas conocidas
El estad´ıstico relevante es (¯ x − y¯) − (µx − µy ) r ≡ N (0, 1) σx2 σy2 + n m
15.8.2.
Varianzas desconocidas e iguales s
15.8.3.
donde,
(¯ x − y¯) − (µx − µy ) ≡ tn+m−2 r 2 2 (n − 1)sx + (m − 1)sy 1 1 + n+m−2 n m
Varianzas desconocidas y distintas (¯ x − y¯) − (µx − µy ) ∼ r = tγ s2x s2y + n m
214
Estad´ıstica
(A + B)2 γ= B2 A2 + n−1 m−1
15.8.4.
s2y s2x A= , B= n m
Muestras apareadas
El anterior enfoque para la comparaci´on de medias no es completamente satisfactorio. En algunos casos podemos sospechar que las muestras tomadas independientemente de las dos poblaciones no han sido hechas bajo las mismas condiciones, lo que falsear´ıa el resultado del contraste. ´esto es especialmente relevante si la poblaciones presentan una gran variabilidad, lo que suele ser indicativo de que existen muchos factores que pueden influir en sus par´ametros. Una manera de evitar este problema es tomar, si se puede, muestras apareadas: medidas realizadas por pares en situaciones lo m´as semejantes posibles. Por ejemplo, para medir la eficacia de dos marcas de neum´aticos conviene tomar medidas de los neum´aticos montados sobre el mismo veh´ıculo, con lo que eliminaremos la variabilidad debida a los distintos conductores, amortiguadores, mec´anica etc. En un proceso de medida apareado obtenemos n pares de valores x1,i , x2,i referidos ¯ a las dos poblaciones 1 y 2. Se toma el valor yi = x1,i − x2,i del estad´ıstico diferencia D. Si µD¯ y sD¯ son su media y desviaci´on muestral respectivamente, el estad´ıstico T =
¯ − µD¯ D √ ≡ tn−1 sD¯ / n
La hip´otesis nula para este contraste se reduce a H0 : µD¯ = d0 En la tabla 15.1 se encuentra un esquema de los contrastes relativos a medias
15.9.
Pruebas sobre proporciones
El n´ umero de elementos de una poblaci´on que presentan una determinada caracter´ıstica sigue una distribuci´on binomial, como sabemos. Si X es una variable binomial B(n, p), la proporci´on de elementos de la poblaci´on que presentan la caracter´ıstica deseada ser´a su valor medio dividido por n. Para n grande, la variable binomial se aproxima a una normal, por lo que salvo en el caso de poblaciones peque˜ nas (n < 30) los contrastes de proporciones son an´alogos a los referidos a las medias de una poblaci´on.
15 Contraste de hip´ otesis
215
En el caso de poblaciones peque˜ nas se procede como en el ejemplo que abre este cap´ıtulo, manejando directamente el estad´ıstico media de una variable binomial.
15.9.1.
Diferencia de dos proporciones
Si tenemos dos poblaciones y queremos medir si la diferencia de proporciones p1 − p2
de una caracter´ıstica determinada en ellas es 0 se emplea el estad´ıstico pb1 − pb2 Z=p ∼ N(0, 1) pe(1 − pe)(1/n1 + 1/n2 )
donde
x1 + x2 n1 + n2 siendo x1 y x2 el n´ umero de elementos de cada muestra que presentan la caracter´ıstica. pe =
15.10.
Pruebas sobre varianzas
15.10.1.
Una poblaci´ on
Tomando una muestra de tama˜ no n de una poblaci´on madre normal de varianza σ 2 , se cumple para la varianza muestral s2 (n − 1)s2 ≡ χ2n−1 σ2
15.10.2.
Comparaci´ on de varianzas
Dadas dos muestras de tama˜ nos n y m de dos poblaciones normales de varianzas σx y σy respectivamente s2x /σx2 ≡ Fn−1,m−1 s2y /σy2 siendo s2x y s2y la varianza muestral de cada poblaci´on.
216
Estad´ıstica
Figura 15.4: Dada la hip´otesis nula H0 : p = 1/4. Curva de operaci´on caracter´ıstica para las hip´otesis alternativas (a1) H1 : p 6= 1/4; (a2) H1 : p > 1/4; (a3) H1 : p < 1/4. Curva
de potencia para las hip´otesis alternativas (b1) H1 : p 6= 1/4; (b2) H1 : p > 1/4; (b3) H1 : p < 1/4
15 Contraste de hip´ otesis
217
Cuadro 15.1: Pruebas relativas a medias H0
Valor del estad´ıstico de prueba
µ = µ0
x¯ − µ0 √ ; σ conocida z= σ/ n
µ = µ0
µ1 − µ2 = d0
µ1 − µ2 = d0
x¯ − µ0 √ ; ν =n−1 t= s/ n σ desconocida z=p
(¯ x1 − x¯2 ) − d0
(σ12 /n1 ) + (σ22 /n2 ) σ1 y σ2 conocidas (¯ x1 − x¯2 ) − d0 t= p sp (1/n1 ) + (1/n2 )
ν = n1 + n2 − 2, σ1 = σ2 pero desconocida,
s2p =
(n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2
(¯ x1 − x¯2 ) − d0 t= p 2 (s1 /n1 ) + (s22 /n2 ) µ1 − µ2 = d0
ν=
(s21 /n1 + s22 /n2 )2 (s21 /n1 )2 (s22 /n2 )2 + n1 − 1 n2 − 1
σ1 6= σ2 y desconocidas
µD = d0
d¯ − d0 √ ; ν =n−1 t= sd / n observaciones apareadas
H1
Regi´on cr´ıtica
µ < µ0
z < −zα
µ > µ0
z > zα
µ 6= µ0
|z| > zα/2
µ > µ0
t > tα
µ 6= µ0
|t| > tα/2
µ1 − µ2 > d0
z > zα
µ1 − µ2 6= d0
|z| > zα/2
µ1 − µ2 < d0
t < −tα
µ1 − µ2 > d0
t > tα
µ1 − µ2 6= d0
|t| > tα/2
µ1 − µ2 < d0
t < −tα
µ1 − µ2 > d0
t > tα
µ1 − µ2 6= d0
|t| > tα/2
µD < d0
t < −tα
µD > d0
t > tα
µD 6= d0
|t| > tα/2
µ < µ0
µ1 − µ2 < d0
t < −tα
z < −zα
218
Estad´ıstica
16
Contrastes no param´etricos
´Indice 16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . 221 16.1.1.1. Hip´otesis simple . . . . . . . . . . . . . . . . . . . . . 221 16.1.1.2. Hip´otesis compuesta . . . . . . . . . . . . . . . . . . . 221 16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . 222 16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . 223 16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 223 16.3. Otros contrastes no param´ etricos . . . . . . . . . . . . . . . . . 224 16.3.1. Contrastes de posici´ on . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.1.1. Test de los signos . . . . . . . . . . . . . . . . . . . . 225 16.3.1.2. Test de Wilcoxon de los rangos signados . . . . . . . . 226 16.3.1.3. Test de la mediana . . . . . . . . . . . . . . . . . . . . 227 16.3.1.4. Test de Mann-Whitney . . . . . . . . . . . . . . . . . 227 16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . 228 16.3.2.1. Test τ de Kendall . . . . . . . . . . . . . . . . . . . . 228 16.3.2.2. Test del coeficiente de correlaci´ on entre rangos o test de Spearman . . . . . . . . . . . . . . . . . . . . . . . 229 16.3.2.3. Test de rachas . . . . . . . . . . . . . . . . . . . . . . 229 16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
219
220
Estad´ıstica En el cap´ıtulo anterior hemos manejado contrastes param´etricos, es decir, aquellos
en los que se estudia la veracidad de hip´otesis acerca de los par´ametros de los que depende la distribuci´on de una poblaci´on. En muchas otras ocasiones es necesario emitir un juicio sobre la distribuci´on poblacional en su conjunto. Los problemas m´as habituales que suelen plantearse son los siguientes: • Decidir, a la vista de una muestra aleatoria de una poblaci´on, si puede admitirse
que ´esta sigue una cierta distribuci´on dada N(0,1), Poisson(5), etc.) o bien pertenece a un cierto tipo de distribuciones (es normal, exponencial, geom´etrica, etc.). Los contrastes que dilucidan esta cuesti´on se denominan de bondad del ajuste.
• Analizar si varias muestras aleatorias provienen de poblaciones con la misma distribuci´on te´orica, de forma que puedan utilizarse conjuntamente para inferencias
posteriores sobre ´esta o si, por el contrario, son muestras de poblaciones con distinta distribuci´on. Es el problema de la homogeneidad de varias muestras. • Estudiar, en el caso de que se observen dos o m´as caracter´ısticas de los elementos
de la poblaci´on (de forma que la distribuci´on te´orica no sea unidimensional) si las caracter´ısticas observadas pueden ser consideradas independientes y proceder a su an´alisis por separado o, por el contrario, existe relaci´on estad´ıstica entre ellas. Cualquiera de estos problemas se denominan no param´etricos ya que no se trata de
decidir entre distribuciones Fθ que s´olo se diferencian en el valor del par´ametro θ. As´ı, por ejemplo, si queremos probar una hip´otesis nula como que la distribuci´on es Exp(λ = 5) la hip´otesis alternativa contiene a todas las distribuciones continuas y no s´olo a las exponenciales con otro valor de su par´ametro λ.
16.1.
Contraste χ2
Reciben este nombre los contrastes basados en el estad´ıstico de Pearson. Omitiremos la justificaci´on te´orica, algo complicada, del proceder para su c´alculo as´ı como de la obtenci´on de su distribuci´on.
16 Contrastes no param´ etricos
221
16.1.1.
Prueba de bondad del ajuste
16.1.1.1.
Hip´ otesis simple
Supongamos una muestra aleatoria simple de tama˜ no n de una distribuci´on desconocida F . Tratamos de contrastar si puede aceptarse la hip´otesis H0 : F = F0 , donde F0 es una distribuci´on conocida completamente especificada, es decir, de la que conocemos todos y cada uno de los par´ametros de los que depende (la media y la desviaci´on en el caso de una normal, el valor del par´ametro λ en el caso de una exponencial, etc.). El procedimiento a seguir es el siguiente: 1. Se divide el recorrido de la distribuci´on poblacional en k conjuntos disjuntos o clases: A1 , A2 , · · · , Ak 2. Se calcula el n´ umero ni de elementos de la muestra observados en cada clase Ai . 3. Se calcula el n´ umero ni,esp de elementos esperados en cada clase si la hip´otesis H0 es cierta. Para ello, basta multiplicar la probabilidad que la distribuci´on F0 asigna a cada clase por el n´ umero de elementos de la muestra. IMPORTANTE. S´olo puede realizarse el contraste si cada uno de los ni,esp es mayor o igual a 5. En caso contrario, se unen varias clases Aj hasta conseguirlo. En lo que sigue supondremos que el n´ umero de clases k en las que hemos descompuesto el recorrido de la distribuci´on te´orica es el resultado de esta operaci´on: entre las k clases no hay ninguna con ni,esp < 5. 4. Se realiza el test empleando el estad´ıstico de Pearson:
D=
k X (ni − ni,esp )2 i=1
ni,esp
que, en las condiciones antes citadas, sigue una distribuci´on χ2 con k − 1 grados de libertad. (La regi´on cr´ıtica es de la forma D > c). 16.1.1.2.
Hip´ otesis compuesta
Supongamos ahora (lo que suele ser m´as habitual) que la hip´otesis a contrastar especifica una familia de distribuciones de forma funcional dada pero dependiente de algunos par´ametros no especificados (por ejemplo, suponemos que nuestra poblaci´on es normal de media 1 pero desconocemos la desviaci´on o, suponiendo que es normal, no conocemos
222
Estad´ıstica
ni la media ni la desviaci´on, etc.). En este sentido se dice que la hip´otesis nula es ahora compuesta pues unifica varias hip´otesis simult´aneamente. Una posibilidad para resolver el problema es tomar varias muestras: con las primeras estimamos los par´ametros y con la u ´ ltima realizamos el contraste χ2 anterior. Sin embargo, es posible (y m´as conveniente en muchos casos) realizar el estudio empleando una u ´ nica muestra. El procedimiento a seguir en este segundo caso es: 1. Se estiman los par´ametros a partir de la muestra empleando el criterio de m´ axima verosimilitud. 2. Se repite el proceso anterior con la salvedad de que ahora la distribuci´on del estad´ıstico D de Pearson es una χ2 con k − 1 − ν grados de libertad, siendo ν el n´ umero de par´ametros que hemos estimado.
16.1.2.
Prueba de homogeneidad
Supongamos que se dispone de m muestras aleatorias simples de otras tantas poblaciones cuyos tama˜ nos son, respectivamente, n1 , n2 , · · ·, nm . A partir de estos datos se desea decidir si la distribuci´on poblacional es la misma en todos los casos y, por consiguiente,
se dispone de una muestra de tama˜ no n = n1 + n2 + · · · + nm de una u ´ nica distribuci´on o, por el contrario, se trata de poblaciones heterog´eneas con diferentes distribuciones.
Nuevamente, el conjunto de posibles valores de las observaciones se divide en k clases disjuntas: A1 , A2 , · · ·, Ak . Si llamamos nij al n´ umero de observaciones de la muestra i que pertenecen a la clase Aj podemos construir la siguiente tabla de contingencia: Muestra
A1
A2
1
n11
n12
2 .. .
n21 .. .
n22 .. .
m
nm1
nm2
Total
n·1
n·2
···
Ak
Total
n1k
n1
n2k .. .
n2 .. .
· · · nmk
nm
··· ··· .. .
···
n·k
n
donde ni es la suma de los elementos de la fila i y n·j es la suma de la columna j. El contraste se realiza recurriendo al estad´ıstico D=
m X k X (nij − ni n·j /n)2 ni n·j /n i=1 j=1
que sigue una distribuci´on χ2 con (m − 1)(k − 1) grados de libertad.
16 Contrastes no param´ etricos
16.1.3.
223
Prueba de independencia
Supongamos que de n elementos de una poblaci´on se han observado dos caracter´ısticas X e Y , obteni´endose una muestra aleatoria simple bidimensional (x1 , y1 ), (x2 , y2), · · ·,(xn , yn ). Sobre la base de dichas observaciones se desea contrastar si las caracter´ısticas poblacionales X e Y son independientes o no.
Para ello se divide el conjunto de posibles valores de X en k clases disjuntas A1 , A2 , · · ·, Ak y los de Y en r clases disjuntas B1 , B2 , · · ·, Br . Al clasificar los elementos
de la muestra aparecer´a un cierto n´ umero de ellos , nij , en cada una de las k × r clases
constituidas, dando lugar a una tabla de contingencia de la forma: B1
B2
A1
n11
n12
A2 .. .
n21 .. .
n22 .. .
Ak
nk1
nk2
Total
n·1
n·2
···
Br
Total
n1r
n1·
n2r .. .
n2· .. .
· · · nkr
nk·
··· ··· .. . ···
n·r
n
El contraste se realiza mediante el estad´ıstico k X r X (nij − ni· n·j /n)2 D= ni· n·j /n i=1 j=1
que sigue una distribuci´on χ2 con kr − 1 grados de libertad.
Tanto en este caso como en el anterior la regi´on cr´ıtica del test es de la forma D > c.
16.2.
Contraste de Kolmogorov-Smirnov
El contraste K-S es una contraste de bondad del ajuste v´alido u ´ nicamente para distribuciones continuas. No es conveniente su uso cuando hay que estimar par´ametros ya que la distribuci´on del estad´ıstico es entonces s´olo aproximada. La hip´otesis nula de este contraste es que la muestra proviene de una distribuci´on continua F0 (x). El procedimiento para construir el contraste es: 1. Se ordenan los n valores muestrales de forma que x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn
224
Estad´ıstica
2. Se calcula la funci´on de distribuci´on emp´ırica de la muestra , Fn (x), con: 0 r Fn (x) = n 1
x < x1 xr ≤ x ≤ xr + 1 x ≥ xn
3. Se calcula la discrepancia m´axima entre la funci´on de distribuci´on emp´ırica y la te´orica F0 (x) con el estad´ıstico ∆n = m´ax |Fn (x) − F0 (x)| cuya distribuci´on es conocida y est´a tabulada seg´ un los valores de n. Para realizar correctamente el contraste hay que calcular para cada punto muestral xh el valor ∆n (xh ) = m´ax{|Fn (xh−1 ) − F0 (xh )| , |Fn (xh ) − F0 (xh )|} El m´aximo de los n valores as´ı obtenidos es el estad´ıstico ∆n de KolmogorovSmirnov. La regi´on cr´ıtica del test es de la forma ∆n > c.
16.3.
Otros contrastes no param´ etricos
16.3.1.
Contrastes de posici´ on
En ocasiones s´olo nos interesa conocer, de una poblaci´on desconocida, su posici´on sobre la recta real, porque se da por supuesto que las condiciones en que se observa el fen´omeno s´olo pueden trasladar la distribuci´on sin deformarla. Ejemplos de este tipo de situaciones pueden ser: 1. Una empresa cambia su horario de entrada, adelant´andolo media hora, y se pregunta si ello habr´a afectado a los retrasos de sus empleados. Los datos son aleatorios, variando de d´ıa en d´ıa y de un empleado a otro, pero es aceptable pensar que la forma de su distribuci´on no ha variado; el temor es que se haya desplazado hacia la derecha, increment´andose el tiempo perdido.
16 Contrastes no param´ etricos
225
2. Una comunidad ha modificado la procedencia del agua para consumo dom´estico. Tras cierto tiempo, quiere comprobar si ello ha afectado a la concentraci´on de sodio en la sangre de sus habitantes, en el sentido de que la distribuci´on de dicha concentraci´on se haya trasladado hacia uno u otro lado, mientras que la forma de la distribuci´on se supone que no habr´a variado apenas. 3. Se desea saber si las ventas en dos establecimientos de la misma cadena son an´alogas. Presumiblemente la forma de la distribuci´on de las ventas diarias ser´a similar para ambas, as´ı que el objetivo es detectar si una est´a desplazada respecto a la otra. Si no puede suponerse la normalidad de la poblaci´on madre (ya que entonces lo adecuado es aplicar los contrastes param´etricos sobre la media de una normal) es posible abordar el problema de la posici´on de la distribuci´on usando la mediana muestral. 16.3.1.1.
Test de los signos
Tenemos una distribuci´on continua desconocida F cuya mediana ser´a Me. Probaremos a contrastar la hip´otesis nula H0 : Me = m0 frente a alguna de las alternativas Me < m0 , Me > m0 ´o Me 6= m0 . El estad´ıstico que se
emplea es
T = { N´ umero de observaciones muestrales mayores que m0 } que, si H0 es correcta, tiene una distribuci´on binomial B(n, 1/2), siendo n el tama˜ no de la muestra.
S La regi´on cr´ıtica ser´a de la forma {T ≤ k}, {T ≥ k} ´o {T ≤ k} {T ≥ n − k},
seg´ un sea la hip´otesis alternativa una de las rese˜ nadas arriba, y donde k puede fijarse determinando un nivel cr´ıtico α. • Si el tama˜ no muestral es apreciable (n > 20) puede aproximarse la distribuci´on binomial por la normal correspondiente.
• Seg´ un la hip´otesis de continuidad de la distribuci´on no deber´ıan obtenerse valores muestrales coincidentes con la mediana. En la pr´actica ´esto puede ocurrir, siendo
aconsejable excluir tales valores, disminuyendo consecuentemente el tama˜ no de la muestra.
226
Estad´ıstica
• Es f´acil generalizar este contraste para cualquier otro cuantil, cambiando el par´ametro p de la binomial.
• Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los
datos, siendo entonces m0 = 0. Este procedimiento nos dir´a si la mediana de las dos
muestras es igual o no. 16.3.1.2.
Test de Wilcoxon de los rangos signados
En el caso en que sepamos que la distribuci´on poblacional, adem´as de continua, es sim´ etrica puede mejorarse el contraste anterior de la siguiente manera. Si Di = xi − m0 son las diferencias entre las observaciones muestrales y el valor a
contrastar para Me, se ordenan, en orden creciente, los valores absolutos |Di | y se anota
el rango (o lugar) r (|Di |) que cada uno ocupa en dicha ordenaci´on. El estad´ıstico en que se basa el test es la suma de los rangos de las observaciones mayores que m0 , cuya distribuci´on, si H0 es cierta, se encuentra tabulada. T+ =
X
∀Di >0
r (|Di |)
+ • Si el tama˜ no muestral es apreciable (n > 20) la distribuci´on del estad´ ıstico T puede p aproximarse por la normal N n(n + 1)/4, n(n + 1)(2n + 1)/24 . En todo caso,
la distribuci´on de T + es sim´etrica en torno a n(n + 1)/4
• Igual que antes, seg´ un la hip´otesis de continuidad de la distribuci´on, no deber´ıan obtenerse valores muestrales coincidentes con la mediana. En la pr´actica ´esto puede
ocurrir, siendo aconsejable excluir tales valores, disminuyendo consecuentemente el tama˜ no de la muestra. • Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los
datos, siendo entonces m0 = 0. Este procedimiento nos dir´a si la mediana de las dos
muestras es igual o no. • Si se conoce la mediana poblacional este test se convierte en una prueba sobre la hip´otesis subyacente de que la distribuci´on es sim´etrica respecto a la mediana. As´ı,
para tama˜ nos muestrales grandes, para los que la mediana muestral tiende al valor de la mediana poblacional, puede usarse, sustituyendo m0 por el valor muestral de la mediana, para contrastar la simetr´ıa de la distribuci´on.
16 Contrastes no param´ etricos 16.3.1.3.
227
Test de la mediana
Los dos tests anteriores se refieren a la mediana de una u ´ nica poblaci´on y hacen uso de una u ´ nica muestra (en el caso de los datos apareados la poblaci´on y la muestra que interesan son las diferencias entre las parejas de datos). Sin embargo, con frecuencia se plantean situaciones en las cuales hay que comparar dos poblaciones continuas y tratar de detectar desplazamientos entre ambas distribuciones. Supongamos, por tanto, dos muestras aleatorias simples: x1 , x2 , · · · , xn e y1 , y2 , · · · , ym
correspondientes a cada poblaci´on e independientes entre s´ı. Si se ordenan conjuntamente
en orden creciente, la mediana z de la muestra combinada es el valor central, en el caso de que n + m sea impar, y el promedio de los dos valores centrales en el caso de que n + m sea par. El estad´ıstico que se emplea es T = N´ umero de xi inferiores a z Si Mex = Mey , es decir, si la hip´otesis H0 es cierta, la distribuci´on de T es hipergeom´etrica p P (T = t) =
t
!
n+m−p
n−t ! n+m
!
n
donde p es la parte entera de (n+ m)/2 y t puede variar entre max{0, y min{n, p}. p −m} p Si n y m son grandes la distribuci´on de T es aproximadamente N n/2, nm/4(n + m) . 16.3.1.4.
Test de Mann-Whitney
Este contraste “resuelve.el mismo caso que el anterior: detectar diferencias de posici´on entre dos poblaciones continuas de las que tenemos dos muestras aleatorias simples. El estad´ıstico a utilizar es V , calculado como sigue: 1. Se ordenan conjuntamente, igual que en el caso anterior, las dos muestras en orden creciente. 2. Para cada valor xi correspondiente a la primera muestra (que debe corresponder a la de tama˜ no muestral menor) se cuenta el n´ umero de valores de la segunda muestra que hay por debajo de ´el. 3. V es la suma de los n´ umeros calculados anteriormente.
228
Estad´ıstica Supongamos, por ejemplo, que al ordenar la muestra el resultado hubiera sido (cada x
representa un valor de la primera muestra y cada y uno de la segunda): xxyyxyyyxxyxxyx, entonces V = 0 + 0 + 2 + 5 + 5 + 6 + 6 + 7 = 31 La distribuci´ este estad´ıstico se halla on dep tabulada. Si n y m son grandes es, aproximadamente, N nm/2, nm(n + m + 1)/12 . En todo caso, la distribuci´on de V es sim´etrica en torno a nm/2.
16.3.2.
Contrastes de independencia
Vamos a estudiar algunos contrastes para decidir sobre la independencia de dos caracter´ısticas poblacionales continuas X e Y cuya distribuci´on conjunta no sea normal y que no est´an basados en el contraste χ2 . En el caso de distribuci´on conjunta normal lo m´as adecuado es realizar un contraste param´etrico sobre el coeficiente de correlaci´on. 16.3.2.1.
Test τ de Kendall
Supongamos un conjunto de n observaciones apareadas: (x1 , y1 ), (x2 , y2), · · ·, (xn , yn ).
Para calcular el estad´ıstico T de Kendall se procede como sigue:
1. Se ordena la muestra seg´ un la primera componente, de modo que x1 < x2 < · · · < xn 2. Consideramos ahora la segunda componente de cada par as´ı ordenado y ecribimos su rango, es decir, el lugar que ocupa respecto del resto de valores de y. Obtenemos entonces una sucesi´on de valores r1 , r2 , · · · , rn donde rj ≡ lugar que ocupa la segunda
componente del par i-´esimo en la ordenaci´on de estos valores.
3. Para cada valor de esta sucesi´on se cuenta cu´antos de los valores posteriores a ´el son mayores. 4. Se suman los n´ umeros as´ı obtenidos. Llamemos P a su valor. 5. T =
4P −1 n(n − 1)
La distribuci´on de T est´a tabulada y para n > 10 es aproximadamente s ! 2(2n + 5) N 0, 9n(n − 1) La regi´on cr´ıtica de este contraste es de la forma {|T | > k}
16 Contrastes no param´ etricos 16.3.2.2.
229
Test del coeficiente de correlaci´ on entre rangos o test de Spearman
Supongamos de nuevo una muestra apareada de valores (xi , yi ). Este contraste est´a basado en el estad´ıstico de Spearman, RS , que se calcula como sigue: 1. Se ordena la muestra seg´ un los valores de la primera componente (en orden creciente de ´esta). 2. Consideramos de nuevo el rango, rj , que corresponde al valor de la segunda componente y que ocupa el lugar j-´esimo de esta ordenaci´on. 3. Calculamos U =
n X j=1
4. RS = 1 −
(rj − j)2
6U n(n2 − 1)
La distribuci´on de RS est´a tabulada y para n > 10 es aproximadamente 1 N 0, √ n−1 16.3.2.3.
Test de rachas
Un problema de independencia distinto de los anteriores se plantea cuando existen dudas acerca de que una muestra sea realmente aleatoria simple, es decir, que las sucesivas observaciones hayan sido efectuadas independientemente. Condiciones de muestreo sin las debidas garant´ıas de aleatoriedad pueden afectar a la independencia de las observaciones y dar al traste con la aplicaci´on de todos los m´etodos basados en el muestreo aleatorio simple. Supongamos una variable que s´olo puede tomar dos valores (digamos 0 y 1). Al tomar una muestrta obtendremos sucesiones de la forma 0001101011110001. Se llama racha a cada uno de los conjuntos de ceros consecutivos que se observan hasta llegar a un 1 y a cada uno de los conjuntos de unos consecutivos que se observan hasta llegar a un 0. La muestra anterior, por ejemplo, tiene 8 rachas. Si R es el n´ umero de rachas en una muestra que tiene n ceros y m unos (y por tanto tama˜ no n + m) puede demostrarse que si la muestra es aleatoria n−1 P (R = 2r) = 2
r−1
!
m−1
n+m n
r−1 !
!
230
Estad´ıstica
n−1 P (R = 2r + 1) =
r−1
!
m−1 r
!
+
n+m n
n−1 !
r
!
m−1 r−1
!
con r ≤ min{n, m}.
Si n y m son grandes (superiores a 10) puede tomarse como distribuci´on de R s ! 2nm 2nm(2nm − n − m) N + 1, (n + m) (n + m)2 (n + m − 1
S La regi´on cr´ıtica de este contraste es de la forma {R < k1 } {R > k2 }.
16.4.
Ejemplos
Ejemplo 1 Se ha estimado que el n´ umero de accidentes diarios en una determinada carretera sigue una distribuci´on de Poisson de par´ametro 2. Durante 200 d´ıas se han recogido los siguientes datos: n◦ de accidentes
0
n◦ de d´ıas
1
2
3
4
5
6 7
22 53 58 39 20 5
2 1
con los que se quiere contrastar si se ajusta a la distribuci´on indicada. Si la hip´otesis es cierta se espera un n´ umero de d´ıas igual a 200 veces la probabilidad de que una Poisson de par´ametro 2 valga 0, 1, 2, 3, 4, 5, 6 ´o 7: Los valores esperados son: n◦ de accidentes n◦ esperado de d´ıas
0
1
2
3
4
≥5
27.06 54.14 54.14 36.08 18.04 10.54
donde se han agrupado las categor´ıas correspondientes a 5 o m´as accidentes para satisfacer la condici´on de que el n´ umero esperado en cada categor´ıa sea mayor o igual a 5. El estad´ıstico D de Pearson vale
D=
5 X (ni − ni,esp)2 i=0
ni,esp
5 X 222 532 82 n2i = −n + = + +···+ − 200 = 2.307 n 27.06 54.14 10.54 i=0 i,esp
16 Contrastes no param´ etricos
231
cuya distribuci´on, si la hip´otesis es correcta, es aproximadamente χ2 con 5 grados de libertad. Por ejemplo, P (χ25 > 7.29) = 0.2, de modo que s´olamente un valor de D superior a 7.29 permitir´ıa, con nivel de significaci´on 0.2, afirmar que la distribuci´on de accidentes no es una Poisson de par´ametro 2. El valor p del contraste realizado es superior a 0.7.
232
Estad´ıstica
Ejemplo 2 Una m´aquina, en correcto estado de funcionamiento, fabrica piezas cuya longitud se distribuye seg´ un una N(10.5; 0.15). En determinado momento se observa la siguiente muestra, de tama˜ no 40, de la longitud de las piezas producidas: 10.39 10.66 10.12 10.32 10.25 10.91 10.52 10.83 10.72 10.28 10.35 10.46 10.54 10.72 10.23 10.18 10.62 10.49 10.32 10.61 10.64 10.23 10.29 10.78 10.81 10.39 10.34 10.62 10.75 10.34 10.41 10.81 10.64 10.53 10.31 10.46 10.47 10.43 10.57 10.74 y se desea saber si la muestra avala que la m´aquina est´a funcionando correctamente. Vamos a realizar el contraste de bondad del ajuste de χ2 primero y, posteriormente, el de Kolmogorov-Smirnov. Para realizar el contraste χ2 , tomamos 8 intervalos buscando los cuantiles de o´rdenes 0.125, 0.25, 0.375, · · ·, 0.875, de modo que el n´ umero esperado de valores sea 5 en cada
intervalo. La partici´on resultante es:
Ai
ni
ni,esp
≤ 10.33
10
5
(10.33, 10.4]
5
5
(10.4, 10.45]
2
5
(10.45, 10.5]
4
5
(10.5, 10.55]
3
5
(10.55, 10.6]
1
5
(10.6, 10.67]
6
5
> 10.67
9
5
Total
40
40
52 + 02 + 32 + 12 + 22 + 42 + 12 + 42 = 14.4 5 Si la hip´otesis fuera correcta la distribuci´on de D ser´ıa χ2 con 7 grados de libertad y la D=
tabla indica que P (χ27 > 14.4) = 0.0445 Y, por tanto, se puede afirmar con cualquier nivel de significaci´on superior a 0.0445 que las piezas no siguen la distribuci´on N(10.5; 0.15).
16 Contrastes no param´ etricos
233
Para realizar ahora el contraste K-S se construye la siguiente tabla, cuya segunda columna da el n´ umero de observaciones acumuladas hasta el valor muestral, la tercera la funci´on de distribuci´on muestral (dividiendo por el tama˜ no de la muestra), la cuarta la distribuci´on te´orica (dada por la hip´otesis nula) y las dos siguientes las diferencias: la quinta de la misma fila y la sexta de cada F0 (xi ) con la de la fila anterior de la distribuci´on de la muestra.
234
Estad´ıstica xi
i
Fn (xi )
F0 (xi )
10.12
1
0.025
0.0056
10.18
2
0.050
10.23
4
10.25
Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi ) 0.0194
0.0056
0.0164
0.0336
-0.0086
0.100
0.0359
0.0641
-0.0141
5
0.125
0.0478
0.0772
-0.0522
10.28
6
0.150
0.0712
0.0788
-0.0538
10.29
7
0.175
0.0807
0.0943
-0.0693
10.31
8
0.200
0.1026
0.0974
-0.0724
10.32 10
0.250
0.1151
0.1349
-0.0849
10.34 12
0.300
0.1431
0.1569
-0.1069
10.35 13
0.325
0.1587
0.1663
-0.1413
10.39 15
0.375
0.2317
0.1433
-0.0933
10.41 16
0.400
0.2743
0.1257
-0.1007
10.43 17
0.425
0.3204
0.1046
-0.0796
10.46 19
0.475
0.3949
0.0801
-0.0301
10.47 20
0.500
0.4207
0.0793
-0.0543
10.49 21
0.525
0.4734
0.0516
-0.0266
10.52 22
0.550
0.5530
-0.0030
0.0280
10.53 23
0.575
0.5793
-0.0043
0.0293
10.54 24
0.600
0.6051
-0.0051
0.0301
10.57 25
0.625
0.6796
-0.0546
0.0796
10.61 26
0.650
0.7683
-0.1183
0.1433
10.62 28
0.700
0.7881
-0.0881
0.1381
10.64 30
0.750
0.8247
-0.0747
0.1247
10.66 31
0.775
0.8569
-0.0819
0.1069
10.72 33
0.825
0.9288
-0.1038
0.1538
10.74 34
0.850
0.9452
-0.0952
0.1202
10.75 35
0.875
0.9522
-0.0772
0.1022
10.78 36
0.900
0.9690
-0.0690
0.0940
10.81 38
0.950
0.9806
-0.0306
0.0806
10.83 39
0.975
0.9861
-0.0111
0.0361
10.91 40
1
0.9969
0.0031
0.0219
La entrada con mayor valor absoluto de la quinta columna es 0.1663 mientras que la de la sexta es 0.1538. As´ı, el estad´ıstico de Kolmogorov-Smirnov vale ∆40 = 0.1663
16 Contrastes no param´ etricos
235
y, seg´ un la tabla, corresponde a un valor p muy cercano a 0.2 (y desde luego, mayor que 0.1). No hay, por tanto, evidencia seg´ un este contraste en contra de la hip´otesis nula. En este ejemplo se comprueba que, a veces, el contraste χ2 detecta diferencias que el de Kolmogorov-Smirnov no es capaz de detectar. Ejemplo 3 Hemos deducido del contraste χ2 anterior que la maquina no fabrica piezas tal y como pens´abamos. Sin embargo parece plausible pensar que la distribuci´on de longitudes sigue siendo normal, s´olo que la media y desviaci´on han cambiado. Probemos esta hip´otesis. Lo primero que ha de hacerse es estimar la media y la desviaci´on t´ıpica por m´axima verosimilitud. Para una normal, los estimadores de estas cantidades resultan ser la media y la desviaci´on muestral, obteni´endose para nuestra muestra µ b = x¯ = 10.502
σ b = s = 0.2025
Tratemos de ajustar nuestros datos a una normal con estos par´ametros. Tomamos una partici´on arbitraria y construimos la tabla Ai
ni
ni,esp
≤ 10.3
7
6.37
(10.3, 10.4]
8
5.92
(10.4, 10.5]
6
7.55
(10.5, 10.6]
4
7.59
(10.6, 10.7]
6
6.00
> 10.7
9
6.57
seg´ un la cual D = 3.708. Al tener seis intervalos y haber estimado dos par´ametros la distribuci´on de D, si H0 es cierta, es una χ2 con 6 − 1 − 2 = 3 grados de libertad. Como P (χ23 > 3.708) = 0.295 La muestra no permite ahora rechazar la hip´otesis de que la longitud de las piezas fabricadas sigue una distribuci´on normal N(10.502; 0.2025). Ejemplo 4 Los impactos de 60 bombas volantes sobre la superficie de Londres, considerada cuadrada, fueron clasificados en 9 zonas obtenidas dividiendo cada lado en tres partes iguales, con los siguientes resultados
236
Estad´ıstica 8
7
3
5
9
11
6
4
7
Los responsables de la defensa quer´ıan averiguar si las bombas persegu´ıan alg´ un objetivo concreto o se distribu´ıan al azar sobre la superficie de la ciudad. Con distribuci´on uniforme sobre toda la superficie, cada cuadr´ıcula tendr´ıa probabilidad 1/9 de recibir cada impacto y, por tanto, un n´ umero esperado de impactos de 60/9. El estad´ıstico de Person vale ahora D = 7.5 y su distribuci´on te´orica deber´ıa ser una χ2 con 8 grados de libertad. P (χ28 > 7.5) = 0.48 valor que no permite rechazar la hip´otesis de uniformidad. Ejemplo 5 Un modelo gen´etico indica que la distribuci´on de dalt´onicos se ajusta a las probabilidades Hombres
Mujeres
Normales
q/2
q 2 /2 + pq
Dalt´onicos
p/2
p2 /2
siendo p = 1−q la proporci´on de cromosomas X portadores del daltonismo. Para comprobar la teor´ıa se examinaron 2000 individuos elegidos al azar con los siguientes resultados Hombres
Mujeres
Normales
894
1015
Dalt´onicos
81
10
y se desea saber si las observaciones concuerdan con el modelo. Puesto que q no es conocido habr´a que hallar su estimaci´on de m´axima verosimilitud. La muestra observada tiene por verosimilitud q 894 2000! 894! 81! 1015! 10! 2
1−q 2
81 h 10 q i1015 (1 − q)2 q 1− 2 2
cuyo logaritmo (prescindiendo de los t´erminos independientes de q) es
16 Contrastes no param´ etricos
237
894 log q + 81 log (1 − q) + 1015 log q + 1015 log (2 − q) + 20 log (1 − q) y tiene por derivada respecto a q 101 1015 1909 − − q 1−q 2−q La estimaci´on de q es qb = 0.91277 y los n´ umeros esperados en cada uno de los cuatro grupos son
Hombres
Mujeres
Normales
912.77
992.39
Dalt´onicos
87.23
7.61
El estad´ıstico D = 2.097 debe seguir una distribuci´on χ2 con 2 grados de libertad. Como P (χ22 > 2.097) = 0.35 no puede rechazarse la hip´otesis nula. Ejemplo 6 Se quiere estudiar si los distintos grupos sangu´ıneos se presentan con las mismas frecuencias en tres grupos ´etnicos diferentes. Para ello se analizaron un cierto n´ umero de individuos de cada raza, obteni´endose los resultados siguientes: Raza
0
A
B
AB
Total
A
32
11
7
2
52
B
47
13 17
9
86
C
23
7
9
6
45
102 31 33
17
183
Total
El estad´ıstico D = 4.691 y debe seguir una χ2 con 6 grados de libertad. Como P (χ26 > 4.691) = 0.584 No podemos rechazar la igualdad de frecuencias. Esta claro que las cifras de las distintas filas de la tabla anterior no son comparables entre s´ı directamente, puesto que se refieren a diferentes tama˜ nos muestrales. En porcentajes, los datos se expresan:
238
Estad´ıstica Raza
0
A
B
AB
Total
A
61.54 21.15 13.46
3.85
100
B
54.65 15.12 19.77 10.46
100
C
51.11 15.56 20.00 13.33
100
55.74 16.94 18.03
100
Total
9.29
La simple inspecci´on de esta tabla parece indicar que hay diferencias significativas, al menos entre el primer grupo ´etnico y los otros dos. Sin embargo, el contraste nos indica que estas diferencias son completamente admisibles como debidas al azar y no contradicen, en absoluto, la hip´otesis de igualdad de fercuencia de cada grupo sangu´ıneo. Ejemplo 7 Para comprobar la eficacia del test χ2 de homogeneidad se han simulado dos muestras aleatorias simples, de tama˜ no 50, de las distribuciones N(0,1) y Cauchy ( de densidad π −1 (1 + x2 )−1 ), cuya apariencia gr´afica es similar. Las muestras obtenidas han sido: N(0,1) -0.99
Cauchy
1.54
-1.02
0.56 -0.36
-2.15
1.34 -2.98
0.31 -0.18
0.41
0.51 -0.44
-0.60
0.58
-0.28
0.75
0.26 -0.89
1.76
-1.21
0.98 -0.46
0.07
1.11
-16.39
0.39 -0.45
-0.44
0.68
1.27 -1.13
1.22
0.46
2.18
-0.63
1.03
7.05 -5.96
1.23
0.77
0.03
0.71
-0.56
-0.91
0.44 -27.53
0.44
3.77
-0.69
0.21
1.88
2.57 -0.80 -0.16
-0.52
1.24 -1.18
-0.52
0.28
0.89
0.03
0.25
0.83
-1.24
0.88
-0.96
0.29
0.31
0.99
0.15 -0.13 -1.56
1.28
1.58 -1.74 28.33
-0.58
0.58
-1.24 -0.64
-1.34 -0.99
1.85
0.08
-0.16
-1.21 -0.21 -0.22
12.89
0.11
0.66
-0.71 -4.07 1.28
Podemos clasificar estas muestras en los intervalos
1.39
2.45
1.41
-3.49
-1.42
16 Contrastes no param´ etricos
239
Aj
n1j
n2j
n·j
(−∞, −2]
0
7
7
(−2, −1.2]
4
4
8
(−1.2, −0.9]
4
3
7
(−0.9, −0.6]
3
4
7
(−0.6, −0.3]
5
4
9
(−0.3, 0]
7
1
8
(0, −0.3]
7
3
10
(0.3, 0.6]
7
4
11
(0.6, 0.9]
4
4
8
(0.9, 1.2]
3
1
4
(1.2, 2]
5
9
14
(2, ∞]
1
6
7
50
50
100
Total
El estad´ıstico D toma el valor 20.03 y tiene distribuci´on χ2 con 11 grados de libertad. Puesto que P (χ211 > 20.03) = 0.045 se puede rechazar la homogeneidad de ambas muestras con nivel cr´ıtico 0.045. Ejemplo 8 Para estudiar si el grupo sangu´ıneo tiene relaci´on con la predisposici´on a padecer diabetes, se seleccionan al azar 400 sujetos de los que se ha determinado el grupo sangu´ıneo y el nivel de glucosa en id´enticas condiciones experimentales. Clasificada la segunda medida en bajo, medio y alto, los resultados han sido: Bajo
Medio
Alto
Total
0
137
86
35
258
A
42
23
11
76
B
19
17
7
43
AB
14
7
2
23
Total
212
133
55
400
Con los datos expresados en la tabla se obtiene D = 2.406. Por otra parte, D tiene distribuci´on χ2 con 6 grados de libertad y P (χ26 > 2.204) = 0.9
240
Estad´ıstica
por lo que no puede concluirse de ninguna manera que haya una relaci´on entre el grupo sangu´ıneo y la diabetes. Ejemplo 9 Un laboratorio farmac´eutico afirma que uno de sus productos confiere inmunidad contra la picadura de insectos durante un tiempo exponencial de media 2.5 horas. Probado en 25 sujetos, en un ambiente con gran n´ umero de mosquitos, los instantes (en horas) en que recibieron la primera picadura fueron: 0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.23 0.51 0.74 0.96 1.17 1.46 1.62 2.18 2.25 2.79 3.45 3.83 3.92 4.27 5.43 5.79 5.91 6.34 Construimos, para realizar un contraste K-S, la tabla: xi
i
Fn (xi )
0.01
2
0.08
0.02
5
0.03
F0 (xi ) Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi ) 0.004
0.076
0.004
0.20
0.008
0.192
-0.072
7
0.28
0.012
0.268
-0.188
0.23
8
0.32
0.088
0.232
-0.192
0.51
9
0.36
0.185
0.175
-0.135
0.74 10
0.40
0.256
0.144
-0.104
0.96 11
0.44
0.319
1.121
-0.081
1.17 12
0.48
0.374
0.106
-0.066
1.46 13
0.52
0.442
0.078
-0.038
1.62 14
0.56
0.477
0.083
-0.043
2.18 15
0.60
0.582
0.018
0.022
2.25 16
0.64
0.593
0.047
-0.007
2.79 17
0.68
0.672
0.008
0.032
3.45 18
0.72
0.748
-0.028
0.068
3.83 19
0.76
0.784
-0.024
0.064
3.92 20
0.80
0.792
0.008
0-032
4.27 21
0.84
0.819
0.021
0-019
5.43 22
0.88
0.886
-0.006
0.046
5.79 23
0.92
0.901
0.019
0.021
5.91 24
0.96
0.906
0-054
-0.014
6.34 25
1
0.921
0.079
-0.039
16 Contrastes no param´ etricos
241
en la que la cuarta columna contiene la funci´on de distribuci´on te´orica: 1−e−0.4x . Se tiene, de esta tabla, que ∆25 = 0.268 y la correspondiente tabla indica que la hip´otesis de que la distribuci´on es la que dice la empresa puede ser rechazada con nivel de significaci´on 0.05. Probemos ahora un contraste χ2 . Como hay s´olo 25 datos lo m´as l´ogico es descomponer el recorrido de la variable en 5 intervalos de probabilidad 1/5, obteni´endose: Ai
ni
ni,esp
[0, 0.558)
9
5
(0.558, 1.277]
3
5
(1.277, 2.291]
4
5
(2.291, 4.024]
4
5
(4.024, ∞)
5
5
y un valor del estad´ıstico D = 4.4 que, comparado con la distribuci´on χ24 , no permite rechazar la hip´otesis de ajuste ni siquiera con nivel de significaci´on 0.3. Ahora es este contraste el que no es capaz de detectar las diferencias que s´ı ha detectado KolmogorovSmirnov. Ejemplo 10 Una empresa decide adelantar su horario de entrada en una hora. Antes del cambio sab´ıa que la media de retraso de sus empleados era de 5 minutos. Tras el cambio selecciona 12 empleados y observa, en un determinado d´ıa, los siguientes retrasos (en minutos): 2.5 1.2 7
1.8 8.3 6.8
5.2 3.4 4.7 6.2
9.1 5.2
El contraste que desea realizar la empresa es H0 : Me = 5 (los retrasos no han variado) frente a H1 : Me > 5 (los retrasos han aumentado). Vamos a emplear el test de los signos: el n´ umero de datos superiores a 5 es T = 7, y la distribuci´on binomial B(12, 1/2),indica que, si H0 es correcta, P (T ≥ 7) = 0.3871 lo que indica que no es rechazable la hip´otesis nula. Ejemplo 11 Supongamos ahora que la empresa anterior seleccion´o 16 de sus empleados y midi´o sus retrasos en dos d´ıas , antes y despu´es del cambio de horario. Los resultados fueron:
242
Estad´ıstica 2.1/3.4 1.2/5.1 4.2/2.6 4.6/7.4 0.7/2.4 3.2/2.7 5.6/5.2 1.8/2.9 4.8/6.5 2.3/7.3 0.4/0.8 2.5/2.2 3.2/9.8 4.7/2.8 1.6/2.2 6.3/6.5 que se traduce en los siguientes aumentos de los retrasos: 1.3 3.9 -1.6
2.8
1.7 5.0
-0.3 6.6 -1.9
0.4
1.7 -0.5 -0.4 1.1 0.6
0.2
Si Me es la mediana de la distribuci´on de incrementos se puede contrastar, ahora, la hip´otesis H0 : Me = 0 frente a H1 : Me > 0. El n´ umero de incrementos positivos es T = 11 y la distribuci´on binomial B(16, 1/2) proporciona P (T ≥ 11) = 0.105 y se podr´ıa rechazar la hip´otesis Me = 0 con nivel cr´ıtico 0.105. Ejemplo 12 Supongamos que la distribuci´on de sodio por unidad de volumen de sangre en una poblaci´on es sim´etrica alrededor de 3.24 g. Se ha cambiado el suministro de agua y se han obtenido los siguientes an´alisis de 15 habitantes (en gramos por unidad de volumen): 2.37 2.95 3.40 2.46 3.66 3.18 2.72 3.71 3.87 1.97 1.66 3.72 2.10 1.83 3.03 Las diferencias respecto a la mediana, con los rangos, en la ordenaci´on creciente de sus valores absolutos, indicados junto a cada t´ermino, tal y como se requiere para aplicar el test de los rangos asignados a H0 : Me = 3.24 frente a H1 : Me 6= 3.24 son: −0.8711
+0.6310
−0.294
−1.2713
+0.162 −1.5815
−0.69
+0.487
+0.426 −1.1412
−0.061
−1.4114
−0.528
+0.375
−0.213
La suma de los rangos de los t´erminos positivos es T + = 2 + 6 + 5 + 10 + 7 = 30. Con nivel de significaci´on α = 0.1 la tabla indica que la hip´otesis Me = 3.24 puede ser rechazada si T + ≥ 89 ´o T + ≤ 31. En cambio, para α = 0.05 la regi´on cr´ıtica del test es T + ≥ 94 ´o T + ≤ 26. Los datos obtenidos permiten, pues, afirmar que la distribuci´on de la cantidad de sodio ha variado, con un riesgo de error pr´oximo al 10 %.
16 Contrastes no param´ etricos
243
Ejemplo 13 En 8 personas elegidas al azar se analiz´o el contenido en sodio antes y despu´es del cambio de suministro de agua, con los siguientes resultados: 3.34/2.58 2.82/2.46 3.06/3.50 2.30/2.16 4.22/3.78 3.55/3.19 2.61/2.94 2.83/1.94 Los incrementos han sido: -0.76 -0.36 +0.44 -0.14 -0.44 -0.36 +0.33 -0.89 (7)
(3.5)
(5.5)
(1)
(5.5)
(3.5)
(2)
(8)
con los rangos que se indican en la segunda fila. El test de Wilcoxon para el contraste de Me = 0 frente a Me 6= 0 nos proporciona el estad´ıstico T + = 7.5, mientras que la tabla correspondiente indica que, con nivel de significaci´on 0.1, la hip´otesis Me = 0 s´olo podr´ıa rechazarse si fuese T + ≥ 30 ´o T + ≤ 6. Ejemplo 14 Las ventas de los establecimientos A y B fueron controladas durante 9 y 12 d´ıas respectivamente, con los siguientes resultados (en miles de pesetas): A:
132.5 167.4 189.8 124.6 136.6 147.5 159.9 117.8 106.3
B:
97.4
108.2 114.1
118.4 109.2
86.3
101.8 122.6
78.3
136.2
89.5
92.7
La ordenaci´on conjunta de ambas muestras (sin perder la procedencia de cada dato) figura en la siguiente tabla: A: B:
106.3 78.3
86.3
A: B:
89.5
92.7
97.4
101.8
124.6 132.5 118.4 122.6
117.8 108.2 109.2 114.1
136.6 147.5 159.9 167.4 189.8 136.3
La mediana de la muestra conjunta (que ocupa el valor 11) es el valor 117.8 y hay un u ´ nico t´ermino de la primera muestra inferior a este, luego T = 1. Para contrastar Mex = Mey frente a Mex > Mey con nivel de significaci´on α, el test de la mediana utiliza la regi´on cr´ıtica {T ≤ k} donde ha de ser
244
Estad´ıstica
10 P (T ≤ k) =
k X
t
!
11 21
t=0
9
9−t !
!
≤α
Con k = 1 el nivel de significaci´on resulta α = 0.0058, de forma que se puede afirmar que Mex > Mey con gran seguridad. El contratse χ2 aplicado a la tabla de contingencia < 120 > 120
Total
A
2
7
9
B
10
2
12
Total
12
9
21
da una valor del estad´ıstico D = 7.84 que, comparado con una distribuci´on χ21 , permite tambi´en descartar la homogeneidad de ambas muestras con nivel de significaci´on inferior a 0.01. Con los tama˜ nos muestrales usados y la partici´on elegida, el contraste χ2 es menos fiable que el de la mediana. Con tama˜ nos muestrales grandes, y sobre todo si no hay constancia de la igualdad de forma de las distribuciones, es preferible el contraste χ2 . Tratemos ahora de emplear el test de Mann-Whitney. Para la ordenaci´on de las muestras anterior basta contar el n´ umero de elementos de la muestra B que hay por debajo de cada elemento de la muestra A para obtener: V = 6 + 9 + 11 + 11 + 12 + 12 + 12 + 12 + 12 = 97 Como V es aproximadamente N(54, 14.07) tenemos P (V > 96) ≃ P (N(0, 1) > 2.98) = 0.0014 y el test de Mann-Whitney corrobora, con nivel de significaci´on inferior a 0.005 que las ventas del establecimiento A son superiores a las del B. Ejemplo 15 En 10 empleados de una empresa se ha observado la distancia (en km.) de su domicilio a la sede de la empresa y el retraso (en min.) con el que llegaron al trabajo cierto d´ıa. Los resultados fueron:
16 Contrastes no param´ etricos
245
(3.3, 5, 1) (2.4, 3.6) (1.9, 4.2) (2.8, 6.3) (1.2, 2.3) (2.7, 3.4)
(4.0, 2.8) (0.7, 3.2) (6.1, 5.3) (3.7, 3.7)
Ordenada la muestra seg´ un la distancia, los retrasos asociados son 3.2 2.3 4.2
3.6 3.4
6.3
5.1 3.7
2.8 5.3
(3) (1) (7)
(5) (4) (10) (8) (6)
(2) (9)
cuyos rangos (en la ordenaci´on de valores de menor a mayor) se han indicado debajo de cada uno. El recuento de valores mayores que quedan a la derecha de cada rango proporciona P = 7 + 8 + 3 + 4 + 4 + 0 + 1 + 1 + 1 = 29 con lo cual T = 13/45 = 0.288. La correspondiente tabla indica que deber´ıa ser T > 0.33 para poder rechazar la hip´otesis de independencia con nivel de significaci´on 0.1. Por tanto, los datos no permiten concluir que haya relaci´on entre el retraso y la distancia del domicilio a la empresa. Probemos ahora con el test de Spearman. Con la ordenaci´on ya efectuada anteriormente: U = 22 + 12 + 42 + 12 + 12 + 42 + 12 + 22 + 72 + 12 = 94 y el estad´ıstico de Spearman vale RS = 1 − 6U/990 = 0.43. De la correspondiente tabla observamos que dicho coeficiente no es suficiente para rechazar la independencia entre las variables ni siquiera con nivel de significaci´on 0.1. Ejemplo 16 Al extraer 17 bolas con reemplazamiento de una bolsa con bolas blancas y negras se ha obtenido el resultado BBBBNNNBBBBBBBBNN que muestra R = 4 rachas. Puesto que hay 12 blancas y 5 negras, el n´ umero de rachas podr´ıa haber sido cualquiera entre 2 y 11. Las f´ormulas dadas anteriomente permiten calcular la probabilidad de cada uno de los valores: 2
3
4
5
6
7
8
9
10
11
0.0003 0.002 0.014 0.046 0.107 0.195 0.213 0.24 0.107 0.075 Incluyendo las probabilidades de menor a mayor, se observa que {R ≤ 4} es la regi´on
cr´ıtica con tama˜ no α = 0.0169; con tama˜ no α = 0.0631 se podr´ıa rechazar para {R ≤ 5} S y para α = 0.1377 se obtendr´ıa la regi´on cr´ıtica {R ≤ 5} {R = 11}.
246
Estad´ıstica
Ejemplo 17 Queremos comprobar si al tomar en d´ıas consecutivos los datos de ventas del establecimiento B del ejemplo 14 hemos afectado a su independencia. Los 12 datos tienen como mediana 105. Los t´erminos de la muestra original, comparados con esta mediana dan la secuencia de signos -++--+-+-++con R = 9 rachas. Con n = m = 6 la distribuci´on de R es sim´etrica entre 2 y 12, obteni´endose las probabilidades: 2 y 12 3 y 11 4 y 10
5y9
0.002
0.011 0.216 0.216
0.011
0.054
6y8
7
S La regi´on cr´ıtica {R ≤ 4} {R ≥ 10} tendr´ıa tama˜ no =0.134, de forma que, con
R = 9, no puede afirmarse que la toma de datos en d´ıas consecutivos haya afectado a la independencia de la muestra. Ejemplo 18 Una afecci´on de la gl´andula tiroides ha sido investigada en una cierta regi´on durante los a˜ nos ochenta. El n´ umero de casos observados desde junio de 1986 hasta mayo de 1989 vienen dados en la siguiente tabla A˜ no
Mes E
F M
A
M
1986
J
J A
S
O
N
D
6
9
8
6
8
11
8
1987
5
4
4
2
1
8
8
6
2
2
1
2
1988
7
8
3
1
2
7
7
6
5
5
3
5
1989
1
2
1
1
2
Se quiere investigar si existe o no alguna periodicidad en dicha enfermedad contrastando: (a) Si pueden considerarse homog´eneas las tres temporadas durante las cuales se recogieron los datos. (b) Si los casos se presentan con variaciones estacionales. (a) En primer lugar se trata de detectar si hay una pauta com´ un en los tres ciclos anuales considerados, ya que, en caso contrario, ello significar´ıa que el comportamiento es diferente cada a˜ no. Para ello , conviene agrupar los datos de la froma
16 Contrastes no param´ etricos
247
J
J
A
S
O
N
D
E
F
M
A-M
Total
1986-87
6
9
8
6
8
11
8
5
4
4
3
72
1987-88
8
8
6
2
2
1
2
7
8
3
3
50
1988-89
7
7
6
5
5
3
5
1
2
1
3
45
Total
21
24 20 13 15 15
15 13 14
8
9
167
con los meses de abril y mayo sumados para conseguir que sea ni n·j /n ≥ 2. El estad´ıstico
de contraste toma el valor
m X k 3 X 11 X X (nij − ni n·j /n)2 nij D= = n −1 + ni n·j /n nn i=1 j=1 i=i j=1 i ·j
!
= 24.477
y D tiene distribuci´on χ220 , cuya tabla indica que la hip´otesis de que las tres temporadas siguen el mismo patr´on no puede ser rechazada con nivel de significaci´on 0.1 (el nivel cr´ıtico es, de hecho, 0.222). (b) Admitida la homogeneidad de las tres muestras, los 167 casos, agrupados por meses, se distribuyen como indica la tabla siguiente J
J
A
S
O
21 24 20 13 15
N
D
E
F
M
A
M
15 15 13 14
8
4
5
La influencia del mes sobre el n´ umero de casos ocurridos tendr´ıa que ser descartada si las frecuencias observadas fuesen compatibles con probabilidades de 1/12 para cada uno de ellos; es decir si no pudiese admitirse que los datos fueran desviaciones debidas al azar en torno a 167/12 casos por mes. El estad´ıstico de Pearson para dicho contraste vale 12
D = −167 +
12 X 2 n = 29.24 167 j=1 j
y tiene distribuci´on χ211 . La hip´otesis de uniformidad de la distribuci´on puede rechazarse, por tanto, con nivel de significaci´on 0.005. Las diferencias entre los tres meses de verano (J,J,A) no son significativas, pues los datos J
J
A
21
24
20
65/3 65/3 65/3 dan como valor del estad´ıstico de Pearson D = −65 + 3/65 con la distribuci´on
χ22
3 X
n2j = 0.4 que, comparado
j=1
no permite rechazar la hip´otesis de que los casos se presentan
unifromemente distribuidos entre los tres meses.
248
Estad´ıstica Lo mismo ocurre con los tres meses de primavera (M,A,M: D = 1.53 < χ22;0.1 ) y, por
supuesto, con los seis meses de oto˜ no-invierno. En cambio, existen diferencias significativas entre estos tres periodos. Por ejemplo, la comparaci´on entre el verano y los seis meses siguientes da como resultado Verano
Oto˜ no-Invierno
65
85
150/3
2 · 150/3
D = 6.75 > χ21;0.01 de manera que no hay un reparto uniforme de los casos entre los tres meses de verano y los seis siguientes. En definitiva, puede concluirse que la incidencia de la enfermedad es m´as alta en verano y m´as baja en primavera, respecto del nivel medio durante el resto del a˜ no. Los datos de este ejemplo corresponden a una serie temporal (un conjunto de observaciones a lo largo del tiempo) que tienen su tratamiento espec´ıfico. Esto no significa, sin embargo, que los resultados obtenidos mediante las t´ecnicas est´andar para estas series sean “mejores”que las que hemos obtenido. La principal diferencia radica en la capacidad que da el an´alisis de series temporales de predecir el comportamiento futuro (al menos a corto plazo). Ejemplo 19 Las 100 primeras cifras decimales del n´ umero π son
π = 3.14159265358979323846264338327950288419716939937510 58209749445923078164062862089986280348253421170679 y queremos saber si estas cifras tienen las propiedades de una secuencia de cifras elegida al azar. Se puede contrastar, en primer lugar, si todas las cifras aparecen con la misma frecuencia 1/10, que si hubiesen sido elegidas al azar de una urna con diez bolas numeradas del 0 al 9. Para ello comparamos las frecuencias esperadas y observadas, mediante la tabla
ni ni,esp
0
1
2
3
4
5
6
7
8
8
8
12 11
10
8
9
8
12 14
10 10 10 10
9
10 10 10 10 10 10
16 Contrastes no param´ etricos
249
El valor del estad´ıstico de Pearson resulta 9
D=
1 X (ni − 10)2 = 4.2 10 i=0
que, comparado con la distribuci´on χ29 lleva a aceptar la hip´otesis de unifromidad con un nivel cr´ıtico pr´oximo a 0.9. Podemos contrastar ahora si la posici´on de las cifras parece el resultado de haberlas elegido al azar, sin dependencia entre ellas. Para ello lo adecuado es el test de rachas: eligiendo 4.5 como promedio de las 10 cifras, se indican con un + o un - aquellos d´ıgitos que sean, respectivamente, menores o mayores que 4.5; se obtiene as´ı 1
4
1
5
9
2
6
5
3
5
8
9
7
9
3
− − −
+
+
+
+
+
+
+
+
3
3
2
−
+
3
−
7
9
5
0
2
8
− − − +
− −
+
+
+
7
5
1
0
5
− − 8
− −
+
+
2
6
4
−
+
6
9
− − 3
9
− + 9
3
+
+
+
+
+
9
3
0
−
+
5
−
7
8
1
+
+ 6
2
8
− +
+
8
− −
+
+
−
+
− − −
2
0
8
3
4
6
4
0
6
−
+
+
8
2
− −
+
−
4
2
3
8
4
+
+
2
0
9
− − +
−
−
−
2
5
3
2
+
− − −
1
8 9
7
4
+
+
8
6
2
− +
+
+
1
1
− −
0
9
8
4
6
− + 7
1
+
−
4
4
− − 9
9
− − +
+
+
7
0
6
7
9
+
− +
+
+
con n = 49 signos – y m = 51 signos + y un total de R = 54 rachas. Como n y m son grandes, para que la colocaci´on de las cifras parezca hecha al azar, R tendr´ıa que tener aproximadamente distribuci´on ! r 2 · 49 · 51 2 · 49 · 51 · (2 · 49 · 51 − 49 − 51) N = N(50.98; 4.97) + 1; 100 990000 El nivel cr´ıtico resulta 2P (R > 54) = 2P (Z > 0.61) = 0.5418 que no permite, en absoluto, afirmar que las cifras no est´an colocadas al azar. Otra posibilidad, en la misma direcci´on, es clasificar las cifras en pares e impares, tratando de detectar alguna regularidad en la colocaci´on de unas y otras. Concretamente tenemos ahora la tabla:
250
Estad´ıstica 1
4
1
5
9
2
6
5
3
5
8
9
7
9
3
2
3
8
4
6
i
p
i
i
i
p
p
i
i
i
p
i
i
i
i
p
i
p p
p
2
6
4
3
3
8
3
2
7
9
5
0
2
8
8
4
1
9
7
1
p p
p
i
i
p
i
p
i
i
i
p p
p
p
p
i
i
i
i
6
9
3
9
9
3
7
5
1
0
5
8
2
0
9
7
4
9
4
4
p
i
i
i
i
i
i
i
i
p
i
p p
p
i
i
p
i
p
p
5
9
2
3
0
7
8
1
6
4
0
6
2
8
6
2
0
8
9
9
i
i
p
i
p
i
p
i
p
p
p
p p
p
p
p
p
p
i
i
8
6
2
8
0
3
4
8
2
5
3
4
2
1
1
7
0
6
7
9
p p
p
p
p
i
p p
p
i
i
p p
i
i
i
p
p
i
i
con n = 49 cifras impares, m = 51 pares y R = 43 rachas. La distribuci´on aproximada de R es la misma normal anterior y el nivel cr´ıtico resulta 2P (R > 43) = 2P (Z > −1.6) = 0.1096 que tampoco permite afirmar que las cifras no est´an situadas como si hubiesen sido elegidas al azar.
Regresi´on lineal simple
17 ´Indice
17.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 17.3. M´ etodo de m´ınimos cuadrados . . . . . . . . . . . . . . . . . . 254 17.4. Propiedades de los estimadores de m´ınimos cuadrados . . . . 256 17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . 256 17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . 257 17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 17.6. Inferencias respecto a los par´ ametros . . . . . . . . . . . . . . 258 17.7. Predicci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 17.7.1. Estimaci´on de la respuesta media . . . . . . . . . . . . . . . . . 259 17.7.2. Predicci´on de una observaci´on . . . . . . . . . . . . . . . . . . . 260 17.8. An´ alisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . 261 17.9. Coeficiente de correlaci´ on . . . . . . . . . . . . . . . . . . . . . 263 17.9.1. Inferencias sobre el coeficiente de correlaci´ on . . . . . . . . . . 264 17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . 265
251
252
Estad´ıstica
17.1.
Introducci´ on
En la pr´actica, con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe alguna relaci´on inherente entre ellas. Por ejemplo, en un caso industrial, se puede saber que el contenido de alquitr´an en el producto de salida de un proceso qu´ımico est´a relacionado con la temperatura con la que ´este se lleva a cabo. Puede ser interesante desarrollar un m´etodo de predicci´on, esto es, un procedimiento para estimar el contenido de alquitr´an para varios niveles de temperatura tomados de informaci´on experimental. El aspecto estad´ıstico del problema consiste entonces en lograr la mejor estimaci´on de la relaci´on entre las variables. Para este ejemplo y para la mayor´ıa de las aplicaciones, existe una clara distinci´on entre las variables en cuanto a su papel dentro del proceso experimental. Muy a menudo se tiene una sola variable dependiente o respuesta Y , que no se controla en el experimento. Esta respuesta depende de una o m´as variables independientes o de regresi´on, como son x1 , x2 , . . . , xk , las cuales se miden con un error despreciable y en realidad, en la mayor´ıa de los casos, se controlan en el experimento. As´ı, las variables independientes no son aleatorias y por tanto no tienen propiedades distribucionales. En el ejemplo citado anteriormente, la temperatura es la variable independiente o variable de regresi´on, x, y el contenido de alquitr´an es la respuesta, Y . La relaci´on fija para un conjunto de datos experimentales se caracteriza por una ecuaci´on de predicci´on que recibe el nombre de ecuaci´on de regresi´ on. En el caso de una sola x, se habla de regresi´on simple. Para k variables independientes, se habla de regresi´on m´ ultiple. En este curso se tratar´a el tema de la regresi´on lineal simple. Representamos una m.a.s. de tama˜ no n por el conjunto {(x1 , y1), . . . , (xn , yn )}. Si se tomaran muestras adicionales utilizando exactamente los mismos valores de x, se debe esperar que los valores
de y var´ıen. De ah´ı que el valor yi en el par ordenado (xi , yi ) sea un valor de la v.a. Y |xi . Por conveniencia se define Y |x como la v.a. Y correspondiente a un valor gen´erico x, y su
media y su varianza se indican por µY |x y σ 2 Y |x , respectivamente; mientras que si x = xi , el s´ımbolo Yi representa la v.a. Y |xi con media µYi = µY |xi y varianza σ 2 Yi = σ 2 Y |xi .
El t´ermino regresi´on lineal implica que µY |x est´a linealmente relacionado con x por
la recta de regresi´on lineal poblacional µY |x = α + βx donde los coeficientes de regresi´on α y β son par´ametros que deben estimarse a partir de los datos muestrales. Si a y b representan estas estimaciones, respectivamente, se puede
17 Regresi´ on lineal simple
253
Figura 17.1: Descripci´on del modelo de regresi´on lineal simple. entonces estimar µY |x por yb de la regresi´on muestral o recta de regresi´on ajustada o
estimada
yb = a + bx
El s´ımbolo yb se utiliza aqu´ı para distinguir entre el valor estimado que da la recta
de regresi´on muestral y el valor experimental real observado, y, para alg´ un valor de x.
17.2.
Modelo lineal
En el caso de una regresi´on lineal simple, donde hay una sola variable de regresi´on, x, y una sola v.a. dependiente, Y , los datos pueden representarse por los pares de observaciones {(x1 , y1 ), . . . , (xn , yn )}. Es conveniente utilizar los conceptos de la secci´on anterior para definir cada v.a. Yi = Y |xi por medio de un modelo estad´ıstico. Si se postula que todas las medias µYi caen sobre una recta (Fig. 17.1), µYi = α + βxi
i = 1, . . . , n
(17.1)
entonces cada Yi puede describirse por el modelo de regresi´on lineal simple Yi = µYi + Ei = α + βxi + Ei
i = 1, . . . , n
(17.2)
254
Estad´ıstica
Figura 17.2: Descripci´on del error del modelo (εi ) y del residuo (ei ). donde el error aleatorio Ei , el error del modelo, debe tener media nula. Cada observaci´on (xi , yi ) de la muestra satisface la ecuaci´on yi = α + βxi + εi
(17.3)
donde εi es el valor que asume la v.a. Ei cuando Yi toma el valor yi . La ecuaci´on anterior puede considerarse como el modelo para una sola observaci´on yi . De manera similar, al utilizar la recta de regresi´on lineal estimada yb = a + bx
cada par de observaciones satisface la relaci´on
yi = a + bxi + ei
(17.4)
donde ei = yi − ybi se llama residuo y describe el error en el ajuste del modelo en el punto i de los datos. La diferencia entre ei y εi se muestra claramente en la figura 17.2.
17.3.
M´ etodo de m´ınimos cuadrados
El m´etodo se basa en encontrar las estimaciones a y b de α y β de tal forma que la suma de los cuadrados de los residuos sea m´ınima. Si notamos por P P P SSE = e2i = (yi − ybi )2 = (yi − a − bxi )2
17 Regresi´ on lineal simple
255
Derivando respecto de a y b, e igualando a cero se tiene P P ∂(SSE) = −2 (yi − a − bxi ) = 0 (=⇒ ei = 0) ∂a
∂(SSE) = −2 P(y − a − bx )x = 0 (=⇒ P x e = 0) i i i i i ∂b
de donde
(17.5)
P P yi na + b xi =
a P x + b P x2 = P x y i i i i
que se pueden resolver para dar las expresiones de a y b P P P n xi yi − ( xi ) ( yi ) b= P 2 P 2 n x − ( xi ) i P P y xi i−b a= n
(17.6)
Para simplificar un poco, definimos x¯ =
y¯ =
1P xi n
1P yi n
Sxx =
Syy =
Sxy = Entonces,
P P P 1 P (xi − x¯)2 = x2i − ( xi )2 = x2i − n¯ x2 n
P P 2 1 P 2 P 2 (yi − y¯)2 = yi − ( yi ) = yi − n¯ y2 n
P P P P 1 P (xi − x¯)(yi − y¯) = xi yi − ( xi ) ( yi ) = xi yi − n¯ xy¯ n b=
Sxy Sxx
(17.7)
a = y¯ − b¯ x Por tanto, la recta de regresi´on estimada se puede expresar como yb = y¯ + b(x − x¯)
(17.8)
256
Estad´ıstica
17.4.
Propiedades de los estimadores de m´ınimos cuadrados
17.4.1.
Propiedades generales
Adem´as de la suposici´on de que el t´ermino de error del modelo, Ei , es una v.a. con media cero, supongamos que cada Ei tiene la misma varianza, σ 2 (homocedasticidad), y que E1 , E2 , . . . , En son independientes. Con estas hip´otesis sobre las Ei podemos calcular la media y la varianza de los estimadores de α y β. Es importante recordar que los valores de a y b, obtenidos en base a una muestra dada de n observaciones, son solo estimaciones de los par´ametros reales α y β. Si el experimento se repite varias veces, utilizando los mismos valores de x, es muy probable que las estimaciones resultantes de α y β difieran de un experimento a otro. Estas estimaciones diferentes pueden considerarse como valores asumidos por las v.a. A y B. Dado que los valores de x permanecen fijos, los valores de A y B dependen de las variaciones de los valores de y, o en forma m´as precisa, de los valores de las v.a. Y1 , Y2 , . . . , Yn . Las suposiciones distribucionales de las Ei implican que Y1 , Y2 , . . . , Yn tambi´en se distribuyen independientemente con medias µYi = α + βxi y varianzas iguales σ 2 ; es decir, σ 2 Yi = σ 2 para i = 1, 2, . . . , n. Dado que el estimador P P P P P xi Yi − ( xi ) ( Yi ) n xi Yi − n¯ x ( Yi ) (x − x¯)Yi = P i B= = P 2 P 2 P 2 1 P 2 (xi − x¯)2 n xi − ( xi ) n xi − ( xi ) n P es de la forma B = ai Yi , donde n
(xi − x¯) ai = P (xi − x¯)2
entonces,
µB
i = 1, 2, . . . , n
P P (xi − x¯)E[Yi ] (xi − x¯)(α + βxi ) P = E[B] = P = = 2 (xi − x¯) (xi − x¯)2 =
σB2
P
P P P P 1 1 [α xi + β x2i − nα¯ x − β x¯ xi ] = β [ x2i − n¯ x2 ] = β Sxx Sxx
P P σ 2 (xi − x¯)2 σ2 (xi − x¯)2 Var(Yi ) σ2 P = P = Var(B) = = P 2 2 = Sxx (xi − x¯)2 ( (xi − x¯)2 ) ( (xi − x¯)2 )
17 Regresi´ on lineal simple
257
Igualmente, el estimador A se puede expresar como
A=
P
Yi − B n
P
xi
P 1P (xi − x¯)Yi P 1 x¯(xi − x¯) Yi − x¯ P = −P = Yi n n (xi − x¯)2 (xi − x¯)2
es decir, A tambi´en es una combinaci´on lineal de las v.a. independientes Yi , por tanto, operando, se llega f´acilmente a µA = E[A] =
P
x¯(xi − x¯) 1 −P n (xi − x¯)2
E[Yi ] = α
rP 2 2 xi x¯(xi − x¯) 1 2 −P Var(Yi ) = σ = Var(A) = 2 n (xi − x¯) nSxx Por tanto, sea cual sea la distribuci´on de los errores del modelo, los estimadores σA2
P
m´ınimo cuadr´aticos, A y B, de los coeficientes de regresi´on α y β, son insesgados. Por la propia definici´on de los estimadores A y B, se deduce que no son independientes, siendo Cov(A, B) = E[(A − α)(B − β)] = −
17.4.2.
x¯σ 2 Sxx
Condiciones de normalidad
Para conocer la forma de la distribuci´on de los estimadores A y B, es necesario conocer previamente la distribuci´on de los errores del modelo. Si a las hip´otesis de independencia y homocedasticidad de los errores del modelo a˜ nadimos la hip´otesis de normalidad, es decir, Ei ≡ N(0, σ) i = 1, . . . , n, entonces todas las v.a. involucradas hasta ahora: Yi ,
A, B, resultan ser combinaciones lineales de v.a. Normales e independientes, por tanto su distribuci´on tambi´en ser´a Normal. As´ı, Yi ≡ N(µYi , σ) i = 1, . . . , n B ≡ N(β, σ/√S ) xx Si Ei ≡ N(0, σ) i = 1, . . . , n =⇒ rP 2 ! xi A ≡ N α, σ nS xx
17.5.
Varianza residual
Seg´ un lo expuesto anteriormente, la hip´otesis de normalidad en los errores del modelo asegura la normalidad de los estimadores m´ınimo cuadr´aticos sin embargo, para tener
258
Estad´ıstica
completamente especificadas sus distribuciones, es necesario tener una estimaci´on de la varianza de los errores, σ 2 . Para ello, definimos la varianza residual como P 2 P SSE e (yi − ybi )2 i s2 = = = n−2 n−2 n−2 Veamos una forma m´as sencilla de expresar s2
P P (yi − ybi )2 = (yi − a − bxi )2 = P P = (yi − (¯ y − b¯ x) − bxi )2 = ((yi − y¯) − b(xi − x¯))2 = P P P = (yi − y¯)2 + b2 (xi − x¯)2 − 2b (yi − y¯)(xi − x¯) =
SSE =
= Syy + b2 Sxx − 2bSxy = Syy + bSxy − 2bSxy = Syy − bSxy Por tanto,
P
Syy − bSxy (yi − ybi )2 = (17.9) n−2 n−2 y, como es habitual en la varianzas que proceden de distribuciones normales, la varianza 2
s =
residual sigue una distribuci´on del tipo Chi-cuadrado. En particular, (n − 2)s2 ≡ χ2n−2 2 σ
(17.10)
Por tanto, la varianza residual es una estimaci´on insesgada de la varianza de los errores del modelo.
17.6.
Inferencias respecto a los par´ ametros
Una vez estimada la varianza de los errores, y recordando que mantenemos las hip´otesis de normalidad de los mismos, podemos construir los estad´ısticos adecuados para realizar inferencias respecto a los par´ametros de regresi´on. As´ı, √ B ≡ N(β, σ/ Sxx ) 2
(n − 2)s ≡ χ2n−2 2 σ A ≡ N α, σ
rP
x2i nSxx
(n − 2)s2 ≡ χ2n−2 2 σ
!
B−β √ B−β σ/ Sxx √ = ≡ tn−2 =⇒ s 2 s/ S xx (n − 2)s (n − 2)σ 2
A−α rP 2 xi σ A−α nSxx =⇒ s = r P 2 ≡ tn−2 xi (n − 2)s2 s nSxx (n − 2)σ 2
(17.11)
(17.12)
17 Regresi´ on lineal simple
259
Por tanto, un intervalo de confianza del (1 − α)100 % para la pendiente de la recta
de regresi´on poblacional, β, es
b − tα/2 √
s s < β < b + tα/2 √ Sxx Sxx
y, un intervalo de confianza del (1 − α)100 % para la ordenada en el origen de la recta de
regresi´on poblacional, α, es
a − tα/2 s
17.7.
rP
x2i < α < a + tα/2 s nSxx
rP
x2i nSxx
Predicci´ on
Un modelo de regresi´on, fijado un valor particular de la variable independiente (xp ), permite en primer lugar, estimar el valor medio de la respuesta (µYp ); y en segundo lugar, prever futuros valores de la variable respuesta (yp ). Tanto la estimaci´on de la media, como la predicci´on de un valor de la variable dependiente, se obtienen sustituyendo en la recta de regresi´on estimada. Es decir, µYp ≃ ybp = a + bxp yp ≃ ybp = a + bxp
sin embargo, la precisi´on de estas estimaciones es distinta, como veremos en las siguientes secciones.
17.7.1.
Estimaci´ on de la respuesta media
Utilizando la notaci´on habitual para v.a.
entonces E[Ybp ]
Ybp = A + Bxp = E[A + Bxp ] = E[A] + E[B]xp = α + βxp = µYp
Var(Ybp ) = Var(A + Bxp ) = Var((Y¯ − B x¯) + Bxp ) = Var(Y¯ + B(xp − x¯)) = σ2 σ2 = Var(Y¯ ) + (xp − x¯)2 Var(B) = + (xp − x¯)2 = σ2 n Sxx
1 (xp − x¯)2 + n Sxx
260
Estad´ıstica
donde hemos utilizado el hecho de que las variables Y¯ y B son independientes. Entonces,
Ybp ≡ N µYp , σ
r
1 (xp − x¯)2 + n Sxx
(n − 2)s2 ≡ χ2n−2 σ2 es
!
Ybp − µYp ≡ tn−2 =⇒ r 1 (xp − x¯)2 + s n Sxx
Por tanto, un intervalo de confianza del (1 − α)100 % para la respuesta media, µYp ,
ybp − tα/2 s
17.7.2.
r
1 (xp − x¯)2 + < µYp < ybp + tα/2 s n Sxx
r
1 (xp − x¯)2 + n Sxx
Predicci´ on de una observaci´ on
En este caso, utilizamos la v.a. Ybp − Yp E[Ybp − Yp ]
= E[Ybp ] − E[Yp ] = µYp − µYp = 0
Var(Ybp − Yp ) = Var(Ybp ) + Var(Yp ) = σ 2
1 (xp − x¯)2 + n Sxx
+ σ2 =
1 (xp − x¯)2 =σ 1+ + n Sxx 2
Entonces
Ybp − Yp ≡ N 0, σ (n − 2)s2 ≡ χ2n−2 σ2
r
1 (xp − x¯)2 1+ + n Sxx
!
Ybp − Yp ≡ tn−2 =⇒ r 1 (xp − x¯)2 s 1+ + n Sxx
y, un intervalo de confianza del (1 − α)100 % para una predicci´on, yp , es r
1 (xp − x¯)2 < yp < ybp + tα/2 s ybp − tα/2 s 1 + + n Sxx
r
1+
1 (xp − x¯)2 + n Sxx
17 Regresi´ on lineal simple
17.8.
261
An´ alisis de la varianza
El contraste m´as importante en regresi´on se refiere a la pendiente de la recta de regresi´on poblacional, y se plantea de la forma H0 : β = 0 H1 : β 6= 0 Aunque en la secci´on 17.6 hemos dado un estad´ıstico v´alido para este contraste (Eq. 17.11), en este apartado vamos a estudiarlo desde otro punto de vista. Si la pendiente de la verdadera recta de regresi´on es distinta de cero, entonces las desviaciones de los datos, yi , respecto a su valor medio, y¯, se pueden descomponer en dos partes (Fig. 17.3(a)): una, el residuo, es decir (yi − ybi ); y otra, la diferencia entre el valor
predicho por la recta de regresi´on estimada y el valor medio de los datos, es decir, (b yi − y¯).
Sin embargo, si la verdadera pendiente de la recta de regresi´on es nula (Fig. 17.3(b)), entonces todos los valores predichos verifican ybi = y¯, por lo que la segunda componente
es nula.
El residuo representa las fluctuaciones aleatorias dentro del rango probable de va-
lores que puede asumir la v.a. Yi , mientras que la segunda componente representa las fluctuaciones intr´ınsecas debidas a la relaci´on lineal que verifican las v.a. Yi ; as´ı, cuanto m´as nos alejamos de la zona central, (¯ x, y¯), m´as grandes deben ser estas fluctuaciones. De esta forma, la variaci´on total se puede expresar como P P (yi − y¯)2 = [(yi − ybi ) + (b yi − y¯)]2 = P P P = (yi − ybi )2 + (b yi − y¯)2 + 2 (yi − ybi )(b yi − y¯) = P P 2 2 = (yi − ybi ) + (b yi − y¯)
donde hemos utilizado el hecho de que (Eq. 17.5) P
P P P (a + bxi )ei = a ei + b xi ei = 0 P P y¯(yi − ybi ) = y¯ ei = 0 ybi (yi − ybi ) =
En resumen, la variaci´on total
P P P (yi − y¯)2 = (yi − ybi )2 + (b yi − y¯)2
(17.13)
se descompone en dos t´erminos independientes: el primero refleja la variabilidad no explicada por la regresi´on, que es debida al car´acter aleatorio de la relaci´on; y el segundo contiene la variabilidad explicada por la regresi´on, y puede interpretarse como la parte determinista de la variabilidad de la respuesta. LLamaremos
262
Estad´ıstica
Figura 17.3: Descomposici´on de la varianza para el caso de (a) pendiente no nula; y (b) pendiente nula. SST = SSE =
P (yi − y¯)2 = Syy = Suma Total de los Cuadrados
P (yi − ybi )2 = Syy − bSxy = Suma de los Cuadrados de los Errores
17 Regresi´ on lineal simple
263
Fuente
Suma
Grados
Cuadrados
Error
Cuadrados
Libertad
Medios
Regresi´on
SSR
1
Error
SSE
Total
SST
n−2 n−1
SSR/1
Estad´ıstico
Valor-P
f = SSR/s2
P (F1,n−2 ≥ f )
SSE/(n − 2)
Figura 17.4: Tabla ANOVA SSR =
P (b yi − y¯)2 = bSxy = Suma de los Cuadrados de Regresi´on
Se puede demostrar que, si la hip´otesis nula es cierta es decir, si β = 0, entonces SSR/σ 2 ≡ χ21
y SST /σ 2 ≡ χ2n−1
Por tanto, SSR SSR/1 = 2 ≡ F1,n−2 SSE/(n − 2) s
(17.14)
Este estad´ıstico se puede utilizar como alternativa al estad´ıstico dado en (Eq. 17.11) para realizar el contraste regresi´on. Si su valor, f , es peque˜ no, significa que SSE es muy grande comparado con el valor de SSR es decir, la mayor parte de la variabilidad observada es puramente aleatoria, y la componente explicada por el modelo (la recta propuesta) tiene muy poca influencia, por tanto no se rechaza H0 . Por otra parte, si f es grande, significa que SSR es muy grande comparado con SSE es decir, la mayor parte de la variabilidad observada se debe a la existencia de una recta de regresi´on con pendiente no nula, por tanto se rechaza H0 . De hecho, se cumple !2 b − β √ f= = t2 s/ Sxx β=0
La forma habitual de presentar todos los datos vistos en esta secci´on es en la llamada
tabla ANOVA (del ingl´es, ANalysis Of VAriance), que se muestra en la figura 17.4.
17.9.
Coeficiente de correlaci´ on
La evaluaci´on global de una recta de regresi´on puede hacerse mediante la varianza residual, que es un ´ındice de la precisi´on del modelo. Sin embargo, esta medida no es u ´ til
264
Estad´ıstica
para comparar rectas de regresi´on de variables distintas, ya que depende de las unidades de medida. Una medida m´as adecuada de la bondad del ajuste es el llamado coeficiente de determinaci´on del modelo, definido como la proporci´on de la variabilidad total explicada por el modelo propuesto
P SSR (b yi − y¯)2 R = =P SST (yi − y¯)2 Para el caso particular del modelo lineal, 2
2 Sxy Sxy = r =b Syy Sxx Syy 2
(17.15)
y, el coeficiente de correlaci´on lineal de la muestra es r=p
Sxy Sxx Syy
(17.16)
que representa una estimaci´on del coeficiente de correlaci´on lineal de la poblaci´on Cov(X, Y ) ρ= p Var(X) Var(Y )
Sea cual sea el modelo propuesto, siempre se cumple que 0 ≤ R2 ≤ 1. En particular, • 0 ≤ r 2 ≤ 1 (−1 ≤ r ≤ 1) • Si r 2 = 1, existe una relaci´on lineal perfecta entre las variables X e Y (Si r = 1 la relaci´on es positiva, es decir, la pendiente de la recta es positiva. Si r = −1 la relaci´on es negativa, es decir, la pendiente de la recta es negativa). En
consecuencia, las variables son dependientes.
• Si r 2 = 0 (r = 0), no existe relaci´on lineal entre las variables X e Y . De forma general, esto no implica que las variables sean independientes, ya que podr´ıa existir una relaci´on no lineal entre ellas.
17.9.1.
Inferencias sobre el coeficiente de correlaci´ on
El contraste H0 : ρ = 0 es equivalente al ya estudiado H0 : β = 0, y se puede realizar con el estad´ıstico
ya que se cumple
√ r n−2 √ ≡ tn−2 1 − r2 √ r n−2 √ = 1 − r2
!2 b − β √ = t2 s/ Sxx β=0
(17.17)
17 Regresi´ on lineal simple
265
Para realizar el contraste general H0 : ρ = ρ0 6= 0, es necesario que la poblaci´on, es
decir, la v.a. (X, Y ), siga una distribuci´on Normal Bidimensional. En ese caso, se utiliza el estad´ıstico 1 1+r ∼ Ln = N 2 1−r
17.10.
1 1 1+ρ Ln ,√ 2 1−ρ n−3
(17.18)
Contraste de linealidad
Hasta ahora, hemos supuesto que realmente existe una recta de regresi´on que ajusta perfectamente los datos, es decir, las medias de las v.a. Yi se encuentran sobre una recta µYi = α + βxi
i = 1, . . . , n
que hemos estimado por ybi = a + bxi
i = 1, . . . , n
Por tanto, la primera pregunta deber´ıa haber sido ¿es cierta esa afirmaci´on? El contraste de linealidad est´a dise˜ nado para responder a esta cuesti´on. Cuando las medias de las v.a. Yi no se encuentran sobre una recta (Fig. 17.5) pero casi, este “casi” es la llamada componente de falta de ajuste, y el contraste de linealidad cuantifica este desajuste para contrastar la hip´otesis de linealidad del modelo. Para realizar el contraste, es necesario disponer de varios valores de y para algunos o todos los valores de x. LLamaremos xi (i = 1, . . . , d) a los valores distintos que toma la variable x. Para cada valor de xi existir´an observaciones yij
(j = 1, . . . , ni ), de forma
que n = n1 + · · · + nd (Fig. 17.6)
La l´ogica del contraste puede entenderse suponiendo que representamos gr´aficamente
las medias de las distribuciones condicionadas, y¯i . Nos encontraremos con alguna de las situaciones que muestra la figura 17.7: el gr´afico 17.7 (a) sugiere que probablemente la hip´otesis de linealidad es cierta, ya que las medias y¯i parecen tener una relaci´on lineal; en 17.7 (b) se detecta una relaci´on claramente no lineal; y en 17.7 (c) no est´a clara la existencia de relaci´on. El contraste de linealidad compara las medias muestrales estimadas directamente de los datos observacionales, y¯i , con las medias muestrales estimadas bajo la hip´otesis de linealidad, ybi . Intuitivamente, si medimos la discrepancia entre ambas estimaciones con P ni (y¯i − ybi )2 , tenderemos a rechazar la hip´otesis de linealidad si esta discrepancia es grande, y a no rechazarla cuando es peque˜ na. Para cuantificar el tama˜ no de esta discre-
pancia, se compara con una medida de la variabilidad muestral cuyo valor esperado no
266
Estad´ıstica
Figura 17.5: Descripci´on del modelo de regresi´on lineal simple con componente de falta de ajuste. depende de la hip´otesis que estamos contrastando. Un t´ermino razonable de comparaci´on PP es (yij − y¯i )2 , que mide la variabilidad inherente a los datos, sin depender de la
hip´otesis de linealidad.
Vamos a aclarar estos conceptos con la figura 17.8. La ausencia de una relaci´on lineal perfecta permite descomponer los residuos, eij = yij − ybi , en suma de dos componentes:
una, (yij − y¯i ), debida a la fluctuaci´on aleatoria dentro del rango probable de valores que
puede asumir la v.a. Yi para cada valor fijo xi ; y otra,(y¯i − ybi ), que contiene los errores debidos a la falta de ajuste ya que, al fin y al cabo, las medias no est´an sobre una recta
por lo que la recta estimada no puede contener a las medias estimadas. Si la relaci´on
lineal es perfecta, entonces y¯i = ybi (i = 1, . . . , d) y la segunda componente es nula, por
lo que la varianza residual es una estimaci´on insesgada de la varianza de los errores del modelo (como vimos en la secci´on 17.5) pero, si la relaci´on lineal no es perfecta, la segunda componente es distinta de cero, por lo que la varianza residual pasa a ser una estimaci´on
sesgada de σ 2 al contener un t´ermino de falta de ajuste que no tiene nada que ver con el error del modelo.
17 Regresi´ on lineal simple
267
observaciones
x1
y11
y12
· · · y1j
···
y1n1
n1 1 X y1j y¯1 = n1 j=1 n
· · · y2j
···
y2n2
.. .
.. .
.. .
···
yij
···
yini
.. .
.. .
.. .
.. .
x2
y21
y22
.. .
.. .
.. .
.. .
xi
yi1
yi2
.. .
.. .
.. .
xd
yd1
d
1X ni xi x¯ = n i=1
yd2
d
···
· · · ydnd
ydj
n
2 1 X y¯2 = y2j n2 j=1 .. . ni 1 X y¯i = yij ni j=1 .. .
nd 1 X ydj y¯d = nd j=1
d
i 1X 1 XX ni y¯i yij = y¯ = n i=1 j=1 n i=1
Figura 17.6: Tabla de datos para realizar el contraste de linealidad La descomposici´on de la suma de los cuadrados de los residuos es sencilla pues, SSE =
ni d X X i=1 j=1
=
ni d X X
i=1 j=1
i=1 j=1
(yij − y¯i ) +
ni d X X
(yij − y¯i )2 +
d X
ni d X X
(yij − y¯i )2 +
d X
i=1 j=1
=
ni ni d X d X X X 2 = (yij − ybi ) = [(yij − y¯i ) + (y¯i − ybi )]2 = ni d X X
i=1 j=1
=
e2ij
i=1 j=1
2
i=1 j=1
i=1
i=1
ni d X X (y¯i − ybi ) + 2 (yij − y¯i )(y¯i − ybi ) = 2
i=1 j=1
"n # d i X X ni (y¯i − ybi )2 + 2 (y¯i − ybi ) (yij − y¯i ) = i=1
ni (y¯i − ybi )2
j=1
268
Estad´ıstica
Figura 17.7: Medias condicionadas y la recta de regresi´on.
donde hemos utilizado el hecho de que
ni X j=1
cuadrados de los residuos ni d X X i=1 j=1
2
(yij − ybi ) =
ni d X X i=1 j=1
(yij − y¯i ) = 0. En resumen, la suma de los
2
(yij − y¯i ) +
d X i=1
ni (y¯i − ybi )2
(17.19)
se descompone en dos t´erminos independientes: el primero refleja la fluctuaciones aleatorias de cada observaci´on en torno a su valor medio; y el segundo refleja la ausencia de una relaci´on lineal perfecta en la medias de las v.a. Yi . LLamaremos SSE =
ni d X X i=1 j=1
(yij − ybi )2 = Suma de los Cuadrados de los Residuos
17 Regresi´ on lineal simple
269
Figura 17.8: Descomposici´on del residuo (eij ) cuando existe componente de falta de ajuste. ni d X X SSE(p) = (yij − y¯i )2 = Error Puro i=1 j=1
SSE(a) =
d X i=1
ni (y¯i − ybi )2 = Error por Falta de Ajuste
Se puede demostrar que, si la hip´otesis de linealidad es cierta, entonces SSE(p)/σ 2 ≡ χ2n−d
y SSE(a)/σ 2 ≡ χ2d−2
Por tanto, SSE(p)/(n − d) es una estimaci´on insesgada de la varianza, σ 2 , de los
errores del modelo, y el estad´ıstico
SSE(a)/(d − 2) ≡ Fd−2,n−d SSE(p)/(n − d)
(17.20)
representa el cociente entre la variaci´on debida a la falta de ajuste y la variaci´on debida a causas puramente aleatorias. As´ı, este estad´ıstico nos sirve para contrastar la hip´otesis de linealidad. Si su valor, f , es grande, significa que la mayor parte del error procede de la componente de falta de ajuste, por lo que deberemos rechazar la hip´otesis de relaci´on lineal perfecta. Por el contrario, si f es peque˜ no, significa que la mayor parte del error es puramente aleatorio y no rechazaremos la hip´otesis de relaci´on lineal perfecta.
270
Estad´ıstica La forma habitual de presentar todos los datos vistos en esta secci´on es en la tabla
ANOVA completa, que se muestra en la figura 17.9
Fuente
Suma
Grados
Cuadrados
Error
Cuadrados
Libertad
Medios
Regresi´ on
SSR
1
Error
SSE
n−2
SSE/(n − 2)
Ajuste
SSE(a)
d−2
SSE(a)/(d − 2)
Puro
SSE(p)
n−d
SSE(p)/(n − d)
SST
n−1
Total
SSR/1
Estad´ıstico
SSR/1 SSE/(n − 2)
P (F1,n−2 ≥ f )
SSE(a)/(d − 2) SSE(p)/(n − d)
P (Fd−2,n−d ≥ f )
f=
f=
Valor-P
Figura 17.9: Tabla ANOVA completa
Tablas estad´ısticas
A
271
Tabla A.1: Distribuci´on Binomial. P (B(n, p) ≤ x) =
x X k=0
n k
!
pk (1 − p)n−k
p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
1
0
.9000
.8000
.7500
.7000
.6000
.5000
.4000
.3000
.2000
.1000
1
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0
.8100
.6400
.5625
.4900
.3600
.2500
.1600
.0900
.0400
.0100
1
.9900
.9600
.9375
.9100
.8400
.7500
.6400
.5100
.3600
.1900
2
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0
.7290
.5120
.4219
.3430
.2160
.1250
.0640
.0270
.0080
.0010
1
.9720
.8960
.8438
.7840
.6480
.5000
.3520
.2160
.1040
.0280
2
.9990
.9920
.9844
.9730
.9360
.8750
.7840
.6570
.4880
.2710
3
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0
.6561
.4096
.3164
.2401
.1296
.0625
.0256
.0081
.0016
.0001
1
.9477
.8192
.7383
.6517
.4752
.3125
.1792
.0837
.0272
.0037
2
.9963
.9728
.9492
.9163
.8208
.6875
.5248
.3483
.1808
.0523
3
.9999
.9984
.9961
.9919
.9744
.9375
.8704
.7599
.5904
.3439
4
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0
.5905
.3277
.2373
.1681
.0778
.0312
.0102
.0024
.0003
.0000
1
.9185
.7373
.6328
.5282
.3370
.1875
.0870
.0308
.0067
.0005
2
.9914
.9421
.8965
.8369
.6826
.5000
.3174
.1631
.0579
.0086
3
.9995
.9933
.9844
.9692
.9130
.8125
.6630
.4718
.2627
.0815
4
1.0000
2
3
4
5
5 6
.9997
.9990
.9976
.9898
.9688
.9222
.8319
.6723
.4095
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0
.5314
.2621
.1780
.1176
.0467
.0156
.0041
.0007
.0001
.0000
1
.8857
.6554
.5339
.4202
.2333
.1094
.0410
.0109
.0016
.0001
2
.9841
.9011
.8306
.7443
.5443
.3438
.1792
.0705
.0170
.0013
3
.9987
.9830
.9624
.9295
.8208
.6562
.4557
.2557
.0989
.0159
4
.9999
.9984
.9954
.9891
.9590
.8906
.7667
.5798
.3446
.1143
5
1.0000
.9999
.9998
.9993
.9959
.9844
.9533
.8824
.7379
.4686
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
6
272
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
7
0
.4783
.2097
.1335
.0824
.0280
.0078
.0016
.0002
.0000
.0000
1
.8503
.5767
.4449
.3294
.1586
.0625
.0188
.0038
.0004
.0000
2
.9743
.8520
.7564
.6471
.4199
.2266
.0963
.0288
.0047
.0002
3
.9973
.9667
.9294
.8740
.7102
.5000
.2898
.1260
.0333
.0027
4
.9998
.9953
.9871
.9712
.9037
.7734
.5801
.3529
.1480
.0257
5
1.0000
.9996
.9987
.9962
.9812
.9375
.8414
.6706
.4233
.1497
1.0000
.9999
.9998
.9984
.9922
.9720
.9176
.7903
.5217
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
6 7 8
0
.4305
.1678
.1001
.0576
.0168
.0039
.0007
.0001
.0000
.0000
1
.8131
.5033
.3671
.2553
.1064
.0352
.0085
.0013
.0001
.0000
2
.9619
.7969
.6785
.5518
.3154
.1445
.0498
.0113
.0012
.0000
3
.9950
.9437
.8862
.8059
.5941
.3633
.1737
.0580
.0104
.0004
4
.9996
.9896
.9727
.9420
.8263
.6367
.4059
.1941
.0563
.0050
5
1.0000
.9988
.9958
.9887
.9502
.8555
.6846
.4482
.2031
.0381
6
.9999
.9996
.9987
.9915
.9648
.8936
.7447
.4967
.1869
7
1.0000
1.0000
8 9
.9999
.9993
.9961
.9832
.9424
.8322
.5695
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0
.3874
.1342
.0751
.0404
.0101
.0020
.0003
.0000
.0000
.0000
1
.7748
.4362
.3003
.1960
.0705
.0195
.0038
.0004
.0000
.0000
2
.9470
.7382
.6007
.4628
.2318
.0898
.0250
.0043
.0003
.0000
3
.9917
.9144
.8343
.7297
.4826
.2539
.0994
.0253
.0031
.0001
4
.9991
.9804
.9511
.9012
.7334
.5000
.2666
.0988
.0196
.0009
5
.9999
.9969
.9900
.9747
.9006
.7461
.5174
.2703
.0856
.0083
6
1.0000
.9997
.9987
.9957
.9750
.9102
.7682
.5372
.2618
.0530
1.0000
.9999
.9996
.9962
.9805
.9295
.8040
.5638
.2252
1.0000
1.0000
.9997
.9980
.9899
.9596
.8658
.6126
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
7 8 9
273
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
10
0
.3487
.1074
.0563
.0282
.0060
.0010
.0001
.0000
.0000
.0000
1
.7361
.3758
.2440
.1493
.0464
.0107
.0017
.0001
.0000
.0000
2
.9298
.6778
.5256
.3828
.1673
.0547
.0123
.0016
.0001
.0000
3
.9872
.8791
.7759
.6496
.3823
.1719
.0548
.0106
.0009
.0000
4
.9984
.9672
.9219
.8497
.6331
.3770
.1662
.0473
.0064
.0001
5
.9999
.9936
.9803
.9527
.8338
.6230
.3669
.1503
.0328
.0016
6
1.0000
.9991
.9965
.9894
.9452
.8281
.6177
.3504
.1209
.0128
7
.9999
.9996
.9984
.9877
.9453
.8327
.6172
.3222
.0702
8
1.0000
1.0000
.9999
.9983
.9893
.9536
.8507
.6242
.2639
1.0000
.9999
.9990
.9940
.9718
.8926
.6513
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
9 10 11
0
.3138
.0859
.0422
.0198
.0036
.0005
.0000
.0000
.0000
.0000
1
.6974
.3221
.1971
.1130
.0302
.0059
.0007
.0000
.0000
.0000
2
.9104
.6174
.4552
.3127
.1189
.0327
.0059
.0006
.0000
.0000
3
.9815
.8389
.7133
.5696
.2963
.1133
.0293
.0043
.0002
.0000
4
.9972
.9496
.8854
.7897
.5328
.2744
.0994
.0216
.0020
.0000
5
.9997
.9883
.9657
.9218
.7535
.5000
.2465
.0782
.0117
.0003
6
1.0000
.9980
.9924
.9784
.9006
.7256
.4672
.2103
.0504
.0028
7
.9998
.9988
.9957
.9707
.8867
.7037
.4304
.1611
.0185
8
1.0000
.9999
.9994
.9941
.9673
.8811
.6873
.3826
.0896
1.0000
1.0000
.9993
.9941
.9698
.8870
.6779
.3026
1.0000
.9995
.9964
.9802
.9141
.6862
1.0000
1.0000
1.0000
1.0000
1.0000
9 10 11
274
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
12
0
.2824
.0687
.0317
.0138
.0022
.0002
.0000
.0000
.0000
.0000
1
.6590
.2749
.1584
.0850
.0196
.0032
.0003
.0000
.0000
.0000
2
.8891
.5583
.3907
.2528
.0834
.0193
.0028
.0002
.0000
.0000
3
.9744
.7946
.6488
.4925
.2253
.0730
.0153
.0017
.0001
.0000
4
.9957
.9274
.8424
.7237
.4382
.1938
.0573
.0095
.0006
.0000
5
.9995
.9806
.9456
.8822
.6652
.3872
.1582
.0386
.0039
.0001
6
.9999
.9961
.9857
.9614
.8418
.6128
.3348
.1178
.0194
.0005
7
1.0000
.9994
.9972
.9905
.9427
.8062
.5618
.2763
.0726
.0043
8
.9999
.9996
.9983
.9847
.9270
.7747
.5075
.2054
.0256
9
1.0000
1.0000
.9998
.9972
.9807
.9166
.7472
.4417
.1109
1.0000
.9997
.9968
.9804
.9150
.7251
.3410
1.0000
.9998
.9978
.9862
.9313
.7176
1.0000
1.0000
1.0000
1.0000
1.0000
10 11 12 13
0
.2542
.0550
.0238
.0097
.0013
.0001
.0000
.0000
.0000
.0000
1
.6213
.2336
.1267
.0637
.0126
.0017
.0001
.0000
.0000
.0000
2
.8661
.5017
.3326
.2025
.0579
.0112
.0013
.0001
.0000
.0000
3
.9658
.7473
.5843
.4206
.1686
.0461
.0078
.0007
.0000
.0000
4
.9935
.9009
.7940
.6543
.3530
.1334
.0321
.0040
.0002
.0000
5
.9991
.9700
.9198
.8346
.5744
.2905
.0977
.0182
.0012
.0000
6
.9999
.9930
.9757
.9376
.7712
.5000
.2288
.0624
.0070
.0001
7
1.0000
.9988
.9944
.9818
.9023
.7095
.4256
.1654
.0300
.0009
8
.9998
.9990
.9960
.9679
.8666
.6470
.3457
.0991
.0065
9
1.0000
.9999
.9993
.9922
.9539
.8314
.5794
.2527
.0342
1.0000
.9999
.9987
.9888
.9421
.7975
.4983
.1339
.9999
.9983
.9874
.9363
.7664
.3787
1.0000
.9999
.9987
.9903
.9450
.7458
1.0000
1.0000
1.0000
1.0000
1.0000
10 11 12
1.0000
13
275
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
14
0
.2288
.0440
.0178
.0068
.0008
.0001
.0000
.0000
.0000
.0000
1
.5846
.1979
.1010
.0475
.0081
.0009
.0001
.0000
.0000
.0000
2
.8416
.4481
.2811
.1608
.0398
.0065
.0006
.0000
.0000
.0000
3
.9559
.6982
.5213
.3552
.1243
.0287
.0039
.0002
.0000
.0000
4
.9908
.8702
.7415
.5842
.2793
.0898
.0175
.0017
.0000
.0000
5
.9985
.9561
.8883
.7805
.4859
.2120
.0583
.0083
.0004
.0000
6
.9998
.9884
.9617
.9067
.6925
.3953
.1501
.0315
.0024
.0000
7
1.0000
.9976
.9897
.9685
.8499
.6047
.3075
.0933
.0116
.0002
8
.9996
.9978
.9917
.9417
.7880
.5141
.2195
.0439
.0015
9
1.0000
.9997
.9983
.9825
.9102
.7207
.4158
.1298
.0092
1.0000
.9998
.9961
.9713
.8757
.6448
.3018
.0441
11
1.0000
.9994
.9935
.9602
.8392
.5519
.1584
12
1.0000
.9999
.9991
.9919
.9525
.8021
.4154
1.0000
.9999
.9992
.9932
.9560
.7712
1.0000
1.0000
1.0000
1.0000
1.0000
10
13 14 15
0
.2059
.0352
.0134
.0047
.0005
.0000
.0000
.0000
.0000
.0000
1
.5490
.1671
.0802
.0353
.0052
.0005
.0000
.0000
.0000
.0000
2
.8159
.3980
.2361
.1268
.0271
.0037
.0003
.0000
.0000
.0000
3
.9444
.6482
.4613
.2969
.0905
.0176
.0019
.0001
.0000
.0000
4
.9873
.8358
.6865
.5155
.2173
.0592
.0093
.0007
.0000
.0000
5
.9977
.9389
.8516
.7216
.4032
.1509
.0338
.0037
.0001
.0000
6
.9997
.9819
.9434
.8689
.6098
.3036
.0950
.0152
.0008
.0000
7
1.0000
.9958
.9827
.9500
.7869
.5000
.2131
.0500
.0042
.0000
.9992
.9958
.9848
.9050
.6964
.3902
.1311
.0181
.0003
8 9
.9999
.9992
.9963
.9662
.8491
.5968
.2784
.0611
.0022
10
1.0000
.9999
.9993
.9907
.9408
.7827
.4845
.1642
.0127
1.0000
.9999
.9981
.9824
.9095
.7031
.3518
.0556
1.0000
.9997
.9963
.9729
.8732
.6020
.1841
1.0000
.9995
.9948
.9647
.8329
.4510
1.0000
.9995
.9953
.9648
.7941
1.0000
1.0000
1.0000
1.0000
11 12 13 14 15
276
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
16
0
.1853
.0281
.0100
.0033
.0003
.0000
.0000
.0000
.0000
.0000
1
.5147
.1407
.0635
.0261
.0033
.0003
.0000
.0000
.0000
.0000
2
.7892
.3518
.1971
.0994
.0183
.0021
.0001
.0000
.0000
.0000
3
.9316
.5981
.4050
.2459
.0651
.0106
.0009
.0000
.0000
.0000
4
.9830
.7982
.6302
.4499
.1666
.0384
.0049
.0003
.0000
.0000
5
.9967
.9183
.8103
.6598
.3288
.1051
.0191
.0016
.0000
.0000
6
.9995
.9733
.9204
.8247
.5272
.2272
.0583
.0071
.0002
.0000
7
.9999
.9930
.9729
.9256
.7161
.4018
.1423
.0257
.0015
.0000
8
1.0000
.9985
.9925
.9743
.8577
.5982
.2839
.0744
.0070
.0001
9
.9998
.9984
.9929
.9417
.7728
.4728
.1753
.0267
.0005
10
1.0000
.9997
.9984
.9809
.8949
.6712
.3402
.0817
.0033
1.0000
.9997
.9951
.9616
.8334
.5501
.2018
.0170
12
1.0000
.9991
.9894
.9349
.7541
.4019
.0684
13
1.0000
.9999
.9979
.9817
.9006
.6482
.2108
1.0000
.9997
.9967
.9739
.8593
.4853
1.0000
.9997
.9967
.9719
.8147
1.0000
1.0000
1.0000
1.0000
11
14 15 16 17
0
.1668
.0225
.0075
.0023
.0002
.0000
.0000
.0000
.0000
.0000
1
.4818
.1182
.0501
.0193
.0021
.0001
.0000
.0000
.0000
.0000
2
.7618
.3096
.1637
.0774
.0123
.0012
.0001
.0000
.0000
.0000
3
.9174
.5489
.3530
.2019
.0464
.0064
.0005
.0000
.0000
.0000
4
.9779
.7582
.5739
.3887
.1260
.0245
.0025
.0001
.0000
.0000
5
.9953
.8943
.7653
.5968
.2639
.0717
.0106
.0007
.0000
.0000
6
.9992
.9623
.8929
.7752
.4478
.1662
.0348
.0032
.0001
.0000
7
.9999
.9891
.9598
.8954
.6405
.3145
.0919
.0127
.0005
.0000
8
1.0000
.9974
.9876
.9597
.8011
.5000
.1989
.0403
.0026
.0000
9
.9995
.9969
.9873
.9081
.6855
.3595
.1046
.0109
.0001
10
.9999
.9994
.9968
.9652
.8338
.5522
.2248
.0377
.0008
11
1.0000
.9999
.9993
.9894
.9283
.7361
.4032
.1057
.0047
1.0000
.9999
.9975
.9755
.8740
.6113
.2418
.0221
1.0000
.9995
.9936
.9536
.7981
.4511
.0826
14
.9999
.9988
.9877
.9226
.6904
.2382
15
1.0000
.9999
.9979
.9807
.8818
.5182
12 13
16
1.0000
17
277
.9998
.9977
.9775
.8332
1.0000
1.0000
1.0000
1.0000
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
18
0
.1501
.0180
.0056
.0016
.0001
.0000
.0000
.0000
.0000
.0000
1
.4503
.0991
.0395
.0142
.0013
.0001
.0000
.0000
.0000
.0000
2
.7338
.2713
.1353
.0600
.0082
.0007
.0000
.0000
.0000
.0000
3
.9018
.5010
.3057
.1646
.0328
.0038
.0002
.0000
.0000
.0000
4
.9718
.7164
.5187
.3327
.0942
.0154
.0013
.0000
.0000
.0000
5
.9936
.8671
.7175
.5344
.2088
.0481
.0058
.0003
.0000
.0000
6
.9988
.9487
.8610
.7217
.3743
.1189
.0203
.0014
.0000
.0000
7
.9998
.9837
.9431
.8593
.5634
.2403
.0576
.0061
.0002
.0000
8
1.0000
.9957
.9807
.9404
.7368
.4073
.1347
.0210
.0009
.0000
9
.9991
.9946
.9790
.8653
.5927
.2632
.0596
.0043
.0000
10
.9998
.9988
.9939
.9424
.7597
.4366
.1407
.0163
.0002
11
1.0000
.9998
.9986
.9797
.8811
.6257
.2783
.0513
.0012
1.0000
.9997
.9942
.9519
.7912
.4656
.1329
.0064
1.0000
.9987
.9846
.9058
.6673
.2836
.0282
14
.9998
.9962
.9672
.8354
.4990
.0982
15
1.0000
.9993
.9918
.9400
.7287
.2662
12 13
16
.9999
.9987
.9858
.9009
.5497
17
1.0000
.9999
.9984
.9820
.8499
1.0000
1.0000
1.0000
1.0000
18
278
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
19
0
.1351
.0144
.0042
.0011
.0001
.0000
.0000
.0000
.0000
.0000
1
.4203
.0829
.0310
.0104
.0008
.0000
.0000
.0000
.0000
.0000
2
.7054
.2369
.1113
.0462
.0055
.0004
.0000
.0000
.0000
.0000
3
.8850
.4551
.2631
.1332
.0230
.0022
.0001
.0000
.0000
.0000
4
.9648
.6733
.4654
.2822
.0696
.0096
.0006
.0000
.0000
.0000
5
.9914
.8369
.6678
.4739
.1629
.0318
.0031
.0001
.0000
.0000
6
.9983
.9324
.8251
.6655
.3081
.0835
.0116
.0006
.0000
.0000
7
.9997
.9767
.9225
.8180
.4878
.1796
.0352
.0028
.0000
.0000
8
1.0000
.9933
.9713
.9161
.6675
.3238
.0885
.0105
.0003
.0000
9
.9984
.9911
.9674
.8139
.5000
.1861
.0326
.0016
.0000
10
.9997
.9977
.9895
.9115
.6762
.3325
.0839
.0067
.0000
11
1.0000
.9995
.9972
.9648
.8204
.5122
.1820
.0233
.0003
12
.9999
.9994
.9884
.9165
.6919
.3345
.0676
.0017
13
1.0000
.9999
.9969
.9682
.8371
.5261
.1631
.0086
1.0000
.9994
.9904
.9304
.7178
.3267
.0352
15
.9999
.9978
.9770
.8668
.5449
.1150
16
1.0000
.9996
.9945
.9538
.7631
.2946
1.0000
.9992
.9896
.9171
.5797
18
.9999
.9989
.9856
.8649
19
1.0000
1.0000
1.0000
1.0000
14
17
279
Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n
x
.10
.20
.25
.30
.40
.50
.60
.70
.80
.90
20
0
.1216
.0115
.0032
.0008
.0000
.0000
.0000
.0000
.0000
.0000
1
.3917
.0692
.0243
.0076
.0005
.0000
.0000
.0000
.0000
.0000
2
.6769
.2061
.0913
.0355
.0036
.0002
.0000
.0000
.0000
.0000
3
.8670
.4114
.2252
.1071
.0160
.0013
.0000
.0000
.0000
.0000
4
.9568
.6296
.4148
.2375
.0510
.0059
.0003
.0000
.0000
.0000
5
.9887
.8042
.6172
.4164
.1256
.0207
.0016
.0000
.0000
.0000
6
.9976
.9133
.7858
.6080
.2500
.0577
.0065
.0003
.0000
.0000
7
.9996
.9679
.8982
.7723
.4159
.1316
.0210
.0013
.0000
.0000
8
.9999
.9900
.9591
.8867
.5956
.2517
.0565
.0051
.0001
.0000
9
1.0000
.9974
.9861
.9520
.7553
.4119
.1275
.0171
.0006
.0000
10
.9994
.9961
.9829
.8725
.5881
.2447
.0480
.0026
.0000
11
.9999
.9991
.9949
.9435
.7483
.4044
.1133
.0100
.0001
12
1.0000
.9998
.9987
.9790
.8684
.5841
.2277
.0321
.0004
1.0000
.9997
.9935
.9423
.7500
.3920
.0867
.0024
1.0000
.9984
.9793
.8744
.5836
.1958
.0113
15
.9997
.9941
.9490
.7625
.3704
.0432
16
1.0000
13 14
.9987
.9840
.8929
.5886
.1330
17
.9998
.9964
.9645
.7939
.3231
18
1.0000
.9995
.9924
.9308
.6083
1.0000
.9992
.9885
.8784
1.0000
1.0000
1.0000
19 20
280
Tabla A.2: Distribuci´on de Poisson. P (P(λ) ≤ x) =
x
0.1
0.2
0.3
0.4
λ 0.5
0 1 2 3 4 5 6
0.9048 0.9953 0.9998 1.0000
0.8187 0.9825 0.9989 0.9999 1.0000
0.7408 0.9631 0.9964 0.9997 1.0000
0.6703 0.9384 0.9921 0.9992 0.9999 1.0000
0.6065 0.9098 0.9856 0.9982 0.9998 1.0000
x
1.0
1.5
2.0
2.5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0.3679 0.7358 0.9197 0.9810 0.9963 0.9994 0.9999 1.0000
0.2231 0.5578 0.8088 0.9344 0.9814 0.9955 0.9991 0.9998 1.0000
0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 0.9989 0.9998 1.0000
0.0821 0.2873 0.5438 0.7576 0.8912 0.9580 0.9858 0.9958 0.9989 0.9997 0.9999 1.0000
λ 3.0 0.0498 0.1991 0.4232 0.6472 0.8153 0.9161 0.9665 0.9881 0.9962 0.9989 0.9997 0.9999 1.0000
281
x X λk k=0
k!
e−λ
0.6
0.7
0.8
0.9
0.5488 0.8781 0.9769 0.9966 0.9996 1.0000
0.4966 0.8442 0.9659 0.9942 0.9992 0.9999 1.0000
0.4493 0.8088 0.9526 0.9909 0.9986 0.9998 1.0000
0.4066 0.7725 0.9371 0.9865 0.9977 0.9997 1.0000
3.5
4.0
4.5
5.0
0.0302 0.1359 0.3208 0.5366 0.7254 0.8576 0.9347 0.9733 0.9901 0.9967 0.9990 0.9997 0.9999 1.0000
0.0183 0.0916 0.2381 0.4335 0.6288 0.7851 0.8893 0.9489 0.9786 0.9919 0.9972 0.9991 0.9997 0.9999 1.0000
0.0111 0.0611 0.1736 0.3423 0.5321 0.7029 0.8311 0.9134 0.9597 0.9829 0.9933 0.9976 0.9992 0.9997 0.9999 1.0000
0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682 0.9863 0.9945 0.9980 0.9993 0.9998 0.9999 1.0000
Tabla A.2: Distribuci´on de Poisson (Continuaci´on) x
5.5
6.0
6.5
7.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0.0041 0.0266 0.0884 0.2017 0.3575 0.5289 0.6860 0.8095 0.8944 0.9462 0.9747 0.9890 0.9955 0.9983 0.9994 0.9998 0.9999 1.0000
0.0025 0.0174 0.0620 0.1512 0.2851 0.4457 0.6063 0.7440 0.8472 0.9161 0.9574 0.9799 0.9912 0.9964 0.9986 0.9995 0.9998 0.9999 1.0000
0.0015 0.0113 0.0430 0.1118 0.2237 0.3690 0.5265 0.6728 0.7916 0.8774 0.9332 0.9661 0.9840 0.9929 0.9970 0.9988 0.9996 0.9998 0.9999 1.0000
0.0009 0.0073 0.0296 0.0818 0.1730 0.3007 0.4497 0.5987 0.7291 0.8305 0.9015 0.9467 0.9730 0.9872 0.9943 0.9976 0.9990 0.9996 0.9999 1.0000
λ 7.5 0.0006 0.0047 0.0203 0.0591 0.1321 0.2414 0.3782 0.5246 0.6620 0.7764 0.8622 0.9208 0.9573 0.9784 0.9897 0.9954 0.9980 0.9992 0.9997 0.9999 1.0000
282
8.0
8.5
9.0
9.5
0.0003 0.0030 0.0138 0.0424 0.0996 0.1912 0.3134 0.4530 0.5925 0.7166 0.8159 0.8881 0.9362 0.9658 0.9827 0.9918 0.9963 0.9984 0.9993 0.9997 0.9999 1.0000
0.0002 0.0019 0.0093 0.0301 0.0744 0.1496 0.2562 0.3856 0.5231 0.6530 0.7634 0.8487 0.9091 0.9486 0.9726 0.9862 0.9934 0.9970 0.9987 0.9995 0.9998 0.9999 1.0000
0.0001 0.0012 0.0062 0.0212 0.0550 0.1157 0.2068 0.3239 0.4557 0.5874 0.7060 0.8030 0.8758 0.9261 0.9585 0.9780 0.9889 0.9947 0.9976 0.9989 0.9996 0.9998 0.9999 1.0000
0.0001 0.0008 0.0042 0.0149 0.0403 0.0885 0.1649 0.2687 0.3918 0.5218 0.6453 0.7520 0.8364 0.8981 0.9400 0.9665 0.9823 0.9911 0.9957 0.9980 0.9991 0.9996 0.9999 0.9999 1.0000
Tabla A.2: Distribuci´on de Poisson (Continuaci´on) x
10.0
11.0
12.0
13.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
0.0000 0.0005 0.0028 0.0103 0.0293 0.0671 0.1301 0.2202 0.3328 0.4579 0.5830 0.6968 0.7916 0.8645 0.9165 0.9513 0.9730 0.9857 0.9928 0.9965 0.9984 0.9993 0.9997 0.9999 1.0000
0.0000 0.0002 0.0012 0.0049 0.0151 0.0375 0.0786 0.1432 0.2320 0.3405 0.4599 0.5793 0.6887 0.7813 0.8540 0.9074 0.9441 0.9678 0.9823 0.9907 0.9953 0.9977 0.9990 0.9995 0.9998 0.9999 1.0000
0.0000 0.0001 0.0005 0.0023 0.0076 0.0203 0.0458 0.0895 0.1550 0.2424 0.3472 0.4616 0.5760 0.6815 0.7720 0.8444 0.8987 0.9370 0.9626 0.9787 0.9884 0.9939 0.9970 0.9985 0.9993 0.9997 0.9999 0.9999 1.0000
0.0000 0.0000 0.0002 0.0011 0.0037 0.0107 0.0259 0.0540 0.0998 0.1658 0.2517 0.3532 0.4631 0.5730 0.6751 0.7636 0.8355 0.8905 0.9302 0.9573 0.9750 0.9859 0.9924 0.9960 0.9980 0.9990 0.9995 0.9998 0.9999 1.0000
λ 14.0 0.0000 0.0000 0.0001 0.0005 0.0018 0.0055 0.0142 0.0316 0.0621 0.1094 0.1757 0.2600 0.3585 0.4644 0.5704 0.6694 0.7559 0.8272 0.8826 0.9235 0.9521 0.9712 0.9833 0.9907 0.9950 0.9974 0.9987 0.9994 0.9997 0.9999 0.9999 1.0000
283
15.0
16.0
17.0
18.0
0.0000 0.0000 0.0000 0.0002 0.0009 0.0028 0.0076 0.0180 0.0374 0.0699 0.1185 0.1848 0.2676 0.3632 0.4657 0.5681 0.6641 0.7489 0.8195 0.8752 0.9170 0.9469 0.9673 0.9805 0.9888 0.9938 0.9967 0.9983 0.9991 0.9996 0.9998 0.9999 1.0000
0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0040 0.0100 0.0220 0.0433 0.0774 0.1270 0.1931 0.2745 0.3675 0.4667 0.5660 0.6593 0.7423 0.8122 0.8682 0.9108 0.9418 0.9633 0.9777 0.9869 0.9925 0.9959 0.9978 0.9989 0.9994 0.9997 0.9999 0.9999 1.0000
0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054 0.0126 0.0261 0.0491 0.0847 0.1350 0.2009 0.2808 0.3715 0.4677 0.5640 0.6550 0.7363 0.8055 0.8615 0.9047 0.9367 0.9594 0.9748 0.9848 0.9912 0.9950 0.9973 0.9986 0.9993 0.9996 0.9998 0.9999 1.0000
0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029 0.0071 0.0154 0.0304 0.0549 0.0917 0.1426 0.2081 0.2867 0.3751 0.4686 0.5622 0.6509 0.7307 0.7991 0.8551 0.8989 0.9317 0.9554 0.9718 0.9827 0.9897 0.9941 0.9967 0.9982 0.9990 0.9995 0.9998 0.9999 0.9999 1.0000
Tabla A.3: Distribuci´on Normal Est´andar. P (N(0, 1) ≥ z)
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
.5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641
0.1
.4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
0.2
.4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
0.3
.3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
0.4
.3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
0.5
.3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
0.6
.2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
0.7
.2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
0.8
.2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
0.9
.1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
1.0
.1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
1.1
.1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
1.2
.1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
1.3
.0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
1.4
.0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
1.5
.0668 .0655 .0642 .0630 .0618 .0606 .0594 .0582 .0571 .0559
284
Tabla A.3: Distribuci´on Normal Est´andar (Continuaci´on)
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
1.6
.0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
1.7
.0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
1.8
.0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
1.9
.0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
2.0
.0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
2.1
.0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
2.2
.0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
2.3
.0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
2.4
.0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
2.5
.0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
2.6
.0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
2.7
.0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
2.8
.0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
2.9
.0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014
3.0
.0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010
3.1
.0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
3.2
.0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
3.3
.0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
3.4
.0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002
285
Tabla A.4: Distribuci´on t-Student. P (tn ≥ a) Probabilidades Grados de libertad
0.40
0.25
0.15
0.10
0.05
0.025
0.001
0.005
1
0.3249 1.0000 1.9626 3.0777 6.3138 12.7062 31.8205 63.6567
2
0.2887 0.8165 1.3862 1.8856 2.9200
4.3027
6.9646
9.9248
3
0.2767 0.7649 1.2498 1.6377 2.3534
3.1824
4.5408
5.8408
4
0.2707 0.7407 1.1896 1.5332 2.1318
2.7764
3.7470
4.6041
5
0.2672 0.7267 1.1558 1.4759 2.0150
2.5706
3.3649
4.0321
6
0.2648 0.7176 1.1342 1.4398 1.9432
2.4469
3.1427
3.7074
7
0.2632 0.7111 1.1192 1.4149 1.8946
2.3646
2.9980
3.4995
8
0.2619 0.7064 1.1081 1.3968 1.8595
2.3060
2.8965
3.3554
9
0.2610 0.7027 1.0997 1.3830 1.8331
2.2622
2.8215
3.2498
10
0.2602 0.6998 1.0931 1.3722 1.8125
2.2281
2.7638
3.1693
11
0.2596 0.6974 1.0877 1.3634 1.7959
2.2010
2.7181
3.1058
12
0.2590 0.6955 1.0832 1.3562 1.7823
2.1788
2.6810
3.0546
13
0.2586 0.6938 1.0795 1.3502 1.7709
2.1604
2.6503
3.0123
14
0.2582 0.6924 1.0763 1.3450 1.7613
2.1448
2.6245
2.9768
15
0.2579 0.6912 1.0735 1.3406 1.7531
2.1314
2.6025
2.9467
16
0.2576 0.6901 1.0711 1.3368 1.7459
2.1199
2.5835
2.9208
17
0.2573 0.6892 1.0690 1.3334 1.7396
2.1098
2.5669
2.8982
18
0.2571 0.6884 1.0672 1.3304 1.7341
2.1009
2.5524
2.8784
19
0.2569 0.6876 1.0655 1.3277 1.7291
2.0930
2.5395
2.8609
20
0.2567 0.6870 1.0640 1.3253 1.7247
2.0860
2.5280
2.8453
286
Tabla A.4: Distribuci´on t-Student (Continuaci´on) Probabilidades Grados de libertad
0.40
0.25
0.15
0.10
0.05
0.025
0.001
0.005
21
0.2566 0.6864 1.0627 1.3232 1.7207 2.0796 2.5176 2.8314
22
0.2564 0.6858 1.0614 1.3212 1.7171 2.0739 2.5083 2.8188
23
0.2563 0.6853 1.0603 1.3195 1.7139 2.0687 2.4999 2.8073
24
0.2562 0.6848 1.0593 1.3178 1.7109 2.0639 2.4922 2.7969
25
0.2561 0.6844 1.0584 1.3163 1.7081 2.0595 2.4851 2.7874
26
0.2560 0.6840 1.0575 1.3150 1.7056 2.0555 2.4786 2.7787
27
0.2559 0.6837 1.0567 1.3137 1.7033 2.0518 2.4727 2.7707
28
0.2558 0.6834 1.0560 1.3125 1.7011 2.0484 2.4671 2.7633
29
0.2557 0.6830 1.0553 1.3114 1.6991 2.0452 2.4620 2.7564
30
0.2556 0.6828 1.0547 1.3104 1.6973 2.0423 2.4573 2.7500
35
0.2553 0.6816 1.0520 1.3062 1.6896 2.0301 2.4377 2.7238
40
0.2550 0.6807 1.0500 1.3031 1.6839 2.0211 2.4233 2.7045
45
0.2549 0.6800 1.0485 1.3006 1.6794 2.0141 2.4121 2.6896
50
0.2547 0.6794 1.0473 1.2987 1.6759 2.0086 2.4033 2.6778
60
0.2545 0.6786 1.0455 1.2958 1.6706 2.0003 2.3901 2.6603
70
0.2543 0.6780 1.0442 1.2938 1.6669 1.9944 2.3808 2.6479
80
0.2542 0.6776 1.0432 1.2922 1.6641 1.9901 2.3739 2.6387
90
0.2541 0.6772 1.0424 1.2910 1.6620 1.9867 2.3685 2.6316
100
0.2540 0.6770 1.0418 1.2901 1.6602 1.9840 2.3642 2.6259
120
0.2539 0.6765 1.0409 1.2886 1.6577 1.9799 2.3578 2.6174
150
0.2538 0.6761 1.0400 1.2872 1.6551 1.9759 2.3515 2.6090
200
0.2537 0.6757 1.0391 1.2858 1.6525 1.9719 2.3451 2.6006
300
0.2536 0.6753 1.0382 1.2844 1.6499 1.9679 2.3388 2.5923
∞
0.2533 0.6745 1.0364 1.2816 1.6449 1.9600 2.3263 2.5758
287
Tabla A.5: Distribuc´on χ2n . P (χ2n ≥ a) Probabilidades Grados de libertad
0.99
0.975
0.95
0.90
0.75
0.50
0.25
0.10
0.05
0.025
0.01
1
1.571∗
9.821∗
39.320∗
0.016
0.102
0.455
1.323
2.706
3.841
5.024
6.635
2
0.020
0.051
0.103
0.211
0.575
1.386
2.773
4.605
5.991
7.378
9.210
3
0.115
0.216
0.352
0.584
1.213
2.366
4.108
6.252
7.815
9.349
11.346
4
0.297
0.484
0.711
1.064
1.923
3.357
5.385
7.779
9.488
11.143
13.277
5
0.554
0.831
1.145
1.610
2.675
4.351
6.626
9.236
11.070
12.832
15.086
288
6
0.872
1.237
1.635
2.204
3.455
5.348
7.841
10.645
12.592
14.449
16.812
7
1.239
1.690
2.167
2.833
4.255
6.346
9.037
12.017
14.067
16.013
18.475
8
1.646
2.180
2.733
3.490
5.071
7.344
10.219
13.362
15.507
17.535
20.090
9
2.088
2.700
3.325
4.168
5.899
8.343
11.389
14.684
16.919
19.023
21.666
10
2.558
3.247
3.940
4.865
6.737
9.342
12.549
15.987
18.307
20.483
23.209
11
3.053
3.816
4.575
5.578
7.584
10.341
13.701
17.275
19.675
21.920
24.725
12
3.571
4.404
5.226
6.304
8.438
11.340
14.845
18.549
21.026
23.337
26.217
13
4.107
5.009
5.892
7.041
9.299
12.340
15.984
19.812
22.362
24.712
27.688
14
4.660
5.629
6.571
7.790
10.165
13.339
17.117
21.064
23.685
26.119
29.141
15
5.229
6.262
7.261
8.547
11.037
14.339
18.245
22.307
24.996
27.488
30.578
16
5.812
6.908
7.962
9.312
11.912
15.338
19.369
23.542
26.296
28.845
32.000
17
6.408
7.564
8.672
10.085
12.792
16.338
20.489
24.769
27.587
30.191
33.409
18
7.015
8.231
9.390
10.865
13.675
17.338
21.605
25.989
28.869
31.526
34.805
19
7.633
8.907
10.117
11.651
14.562
18.338
22.718
27.204
30.144
32.852
36.191
20
8.260
9.591
10.851
12.443
15.452
19.337
23.828
28.412
31.410
34.170
37.566
∗
Dividir entre 1000
Tabla A.5: Distribuci´on χ2n (Continuaci´on) Probabilidades Grados de
289
libertad
0.99
0.975
0.95
0.90
0.75
0.50
0.25
0.10
0.05
0.025
0.01
21
8.897
10.283
11.591
13.240
16.344
20.337
24.935
29.615
32.671
35.479
38.932
22
9.542
10.982
12.338
14.041
17.240
21.337
26.039
30.813
33.924
36.781
40.289
23
10.196
11.689
13.091
14.848
18.137
22.337
27.141
32.007
35.172
38.076
41.638
24
10.856
12.401
13.848
15.659
19.037
23.337
28.241
33.196
36.415
39.364
42.980
25
11.524
13.120
14.611
16.473
19.939
24.337
29.339
34.382
37.652
40.646
44.314
26
12.198
13.844
15.379
17.292
20.843
25.336
30.435
35.563
38.885
41.923
45.642
27
12.879
14.573
16.151
18.114
21.749
26.336
31.528
36.741
40.113
43.194
46.963
28
13.565
15.308
16.928
18.939
22.657
27.336
32.620
37.916
41.329
44.461
48.278
29
14.256
16.047
17.708
19.768
23.567
28.336
33.711
39.087
42.557
45.722
49.588
30
14.954
16.791
18.493
20.599
24.478
29.336
34.800
40.256
43.773
46.979
50.892
40
22.164
24.433
26.509
29.050
33.660
39.335
45.616
51.805
55.758
59.342
63.691
50
29.707
32.357
34.764
37.689
42.942
49.335
56.334
63.167
67.505
71.420
76.154
60
37.485
40.482
43.188
46.459
52.294
59.335
66.981
74.397
79.082
83.298
88.379
70
45.442
48.758
51.739
55.329
61.698
69.334
77.577
85.527
90.531
95.023
100.425
80
53.540
57.153
60.391
64.278
71.144
70.334
88.130
96.578
101.879
106.629
112.329
90
61.754
65.647
69.126
73.291
80.625
89.334
98.650
107.565
113.145
118.136
124.116
100
70.065
74.222
77.929
82.358
90.133
99.334
109.141
118.498
124.342
129.561
135.807
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.25 Grados de
Grados del libertad del numerador (n)
libertad del denominador (m)
290
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
1 2 3 4 5
5.83 2.57 2.02 1.81 1.69
7.50 3.00 2.28 2.00 1.85
8.20 3.15 2.36 2.05 1.88
8.58 3.23 2.39 2.06 1.89
8.82 3.28 2.41 2.07 1.89
8.98 3.31 2.42 2.08 1.89
9.10 3.34 2.43 2.08 1.89
9.19 3.35 2.44 2.08 1.89
9.26 3.37 2.44 2.08 1.89
9.32 3.38 2.44 2.08 1.89
9.41 3.39 2.45 2.08 1.89
9.49 3.41 2.46 2.08 1.89
9.58 3.43 2.46 2.08 1.88
9.63 3.43 2.46 2.08 1.88
9.67 3.44 2.47 2.08 1.88
9.71 3.45 2.47 2.08 1.88
9.76 3.46 2.47 2.08 1.87
9.80 3.47 2.47 2.08 1.87
9.85 3.48 2.47 2.08 1.87
6 7 8 9 10
1.62 1.57 1.54 1.51 1.49
1.76 1.70 1.66 1.62 1.60
1.78 1.72 1.67 1.63 1.60
1.79 1.72 1.66 1.63 1.59
1.79 1.71 1.66 1.62 1.59
1.78 1.71 1.65 1.61 1.58
1.78 1.70 1.64 1.60 1.57
1.78 1.70 1.64 1.60 1.56
1.77 1.69 1.63 1.59 1.56
1.77 1.69 1.63 1.59 1.55
1.77 1.68 1.62 1.58 1.54
1.76 1.68 1.62 1.57 1.53
1.76 1.67 1.61 1.56 1.52
1.75 1.67 1.60 1.56 1.52
1.75 1.66 1.60 1.55 1.51
1.75 1.66 1.59 1.54 1.51
1.74 1.65 1.59 1.54 1.50
1.74 1.65 1.58 1.53 1.49
1.74 1.65 1.58 1.53 1.48
11 12 13 14 15
1.47 1.46 1.45 1.44 1.43
1.58 1.56 1.55 1.53 1.52
1.58 1.56 1.55 1.53 1.52
1.57 1.55 1.53 1.52 1.51
1.56 1.54 1.52 1.51 1.49
1.55 1.53 1.51 1.50 1.48
1.54 1.52 1.50 1.49 1.47
1.53 1.51 1.49 1.48 1.46
1.53 1.51 1.49 1.47 1.46
1.52 1.50 1.48 1.46 1.45
1.51 1.49 1.47 1.45 1.44
1.50 1.48 1.46 1.44 1.43
1.49 1.47 1.45 1.43 1.41
1.49 1.46 1.44 1.42 1.41
1.48 1.45 1.43 1.41 1.40
1.47 1.45 1.42 1.41 1.39
1.47 1.44 1.42 1.40 1.38
1.46 1.43 1.41 1.39 1.37
1.45 1.42 1.40 1.38 1.36
16 17 18 19 20
1.42 1.42 1.41 1.41 1.40
1.51 1.51 1.50 1.49 1.49
1.51 1.50 1.49 1.49 1.48
1.50 1.49 1.48 1.47 1.47
1.48 1.47 1.46 1.46 1.45
1.47 1.46 1.45 1.44 1.44
1.46 1.45 1.44 1.43 1.43
1.45 1.44 1.43 1.42 1.42
1.44 1.43 1.42 1.41 1.41
1.44 1.43 1.42 1.41 1.40
1.43 1.41 1.40 1.40 1.39
1.41 1.40 1.39 1.38 1.37
1.40 1.39 1.38 1.37 1.36
1.39 1.38 1.37 1.36 1.35
1.38 1.37 1.36 1.35 1.34
1.37 1.36 1.35 1.34 1.33
1.36 1.35 1.34 1.33 1.32
1.35 1.34 1.33 1.32 1.31
1.34 1.33 1.32 1.30 1.29
21 22 23 24 25
1.40 1.40 1.39 1.39 1.39
1.48 1.48 1.47 1.47 1.47
1.48 1.47 1.47 1.46 1.46
1.46 1.45 1.45 1.44 1.44
1.44 1.44 1.43 1.43 1.42
1.43 1.42 1.42 1.41 1.41
1.42 1.41 1.41 1.40 1.40
1.41 1.40 1.40 1.39 1.39
1.40 1.39 1.39 1.38 1.38
1.39 1.39 1.38 1.38 1.37
1.38 1.37 1.37 1.36 1.36
1.37 1.36 1.35 1.35 1.34
1.35 1.34 1.34 1.33 1.33
1.34 1.33 1.33 1.32 1.32
1.33 1.32 1.32 1.31 1.31
1.32 1.31 1.31 1.30 1.29
1.31 1.30 1.30 1.29 1.28
1.30 1.29 1.28 1.28 1.27
1.28 1.28 1.27 1.26 1.25
26 27 28 29 30
1.38 1.38 1.38 1.38 1.38
1.46 1.46 1.46 1.45 1.45
1.45 1.45 1.45 1.45 1.44
1.44 1.43 1.43 1.43 1.42
1.42 1.42 1.41 1.41 1.41
1.41 1.40 1.40 1.40 1.39
1.39 1.39 1.39 1.38 1.38
1.38 1.38 1.38 1.37 1.37
1.37 1.37 1.37 1.36 1.36
1.37 1.36 1.36 1.35 1.35
1.35 1.35 1.34 1.34 1.34
1.34 1.33 1.33 1.32 1.32
1.32 1.32 1.31 1.31 1.30
1.31 1.31 1.30 1.30 1.29
1.30 1.30 1.29 1.29 1.28
1.29 1.28 1.28 1.27 1.27
1.28 1.27 1.27 1.26 1.26
1.26 1.26 1.25 1.25 1.24
1.25 1.24 1.24 1.23 1.23
40 60 120 ∞
1.36 1.35 1.34 1.32
1.44 1.42 1.40 1.39
1.42 1.41 1.39 1.37
1.40 1.38 1.37 1.35
1.39 1.37 1.35 1.33
1.37 1.35 1.33 1.31
1.36 1.33 1.31 1.29
1.35 1.32 1.30 1.28
1.34 1.31 1.29 1.27
1.33 1.30 1.28 1.25
1.31 1.29 1.26 1.24
1.30 1.27 1.24 1.22
1.28 1.25 1.22 1.19
1.26 1.24 1.21 1.18
1.25 1.22 1.19 1.16
1.24 1.21 1.18 1.14
1.22 1.19 1.16 1.12
1.21 1.17 1.13 1.08
1.19 1.15 1.10 1.00
∞
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.10 Grados de
Grados del libertad del numerador (n)
libertad del
291
denominador (m)
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
1 2 3 4 5
39.86 8.53 5.54 4.54 4.06
49.50 9.00 5.46 4.32 3.78
53.59 9.16 5.39 4.19 3.62
55.83 9.24 5.34 4.11 3.52
57.24 9.29 5.31 4.05 3.45
58.20 9.33 5.28 4.01 3.40
58.91 9.35 5.27 3.98 3.37
59.44 9.37 5.25 3.95 3.34
59.86 9.38 5.24 3.94 3.32
60.19 9.39 5.23 3.92 3.30
60.71 9.41 5.22 3.90 3.27
61.22 9.42 5.20 3.87 3.24
61.74 9.44 5.18 3.84 3.21
62.00 9.45 5.18 3.83 3.19
62.26 9.46 5.17 3.82 3.17
62.53 9.47 5.16 3.80 3.16
62.79 9.47 5.15 3.79 3.14
63.06 9.48 5.14 3.78 3.12
63.33 9.49 5.13 3.76 3.10
6 7 8 9 10
3.78 3.59 3.46 3.36 3.29
3.46 3.26 3.11 3.01 2.92
3.29 3.07 2.92 2.81 2.73
3.18 2.96 2.81 2.69 2.61
3.11 2.88 2.73 2.61 2.52
3.05 2.83 2.67 2.55 2.46
3.01 2.78 2.62 2.51 2.41
2.98 2.75 2.59 2.47 2.38
2.96 2.72 2.56 2.44 2.35
2.94 2.70 2.54 2.42 2.32
2.90 2.67 2.50 2.38 2.28
2.87 2.63 2.46 2.34 2.24
2.84 2.59 2.42 2.30 2.20
2.82 2.58 2.40 2.28 2.18
2.80 2.56 2.38 2.25 2.16
2.78 2.54 2.36 2.23 2.13
2.76 2.51 2.34 2.21 2.11
2.74 2.49 2.32 2.18 2.08
2.72 2.47 2.29 2.16 2.06
11 12 13 14 15
3.23 3.18 3.14 3.10 3.07
2.86 2.81 2.76 2.73 2.70
2.66 2.61 2.56 2.52 2.49
2.54 2.48 2.43 2.39 2.36
2.45 2.39 2.35 2.31 2.27
2.39 2.33 2.28 2.24 2.21
2.34 2.28 2.23 2.19 2.16
2.30 2.24 2.20 2.15 2.12
2.27 2.21 2.16 2.12 2.09
2.25 2.19 2.14 2.10 2.06
2.21 2.15 2.10 2.05 2.02
2.17 2.10 2.05 2.01 1.97
2.12 2.06 2.01 1.96 1.92
2.10 2.04 1.98 1.94 1.90
2.08 2.01 1.96 1.91 1.87
2.05 1.99 1.93 1.89 1.85
2.03 1.96 1.90 1.86 1.82
2.00 1.93 1.88 1.83 1.79
1.97 1.90 1.85 1.80 1.76
16 17 18 19 20
3.05 3.03 3.01 2.99 2.97
2.67 2.64 2.62 2.61 2.59
2.46 2.44 2.42 2.40 2.38
2.33 2.31 2.29 2.27 2.25
2.24 2.22 2.20 2.18 2.16
2.18 2.15 2.13 2.11 2.09
2.13 2.10 2.08 2.06 2.04
2.09 2.06 2.04 2.02 2.00
2.06 2.03 2.00 1.98 1.96
2.03 2.00 1.98 1.96 1.94
1.99 1.96 1.93 1.91 1.89
1.94 1.91 1.89 1.86 1.84
1.89 1.86 1.84 1.81 1.79
1.87 1.84 1.81 1.79 1.77
1.84 1.81 1.78 1.76 1.74
1.81 1.78 1.75 1.73 1.71
1.78 1.75 1.72 1.70 1.68
1.75 1.72 1.69 1.67 1.64
1.72 1.69 1.66 1.63 1.61
21 22 23 24 25
2.96 2.95 2.94 2.93 2.92
2.57 2.56 2.55 2.54 2.53
2.36 2.35 2.34 2.33 2.32
2.23 2.22 2.21 2.19 2.18
2.14 2.13 2.11 2.10 2.09
2.08 2.06 2.05 2.04 2.02
2.02 2.01 1.99 1.98 1.97
1.98 1.97 1.95 1.94 1.93
1.95 1.93 1.92 1.91 1.89
1.92 1.90 1.89 1.88 1.87
1.87 1.86 1.84 1.83 1.82
1.83 1.81 1.80 1.78 1.77
1.78 1.76 1.74 1.73 1.72
1.75 1.73 1.72 1.70 1.69
1.72 1.70 1.69 1.67 1.66
1.69 1.67 1.66 1.64 1.63
1.66 1.64 1.62 1.61 1.59
1.62 1.60 1.59 1.57 1.56
1.59 1.57 1.55 1.53 1.52
26 27 28 29 30
2.91 2.90 2.89 2.89 2.88
2.52 2.51 2.50 2.50 2.49
2.31 2.30 2.29 2.28 2.28
2.17 2.17 2.16 2.15 2.14
2.08 2.07 2.06 2.06 2.05
2.01 2.00 2.00 1.99 1.98
1.96 1.95 1.94 1.93 1.93
1.92 1.91 1.90 1.89 1.88
1.88 1.87 1.87 1.86 1.85
1.86 1.85 1.84 1.83 1.82
1.81 1.80 1.79 1.78 1.77
1.76 1.75 1.74 1.73 1.72
1.71 1.70 1.69 1.68 1.67
1.68 1.67 1.66 1.65 1.64
1.65 1.64 1.63 1.62 1.61
1.61 1.60 1.59 1.58 1.57
1.58 1.57 1.56 1.55 1.54
1.54 1.53 1.52 1.51 1.50
1.50 1.49 1.48 1.47 1.46
40 60 120 ∞
2.84 2.79 2.75 2.71
2.44 2.39 2.35 2.30
2.23 2.18 2.13 2.08
2.09 2.04 1.99 1.94
2.00 1.95 1.90 1.85
1.93 1.87 1.82 1.77
1.87 1.82 1.77 1.72
1.83 1.77 1.72 1.67
1.79 1.74 1.68 1.63
1.76 1.71 1.65 1.60
1.71 1.66 1.60 1.55
1.66 1.60 1.55 1.49
1.61 1.54 1.48 1.42
1.57 1.51 1.45 1.38
1.54 1.48 1.41 1.34
1.51 1.44 1.37 1.30
1.47 1.40 1.32 1.24
1.42 1.35 1.26 1.17
1.38 1.29 1.19 1.00
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.05 Grados de
Grados del libertad del numerador (n)
libertad del
292
denominador (m)
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
1 2 3 4 5
161.40 18.51 10.13 7.71 6.61
199.50 19.00 9.55 6.94 5.79
215.70 19.16 9.28 6.59 5.41
224.60 19.25 9.12 6.39 5.19
230.20 19.30 9.01 6.26 5.05
234.00 19.33 8.94 6.16 4.95
236.80 19.35 8.89 6.09 4.88
238.90 19.37 8.85 6.04 4.82
240.50 19.39 8.81 6.00 4.77
241.90 19.40 8.79 5.96 4.74
243.90 19.41 8.75 5.91 4.68
245.90 19.43 8.70 5.86 4.62
248.00 19.45 8.66 5.80 4.56
249.10 19.45 8.64 5.77 4.53
250.10 19.46 8.62 5.75 4.50
251.10 19.47 8.59 5.72 4.46
252.20 19.48 8.57 5.69 4.43
253.30 19.49 8.55 5.66 4.40
254.30 19.50 8.53 5.63 4.36
6 7 8 9 10
5.99 5.59 5.32 5.12 4.96
5.14 4.74 4.46 4.26 4.10
4.76 4.35 4.07 3.86 3.71
4.53 4.12 3.84 3.63 3.48
4.39 3.97 3.69 3.48 3.33
4.28 3.87 3.58 3.37 3.22
4.21 3.79 3.50 3.29 3.14
4.15 3.73 3.44 3.23 3.07
4.10 3.68 3.39 3.18 3.02
4.06 3.64 3.35 3.14 2.98
4.00 3.57 3.28 3.07 2.91
3.94 3.51 3.22 3.01 2.85
3.87 3.44 3.15 2.94 2.77
3.84 3.41 3.12 2.90 2.74
3.81 3.38 3.08 2.86 2.70
3.77 3.34 3.04 2.83 2.66
3.74 3.30 3.01 2.79 2.62
3.70 3.27 2.97 2.75 2.58
3.67 3.23 2.93 2.71 2.54
11 12 13 14 15
4.84 4.75 4.67 4.60 4.54
3.98 3.89 3.81 3.74 3.68
3.59 3.49 3.41 3.34 3.29
3.36 3.26 3.18 3.11 3.06
3.20 3.11 3.03 2.96 2.90
3.09 3.00 2.92 2.85 2.79
3.01 2.91 2.83 2.76 2.71
2.95 2.85 2.77 2.70 2.64
2.90 2.80 2.71 2.65 2.59
2.85 2.75 2.67 2.60 2.54
2.79 2.69 2.60 2.53 2.48
2.72 2.62 2.53 2.46 2.40
2.65 2.54 2.46 2.39 2.33
2.61 2.51 2.42 2.35 2.29
2.57 2.47 2.38 2.31 2.25
2.53 2.43 2.34 2.27 2.20
2.49 2.38 2.30 2.22 2.16
2.45 2.34 2.25 2.18 2.11
2.40 2.30 2.21 2.13 2.07
16 17 18 19 20
4.49 4.45 4.41 4.38 4.35
3.63 3.59 3.55 3.52 3.49
3.24 3.20 3.16 3.13 3.10
3.01 2.96 2.93 2.90 2.87
2.85 2.81 2.77 2.74 2.71
2.74 2.70 2.66 2.63 2.60
2.66 2.61 2.58 2.54 2.51
2.59 2.55 2.51 2.48 2.45
2.54 2.49 2.46 2.42 2.39
2.49 2.45 2.41 2.38 2.35
2.42 2.38 2.34 2.31 2.28
2.35 2.31 2.27 2.23 2.20
2.28 2.23 2.19 2.16 2.12
2.24 2.19 2.15 2.11 2.08
2.19 2.15 2.11 2.07 2.04
2.15 2.10 2.06 2.03 1.99
2.11 2.06 2.02 1.98 1.95
2.06 2.01 1.97 1.93 1.90
2.01 1.96 1.92 1.88 1.84
21 22 23 24 25
4.32 4.30 4.28 4.26 4.24
3.47 3.44 3.42 3.40 3.39
3.07 3.05 3.03 3.01 2.99
2.84 2.82 2.80 2.78 2.76
2.68 2.66 2.64 2.62 2.60
2.57 2.55 2.53 2.51 2.49
2.49 2.46 2.44 2.42 2.40
2.42 2.40 2.37 2.36 2.34
2.37 2.34 2.32 2.30 2.28
2.32 2.30 2.27 2.25 2.24
2.25 2.23 2.20 2.18 2.16
2.18 2.15 2.13 2.11 2.09
2.10 2.07 2.05 2.03 2.01
2.05 2.03 2.01 1.98 1.96
2.01 1.98 1.96 1.94 1.92
1.96 1.94 1.91 1.89 1.87
1.92 1.89 1.86 1.84 1.82
1.87 1.84 1.81 1.79 1.77
1.81 1.78 1.76 1.73 1.71
26 27 28 29 30
4.23 4.21 4.20 4.18 4.17
3.37 3.35 3.34 3.33 3.32
2.98 2.96 2.95 2.93 2.92
2.74 2.73 2.71 2.70 2.69
2.59 2.57 2.56 2.55 2.53
2.47 2.46 2.45 2.43 2.42
2.39 2.37 2.36 2.35 2.33
2.32 2.31 2.29 2.28 2.27
2.27 2.25 2.24 2.22 2.21
2.22 2.20 2.19 2.18 2.16
2.15 2.13 2.12 2.10 2.09
2.07 2.06 2.04 2.03 2.01
1.99 1.97 1.96 1.94 1.93
1.95 1.93 1.91 1.90 1.89
1.90 1.88 1.87 1.85 1.84
1.85 1.84 1.82 1.81 1.79
1.80 1.79 1.77 1.75 1.74
1.75 1.73 1.71 1.70 1.68
1.69 1.67 1.65 1.64 1.62
40 60 120 ∞
4.08 4.00 3.92 3.84
3.23 3.15 3.07 3.00
2.84 2.76 2.68 2.60
2.61 2.53 2.45 2.37
2.45 2.37 2.29 2.21
2.34 2.25 2.17 2.10
2.25 2.17 2.09 2.01
2.18 2.10 2.02 1.94
2.12 2.04 1.96 1.88
2.08 1.99 1.91 1.83
2.00 1.92 1.83 1.75
1.92 1.84 1.75 1.67
1.84 1.75 1.66 1.57
1.79 1.70 1.61 1.52
1.74 1.65 1.55 1.46
1.69 1.59 1.50 1.39
1.64 1.53 1.43 1.32
1.58 1.47 1.35 1.22
1.51 1.39 1.25 1.00
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.025 Grados de
Grados del libertad del numerador (n)
libertad del
293
denominador (m)
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
1 2 3 4 5
647.80 38.51 17.44 12.22 10.01
799.50 39.00 16.04 10.65 8.43
864.20 39.17 15.44 9.98 7.76
899.60 39.25 15.10 9.60 7.39
921.80 39.30 14.88 9.36 7.15
937.10 39.33 14.73 9.20 6.98
948.20 39.36 14.62 9.07 6.85
956.70 39.37 14.54 8.98 6.76
963.30 39.39 14.47 8.90 6.68
968.60 39.40 14.42 8.84 6.62
976.70 39.41 14.34 8.75 6.52
984.90 39.43 14.25 8.66 6.43
993.10 39.45 14.17 8.56 6.33
997.20 39.46 14.12 8.51 6.28
1001.00 39.46 14.08 8.46 6.23
1006.00 39.47 14.04 8.41 6.18
1010.00 39.48 13.99 8.36 6.12
1014.00 39.49 13.95 8.31 6.07
1018.00 39.50 13.90 8.26 6.02
6 7 8 9 10
8.81 8.07 7.57 7.21 6.94
7.26 6.54 6.06 5.71 5.46
6.60 5.89 5.42 5.08 4.83
6.23 5.52 5.05 4.72 4.47
5.99 5.29 4.82 4.48 4.24
5.82 5.12 4.65 4.32 4.07
5.70 4.99 4.53 4.20 3.95
5.60 4.90 4.43 4.10 3.85
5.52 4.82 4.36 4.03 3.78
5.46 4.76 4.30 3.96 3.72
5.37 4.67 4.20 3.87 3.62
5.27 4.57 4.10 3.77 3.52
5.17 4.47 4.00 3.67 3.42
5.12 4.41 3.95 3.61 3.37
5.07 4.36 3.89 3.56 3.31
5.01 4.31 3.84 3.51 3.26
4.96 4.25 3.78 3.45 3.20
4.90 4.20 3.73 3.39 3.14
4.85 4.14 3.67 3.33 3.08
11 12 13 14 15
6.72 6.55 6.41 6.30 6.20
5.26 5.10 4.97 4.86 4.77
4.63 4.47 4.35 4.24 4.15
4.28 4.12 4.00 3.89 3.80
4.04 3.89 3.77 3.66 3.58
3.88 3.73 3.60 3.50 3.41
3.76 3.61 3.48 3.38 3.29
3.66 3.51 3.39 3.29 3.20
3.59 3.44 3.31 3.21 3.12
3.53 3.37 3.25 3.15 3.06
3.43 3.28 3.15 3.05 2.96
3.33 3.18 3.05 2.95 2.86
3.23 3.07 2.95 2.84 2.76
3.17 3.02 2.89 2.79 2.70
3.12 2.96 2.84 2.73 2.64
3.06 2.91 2.78 2.67 2.59
3.00 2.85 2.72 2.61 2.52
2.94 2.79 2.66 2.55 2.46
2.88 2.72 2.60 2.49 2.40
16 17 18 19 20
6.12 6.04 5.98 5.92 5.87
4.69 4.62 4.56 4.51 4.46
4.08 4.01 3.95 3.90 3.86
3.73 3.66 3.61 3.56 3.51
3.50 3.44 3.38 3.33 3.29
3.34 3.28 3.22 3.17 3.13
3.22 3.16 3.10 3.05 3.01
3.12 3.06 3.01 2.96 2.91
3.05 2.98 2.93 2.88 2.84
2.99 2.92 2.87 2.82 2.77
2.89 2.82 2.77 2.72 2.68
2.79 2.72 2.67 2.62 2.57
2.68 2.62 2.56 2.51 2.46
2.63 2.56 2.50 2.45 2.41
2.57 2.50 2.44 2.39 2.35
2.51 2.44 2.38 2.33 2.29
2.45 2.38 2.32 2.27 2.22
2.38 2.32 2.26 2.20 2.16
2.32 2.25 2.19 2.13 2.09
21 22 23 24 25
5.83 5.79 5.75 5.72 5.69
4.42 4.38 4.35 4.32 4.29
3.82 3.78 3.75 3.72 3.69
3.48 3.44 3.41 3.38 3.35
3.25 3.22 3.18 3.15 3.13
3.09 3.05 3.02 2.99 2.97
2.97 2.93 2.90 2.87 2.85
2.87 2.84 2.81 2.78 2.75
2.80 2.76 2.73 2.70 2.68
2.73 2.70 2.67 2.64 2.61
2.64 2.60 2.57 2.54 2.51
2.53 2.50 2.47 2.44 2.41
2.42 2.39 2.36 2.33 2.30
2.37 2.33 2.30 2.27 2.24
2.31 2.27 2.24 2.21 2.18
2.25 2.21 2.18 2.15 2.12
2.18 2.14 2.11 2.08 2.05
2.11 2.08 2.04 2.01 1.98
2.04 2.00 1.97 1.94 1.91
26 27 28 29 30
5.66 5.63 5.61 5.59 5.57
4.27 4.24 4.22 4.20 4.18
3.67 3.65 3.63 3.61 3.59
3.33 3.31 3.29 3.27 3.25
3.10 3.08 3.06 3.04 3.03
2.94 2.92 2.90 2.88 2.87
2.82 2.80 2.78 2.76 2.75
2.73 2.71 2.69 2.67 2.65
2.65 2.63 2.61 2.59 2.57
2.59 2.57 2.55 2.53 2.51
2.49 2.47 2.45 2.43 2.41
2.39 2.36 2.34 2.32 2.31
2.28 2.25 2.23 2.21 2.20
2.22 2.19 2.17 2.15 2.14
2.16 2.13 2.11 2.09 2.07
2.09 2.07 2.05 2.03 2.01
2.03 2.00 1.98 1.96 1.94
1.95 1.93 1.91 1.89 1.87
1.88 1.85 1.83 1.81 1.79
40 60 120 ∞
5.42 5.29 5.15 5.02
4.05 3.93 3.80 3.69
3.46 3.34 3.23 3.12
3.13 3.01 2.89 2.79
2.90 2.79 2.67 2.57
2.74 2.63 2.52 2.41
2.62 2.51 2.39 2.29
2.53 2.41 2.30 2.19
2.45 2.33 2.22 2.11
2.39 2.27 2.16 2.05
2.29 2.17 2.05 1.94
2.18 2.06 1.94 1.83
2.07 1.94 1.82 1.71
2.01 1.88 1.76 1.64
1.94 1.82 1.69 1.57
1.88 1.74 1.61 1.48
1.80 1.67 1.53 1.39
1.72 1.58 1.43 1.27
1.64 1.68 1.31 1.00
∞
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.01 Grados de
Grados del libertad del numerador (n)
libertad del denominador (m)
1 2 3 4 5
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
294
4052.19 98.50 34.12 21.20 16.26
4999.50 99.00 30.82 18.00 13.27
5403.00 99.17 29.46 16.69 12.06
5625.00 99.25 28.71 15.98 11.39
5764.00 99.30 28.24 15.52 10.97
5859.00 99.33 27.91 15.21 10.67
5928.00 99.36 27.67 14.98 10.46
5982.00 99.37 27.49 14.80 10.29
6022.00 99.39 27.35 14.66 10.16
6056.00 99.40 27.23 14.55 10.05
6106.00 99.42 27.05 14.37 9.89
6157.00 99.43 26.87 14.20 9.72
6209.00 99.45 26.69 14.02 9.55
6235.00 99.46 26.60 13.93 9.47
6261.00 99.47 26.50 13.84 9.38
6287.00 99.47 26.41 13.75 9.29
6313.00 99.48 26.32 13.65 9.20
6399.00 99.49 26.22 13.56 9.11
6366.00 99.00 26.13 13.46 9.02
6 7 8 9 10
13.75 12.25 11.26 10.56 10.04
10.92 9.55 8.65 8.02 7.56
9.78 8.45 7.59 6.99 6.55
9.15 7.85 7.01 6.42 5.99
8.75 7.46 6.63 6.06 5.64
8.47 7.19 6.37 5.80 5.39
8.26 6.99 6.18 5.61 5.20
8.10 6.84 6.03 5.47 5.06
7.98 6.72 5.91 5.35 4.94
7.87 6.62 5.81 5.26 4.85
7.72 6.47 5.67 5.11 4.71
7.56 6.31 5.52 4.96 4.56
7.40 6.16 5.36 4.81 4.41
7.31 6.07 5.28 4.73 4.33
7.23 5.99 5.20 4.65 4.25
7.14 5.91 5.12 4.57 4.17
7.06 5.82 5.03 4.48 4.08
6.97 5.74 4.95 4.40 4.00
6.88 5.65 4.86 4.31 3.91
11 12 13 14 15
9.65 9.33 9.07 8.86 8.68
7.21 6.93 6.70 6.51 6.36
6.22 5.95 5.74 5.56 5.42
5.67 5.41 5.21 5.04 4.89
5.32 5.06 4.86 4.69 4.56
5.07 4.82 4.62 4.46 4.32
4.89 4.64 4.44 4.28 4.14
4.74 4.50 4.30 4.14 4.00
4.63 4.39 4.19 4.03 3.89
4.54 4.30 4.10 3.94 3.80
4.40 4.16 3.96 3.80 3.67
4.25 4.01 3.82 3.66 3.52
4.10 3.86 3.66 3.51 3.37
4.02 3.78 3.59 3.43 3.29
3.94 3.70 3.51 3.35 3.21
3.86 3.62 3.43 3.27 3.13
3.78 3.54 3.34 3.18 3.05
3.69 3.45 3.25 3.09 2.96
3.60 3.36 3.17 3.00 2.87
16 17 18 19 20
8.53 8.40 8.29 8.18 8.10
6.23 6.11 6.01 5.93 5.85
5.29 5.19 5.09 5.01 4.94
4.77 4.67 4.58 4.50 4.43
4.44 4.34 4.25 4.17 4.10
4.20 4.10 4.01 3.94 3.87
4.03 3.93 3.84 3.77 3.70
3.89 3.79 3.71 3.63 3.56
3.78 3.68 3.60 3.52 3.46
3.69 3.59 3.51 3.43 3.37
3.55 3.46 3.37 3.30 3.23
3.41 3.31 3.23 3.15 3.09
3.26 3.16 3.08 3.00 2.94
3.18 3.08 3.00 2.92 2.86
3.10 3.00 2.92 2.84 2.78
3.02 2.92 2.84 2.76 2.69
2.93 2.83 2.75 2.67 2.61
2.84 2.75 2.66 2.58 2.52
2.75 2.65 2.57 2.49 2.42
21 22 23 24 25
8.02 7.95 7.88 7.82 7.77
5.78 5.72 5.66 5.61 5.57
4.87 4.82 4.76 4.72 4.68
4.37 4.31 4.26 4.22 4.18
4.04 3.99 3.94 3.90 3.85
3.81 3.76 3.71 3.67 3.63
3.64 3.59 3.54 3.50 3.46
3.51 3.45 3.41 3.36 3.32
3.40 3.35 3.30 3.26 3.22
3.31 3.26 3.21 3.17 3.13
3.17 3.12 3.07 3.03 2.99
3.03 2.98 2.93 2.89 2.85
2.88 2.83 2.78 2.74 2.70
2.80 2.75 2.70 2.66 2.62
2.72 2.67 2.62 2.58 2.54
2.64 2.58 2.54 2.49 2.45
2.55 2.50 2.45 2.40 2.36
2.46 2.40 2.35 2.31 2.27
2.36 2.31 2.26 2.21 2.17
26 27 28 29 30
7.72 7.68 7.64 7.60 7.56
5.53 5.49 5.45 5.42 5.39
4.64 4.60 4.57 4.54 4.51
4.14 4.11 4.07 4.04 4.02
3.82 3.78 3.75 3.73 3.70
3.59 3.56 3.53 3.50 3.47
3.42 3.39 3.36 3.33 3.30
3.29 3.26 3.23 3.20 3.17
3.18 3.15 3.12 3.09 3.07
3.09 3.06 3.03 3.00 2.98
2.96 2.93 2.90 2.87 2.84
2.81 2.78 2.75 2.73 2.70
2.66 2.63 2.60 2.57 2.55
2.58 2.55 2.52 2.49 2.47
2.50 2.47 2.44 2.41 2.39
2.42 2.38 2.35 2.33 2.30
2.33 2.29 2.26 2.23 2.21
2.23 2.20 2.17 2.14 2.11
2.13 2.10 2.06 2.03 2.01
40 60 120 ∞
7.31 7.08 6.85 6.63
5.18 4.98 4.79 4.61
4.31 4.13 3.95 3.78
3.83 3.65 3.48 3.32
3.51 3.34 3.17 3.02
3.29 3.12 2.96 2.80
3.12 2.95 2.79 2.64
2.99 2.82 2.66 2.51
2.89 2.72 2.56 2.41
2.80 2.63 2.47 2.32
2.66 2.50 2.34 2.18
2.52 2.35 2.19 2.04
2.37 2.20 2.03 1.88
2.29 2.12 1.95 1.79
2.20 2.03 1.86 1.70
2.11 1.94 1.76 1.59
2.02 1.84 1.66 1.47
1.92 1.73 1.53 1.32
1.80 1.60 1.38 1.00
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.005 Grados de
Grados del libertad del numerador (n)
libertad del denominador (m)
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
162.11∗ 198.50 55.55 31.33 22.78
200.00∗ 199.00 49.80 26.28 18.31
216.15∗ 199.17 47.47 24.26 16.53
225.00∗ 199.25 46.19 23.15 15.56
230.56∗ 199.30 45.39 22.46 14.94
234.37∗ 199.33 44.84 21.97 14.51
237.15∗ 199.36 44.43 21.62 14.20
239.25∗ 199.37 44.13 21.35 13.96
240.91∗ 199.39 43.88 21.14 13.77
242.24∗ 199.40 43.69 20.97 13.62
244.26∗ 199.42 43.39 20.70 13.38
246.30∗ 199.43 43.08 20.44 13.15
248.36∗ 199.45 42.78 20.17 12.90
249.40∗ 199.46 42.62 20.03 12.78
250.44∗ 199.47 42.47 19.89 12.66
251.48∗ 199.47 42.31 19.75 12.53
252.53∗ 199.48 42.15 19.61 12.40
253.59∗ 199.49 41.99 19.47 12.27
254.65∗ 199.50 41.83 19.32 12.14
6 7 8 9 10
18.63 16.24 14.69 13.61 12.83
14.54 12.40 11.04 10.11 9.43
12.92 10.88 9.60 8.72 8.08
12.03 10.05 8.81 7.96 7.34
11.46 9.52 8.30 7.47 6.87
11.07 9.16 7.95 7.13 6.54
10.79 8.89 7.69 6.88 6.30
10.57 8.68 7.50 6.69 6.12
10.39 8.51 7.34 6.54 5.97
10.25 8.38 7.21 6.42 5.85
10.03 8.18 7.01 6.23 5.66
9.81 7.97 6.81 6.03 5.47
9.59 7.75 6.61 5.83 5.27
9.47 7.64 6.50 5.73 5.17
9.36 7.53 6.40 5.62 5.07
9.24 7.42 6.29 5.52 4.97
9.12 7.31 6.18 5.41 4.86
9.00 7.19 6.06 5.30 4.75
8.88 7.08 5.95 5.19 4.64
11 12 13 14 15
12.23 11.75 11.37 11.06 10.80
8.91 8.51 8.19 7.92 7.70
7.60 7.23 6.93 6.68 6.48
6.88 6.52 6.23 6.00 5.80
6.42 6.07 5.79 5.56 5.37
6.10 5.76 5.48 5.26 5.07
5.86 5.52 5.25 5.03 4.85
5.68 5.35 5.08 4.86 4.67
5.54 5.20 4.94 4.72 4.54
5.42 5.09 4.82 4.60 4.42
5.24 4.91 4.64 4.43 4.25
5.05 4.72 4.46 4.25 4.07
4.86 4.53 4.27 4.06 3.88
4.76 4.43 4.17 3.96 3.79
4.65 4.33 4.07 3.86 3.69
4.55 4.23 3.97 3.76 3.58
4.44 4.12 3.87 3.66 3.48
4.34 4.01 3.76 3.55 3.37
4.23 3.90 3.65 3.44 3.26
16 17 18 19 20
10.58 10.38 10.22 10.07 9.94
7.51 7.35 7.21 7.09 6.99
6.30 6.16 6.03 5.92 5.82
5.64 5.50 5.37 5.27 5.17
5.21 5.07 4.96 4.85 4.76
4.91 4.78 4.66 4.56 4.47
4.69 4.56 4.44 4.34 4.26
4.52 4.39 4.28 4.18 4.09
4.38 4.25 4.14 4.04 3.96
4.27 4.14 4.03 3.93 3.85
4.10 3.97 3.86 3.76 3.68
3.92 3.79 3.68 3.59 3.50
3.73 3.61 3.50 3.40 3.32
3.64 3.51 3.40 3.31 3.22
3.54 3.41 3.30 3.21 3.12
3.44 3.31 3.20 3.11 3.02
3.33 3.21 3.10 3.00 2.92
3.22 3.10 2.99 2.89 2.81
3.11 2.98 2.87 2.78 2.69
21 22 23 24 25
9.83 9.73 9.63 9.55 9.48
6.89 6.81 6.73 6.66 6.60
5.73 5.65 5.58 5.52 5.46
5.09 5.02 4.95 4.89 4.84
4.68 4.61 4.54 4.49 4.43
4.39 4.32 4.26 4.20 4.15
4.18 4.11 4.05 3.99 3.94
4.01 3.94 3.88 3.83 3.78
3.88 3.81 3.75 3.69 3.64
3.77 3.70 3.64 3.59 3.54
3.60 3.54 3.47 3.42 3.37
3.43 3.36 3.30 3.25 3.20
3.24 3.18 3.12 3.06 3.01
3.15 3.08 3.02 2.97 2.92
3.05 2.98 2.92 2.87 2.82
2.95 2.88 2.82 2.77 2.72
2.84 2.77 2.71 2.66 2.61
2.73 2.66 2.60 2.55 2.50
2.61 2.55 2.48 2.43 2.38
26 27 28 29 30
9.41 9.34 9.28 9.23 9.18
6.54 6.49 6.44 6.40 6.35
5.41 5.36 5.32 5.28 5.24
4.79 4.74 4.70 4.66 4.62
4.38 4.34 4.30 4.26 4.23
4.10 4.06 4.02 3.98 3.95
3.89 3.85 3.81 3.77 3.74
3.73 3.69 3.65 3.61 3.58
3.60 3.56 3.52 3.48 3.45
3.49 3.45 3.41 3.38 3.34
3.33 3.28 3.25 3.21 3.18
3.15 3.11 3.07 3.04 3.01
2.97 2.93 2.89 2.86 2.82
2.87 2.83 2.79 2.76 2.73
2.77 2.73 2.69 2.66 2.63
2.67 2.63 2.59 2.56 2.52
2.56 2.52 2.48 2.45 2.42
2.45 2.41 2.37 2.33 2.30
2.33 2.29 2.25 2.21 2.18
40 60 120 ∞
8.83 8.49 8.18 7.88
6.07 5.79 5.54 5.30
4.98 4.73 4.50 4.28
4.37 4.14 3.92 3.72
3.99 3.76 3.55 3.35
3.71 3.49 3.28 3.09
3.51 3.29 3.09 2.90
3.35 3.13 2.93 2.74
3.22 3.01 2.81 2.62
3.12 2.90 2.71 2.52
2.95 2.74 2.54 2.36
2.78 2.57 2.37 2.19
2.60 2.39 2.19 2.00
2.50 2.29 2.09 1.90
2.40 2.19 1.98 1.79
2.30 2.08 1.87 1.67
2.18 1.96 1.75 1.53
2.06 1.83 1.61 1.36
1.93 1.69 1.43 1.00
1 2 3 4 5
295
* Muliplicar por 100
Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.001 Grados de
Grados del libertad del numerador (n)
libertad del
296
denominador (m)
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
1 2 3 4 5
4053∗ 998.50 167.00 74.14 47.18
5000∗ 999.00 148.50 61.25 37.12
5404∗ 999.20 141.10 56.18 33.20
5625∗ 999.20 137.10 53.44 31.09
5764∗ 999.30 134.60 51.71 29.75
5859∗ 999.30 132.80 50.53 28.83
5929∗ 999.40 131.60 49.66 28.16
5981∗ 999.40 130.60 49.00 27.65
6023∗ 999.40 129.90 48.47 27.24
6056∗ 999.40 129.20 48.05 26.92
6107∗ 999.40 128.30 47.41 26.42
6158∗ 999.40 127.40 46.76 25.91
6209∗ 999.40 126.40 46.10 25.39
6235∗ 999.50 125.90 45.77 25.13
6261∗ 999.50 125.40 45.43 24.87
6287∗ 999.50 125.00 45.09 24.60
6313∗ 999.50 124.50 44.75 24.33
6340∗ 999.50 124.00 44.40 24.06
6366∗ 999.50 123.50 44.05 23.79
6 7 8 9 10
35.51 29.25 25.41 22.86 21.04
27.00 21.69 18.49 16.39 14.91
23.70 18.77 15.83 13.90 12.55
21.92 17.20 14.39 12.56 11.28
20.80 16.21 13.48 11.71 10.48
20.03 15.52 12.86 11.13 9.93
19.46 15.02 12.40 10.70 9.52
19.03 14.63 12.05 10.37 9.20
18.69 14.33 11.77 10.11 8.96
18.41 14.08 11.54 9.89 8.75
17.99 13.71 11.19 9.57 8.45
17.56 13.32 10.84 9.24 8.13
17.12 12.93 10.48 8.90 7.80
16.90 12.73 10.30 8.72 7.64
16.67 12.53 10.11 8.55 7.47
16.44 12.33 9.92 8.37 7.30
16.21 12.12 9.73 8.19 7.12
15.98 11.91 9.53 8.00 6.94
15.75 11.70 9.33 7.81 6.76
11 12 13 14 15
19.69 18.64 17.82 17.14 16.59
13.81 12.97 12.31 11.78 11.34
11.56 10.80 10.21 9.73 9.34
10.35 9.63 9.07 8.62 8.25
9.58 8.89 8.35 7.92 7.57
9.05 8.38 7.86 7.44 7.09
8.66 8.00 7.49 7.08 6.74
8.35 7.71 7.21 6.80 6.47
8.12 7.48 6.98 6.58 6.26
7.92 7.29 6.80 6.40 6.08
7.63 7.00 6.52 6.13 5.81
7.32 6.71 6.23 5.85 5.54
7.01 6.40 5.93 5.56 5.25
6.85 6.25 5.78 5.41 5.10
6.68 6.09 5.63 5.25 4.95
6.52 5.93 5.47 5.10 4.80
6.35 5.76 5.30 4.94 4.64
6.17 5.59 5.14 4.77 4.47
6.00 5.42 4.97 4.60 4.31
16 17 18 19 20
16.12 15.72 15.38 15.08 14.82
10.97 10.66 10.39 10.16 9.95
9.01 8.73 8.49 8.28 8.10
7.94 7.68 7.46 7.27 7.10
7.27 7.02 6.81 6.62 6.46
6.80 6.56 6.35 6.18 6.02
6.46 6.22 6.02 5.85 5.69
6.19 5.96 5.76 5.59 5.44
5.98 5.75 5.56 5.39 5.24
5.81 5.58 5.39 5.22 5.08
5.55 5.32 5.13 4.97 4.82
5.27 5.05 4.87 4.70 4.56
4.99 4.78 4.59 4.43 4.29
4.85 4.63 4.45 4.29 4.15
4.70 4.48 4.30 4.14 4.00
4.54 4.33 4.15 3.99 3.86
4.39 4.18 4.00 3.84 3.70
4.23 4.02 3.84 3.68 3.54
4.06 3.85 3.67 3.51 3.38
21 22 23 24 25
14.59 14.38 14.20 14.03 13.88
9.77 9.61 9.47 9.34 9.22
7.94 7.80 7.67 7.55 7.45
6.95 6.81 6.70 6.59 6.49
6.32 6.19 6.08 5.98 5.89
5.88 5.76 5.65 5.55 5.46
5.56 5.44 5.33 5.23 5.15
5.31 5.19 5.09 4.99 4.91
5.11 4.99 4.89 4.80 4.71
4.95 4.83 4.73 4.64 4.56
4.70 4.58 4.48 4.39 4.31
4.44 4.33 4.23 4.14 4.06
4.17 4.06 3.96 3.87 3.79
4.03 3.92 3.82 3.74 3.66
3.88 3.78 3.68 3.59 3.52
3.74 3.63 3.53 3.45 3.37
3.58 3.48 3.38 3.29 3.22
3.42 3.32 3.22 3.14 3.06
3.26 3.15 3.05 2.97 2.89
26 27 28 29 30
13.74 13.61 13.50 13.39 13.29
9.12 9.02 8.93 8.85 8.77
7.36 7.27 7.19 7.12 7.05
6.41 6.33 6.25 6.19 6.12
5.80 5.73 5.66 5.59 5.53
5.38 5.31 5.24 5.18 5.12
5.07 5.00 4.93 4.87 4.82
4.83 4.76 4.69 4.64 4.58
4.64 4.57 4.50 4.45 4.39
4.48 4.41 4.35 4.29 4.24
4.24 4.17 4.11 4.05 4.00
3.99 3.92 3.86 3.80 3.75
3.72 3.66 3.60 3.54 3.49
3.59 3.52 3.46 3.41 3.36
3.44 3.38 3.32 3.27 3.22
3.30 3.23 3.18 3.12 3.07
3.15 3.08 3.02 2.97 2.92
2.99 2.92 2.86 2.81 2.76
2.82 2.75 2.69 2.64 2.59
40 60 120 ∞
12.61 11.97 11.38 10.83
8.25 7.77 7.32 6.91
6.59 6.17 5.78 5.42
5.70 5.31 4.95 4.62
5.13 4.76 4.42 4.10
4.73 4.37 4.04 3.74
4.44 4.09 3.77 3.47
4.21 3.86 3.55 3.27
4.02 3.69 3.38 3.10
3.87 3.54 3.24 2.96
3.64 3.32 3.02 2.74
3.40 3.08 2.78 2.51
3.14 2.83 2.53 2.27
3.01 2.69 2.40 2.13
2.87 2.55 2.26 1.99
2.73 2.41 2.11 1.84
2.57 2.25 1.95 1.66
2.41 2.08 1.76 1.45
2.23 1.89 1.54 1.00
* Muliplicar por 100
Tabla A.7: Distribuci´on del Estad´ıstico ∆n de Kolmogorov-Smirnov. P (∆n > x) = p 0.2
0.1
0.05
0.02
0.01
n 2 3 4 5 6 7 8 9 10
p
0.684 0.565 0.493 0.447 0.410 0.381 0.358 0.339 0.323
0.776 0.636 0.565 0.509 0.468 0.436 0.410 0.387 0.369
0.842 0.708 0.624 0.563 0.519 0.483 0.454 0.430 0.409
0.900 0.785 0.689 0.627 0.577 0.538 0.507 0.480 0.457
0.929 0.829 0.734 0.669 0.617 0.576 0.542 0.513 0.489
11 12 13 14 15 16 17 18 19 20
0.308 0.296 0.285 0.275 0.266 0.258 0.250 0.244 0.237 0.232
0.352 0.338 0.325 0.314 0.304 0.295 0.286 0.279 0.271 0.265
0.391 0.375 0.361 0.349 0.338 0.327 0.318 0.309 0.301 0.294
0.437 0.419 0.404 0.390 0.377 0.366 0.355 0.346 0.337 0.329
0.468 0.449 0.432 0.418 0.404 0.392 0.381 0.371 0.361 0.352
21 22 23 24 25 26 27 28 29 30
0.226 0.221 0.216 0.212 0.208 0.204 0.200 0.197 0.193 0.190
0.259 0.253 0.247 0.242 0.238 0.233 0.229 0.225 0.221 0.218
0.287 0.281 0.275 0.269 0.264 0.259 0.254 0.250 0.246 0.242
0.321 0.314 0.307 0.301 0.295 0.290 0.284 0.279 0.275 0.270
0.344 0.337 0.330 0.323 0.317 0.311 0.305 0.300 0.295 0.290
0.187 0.184 0.182 0.179 0.177 0.174 0.172 0.170 0.168 0.165 √ 1.07/ n
0.214 0.211 0.208 0.205 0.202 0.199 0.196 0.194 0.191 0.189 √ 1.22/ n
0.238 0.234 0.231 0.227 0.224 0.221 0.218 0.215 0.213 0.210 √ 1.36/ n
0.266 0.262 0.258 0.254 0.251 0.247 0.244 0.241 0.238 0.235 √ 1.52/ n
0.285 0.281 0.277 0.273 0.269 0.265 0.262 0.258 0.255 0.252 √ 1.63/ n
31 32 33 34 35 36 37 38 39 40 n > 40
297
Cuadro A.8: Distribuci´on del estad´ıstico de Wilcoxon. P {T + > x} = p
p
0.1
0.05 0.025 0.01
n 3
4
6
6
6
4
9
10
10
10
5
12
14
15
15
6
17
18
20
21
7
22
24
25
27
8
27
30
32
34
9
34
36
39
41
10
40
44
46
49
11
48
52
55
58
12
56
60
64
67
13
64
69
73
78
14
73
79
84
89
15
83
89
94
100
16
93
100
106
112
17 104
111
118
125
18 115
123
130
138
19 127
136
143
152
20 140
149
157
166
298
Cuadro A.9: Distribuci´on del estad´ıstico τ de Kendall. P {|T | > x} = p
p
0.2
0.1
0.05
0.02
n 3
1.0000 1.0000 1.0000 1.0000
4
0.6667 0.6667 1.0000 1.0000
5
0.6000 0.6000 0.8000 0.8000
6
0.4667 0.6000 0.7333 0.7333
7
0.4286 0.5238 0.6190 0.7143
8
0.4128 0.5000 0.5714 0.6429
9
0.3333 0.4444 0.5000 0.6111
10 0.3333 0.4222 0.4667 0.5556
299
Cuadro A.10: Distribuci´on del estad´ıstico de Mann-Whitney. P {V > x} = p m 2 3 4 5 6 7 8 9 10 n
p
2
0.100 0.050 0.025 0.010
3
0.100 0.050 0.025 0.010
4
0.100 0.050 0.025 0.010
5
0.100 0.050 0.025 0.010
6
0.100 0.050 0.025 0.010
7
0.100 0.050 0.025 0.010
8
0.100 0.050 0.025 0.010
9
0.100 0.050 0.025 0.010
10
0.100 0.050 0.025 0.010
4 4 4 4
5 6 6 6
7 8 8 8
8 9 10 10
10 11 12 12
12 13 14 14
13 14 15 16
15 16 17 18
16 18 19 20
7 8 9 9
10 11 11 12
12 13 14 15
14 15 16 18
16 18 19 20
18 20 21 22
21 22 24 25
23 25 26 28
12 14 15 16
15 17 18 19
18 20 21 22
21 23 24 26
24 26 27 29
26 29 31 32
29 32 34 36
19 20 22 23
22 24 26 27
26 28 29 31
29 31 33 35
32 35 37 39
36 38 41 43
26 28 30 32
30 33 35 37
34 37 39 41
38 41 43 46
42 45 48 51
35 37 40 42
39 42 45 48
44 47 50 53
48 52 55 58
44 48 50 54
49 53 56 60
55 59 62 66
55 59 63 66
61 65 69 73 67 72 76 80
300
Cuadro A.11: Distribuci´on del estad´ıstico de Spearman. P {RS > x} = p
p
0.1
0.05
0.025
0.01
0.005
0.001
n 4
0.8000 0.8000
5
0.7000 0.8000 0.9000 0.9000
6
0.6000 0.7714 0.8286 0.8857 0.9429
7
0.5357 0.6786 0.7450 0.8571 0.8929 0.9643
8
0.5000 0.6190 0.7143 0.8095 0.8571 0.9286
9
0.4667 0.5833 0.6833 0.7667 0.8167 0.9000
10
0.4424 0.5515 0.6364 0.7333 0.7818 0.8667
11
0.4182 0.5273 0.6091 0.7000 0.7545 0.8364
12
0.3986 0.4965 0.5804 0.6713 0.7273 0.8182
13
0.3791 0.4780 0.5549 0.6429 0.6978 0.7912
14
0.3626 0.4593 0.5341 0.6220 0.6747 0.7670
15
0.3500 0.4429 0.5179 0.6000 0.6536 0.7464
16
0.3382 0.4264 0.5000 0.5824 0.6324 0.7265
17
0.3260 0.4118 0.4853 0.5637 0.6152 0.7083
18
0.3148 0.3994 0.4716 0.5480 0.5975 0.6904
19
0.3070 0.3895 0.4579 0.5333 0.5825 0.6737
20
0.2977 0.3789 0.4451 0.5203 0.5684 0.6586
21
0.2909 0.3688 0.4351 0.5078 0.5545 0.6455
22
0.2829 0.3597 0.4241 0.4963 0.5426 0.6318
23
0.2767 0.3518 0.4150 0.4852 0.5306 0.6186
24
0.2704 0.3435 0.4061 0.4748 0.5200 0.6070
25
0.2646 0.3362 0.3977 0.4654 0.5100 0.5962
26
0.2588 0.3299 0.3894 0.4564 0.5002 0.5856
27
0.2540 0.3236 0.3822 0.4481 0.4915 0.5757
28
0.2490 0.3175 0.3749 0.4401 0.4828 0.5660
29
0.2443 0.3113 0.3685 0.4320 0.4744 0.5567
30
0.2400 0.3059 0.3620 0.4251 0.4665 0.5479
301
302
B
Resumen de distribuciones
303
Distribuci´on
F. de densidad
F. Caracter´ıstica
Esperanza
Varianza
Bernoulli B(1, p)
px q 1−x x = 0, 1
q + peit
p
pq
(q + peit )n
np
npq
λ
λ
Binomial B(n, p)
304
K x
px q n−x x = 0, 1, . . . , n
N −A n−x N n
x+r−1 x
eλ(e
it −1)
x = 0, 1, . . . , n
pq x x = 0, 1, . . .
Geom´etrica G(p)
Binomial Negativa BN(r, p)
λx −λ e x = 0, 1, . . . x!
Poisson P(λ)
Hipergeom´etrica H(n, N, A)
n x
pr q x x = 0, 1, . . .
n
A = np N
n(N − n)pq N −1
p 1 − qeit
q p
q p2
pr (1 − qeit )r
q r p
q r p2
Distribuci´on
F. de densidad
F. Caracter´ıstica
Esperanza
Varianza
Uniforme U(a, b)
1 a<x
eibt − eiat i(b − a)t
a+b 2
(b − a)2 12
µ
σ2
1 √ σ 2π
Normal N(µ, σ)
Log-Normal Log-N(µ, σ)
305
1 √
xσ 2π 1
Pearson χ2n
t-Student tn
F-Snedecor Fn,m
2n/2 Γ
1 2 e
x−µ σ
1 − e 2
Lx − µ σ
−
2 2
x∈R
1 itµ − t2 σ 2 2 e
1 µ + σ2 2 e
x≥0
n xn/2−1 e−x/2 x ≥ 0
(1 − 2it)−n/2
2
(eσ − 1)e2µ+σ
2
n
2n
0 (n > 1)
n (n > 2) n−2
m m−2
2m2 (n + m − 2) n(m − 2)2 (m − 4)
2
n+1 − n + 1 Γ x2 2 2 n 1 + √ n nπ Γ 2
x∈R
n+m n+m nn/2 mm/2 Γ − 2 n/2−1 2 n m x≥0 x (m + nx) Γ Γ 2 2
Distribuci´on
F. de densidad
F. Caracter´ıstica
Esperanza
Varianza
Exponencial Exp(λ)
λe−λx x ≥ 0
λ λ − it
1 λ
1 λ2
Erlang Er(n, λ)
λn n−1 −λx x e x≥0 Γ(n)
n λ
n λ2
Gamma G(p, q)
q p p−1 −qx x e x≥0 Γ(p)
p q
p q2
306
Weibull W(r, λ)
Beta B(p, q)
Normal Bidimensional
r λrxr−1 e−λx
λ λ − it q q − it
n
p
λ−1/r Γ
x≥0
1 xp−1 (1 − x)q−1 0 ≤ x ≥ 1 β(p, q)
f (x, y) =
2πσx σy
1 p
(
1 exp − 2 2(1 − ρ2 ) 1−ρ
1 1+ r
λ−2/r
1 2 2 −Γ 1+ Γ 1+ r r
p p+q "
x − µx σx
2
− 2ρ
x − µx σx
pq (p + q)2 (p + q + 1)
y − µy σy
+
y − µy σy
2 #)