Estadistica

  • Uploaded by: hercson
  • 0
  • 0
  • January 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estadistica as PDF for free.

More details

  • Words: 91,902
  • Pages: 316
Loading documents preview...
´ ´ ESCUELA TECNICA SUPERIOR DE INGENIEROS AERONAUTICOS

ESTAD´ISTICA

Marta Cordero Gracia Jos´e Olarrea Busto Dpto. de Matem´atica Aplicada y Estad´ıstica

´Indice general 1. Estad´ıstica descriptiva

1

1.1. Notaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.2. Formas de agrupar los datos de una muestra . . . . . . . . . . . . . . . . .

3

1.3. Representaci´on gr´afica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.4. Medidas num´ericas descriptivas . . . . . . . . . . . . . . . . . . . . . . . .

5

1.4.1. Medidas de posici´on . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.4.2. Medidas de dispersi´on . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.4.3. Medida de asimetr´ıa . . . . . . . . . . . . . . . . . . . . . . . . . .

9

1.4.4. Medida de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . .

9

2. An´ alisis combinatorio

11

2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 ´ 3. Algebra de sucesos

19

3.1. Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.1. Uni´on de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.2. Intersecci´on de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3.3. Propiedades de la uni´on y la intersecci´on . . . . . . . . . . . . . . . 21 3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3.5. Suceso complementario . . . . . . . . . . . . . . . . . . . . . . . . . 22 4. Teor´ıa de la probabilidad

23

4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.1. Probabilidad cl´asica

. . . . . . . . . . . . . . . . . . . . . . . . . . 24 i

4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.3. Axiom´atica del c´alculo de probabilidades . . . . . . . . . . . . . . . 26 4.1.4. Axiom´atica de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 28 4.2. Teoremas del c´alculo de probabilidades . . . . . . . . . . . . . . . . . . . . 29 4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3.1. Regla de la multiplicaci´on . . . . . . . . . . . . . . . . . . . . . . . 32 4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . 33 4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5. Variable aleatoria unidimensional

37

5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.1. Definici´on matem´atica . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1.2. Definici´on intuitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.1. Funci´on de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2.2. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.3.1. Funci´on de distribuci´on y funci´on de densidad . . . . . . . . . . . . 42 5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.5. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . 46 5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 46 5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 48 5.5.3. Transformaci´on integral . . . . . . . . . . . . . . . . . . . . . . . . 49 5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6. Momentos de una variable aleatoria unidimensional

53

6.1. Esperanza matem´atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.2. Momento de orden k de una variable aleatoria . . . . . . . . . . . . . . . . 55 6.3. Varianza y desviaci´on t´ıpica . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.4. Otros valores t´ıpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.5. Coeficientes de asimetr´ıa y curtosis . . . . . . . . . . . . . . . . . . . . . . 58 6.6. Teorema de Markov. Desigualdad de Chebychev . . . . . . . . . . . . . . . 60 6.7. Funci´on generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . 61 6.8. Funci´on caracter´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.8.1. Cambio de variable en la funci´on caracter´ıstica . . . . . . . . . . . . 64 ii

7. Variable aleatoria bidimensional y n-dimensional

65

7.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 66 7.2.1. Funci´on de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 67 7.2.2. Funci´on de distribuci´on . . . . . . . . . . . . . . . . . . . . . . . . . 67 7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . . 69 7.3.1. Funci´on de distribuci´on y funci´on de densidad . . . . . . . . . . . . 69 7.4. Variable aleatoria bidimensional condicional . . . . . . . . . . . . . . . . . 72 7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 72 7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 73 7.5. Variables aleatorias bidimensionales independientes . . . . . . . . . . . . . 75 7.6. Momentos de una variable aleatoria bidimensional . . . . . . . . . . . . . . 76 7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . . . . 78 7.6.2. Coeficiente de correlaci´on lineal . . . . . . . . . . . . . . . . . . . . 80 7.7. Funci´on caracter´ıstica de una variable aleatoria bidimensional . . . . . . . 81 7.8. Transformaci´on de variables aleatorias bidimensionales . . . . . . . . . . . 82 7.8.1. Una funci´on de dos variables aleatorias . . . . . . . . . . . . . . . . 82 7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . . . . . 82 7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 83 7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . 83 7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . 84 8. Distribuciones de probabilidad discretas

85

8.1. Distribuci´on de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . . . . . . . . 86 8.2. Distribuci´on Binomial, B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 86 8.2.1. Teorema de adici´on para distribuciones Binomiales . . . . . . . . . 88 8.2.2. Distribuci´on de la proporci´on . . . . . . . . . . . . . . . . . . . . . 89 8.3. Distribuci´on de Poisson, P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.3.1. Teorema de adici´on para distribuciones de Poisson . . . . . . . . . . 90 8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 91 8.3.3. Aproximaci´on de una Binomial por una Poisson . . . . . . . . . . . 92 8.4. Distribuci´on Hipergeom´etrica, H(n, N, A) . . . . . . . . . . . . . . . . . . 92 8.5. Distribuci´on Geom´etrica, G(p) . . . . . . . . . . . . . . . . . . . . . . . . 94 8.6. Distribuci´on Binomial Negativa, BN(r, p) . . . . . . . . . . . . . . . . . . 95 8.6.1. Teorema de adici´on para distribuciones Binomiales Negativas . . . . 96

iii

9. Distribuciones de probabilidad continuas

99

9.1. Distribuci´on Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . 100 9.2. Distribuci´on Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . . . . . . . 101 9.2.1. Teorema de adici´on para distribuciones Normales . . . . . . . . . . 103 9.2.2. Distribuci´on Normal est´andar . . . . . . . . . . . . . . . . . . . . . 104 9.3. Distribuci´on Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . . . . . . 105 9.4. Distribuci´on χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . . . . . . . 107 9.4.1. Teorema de adici´on para distribuciones χ2 de Pearson

. . . . . . . 108

9.5. Distribuci´on t-Student, tn . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 9.6. Distribuci´on F-Snedecor, Fn,m . . . . . . . . . . . . . . . . . . . . . . . . . 110 9.7. Distribuci´on Exponencial, Exp(λ) . . . . . . . . . . . . . . . . . . . . . . 111 9.7.1. Teorema de adici´on para distribuciones Exponenciales . . . . . . . . 113 9.8. Distribuci´on de Erlang Er(n, λ)

. . . . . . . . . . . . . . . . . . . . . . . 113

9.8.1. Teorema de adici´on para distribuciones de Erlang . . . . . . . . . . 115 9.9. Relaci´on entre las distribuciones de Poisson, Exponencial y Erlang . . . . . 115 9.10. Distribuci´on de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . . . . . . . 117 9.11. Distribuci´on Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . 118 9.11.1. Teorema de adici´on para distribuciones Gamma . . . . . . . . . . . 119 9.12. Distribuci´on Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . . . . . . . . 121 9.14. Distribuci´on Normal Bidimensional . . . . . . . . . . . . . . . . . . . . . . 123 10.Convergencia de sucesiones de variables aleatorias

127

10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 10.2. Problema central del l´ımite . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . . . 129 10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 129 10.3. Aproximaciones a la distribuci´on Normal . . . . . . . . . . . . . . . . . . . 130 10.3.1. Distribuci´on Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 130 10.3.2. Distribuci´on de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 131 10.3.3. Distribuci´on χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 132 10.3.4. Distribuci´on t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 132 11.Regresi´ on y correlaci´ on

133

11.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 iv

11.2. Regresi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.1. M´etodo de los m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . 134 11.2.2. M´etodo de la distribuci´on condicional . . . . . . . . . . . . . . . . . 136 11.2.3. Regresi´on Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11.3. Correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 11.3.1. Coeficiente de correlaci´on lineal . . . . . . . . . . . . . . . . . . . . 140 12.Distribuciones de muestreo

143

12.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 12.2. Definici´on de estad´ıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3.1. Poblaci´on Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 145 12.3.2. Poblaci´on Madre no Normal (n − 1)s2 12.4. Estad´ıstico . . . . . . . σ2 x ¯−µ 12.5. Estad´ıstico . . . . . . . . . √ s/ n 12.5.1. Poblaci´on Madre Normal . .

. . . . . . . . . . . . . . . . . . . . . . 146 . . . . . . . . . . . . . . . . . . . . . . 146 . . . . . . . . . . . . . . . . . . . . . . 147 . . . . . . . . . . . . . . . . . . . . . . 147

12.5.2. Poblaci´on Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 148 12.6. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . 148 12.6.1. Poblaci´on Madre Normal . . . . . . . . . . . . . . . . . . . . . . . . 148 12.6.2. Poblaci´on Madre no Normal . . . . . . . . . . . . . . . . . . . . . . 149 12.7. Estad´ıstico desviaci´on t´ıpica muestral . . . . . . . . . . . . . . . . . . . . . 150 12.8. Estad´ıstico diferencia de medias muestrales . . . . . . . . . . . . . . . . . . 152 12.9. Estad´ıstico cociente de varianzas muestrales . . . . . . . . . . . . . . . . . 153 12.10.Estad´ıstico proporci´on muestral . . . . . . . . . . . . . . . . . . . . . . . . 154 12.11.Estad´ıstico elemento que ocupa el lugar r

. . . . . . . . . . . . . . . . . . 155

12.11.1.Estad´ıstico m´aximo valor de una muestra . . . . . . . . . . . . . . . 155 12.11.2.Estad´ıstico m´ınimo valor de una muestra . . . . . . . . . . . . . . . 156 12.11.3.Estad´ıstico recorrido de una muestra . . . . . . . . . . . . . . . . . 156 12.11.4.Estimaci´on de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 157 13.Estimaci´ on puntual y estimaci´ on por intervalo

159

13.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 13.2. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 163 13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . 163 13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . 164 13.2.3. Error cuadr´atico medio . . . . . . . . . . . . . . . . . . . . . . . . . 165 v

13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 166 13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 13.3. M´etodos de estimaci´on puntual . . . . . . . . . . . . . . . . . . . . . . . . 170 13.3.1. M´etodo de m´axima verosimilitud . . . . . . . . . . . . . . . . . . . 170 13.3.2. Propiedades de los estimadores de m´axima verosimilitud . . . . . . 172 13.3.3. M´etodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . 173 13.4. Estimaci´on por intervalo de confianza . . . . . . . . . . . . . . . . . . . . . 174 13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . 176 13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . 179 13.4.3. Intervalo de confianza para la diferencia de medias

. . . . . . . . . 180

13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . . . 182 13.4.5. Intervalo de confianza para la proporci´on poblacional . . . . . . . . 183 13.5. Intervalo de confianza asint´otico . . . . . . . . . . . . . . . . . . . . . . . . 185 14.Teor´ıa de muestras de poblaci´ on finita

187

14.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 14.2. Distribuciones de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 14.2.1. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . . . . 189 14.2.2. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . . . 191 14.2.3. Estad´ıstico proporci´on muestral . . . . . . . . . . . . . . . . . . . . 193 14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 194 14.3.2. Intervalo de confianza para la proporci´on poblacional . . . . . . . . 195 15.Contraste de hip´ otesis

197

15.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 15.2. Las hip´otesis nula y alternativa . . . . . . . . . . . . . . . . . . . . . . . . 199 15.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.4. Nivel de significaci´on y regi´on cr´ıtica . . . . . . . . . . . . . . . . . . . . . 204 15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 15.7. Contrastes para la media de una poblaci´on . . . . . . . . . . . . . . . . . . 209 15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . . . . 211 15.8. Comparaci´on de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 vi

15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . . . . 213 15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . . . . 213 15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . . . . 215 15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.1.Una poblaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.2.Comparaci´on de varianzas . . . . . . . . . . . . . . . . . . . . . . . 215 16.Contrastes no param´ etricos

219

16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . 221 16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . 222 16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . 223 16.2. Contraste de Kolmogorov-Smirnov

. . . . . . . . . . . . . . . . . . . . . . 223

16.3. Otros contrastes no param´etricos . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.1. Contrastes de posici´on . . . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . . . . 228 16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 17.Regresi´ on lineal simple

251

17.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 17.3. M´etodo de m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 254 17.4. Propiedades de los estimadores de m´ınimos cuadrados . . . . . . . . . . . . 256 17.4.1. Propiedades generales

. . . . . . . . . . . . . . . . . . . . . . . . . 256

17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . . . . 257 17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 17.6. Inferencias respecto a los par´ametros . . . . . . . . . . . . . . . . . . . . . 258 17.7. Predicci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 17.7.1. Estimaci´on de la respuesta media . . . . . . . . . . . . . . . . . . . 259 17.7.2. Predicci´on de una observaci´on . . . . . . . . . . . . . . . . . . . . . 260 17.8. An´alisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 17.9. Coeficiente de correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 17.9.1. Inferencias sobre el coeficiente de correlaci´on . . . . . . . . . . . . . 264 17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 vii

A. Tablas estad´ısticas

271

B. Resumen de distribuciones

303

viii

Estad´ıstica descriptiva

1 ´Indice

1.1. Notaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

1.2. Formas de agrupar los datos de una muestra . . . . . . . . . .

3

1.3. Representaci´ on gr´ afica . . . . . . . . . . . . . . . . . . . . . . .

4

1.4. Medidas num´ ericas descriptivas . . . . . . . . . . . . . . . . . .

5

1.4.1. Medidas de posici´ on . . . . . . . . . . . . . . . . . . . . . . . .

6

1.4.1.1.

Medidas de tendencia central . . . . . . . . . . . . . .

6

1.4.1.2.

Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.4.2. Medidas de dispersi´ on . . . . . . . . . . . . . . . . . . . . . . .

8

1.4.2.1.

Varianza y desviaci´on t´ıpica . . . . . . . . . . . . . .

8

1.4.2.2.

Desviaci´on media . . . . . . . . . . . . . . . . . . . .

8

1.4.2.3.

Coeficiente de variaci´ on de Pearson . . . . . . . . . .

8

1.4.2.4.

Recorrido . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.4.3. Medida de asimetr´ıa . . . . . . . . . . . . . . . . . . . . . . . .

9

1.4.4. Medida de apuntamiento

9

. . . . . . . . . . . . . . . . . . . . .

1

2

Estad´ıstica La estad´ıstica descriptiva tiene por objeto describir y analizar un determinado con-

junto de datos sin pretender sacar conclusiones de tipo m´as general. El conjunto de datos en cuesti´on representa una muestra de los distintos valores que puede tomar una poblaci´on (e.g. estatura de los alumnos de la Escuela, ingresos familiares de una unidad familiar, estado civil, n´ umero de grietas en las alas de un determinado modelo de avi´on) Las variables se pueden clasificar en: Cuantitativas: variables en las que los datos difieren en magnitud (e.g. estaturas, ingresos anuales, etc) Cualitativas: variables en las que los datos difieren en tipo (e.g. estado civil, nacionalidad, etc) En este cap´ıtulo se tratar´a u ´ nicamente con variables cuantitativas. Para obtener una muestra de valores de una variable cuantitativa es necesario realizar medidas con una determinada escala y unidad de medida. La unidad de medida puede ser infinitamente divisible (e.g. km, m, cm, mm, . . . ) o indivisible (e.g. tama˜ no de una unidad familiar). Cuando la unidad de medida es infinitamente divisible, la variable se dice que es continua. En el caso de unidad de medida indivisible, se dice que la variable es discreta. En otras palabras, Variable continua: aquella que puede tomar un n´ umero infinito no numerable de valores. Variable discreta: aquella que puede tomar un n´ umero finito o infinito numerable de valores.

1.1.

Notaci´ on

La notaci´on que vamos a utilizar a lo largo de este cap´ıtulo es la siguiente: • Disponemos de N observaciones, r de las cuales son distintas {x1 , x2 , . . . , xr }. • Las observaciones est´an ordenadas en forma creciente x1 < x2 < · · · < xr . • Cada observaci´on xi ha aparecido ni veces. • Se llama frecuencia absoluta de la observaci´on xi al valor ni , siendo r X i=1

ni = N

1 Estad´ıstica descriptiva

3

• Se llama frecuencia absoluta acumulada de la observaci´on xi , al valor Ni =

i X

nk

k=1

siendo Nr = N • Se llama frecuencia relativa de la observaci´on xi al valor fi = siendo

r X

ni N

fi = 1

i=1

• Se llama frecuencia relativa acumulada de la observaci´on xi , al valor Fi =

i X

fk

k=1

siendo Fr = 1

1.2.

Formas de agrupar los datos de una muestra

Tabla Tipo I. Se utiliza cuando el n´ umero de observaciones es reducido (N es peque˜ no), y cada valor distinto ha aparecido una sola vez (todas las frecuencias absolutas valen uno).

xi

ni

x1

1

x2 .. .

1 .. .

xN

1

Tabla Tipo II. Se utiliza cuando el n´ umero de observaciones es grande (N es grande), pero el n´ umero de valores distintos que han aparecido es peque˜ no (algunas frecuencias absolutas son distintas de uno).

4

Estad´ıstica xi

ni

x1

n1

x2 .. .

n2 .. .

xr

nr

Tabla Tipo III. Se utiliza cuando tanto el n´ umero de observaciones como el n´ umero de valores distintos que han aparecido es grande. En este caso, elegiremos unos intervalos, Li−1 — Li , de amplitud, ai = Li − Li−1 , fija o variable, que contengan

a la totalidad de los valores observados.

∈[L0 ,L1 )

∈[L1 ,L2 )

z }| {z }| { x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10 , .. .

x82 , x83 , x84 , x85 , x86 , x87 , x88 , x89 , x90 | {z }| {z } ∈[Lr−2 ,Lr−1 )

∈[Lr−1 ,Lr )

Li−1 — Li

ni

L0 — L1

n1

L1 — L2 .. .

n2 .. .

Lr−1 — Lr

nr

En las tablas tipo III, se sugieren las siguientes normas : • Se debe intentar que los intervalos sean de amplitud constante. • Los intervalos se deben tomar semiabiertos, [Li−1 , Li ). • Para facilitar los c´alculos, se definen las marcas de clase como xi =

Li−1 + Li 2

convirti´endolas en tablas tipo II.

1.3.

Representaci´ on gr´ afica

Hay muchas formas de representar gr´aficamente una tabla, aqu´ı veremos s´olo algunas de ellas.

1 Estad´ıstica descriptiva

5 Pol´ıgono de frecuencias

Diagrama de barras n 6

n 6

n2 n4 nr

n2 n3 n1

n1

"• " " •aa "" a•" %% % •

-

x1

x2

···

xr

-

x

x1 x2

x3

x4

Histograma

Histograma h 6

n 6

h2

n2

h3

n3 n2

A2 n3

h1

A3

n1

n1

A1 -

L0

L1

ai = Li − Li−1 ,

1.4.

x

L2 L3 hi =

x

-

L0

ni ai

L1

L2 L3

x

Ai = ai ni

Medidas num´ ericas descriptivas

Una vez que se han recogido y graficado los datos, es conveniente definir algunas medidas num´ericas para describirlos. Existen dos medidas de especial inter´es para cualquier conjunto de datos: la localizaci´on de su centro y su variabilidad. Adem´as, hay otras medidas tambi´en importantes como la localizaci´on de los extremos y la forma en que se distribuyen los datos.

6

Estad´ıstica

1.4.1.

Medidas de posici´ on

1.4.1.1.

Medidas de tendencia central

Estas medidas indican d´onde se encuentra el centro de los datos • Media muestral (¯ x) La medida de tendencia central m´as utilizada es la media muestral o simplemente media,

x¯ =

r x1 n1 + x2 n2 + · · · + xr nr 1 X xi ni = n1 + n2 + · · · + nr N i=1

• Otros tipos de medias – Media geom´etrica x¯G = (x1 n1 · x2 n2 · · · xr nr )1/N – Media cuadr´atica x¯Q = – Media arm´onica

r

x21 n1 + x22 n2 + · · · + x2r nr N

N x¯A = n1 n2 nr + +···+ x1 x2 xr

– Media ponderada x¯p =

x1 p1 + x2 p2 + · · · + xr pr p1 + p2 + · · · + pr

Se cumple: x¯A ≤ x¯G ≤ x¯ ≤ x¯Q • Mediana (Me) La mediana es la medida de tendencia central que, supuestos los valores de la muestra ordenados en forma creciente, deja igual n´ umero de observaciones por debajo y por encima de ella. As´ı, suponiendo que los valores de la muestra son x1 ≤ x2 ≤ · · · ≤ xN

1 Estad´ıstica descriptiva

7

Me =

   xN   [ 2 ]+1

Si

N ∈ /N 2

    N   1 xN + xN Si ∈N +1 2 2 2 2

donde los corchetes, [ ], indican la parte entera. • Moda (Mo)

La moda se define como el valor de la muestra que tiene m´axima frecuencia. La moda no siempre es u ´ nica. As´ı, si una muestra tiene dos modas se llamar´a bimodal, si tiene tres modas trimodal, etc. 1.4.1.2.

Cuantiles

Ya hemos visto que la mediana divide el conjunto de datos en dos partes de igual tama˜ no. Para obtener medidas de localizaci´on m´as finas, solo es cuesti´on de dividir el conjunto de datos en m´as de dos partes. De esta forma se definen los p-cuantiles, siendo p la proporci´on de datos que deja el cuantil a su izquierda. Si tenemos la muestra ordenada de forma creciente, x1 ≤ x2 ≤ · · · ≤ xN , el p-cuantil viene dado por

xp =

  x   [N p]+1

Si Np ∈ /N

   1 (x + x Np N p+1 ) Si Np ∈ N 2 donde los corchetes, [ ], indican la parte entera. Los casos particulares de cuantiles m´as utilizados son • Cuartiles (Q1/4 , Q2/4 , Q3/4 ) Son los 3 valores de la muestra que dividen las observaciones en 4 partes iguales. • Deciles (D1/10 , D2/10 , . . . , D9/10 ) Son los 9 valores de la muestra que dividen las observaciones en 10 partes iguales. • Centiles o percentiles (P1/100 , P2/100 , . . . , P99/100 ) Son los 99 valores de la muestra que dividen las observaciones en 100 partes iguales.

8

Estad´ıstica

1.4.2.

Medidas de dispersi´ on

1.4.2.1.

Varianza y desviaci´ on t´ıpica

Las medidas de dispersi´on m´as utilizadas son la varianza y la desviaci´on t´ıpica. La varianza muestral, s2 , es un tipo de promedio de las desviaciones de los valores observados respecto de su media, y se define como r

(x1 − x¯)2 n1 + · · · + (xr − x¯)2 nr 1 X s = (xi − x¯)2 ni = (n1 + n2 + · · · + nr ) − 1 N − 1 i=1 2

La desviaci´on t´ıpica se define como la ra´ız cuadrada de la varianza y tiene las mismas dimensiones que los datos originales.

s=

1.4.2.2.



v u u s2 = t

r

1 X (xi − x¯)2 ni N − 1 i=1

Desviaci´ on media

Se define la desviaci´on media respecto de un par´ametro cualquiera, p, como DMp =

r 1 X |xi − p| ni N i=1

donde, generalmente, como par´ametro p se utiliza la media o la mediana. 1.4.2.3.

Coeficiente de variaci´ on de Pearson

El coeficiente de variaci´on de Pearson, definido como el cociente s (¯ x 6= 0) x¯ mide la dispersi´on de la distribuci´on, al igual que la desviaci´on t´ıpica o la varianza, con C.V. =

la ventaja de ser un coeficiente adimensional. 1.4.2.4.

Recorrido

Es la diferencia entre el valor m´aximo y el valor m´ınimo que toma la muestra R = m´ax{xi } − m´ın{xi } Adem´as, se define

1 Estad´ıstica descriptiva • Rango intercuart´ılico • Rango semicuart´ılico

1.4.3.

9

RI = Q3/4 − Q1/4 RSI =

Q3/4 − Q1/4 RI = 2 2

Medida de asimetr´ıa

En un conjunto de datos sim´etricos respecto a su media, x¯, la suma

P (xi − x¯)3

ser´a nula, mientras que con datos asim´etricos esta suma crecer´a con el grado de asimetr´ıa. Para obtener una medida adimensional del grado de asimetr´ıa se define el coeficiente de asimetr´ıa o deformaci´on como P n (xi − x¯)3 CA = (n − 1)(n − 2)s3

(n ≥ 3 y s 6= 0)

donde s es la desviaci´on t´ıpica de la muestra. Valores grandes y negativos de CA son indicativos de asimetr´ıa hacia la izquierda (¯ x <Me<Mo) mientras que valores grandes y positivos son indicativos de asimetr´ıa hacia la derecha (¯ x >Me>Mo).

1.4.4.

Medida de apuntamiento

Para medir si una distribuci´on de datos es m´as puntiaguda o m´as achatada de lo “normal”, se define el coeficiente de apuntamiento o curtosis como P n(n + 1) (xi − x¯)4 3(n − 1)2 CAp = − (n − 1)(n − 2)(n − 3)s4 (n − 2)(n − 3)

(n ≥ 4 y s 6= 0)

donde s es la desviaci´on t´ıpica de la muestra. Si CAp> 0 indica que la distribuci´on es puntiaguda, mientras que si CAp< 0 indica que es achatada.

10

Estad´ıstica

An´alisis combinatorio

2 ´Indice

2.1. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

2.1.0.1.

Sin repetici´on

. . . . . . . . . . . . . . . . . . . . . .

13

2.1.0.2.

Con repetici´on . . . . . . . . . . . . . . . . . . . . . .

14

2.2. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.2.0.3.

Sin repetici´on

. . . . . . . . . . . . . . . . . . . . . .

14

2.2.0.4.

Con repetici´on . . . . . . . . . . . . . . . . . . . . . .

15

2.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.3.0.5.

Sin repetici´on

. . . . . . . . . . . . . . . . . . . . . .

15

2.3.0.6.

Con repetici´on . . . . . . . . . . . . . . . . . . . . . .

16

11

12 El principal objetivo de la combinatoria –o, por lo menos en el que estamos aqu´ı m´as interesados– es el de hallar el cardinal de un conjunto finito o, dicho de otro modo, contar. Una posible definici´on matem´atica de la acci´on que supone contar es la de establecer una biyecci´on entre el conjunto que se desea contar y los n´ umeros naturales, de modo que podamos enumerar los elementos como el uno, el dos, etc. Es f´acil, por ejemplo, contar el n´ umero de cuadrados perfectos que hay entre 100 y 1000. Basta observar que 100 = (9 + 1)2 y que el mayor cuadrado perfecto menor que 1000 es 961 = 312 = (9 + 22)2 . Hemos establecido una biyecci´on entre el conjunto que dese´abamos contar y los naturales entre el 1 y el 22. Hay, por tanto, 22 cuadrados perfectos entre 100 y 1000. Sin embargo, la mayor parte de las veces, no es evidente –o siquiera posible– c´omo establecer tal biyecci´on. Un primer procedimiento accesible en estos casos es el denominado constructivo. Se trata de recorrer los pasos necesarios para formar todos los elementos del conjunto anotando las alternativas que puedan elegirse en cada uno. Veamos un ejemplo: ¿De cu´antas maneras se pueden sentar tres chicas y tres chicos en seis butacas consecutivas de un cine de forma que no haya dos chicas ni dos chicos seguidos? Hay que ocupar seis sitios. Los indicaremos gr´aficamente as´ı:

La primera butaca puede ser ocupada por cualquiera de las seis personas. |{z} 6

Elegida la primera persona hay 3 elecciones posibles, entre las personas de sexo contrario, para ocupar el segundo lugar. |{z} 6

|{z} 3

La tercera butaca ha de ser ocupada por una de las 2 personas que quedan del mismo sexo de la primera y la cuarta por una de las dos del sexo de la segunda. |{z} 6

|{z} 3

|{z} 2

|{z} 2

Y, para terminar, las dos u ´ ltimas personas no tienen elecci´on. |{z} 6

|{z} 3

|{z} 2

|{z} 2

|{z} 1

|{z} 1

2 An´ alisis combinatorio

13

En total hay, por tanto, 6 · 3 · 2 · 2 = 72 ordenaciones posibles. La intuitiva multiplicaci´on que proporciona el resultado final puede expresarse como una regla general matem´atica:

Si los conjuntos A1 , A2 ,. . .,Ak tienen n1 , n2 , . . .,nk elementos respectivamente, el producto cartesiano A1 × A2 × · · · × Ak tiene n1 · n2 · · · nk elementos.

En algunas ocasiones hay que resolver problemas que pueden reducirse a un peque˜ no n´ umero de patrones o formas de contar. Estos patrones se estudian en la educaci´on secundaria y haremos aqu´ı s´olamente un breve recordatorio. Sin embargo, la mayor parte de las veces tendremos problemas que no corresponden exactamente a alguno de estos patrones. Lo m´as recomendable suele ser recurrir antes a la l´ogica y al m´etodo constructivo que a buscar hipot´eticas f´ormulas que resuelvan nuestro problema concreto. Entre estos patrones fundamentales –que pueden resumirse esquem´aticamente en la tabla del final del cap´ıtulo – se encuentran los siguientes:

2.1.

Permutaciones

Supongamos un conjunto de n elementos. Se llaman permutaciones de estos n elementos a las distintas ordenaciones que podemos hacer con ellos. 2.1.0.1.

Sin repetici´ on

El m´etodo anterior nos da f´acilmente el n´ umero de permutaciones Pn que existen en el conjunto si no se repite ning´ un elemento (es decir, si son todos distintos o distinguibles): El primer elemento puede ser cualquiera de los n, el segundo cualquiera de los n − 1

restantes, el tercero cualquiera de los n − 2 restantes y as´ı sucesivamente. |{z} n

|{z} n−1

|{z} n−2

...

|{z} 3

El total de permutaciones de n elementos es, entonces:

|{z} 2

Pn = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 = n!

|{z} 1

14

Estad´ıstica

2.1.0.2.

Con repetici´ on

Supongamos ahora que no todos los n elementos del conjunto son distintos, sino que hay r grupos de elementos iguales entre s´ı (o indistinguibles), digamos n1 de una clase, n2 de otra, hasta nr de la u ´ ltima clase. Est´a claro que n1 + n2 + . . . + nr = n. ¿Cu´antas ordenaciones podr´ıamos distinguir? Un ejemplo t´ıpico de este problema podr´ıa ser el siguiente: disponemos de una bolsa en la que hay 11 bolas iguales; cuatro de ellas tienen un 1 escrito, otras tres un 2 y las cuatro restantes un 3. Sacando las once bolas una tras otra y anotando las cifras que aparecen ¿Cuantos n´ umeros distintos podemos obtener? Otro ejemplo cl´asico: ¿Cu´antas palabras distintas pueden formarse empleando las 8 letras del vocablo CASCARAS? Pensemos en el problema general. Si los n elementos fueran distintos tendr´ıamos n! permutaciones posibles. Dada una cualquiera de ellas, podr´ıamos sacar de la ordenaci´on los n1 elementos del primer grupo, reordenarlos arbitrariamente y volver a rellenar los huecos que hubieran dejado libres sin que fu´eramos capaces de distinguir la permutaci´on original del resultado final de esta operaci´on. Lo mismo es cierto para los n2 elementos del segundo grupo, los n3 del tercero, hasta los nr del u ´ ltimo. Puesto que hay ni ! ordenaciones parciales posibles de los elementos del grupo i-´esimo, tenemos que: P Rnn1 ,n2 ,...,nr =

2.2. 2.2.0.3.

n! n1 ! × n2 ! × · · · × nr !

Variaciones Sin repetici´ on

Sea ahora un conjunto de n elementos distintos. Se llama variaci´on de r elementos tomados de entre los n (Vn,r ) a una ordenaci´on de un subconjunto de tama˜ no r. Una variaci´on de 3 elementos tomados de entre 7 es, por ejemplo, el podio (los 3 primeros clasificados) de una carrera con 7 inscritos. Es muy f´acil calcular el n´ umero de variaciones Vn,r . Basta observar que hay que elegir r elementos de modo que el primero puede ser uno cualquiera de los n, el segundo uno cualquiera de los n − 1 restantes y as´ı sucesivamente: |{z} n |

|{z} n−1

... {z r

|{z} n−r+2

|{z} n−r+1 }

2 An´ alisis combinatorio

15

Y aplicando la regla del producto cartesiano: Vn,r = n × (n − 1) × · · · × (n − r + 2) × (n − r + 1) =

2.2.0.4.

n! (n − r)!

Con repetici´ on

Supongamos ahora que cada elemento del conjunto original pueda ser repetido al crear una ordenaci´on de tama˜ no r. Se hablar´a entonces de variaciones con repetici´on de r elementos tomados de entre n, V Rn,r . Pensemos, por ejemplo, en las palabras de 8 letras que pueden formarse con el alfabeto espa˜ nol. Hay que tomar 8 decisiones (cu´al es la primera letra, cu´al la segunda, etc.) teniendo 27 posibilidades de elecci´on cada vez (las 27 letras del alfabeto). El n´ umero total de palabras es, entonces 27 · · × 27 × 27} = 278 . | × 27 × ·{z 8veces Es f´acil observar que, en general: V Rn,r = nr

2.3.

Combinaciones

Una combinaci´ on de r elementos tomados de entre n es cualquier subconjunto de tama˜ no r de un conjunto de n elementos. Es importante resaltar que en una combinaci´on no interviene el orden de los elementos: si sacamos tres bolas de una bolsa que contiene diez, numeradas del uno al diez, podemos obtener las permutaciones distintas {1, 2, 7} y {7, 1, 2} que, sin embargo, son un mismo subconjunto de tama˜ no 3 (el obtenido por uni´on de {1}, {2} y {3}). Son, por tanto, la misma combinaci´on.

2.3.0.5.

Sin repetici´ on

Siguiendo la idea del ejemplo anterior, una manera sencilla de contar las combinaciones de r elementos tomados entre n (Cn,r ) es observar que, de las n!/(n−r)! variaciones posibles, r! de ellas son ordenaciones distintas de los mismos elementos y, por tanto, la misma combinaci´on. El n´ umero total de combinaciones ser´a entonces: Cn,r

n! = = (n − r)! r!

n r

!

16

Estad´ıstica

2.3.0.6.

Con repetici´ on

Supongamos ahora que tenemos la libertad de repetir los elementos del conjunto para formar un subconjunto de tama˜ no r, obtendremos una combinaci´on con repetici´on de r elementos tomados de entre n. En una de estas combinaciones cada uno de los n elementos del conjunto puede aparecer 0, 1, 2, 3, . . ., hasta r veces. Cada combinaci´on puede ser descrita por una n-upla de n´ umeros que indica cu´antas veces aparece el elemento 1, el 2, y as´ı hasta el n. Evidentemente, la suma de las cifras de cada n-upla es r, puesto que cada combinaci´on consta de r elementos. El n´ umero total de n-uplas tales que la suma de sus elementos sea r es el n´ umero de posibles combinaciones con repetici´on y lo que deseamos calcular. Olvid´emonos por el momento de las combinaciones y pensemos en los siguientes problemas: Introducimos r bolas id´enticas en n cajas. ¿Cu´antas configuraciones finales distintas podr´ıamos reconocer? ¿Cu´antas soluciones distintas tiene la ecuaci´on k1 + k2 + · · · + kn = r si cada ki debe

ser un n´ umero natural ´o 0?

Estos dos problemas aparentemente distintos son, en realidad, equivalentes. Supongamos r bolas iguales y n cajas. Las introducimos y contamos cu´antas bolas han ca´ıdo en la primera caja, cu´antas en la segunda, la tercera y la cuarta. Cada configuraci´on nos da una n-upla de n´ umeros (k1 , k2 , . . . , kn ) que resuelve el segundo problema. Obs´ervese, llegados a este punto, que el n´ umero de configuraciones distintas que obtenemos al introducir r bolas en n cajas y el n´ umero de combinaciones que busc´abamos P coinciden: ambas son el n´ umero de n-uplas (k1 , k2 , . . . , kn ) tales que la suma ni=1 ki = r. Vamos a calcular este n´ umero empleando un sencillo y original argumento para el problema de las bolas y las cajas. Supongamos las n cajas colocadas una a continuaci´on de la otra y pegadas entre s´ı. Representaremos las bolas mediante asteriscos y las cajas como los n espacios comprendidos entre n + 1 barras (las paredes de las cajas). Por ejemplo, la secuencia | ∗ ∗ ∗ |||| ∗ ∗|| ∗ | indica una manera de introducir 6 bolas en 7 cajas con el resultado de 3 en la primera, 2 en la quinta y 1 en la s´eptima. Cada secuencia que representemos empieza y termina por una barra vertical, pero las restantes n − 1 barras y r asteriscos aparecen en un orden

arbitrario. Por lo tanto, el n´ umero de configuraciones distinguibles es igual al n´ umero de formas de seleccionar r lugares de n + r − 1 posiciones posibles, es decir:

2 An´ alisis combinatorio

CRn,r

17 (n + r − 1)! = = (n − 1)! r!

n+r−1 r

!

Otro ejemplo cl´asico que puede reducirse al de introducir r bolas en n cajas: ¿Cu´antas derivadas parciales de orden r diferentes existen para una funci´on anal´ıtica de n variables f (x1 , x2 , . . . , xn )? Por ser una funci´on anal´ıtica, las derivadas parciales de orden r no dependen del orden de la derivaci´on, sino s´olo del n´ umero de veces que cada variable aparece. Si identificamos cada variable con una celda, cada configuraci´on obtenida al introducir r bolas nos da, de nuevo, una derivada posible de orden r. Hay, por tanto CRn,r derivadas distintas de f .

interviene el orden  B B



B B B

B



si B

B



 



no 

B



B B BN

  

puedo repetir

puedo repetir

 A A A

r

=

=

(n + r − 1)! r! (n − 1)!

P Rnn1 ,n2 ,...,nr =

r 3 V Rn,r = n no

Pn = n!

n! n1 ! × n2 ! × · · · × nr !

3 Vn,r = n × (n − 1) × · · · × (n − r + 1) no   Q Q si QQ s

!

n! r! (n − r)!

n+r−1

cojo todos

CRn,r =

r

!

me dicen cuantas veces  A Q se repite AU Q si QQ cada uno s si A

A A

 no      

  Q Q si QQ s

3 Cn,r = no

n

COMBINATORIA

18 Estad´ıstica

´ Algebra de sucesos

3 ´Indice 3.1. Experimento aleatorio

. . . . . . . . . . . . . . . . . . . . . . .

20

3.2. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3.3. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . .

21

3.3.1. Uni´on de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . .

21

3.3.2. Intersecci´ on de sucesos . . . . . . . . . . . . . . . . . . . . . . .

21

3.3.3. Propiedades de la uni´ on y la intersecci´ on

. . . . . . . . . . . .

21

3.3.4. Diferencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . .

22

3.3.5. Suceso complementario

22

. . . . . . . . . . . . . . . . . . . . . .

19

20

Estad´ıstica

3.1.

Experimento aleatorio

Por experimento entenderemos cualquier acci´on que pueda dar lugar a resultados identificables. Suponemos que podemos repetir el experimento gran n´ umero de veces bajo las mismas condiciones, y que todos los posibles resultados son conocidos antes de la realizaci´on del mismo. Si los resultados del experimento pueden ser distintos y no se sabe cu´al de ellos aparecer´a al final, el experimento se llamar´a aleatorio. Si el resultado del experimento es conocido de antemano, se llamar´a determinista.

3.2.

Sucesos

Llamaremos sucesos elementales de un experimento a un conjunto de resultados posibles que cumplen: 1. Siempre ocurre alguno de ellos 2. Son mutuamente excluyentes, es decir, la ocurrencia de uno de ellos implica la no ocurrencia de los dem´as Llamaremos espacio muestral, E, al conjunto de todos los posibles resultados de un experimento aleatorio. Si, por ejemplo, el experimento consiste en lanzar una moneda dos veces, el espacio muestral lo forman cuatro sucesos elementales, E = {c c, c +, + c, ++}.

En un experimento aleatorio podemos estar interesados no en un suceso elemental,

sino en un conjunto de sucesos elementales, conjunto que llamaremos suceso compuesto, es decir, un subconjunto del espacio muestral (que se obtiene mediante la uni´on de sucesos elementales). En el ejemplo anterior, un suceso compuesto ser´ıa obtener exactamente una cara, S = {c +, + c}

Si el u ´ nico resultado que interesa del experimento es el mismo espacio muestral E,

estamos ante el suceso seguro; mientras que si el resultado deseado es no obtener ninguno de los sucesos contenidos en E, tenemos el suceso imposible.

´ 3 Algebra de sucesos

3.3. 3.3.1.

21

Operaciones con sucesos Uni´ on de sucesos

Dados n sucesos S1 , S2 , . . . , Sn , la operaci´on uni´on de ellos

n [

Si

i=1

!

es otro suceso

constituido por los elementos comunes y no comunes a los sucesos S1 , S2 , . . . , Sn . Es decir, un suceso que aparece cuando tiene lugar S1 ´o S2 ´o · · · ´o Sn .

3.3.2.

Intersecci´ on de sucesos

Dados n sucesos S1 , S2 , . . . , Sn , la operaci´on intersecci´on de ellos

n \

i=1

Si

!

es otro

suceso constituido por los elementos comunes a los sucesos S1 , S2 , . . . , Sn . Es decir, un suceso que aparece cuando tiene lugar S1 y S2 y · · · y Sn .

Cuando n sucesos !no tienen ning´ un elemento com´ un, su intersecci´on es igual al n \ suceso vac´ıo Si = ∅ , y se dice que los sucesos son disjuntos o incompatibles. Como i=1

caso particular, n sucesos son disjuntos dos a dos si Si ∩ Sj = ∅ ∀i 6= j. n [

i=1

Si n sucesos son disjuntos dos a dos y la uni´on de todos ellos es el espacio muestral, !

Si = E , se dice que los sucesos Si forman una partici´on del espacio muestral E.

La definici´on de partici´on se puede ampliar a un conjunto numerable de sucesos disjuntos ∞ [ dos a dos y tales que Si = E. i=1

3.3.3.

Propiedades de la uni´ on y la intersecci´ on

• Conmutativa

S1 ∪ S2 = S2 ∪ S1

S1 ∩ S2 = S2 ∩ S1

• Asociativa

S1 ∪ (S2 ∪ S3 ) = (S1 ∪ S2 ) ∪ S3

S1 ∩ (S2 ∩ S3 ) = (S1 ∩ S2 ) ∩ S3 • Distributiva

S1 ∪ (S2 ∩ S3 ) = (S1 ∪ S2 ) ∩ (S1 ∪ S3 )

S1 ∩ (S2 ∪ S3 ) = (S1 ∩ S2 ) ∪ (S1 ∩ S3 )

22

Estad´ıstica

3.3.4.

Diferencia de sucesos

Dados dos sucesos S1 y S2 , la operaci´on diferencia (S1 − S2 ) es el suceso integrado

por los elementos de S1 que no pertenecen a S2 . Es decir, el suceso que tiene lugar cuando sucede S1 y no sucede S2 . La operaci´on diferencia no goza de la propiedad conmutativa, pues, en general, S1 − S2 6= S2 − S1 .

3.3.5.

Suceso complementario

¯ es la diferencia entre el El complementario de un suceso S, que notaremos por S, espacio muestral, E, y el suceso S, es decir S¯ = E − S. Es el suceso compuesto por los elementos de E que no pertenecen a S.

¯=S Se comprueba f´acilmente que S ∪ S¯ = E, S ∩ S¯ = ∅ y S • Leyes de De Morgan

n [

Si

i=1

n \

i=1

Si

!

=

!

=

n \

S¯i

i=1

n [

i=1

S¯i

4

Teor´ıa de la probabilidad

´Indice 4.1. Concepto de probabilidad . . . . . . . . . . . . . . . . . . . . .

24

4.1.1. Probabilidad cl´ asica . . . . . . . . . . . . . . . . . . . . . . . .

24

4.1.2. Probabilidad frecuentista . . . . . . . . . . . . . . . . . . . . .

24

4.1.3. Axiom´ atica del c´alculo de probabilidades . . . . . . . . . . . . ´ 4.1.3.1. Algebra de sucesos . . . . . . . . . . . . . . . . . . . .

26 26

4.1.4. Axiom´ atica de Kolmogorov . . . . . . . . . . . . . . . . . . . .

28

4.2. Teoremas del c´ alculo de probabilidades . . . . . . . . . . . . .

29

4.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . .

31

4.3.1. Regla de la multiplicaci´ on . . . . . . . . . . . . . . . . . . . . .

32

4.3.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . .

33

4.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . .

33

4.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . .

34

23

24

Estad´ıstica

4.1. 4.1.1.

Concepto de probabilidad Probabilidad cl´ asica

Laplace define la probabilidad de un suceso como el cociente entre el n´ umero de casos favorables y el n´ umero de casos posibles, siempre que todos sean igualmente posibles. De la definici´on cl´asica de probabilidad se desprenden una serie de propiedades (S denota cualquier suceso ya sea compuesto o elemental): • P (S) ≥ 0 • P (S) ≤ 1 • Si tenemos dos sucesos disjuntos S1 y S2 , y su uni´on es S = S1 ∪ S2 , entonces P (S) = P (S1 ∪ S2 ) = P (S1 ) + P (S2 )

¯ = 1 − P (S) • Si S¯ es el suceso complementario de S, entonces P (S) La probabilidad cl´asica supone que el n´ umero de casos posibles sea finito.

4.1.2.

Probabilidad frecuentista

Esta teor´ıa se basa en dos aspectos fundamentales : – La estabilidad de las frecuencias o regularidad estad´ıstica :

En un experimento aleatorio, a pesar del comportamiento irregular de los resultados individuales, los resultados promedios, en largas sucesiones de experimentos aleatorios, muestran una sorprendente regularidad.

– La objetividad de la probabilidad

La probabilidad es una propiedad f´ısica de los objetos como la densidad, la temperatura, etc, y por tanto, medible.

4 Teor´ıa de la probabilidad

25

Si realizamos un experimento N veces, el n´ umero de veces, n, que ocurre un suceso particular, S, es su frecuencia absoluta, mientras que la frecuencia relativa se define como f (S) = n/N. As´ı, la teor´ıa frecuentista define la probabilidad del suceso S como el l´ımite n P (S) = l´ım f (S) = l´ım N →∞ N →∞ N Las frecuencias relativas verifican una serie de propiedades f´acilmente demostrables: • 0 ≤ f (S) ≤ 1 • Sean S1 , S2 , . . . , Sn sucesos disjuntos dos a dos y S = n 1 f (S) = = N N

n X

ni =

i=1

n X i=1

n [

Si , entonces

i=1 n

ni X = f (Si ) N i=1

Por todo ello, al identificar la probabilidad de un suceso con el valor tomado en el l´ımite por la frecuencia relativa, se admite que 0 ≤ P (S) ≤ 1

y

P (S) =

n X

P (Si )

i=1

Para poder definir la probabilidad frecuentista, debemos imponer dos condiciones 1. En la secuencia de observaciones, existe el l´ımite de las frecuencias relativas (principio de existencia del l´ımite). 2. Considerada aleatoriamente cualquier subsecuencia dentro del colectivo, existe en ella el l´ımite de la frecuencia relativa y es igual al obtenido en todo el colectivo (principio de aleatoriedad). Al igual que la teor´ıa cl´asica, esta teor´ıa tambi´en tiene sus inconvenientes : – Del principio de existencia del l´ımite se deduce que esta teor´ıa de la probabilidad no puede aplicarse a sucesos que no puedan repetirse. – Es necesario realizar el experimento para obtener la frecuencia relativa correspondiente al suceso en cuesti´on. – Habr´ıa que realizar el experimento infinitas veces para calcular el l´ımite, pues las reglas del c´alculo de l´ımites s´olo son aplicables a sucesiones no aleatorias, donde se supone que existe un t´ermino general.

26

Estad´ıstica

4.1.3.

Axiom´ atica del c´ alculo de probabilidades

Las limitaciones de las teor´ıas cl´asica y frecuentista de la probabilidad hacen imposible la formalizaci´on matem´atica de la asignaci´on de un modelo matem´atico a la probabilidad, consigui´endose ´este con el planteamiento axiom´atico de Kolmogorov (1933), al poner en relaci´on la teor´ıa de la probabilidad con la de conjuntos y con la teor´ıa de la medida. El planteamiento de Kolmogorov presenta la limitaci´on de no proporcionar un m´etodo pr´actico de obtenci´on de probabilidades de sucesos en el mundo real. Para salvar esta importante limitaci´on, Kolmogorov establece la conexi´on del modelo matem´atico con el mundo real recurriendo a la base emp´ırica de la teor´ıa frecuentista, al considerar que si un experimento aleatorio se repite gran n´ umero de veces, la frecuencia relativa de un suceso diferir´a ligeramente de la probabilidad del suceso. 4.1.3.1.

´ Algebra de sucesos

En el experimento del dado, el espacio muestral es el conjunto E = {1, 2, 3, 4, 5, 6},

pudiendo plantearse preguntas como : ¿qu´e probabilidad hay de obtener el n´ umero 5 en una tirada? En la pregunta, el suceso es 5, uno de los sucesos elementales constitutivos del

espacio muestral E. Sin embargo, existen otras muchas preguntas en las que se formulan sucesos compuestos, como la obtenci´on de : {n´ umero par}, {n´ umero distinto de 5}, etc.

Todos estos sucesos compuestos tienen un denominador com´ un : no figuran expl´ıcitamente

en el espacio muestral E, aunque proceden de los elementos constitutivos de ´el. Esto tiene como consecuencia que el n´ umero de sucesos que pueden plantearse en un experimento aleatorio es superior al de sucesos elementales integrantes de E, y son generados desde E mediante las operaciones de uni´on, intersecci´on y complementariedad, constituyendo todos ellos un nuevo conjunto denominado ´algebra. Lo anterior puede formalizarse de la siguiente manera : sea E el espacio muestral integrado por sucesos elementales. Sea A una colecci´on de subconjuntos de E, cumpli´endose las siguientes condiciones : 1. El espacio muestral, E, pertenece a A. ¯ Como 2. Si un suceso S pertenece a A, tambi´en pertenece su complementario S. consecuencia, el conjunto vac´ıo, ∅, pertenece a A.

4 Teor´ıa de la probabilidad

27

3. Si S1 y S2 son dos subconjuntos de A, su uni´on, S1 ∪ S2 , pertenece a A; y por tanto tambi´en su intersecci´on, S1 ∩ S2 .

La colecci´on de sucesos que cumple las tres condiciones se denomina ´algebra de Boole, siendo extensible a cualquier n´ umero finito de sucesos, sin m´as que reiterar las operaciones de uni´on e intersecci´on. Si en vez de tener n sucesos tenemos una sucesi´on numerable, S1 , S2 , . . . , Sn , . . . , ∞ ∞ \ [ Si tambi´en pertenecen a A, la colecci´on recibe Si y pertenecientes a A, entonces i=1

i=1

el nombre de σ-´algebra, que representaremos por Ω. El par (E, Ω) recibe el nombre de

espacio probabilizable o medible. Mediante dos ejemplos podremos apreciar con claridad la formaci´on de una σ-´algebra de sucesos, Ω, a partir de los elementos de un espacio muestral, E. En el primer caso tenemos el espacio muestral E = {1, 2, 3} y como σ-´algebra Ω, la

σ-´algebra completa que puede generarse desde ´el :

E

1 2 3

−−−−−−−−−−−→ Ω {ning´ un elemento}={∅} {1} {2} {3} −→ {no obtener el 1}={{2} ∪ {3}} {no obtener el 2}={{1} ∪ {3}} {no obtener el 3}={{1} ∪ {2}} {cualquier elemento}={E}

En el segundo ejemplo hemos elegido como σ-´algebra Ω de inter´es el n´ umero de caras resultante de lanzar una moneda dos veces : E

cc c+ +c ++

−−−−−−−−−−−→ Ω {ning´ un elemento}={∅} {2 caras}={c c} {como m´ınimo una cara}={{c c} ∪ {c +} ∪ {+ c}} {como m´aximo una cara}={{c +} ∪ {+ c} ∪ {+ +}} −→ {1 cara}={{c +} ∪ {+ c}} {no obtener una cara}={{c c} ∪ {+ +}} {0 caras}={++} {cualquier elemento}={E}

28

Estad´ıstica

4.1.4.

Axiom´ atica de Kolmogorov

El sistema axiom´atico de Kolmogorov consta de tres axiomas : A1. Si S es un suceso de una σ-´algebra, Ω, existe un n´ umero P (S) ≥ 0, denominado probabilidad del suceso S

A2. P (E) = 1 A3. Dada una sucesi´on numerable de sucesos S1 , S2 , . . . , Sn , . . ., disjuntos dos a dos, se verifica que P(

∞ [

i=1

Si ) =

∞ X

P (Si )

i=1

La tripleta (E, Ω, P ) se conoce como espacio probabil´ıstico. Ampliamos el doble ejemplo de espacio probabilizable (E, Ω) para disponer del espacio probabil´ıstico (E, Ω, P ). En el primer caso, suponemos que P (1) = 3/12, P (2) = 4/12 y P (3)=5/12

E

1 2 3

−−−−−−−−−−−→ Ω −−−−−−−−→ −→ {ning´ un elemento}={∅} −→ {1} −→ {2} {3} −→ −→ {no obtener el 1}={{2} ∪ {3}} −→ {no obtener el 2}={{1} ∪ {3}} −→ {no obtener el 3}={{1} ∪ {2}} −→ {cualquier elemento}={E} −→

P 0 3/12 4/12 5/12 9/12 8/12 7/12 1

4 Teor´ıa de la probabilidad

29

En el segundo ejemplo, se supone que P (c c) = P (c +) = P (+ c) = P (+ +) = 1/4

−−−−−−−−−−−−−−−−−−→ Ω −−−−−−−−−−−−−−−−−→ −→ {ning´ un elemento}={∅} −→ {2 caras}={c c} −→ {como m´ınimo una cara}={{c c} ∪ {c +} ∪ {+ c}} cc {como m´aximo una cara}={{c +} ∪ {+ c} ∪ {+ +}} −→ c+ + c −→ {1 cara}={{c +} ∪ {+ c}} −→ ++ {no obtener una cara}={{c c} ∪ {+ +}} −→ {0 caras}={++} −→ {cualquier elemento}={E} −→ E

4.2.

P 0 1/4 3/4 3/4 2/4 2/4 1/4 1

Teoremas del c´ alculo de probabilidades

TEOREMA 1. La probabilidad del suceso imposible es cero : P (∅) = 0 Sea una sucesi´on de sucesos disjuntos dos a dos S1 , . . . , Sn ,!. . . , todos ellos iguales ∞ ∞ X [ P (Si ), es decir al suceso imposible (Si = ∅). Seg´ un el tercer Axioma P Si = P (∅) =

∞ X

i=1

i=1

P (∅), y por el Axioma 1, debe ser P (∅) = 0

i=1

TEOREMA 2. La probabilidad de la uni´on de n sucesos disjuntos dos a dos, S1 , . . . , Sn , es igual a la suma de las probabilidades : ! n n [ X P Si = P (Si ) i=1

i=1

Consideremos la sucesi´on numerable S1 , . . . , Sn , Sn+1 , Sn+2, . . . , siendo los sucesos Sn+1 = ∅, Sn+2 = ∅, . . . Seg´ un el tercer Axioma ! ∞ ∞ [ X P Si = P (Si ) i=1

i=1

es decir, P

∞ [

i=1

Si

!

=P

"

n [

i=1

Si

!



∞ [

i=n+1

Si

!#

=P

"

n [

i=1

Si

!#

=

∞ X i=1

P (Si ) =

n X

P (Si )

i=1

TEOREMA 3. La probabilidad de la uni´on de dos sucesos cualesquiera, S1 y S2 viene dada por P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 ) Descomponemos los sucesos S1 ∪ S2 , S1 y S2 en uniones de sucesos disjuntos :

30

Estad´ıstica

S1 ∪ S2 = (S1 ∩ S¯2 ) ∪ (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 ) S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 )

S2 = (S¯1 ∩ S2 ) ∪ (S1 ∩ S2 ) por el teorema 2,

P (S1 ∪ S2 ) = P (S1 ∩ S¯2 ) + P (S¯1 ∩ S2 ) + P (S1 ∩ S2 ) P (S1) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 ) P (S2) = P (S¯1 ∩ S2 ) + P (S1 ∩ S2 )

por tanto, P (S1 ∪ S2 ) = P (S1 ) + P (S2 ) − P (S1 ∩ S2 ) Para n sucesos : ! n n n n X X [ X P (Si ∩ Sj ∩ Sk ) + P Si = P (Si ) − P (Si ∩ Sj ) + i=1

i=1

i<j

i<j
+ · · · + (−1)n+1 P (S1 ∩ S2 ∩ · · · ∩ Sn ) TEOREMA 4. Si un suceso S1 est´a contenido en otro S, (S1 ⊂ S), se verifica que P (S1 ) ≤ P (S) Descomponemos el suceso S en la uni´on de dos sucesos disjuntos S = (S1 ∩ S) ∪ (S¯1 ∩ S) por el teorema 2, P (S) = P (S1 ∩ S) + P (S¯1 ∩ S) Por el Axioma 1, P (S¯1 ∩ S) ≥ 0, por tanto P (S) ≥ P (S1 ∩ S), pero S1 ∩ S = S1 ,

con lo que P (S1 ) ≤ P (S)

TEOREMA 5. La probabilidad de cualquier suceso es menor o igual que la unidad : P (S) ≤ 1 Todo suceso, S, est´a contenido en el suceso seguro (S ⊂ E), por tanto P (S) ≤

P (E) ≤ 1

¯ = 1 − P (S) TEOREMA 6. La probabilidad del suceso complementario S¯ es P (S) Siendo S y S¯ disjuntos y tales que S ∪ S¯ = E, se tiene que ¯ = 1 ⇒ P (S) ¯ = 1 − P (S) P (E) = P (S) + P (S)

4 Teor´ıa de la probabilidad

4.3.

31

Probabilidad condicional

Consideremos las dos situaciones siguientes : acertar si la puntuaci´on resultante de lanzar un dado perfecto es 2, o acertarla sabiendo que ha salido un n´ umero par. No cabe duda que las dos situaciones son distintas en cuanto a nuestra certidumbre de ganar, pues parece m´as f´acil lograrlo en la segunda que en la primera. Este planteamiento conduce a un nuevo tipo de sucesos denominados condicionados, y de aqu´ı a la probabilidad condicional. En el ejemplo anterior, la probabilidad de obtener un 2 es 1/6. Si sabemos que ha salido un n´ umero par, la probabilidad de que sea 2 es 1/3. La diferencia en el valor de la probabilidad se debe a que tenemos m´as informaci´on en el segundo caso. El efecto de la informaci´on se centra en el espacio muestral. Si no existe ninguna informaci´on, el espacio muestral es E = {1, 2, 3, 4, 5, 6}, y si existe informaci´on, el espacio muestral se

reduce a E = {2, 4, 6}. En esta situaci´on, el conocimiento del suceso {par} condiciona la

probabilidad de obtener el suceso {n´ umero 2}, denominando al primero condicionante y al segundo condicionado, y design´andolo por {n´ umero 2/par}. Establecida la existencia de los sucesos condicionados, pasamos a su estudio.

Dados dos sucesos S1 y S, el suceso S1 est´a condicionado por el suceso S si la probabilidad de que suceda S1 depende de que haya sucedido S, y la probabilidad condicional se define como P (S1 /S) =

P (S1 ∩ S) P (S)

siempre que P (S) > 0. Hemos visto que la consecuencia de disponer de la informaci´on proporcionada por el conocimiento de la presencia del suceso S, radica en la modificaci´on del espacio muestral E, dando lugar a un nuevo espacio muestral ES = E ∩ S. Este espacio muestral genera, a

su vez, una nueva σ-´algebra ΩS = Ω ∩ S y teniendo, por u ´ ltimo, una nueva probabilidad sobre ΩS , que denominaremos PS y que ya hemos definido como PS (S1 ) = P (S1 /S). El

espacio probabil´ıstico resultante es (S, ΩS , PS ), siempre que P (S) > 0. Para concluir que PS es realmente una probabilidad, debemos comprobar que verifica los tres axiomas de Kolmogorov. 1 PS (S1 ) ≥ 0

Seg´ un la definici´on de probabilidad condicional, PS (S1 ) = P (S1 /S) =

P (S1 ∩ S) P (S)

y por el Axioma 1, P (S1 ∩ S) ≥ 0 y P (S) > 0, por tanto, PS (S1 ) ≥ 0

32

Estad´ıstica

2 PS (ES ) = 1 PS (ES ) = P (ES /S) =

3 PS

∞ [

Si

i=1

!

=

∞ X

P (ES ∩ S) P (S) = =1 P (S) P (S)

PS (Si ) siendo los Si disjuntos dos a dos

i=1

Por la propiedad distributiva, ∞ [

Si

i=1

por tanto,

PS

∞ [

i=1

=

Si

!

∞ X i=1

=P

∞ [

P (Si ∩ S) P (S)

Si /S

i=1

=

!

!

∩S =

P =

"

(Si ∩ S)

i=1

∞ [

Si

i=1

!

∩S

P (S)

∞ X P (Si ∩ S) i=1

∞ [

P (S)

=

∞ X

#

P =

"∞ [

P (Si /S) =

i=1

i=1

(Si ∩ S)

P (S)

∞ X

#

=

PS (Si )

i=1

La definici´on de probabilidad condicional se extiende f´acilmente a m´as de dos sucesos. Por ejemplo, para tres sucesos S1 , S2 y S3 , tenemos

4.3.1.

P (S1 /S2 ∩ S3 ) =

P (S1 ∩ S2 ∩ S3 ) P (S2 ∩ S3 )

P (S1 ∩ S2 /S3 ) =

P (S1 ∩ S2 ∩ S3 ) P (S3 )

Regla de la multiplicaci´ on

Dados n sucesos, S1 , . . . , Sn , se verifica ! n \ P Si = P (S1 )P (S2/S1 )P (S3 /S1 ∩ S2 ) · · · P (Sn /S1 ∩ S2 ∩ · · · ∩ Sn−1 ) i=1

Demostramos este teorema por inducci´on. Comenzamos con dos sucesos S1 y S2 P (S2 /S1 ) =

P (S1 ∩ S2 ) ⇒ P (S1 ∩ S2 ) = P (S1 )P (S2 /S1 ) P (S1 )

Pasamos a tres sucesos S1 , S2 y S3 P (S3 /S1 ∩ S2 ) =

P (S1 ∩ S2 ∩ S3 ) P (S1 ∩ S2 ∩ S3 ) = ⇒ P (S1 ∩ S2 ) P (S1 )P (S2/S1 )

4 Teor´ıa de la probabilidad

33

P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 /S1 )P (S3 /S1 ∩ S2 ) y as´ı sucesivamente

4.3.2.

Teorema de la probabilidad total

Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que n [ Si = E, y A ∩ Si 6= ∅ ∀i, se verifica i=1

P (A) =

n X

P (A/Si )P (Si )

i=1

Para la demostraci´on de este teorema, descomponemos el suceso A de la siguiente forma A=A∩E =A∩

n [

i=1

Si

!

=

n [

(A ∩ Si )

i=1

Tomando probabilidades, y teniendo en cuenta que los sucesos {A ∩ Si } son disjuntos dos a dos,

P (A) = P

"

n [

#

(A ∩ Si ) =

i=1

4.3.3.

n X i=1

P (A ∩ Si ) =

n X

P (A/Si )P (Si )

i=1

Teorema de Bayes

Dados un suceso A y n sucesos, S1 , . . . , Sn , disjuntos dos a dos, Si ∩ Sj = ∅, tales que n [ Si = E, y A ∩ Si 6= ∅ ∀i, se verifica i=1

P (Si /A) =

P (A/Si )P (Si ) n X P (A/Si )P (Si ) i=1

Por la definici´on de probabilidad condicional P (A/Si ) =

P (A ∩ Si ) P (Si )

P (Si /A) =

P (A ∩ Si ) P (A)

Por tanto, P (A ∩ Si ) = P (Si /A)P (A) = P (A/Si )P (Si ) ⇒ P (Si /A) =

P (A/Si )P (Si ) P (A)

34

Estad´ıstica

y, del teorema de la probabilidad total resulta P (Si /A) =

P (A/Si )P (Si ) n X

P (A/Si )P (Si )

i=1

4.4.

Independencia de sucesos

Consideremos el siguiente ejemplo. Una urna contiene 8 bolas blancas y 4 bolas negras. Se extraen consecutivamente dos bolas, y queremos determinar la probabilidad de que la segunda bola sea blanca. Para calcular esta probabilidad, debemos diferenciar los dos tipos de extracci´on, con o sin reemplazamiento. Cuando realizamos la extracci´on sin reemplazamiento, la probabilidad buscada estar´a condicionada por el color de la primera bola. Es decir, si la primera bola sacada es blanca, la probabilidad de que la segunda tambi´en lo sea es 7/11, mientras que si la primera bola es negra, la probabilidad de que la segunda sea blanca es 8/11. Si realizamos la extracci´on con reemplazamiento, la probabilidad de que la segunda bola sea blanca es 8/12, sea cual sea el color de la primera bola sacada. En el primer caso, el color de la segunda bola est´a condicionado por el color de la primera bola (sucesos condicionados), mientras que en la extracci´on con reemplazamiento, el color de la segunda bola es independiente del color de la primera bola (sucesos independientes). Dos sucesos, S1 y S2 , son independientes si P (S1 ∩ S2 ) = P (S1 )P (S2) es decir, cuando P (S1 /S2 ) = P (S1 ) y P (S2/S1 ) = P (S2) En el caso de tres sucesos, S1 , S2 , S3 , para que sean independientes, han de cumplirse las cuatro condiciones siguientes P (S1 ∩ S2 ) = P (S1 )P (S2)

P (S1 ∩ S3 ) = P (S1 )P (S3)

P (S2 ∩ S3 ) = P (S2 )P (S3)

P (S1 ∩ S2 ∩ S3 ) = P (S1 )P (S2 )P (S3) El cumplimiento de las tres primeras condiciones no implica el de la cuarta. Los sucesos que cumplen s´olo las tres primeras condiciones reciben el nombre de sucesos independientes dos a dos.

4 Teor´ıa de la probabilidad

35

Propiedad. Si S1 y S2 son dos sucesos independientes. Entonces, S1 y S¯2 son independientes (⇒ S¯1 y S¯2 son independientes) Descomponemos el suceso S1 en uni´on de dos sucesos disjuntos, S1 = (S1 ∩ S¯2 ) ∪ (S1 ∩ S2 ) entonces P (S1 ) = P (S1 ∩ S¯2 ) + P (S1 ∩ S2 ) = P (S1 ∩ S¯2 ) + P (S1 )P (S2 ) ⇒ P (S1 ∩ S¯2 ) = P (S1) − P (S1 )P (S2 ) = P (S1 )[1 − P (S2 )] = P (S1 )P (S¯2 )

36

Estad´ıstica

5

Variable aleatoria unidimensional

´Indice 5.1. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . .

38

5.1.1. Definici´ on matem´ atica . . . . . . . . . . . . . . . . . . . . . . .

38

5.1.2. Definici´ on intuitiva . . . . . . . . . . . . . . . . . . . . . . . . .

39

5.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .

40

5.2.1. Funci´ on de probabilidad . . . . . . . . . . . . . . . . . . . . . .

40

5.2.2. Funci´ on de distribuci´on . . . . . . . . . . . . . . . . . . . . . .

41

5.3. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . .

42

5.3.1. Funci´ on de distribuci´on y funci´on de densidad . . . . . . . . . .

42

5.4. Variable aleatoria mixta . . . . . . . . . . . . . . . . . . . . . .

44

5.5. Transformaciones de variables aleatorias . . . . . . . . . . . .

46

5.5.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .

46

5.5.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . .

48

5.5.3. Transformaci´on integral . . . . . . . . . . . . . . . . . . . . . .

49

5.6. Distribuciones truncadas . . . . . . . . . . . . . . . . . . . . . .

50

37

38

Estad´ıstica

5.1. 5.1.1.

Variable aleatoria Definici´ on matem´ atica

Dado un espacio probabil´ıstico, (E, Ω, P ), pretendemos asignar un n´ umero a cada uno de los sucesos elementales, Ai , del espacio muestral. Es decir, creamos una funci´on X, llamada variable aleatoria, definida en E, que toma valores en R, con la condici´on de que X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω siendo b = (x, y) ´o [x, y] ´o (x, y] ´o [x, y) ´o [x, x] con − ∞ ≤ x, y ≤ +∞ es decir, b es un

subconjunto de la σ-´algebra completa de R, llamada σ-´algebra de Borel.

Veamos un par de ejemplos. Consideremos el experimento de lanzar una moneda dos veces. Entonces E = {{c, c}, {c, +}, {+, c}, {+, +}} = {A1 , A2 , A3 , A4 }

Ω = {∅, A1 , A4 , A2 ∪ A3 , A1 ∪ A2 ∪ A3 , A4 ∪ A2 ∪ A3 , A1 ∪ A4 , E} = {S1 , . . . , S8 } Y : E

−→ R

X: E

−→ R

A1 −→ 2

A1 −→ 2

A3 −→ 5

A3 −→ 1

A2 −→ 1

A4 −→ 0

A2 −→ 1

A4 −→ 0

En el primer caso, Y −1 ((4, 5]) = {Ai ∈ E/4 < Y (Ai ) ≤ 5} = A3 ∈ /Ω por tanto, Y no es una variable aleatoria de este espacio probabil´ıstico (E, Ω, P ). En cambio, si consideramos la σ−´algebra completa, Y s´ı es una variable aleatoria para este nuevo espacio probabil´ıstico. En el segundo caso, es f´acil comprobar que X −1 (b) = {Ai ∈ E/X(Ai ) ∈ b} ∈ Ω ∀ b ∈ B El hecho de que X sea una v.a. de (E, Ω, P ) est´a directamente relacionado con la intenci´on con la que se cre´o el σ−´algebra Ω. Al tomar como sucesos que definen Ω los sucesos A1 , A4 y A2 ∪ A3 , estamos diciendo que lo que nos interesa del experimento es el

n´ umero de caras, lo que est´a de acuerdo con la filosof´ıa de X.

Si el n´ umero de valores que toma la variable aleatoria es finito o infinito numerable, se dice que es una variable aleatoria discreta. Si toma un n´ umero infinito no numerable

5 Variable aleatoria unidimensional

39

de valores se dice que es continua. Adem´as, una v.a. puede ser discreta en un conjunto numerable de puntos y continua en el resto. En este caso, se dice que es mixta.

5.1.2.

Definici´ on intuitiva

Una variable aleatoria es una regla que asigna a cada suceso un n´ umero real. Se puede interpretar, por tanto, como una funci´on que toma valores en el espacio muestral E y devuelve n´ umeros reales. El uso de variables aleatorias permite, como veremos, cambiar el ´algebra de sucesos por el c´alculo con n´ umeros reales, facilitando enormemente el manejo de probabilidades asociadas a experimentos aleatorios. Al definir una variable aleatoria cada suceso se convierte en un subconjunto de la recta real (en general un intervalo o un punto). En este sentido, uno de los conceptos fundamentales es el de sucesos generados por variables aleatorias. Supongamos un experimento aleatorio con espacio muestral E. Si asignamos a cada suceso elemental un n´ umero real (en principio de manera arbitraria) hemos definido una variable aleatoria X. Manejaremos la notaci´on {X ≤ x} ≡ conjunto uni´on de todos los sucesos de E a los que X asigna un

n´ umero menor o igual que x.

De la misma manera se pueden definir los conjuntos {x1 < X ≤ x2 } o´ {x1 ≤ X ≤ x2 }

´o {X ≥ x} ´o {X = x}. Obs´ervese que en cada caso hemos convertido un determinado

suceso (puesto que cualquier uni´on de sucesos elementales lo es) en un intervalo o punto de

la recta real. P ({X ≤ x}) ser´a entonces la probabilidad de que ocurra el suceso definido

por {X ≤ x}. Abusando de la notaci´on prescindiremos en lo sucesivo de las llaves y

escribiremos P (X ≤ x).

Consideremos por ejemplo el experimento de lanzar un dado. El espacio muestral

est´a formado por seis sucesos elementales E = {Si }i=1,...,6 donde Si ≡ valor obtenido en

la tirada es i. Podemos definir una variable aleatoria X asignando al suceso Si el n´ umero 10i. As´ı: • {X ≤ 35} = S1

S

S2

• {20 ≤ X ≤ 35} = S2 • {20 < X ≤ 35} = S2

S

S

S

S3 . El suceso representado es que salga 1, 2 o´ 3. S3 . El suceso representado es que salga 2 o´ 3. S3 . El suceso representado es que salga 3.

• {X ≤ 5} = ∅. Suceso imposible.

40

Estad´ıstica • {X = 40} = S4 . El suceso representado es que salga un 4. • {X = 35} = ∅. Suceso imposible. Las probabilidades asociadas ser´an: P (X ≤ 35) = 1/2, P (20 ≤ X ≤ 35) = 1/3,

P (20 < X ≤ 35) = 1/6, P (X = 5) = 0, P (X = 40) = 1/6, P (X = 35) = 0.

Para el mismo experimento podr´ıamos haber definido una variable asignando 0 a los

sucesos S2 , S4 y S6 y 1 a S1 , S3 y S5 . Parece claro que ´esta u ´ ltima variable resultar´a u ´ til si s´olo nos interesa que el resultado del experimento haya sido la obtenci´on de un n´ umero par o uno impar.

5.2.

Variable aleatoria discreta

5.2.1.

Funci´ on de probabilidad

Una vez que hemos definido una variable aleatoria, X, podemos definir una funci´on, llamada funci´ on de probabilidad asociada a X, de la siguiente forma f : R −→ [0, 1]

x −→ f (x) = P (X = x)

En particular, refiri´endonos al ejemplo de las dos monedas, tenemos f : R −→ [0, 1]

2 −→ f (2) = P (X = 2) = P (A1) = 1/4

1 −→ f (1) = P (X = 1) = P (A2 ∪ A3 ) = 1/2 0 −→ f (0) = P (X = 0) = P (A4) = 1/4

En general, para que una funci´on, f , sea la funci´on de probabilidad asociada a una variable aleatoria X, debe cumplir : i) f (x) ≥ 0 ∀ x ∈ R ii)

X

f (x) = 1

x

donde la suma en x en la segunda condici´on se realiza sobre todos los posibles valores que puede tomar la variable aleatoria.

5 Variable aleatoria unidimensional

5.2.2.

41

Funci´ on de distribuci´ on

Dada una v.a. discreta, X, se llama funci´on de distribuci´on a la funci´on F definida como F : R −→ [0, 1]

x −→ F (x) = P (X ≤ x)

Veamos algunas propiedades de la funci´on de distribuci´on. 1 F (−∞) = 0 F (−∞) = l´ım F (x) = l´ım P (X ≤ x) = P (∅) = 0 x→−∞

x→−∞

2 F (+∞) = 1 F (+∞) = l´ım F (x) = l´ım P (X ≤ x) = P (E) = 1 x→+∞

x→+∞

3 P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 ) Consideremos los sucesos

A = {X ≤ x2 }

B = {X ≤ x1 }

C = {x1 < X ≤ x2 }

como A = B ∪ C, siendo B ∩ C = ∅, tenemos P (A) = P (B) + P (C) =⇒ F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 ) es decir, P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 ) De forma an´aloga se demuestra : P (x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ) + P (X = x1 ) P (x1 < X < x2 ) = F (x2 ) − F (x1 ) − P (X = x2 )

P (x1 ≤ X < x2 ) = F (x2 ) − F (x1 ) + P (X = x1 ) − P (X = x2 )

4 F es mon´otona creciente Sean x1 < x2 , por la propiedad anterior, F (x2 ) = F (x1 ) + P (x1 < X ≤ x2 ) ≥ F (x1 ) 5 F es continua por la derecha Tenemos que comprobar que, dado ε > 0, se cumple l´ım (F (x + ε) − F (x)) = 0

ε→0

42

Estad´ıstica

pero l´ım (F (x + ε) − F (x)) = l´ım P (x < X ≤ x + ε) = P (∅) = 0

ε→0

ε→0

Si calculamos el l´ımite por la izquierda, l´ım(F (x) − F (x − ε)) = l´ım P (x − ε < X ≤ x) = P (X = x)

ε→0

ε→0

y, esta probabilidad puede ser cero o no. Por tanto, la funci´on de distribuci´on, en general, no es continua por la izquierda. De hecho, F (x) − F (x− ) = l´ım(F (x) − F (x − ε)) = P (X = x) ε→0

es decir, la probabilidad de que la v.a. discreta X tome un valor concreto es igual al salto de la funci´ on de distribuci´ on en ese punto. Ejemplo.- Sea X una v.a. discreta con funci´on de probabilidad xi

1

2

3

4

P (X = xi )

0.1

0.4

0.2

0.3

La funci´on de distribuci´on asociada es   0           0.1        F (x) = 0.5          0.7          1

5.3. 5.3.1.

x<1

F (x) 6 1

1≤x<2

r

0.7

2≤x<3

0.5

3≤x<4

0.1

r r

r

1

x≥4

-

2

3

4

x

Variable aleatoria continua Funci´ on de distribuci´ on y funci´ on de densidad

Dada una v.a. continua, X, se llama funci´on de distribuci´on a la funci´on absolutamente continua, F , definida como F : R −→ [0, 1]

x −→ F (x) = P (X ≤ x)

5 Variable aleatoria unidimensional

43

Decimos que F es absolutamente continua, si existe una funci´on f : R −→ R, no

negativa e integrable Lebesgue tal que Z F (x) =

x

f (t) dt

−∞

∀x ∈ R

La funci´on f se llama funci´on de densidad. En general, una funci´on f es funci´on de densidad si verifica i) f (x) ≥ 0 ∀x ∈ R Z ∞ ii) f (x) dx = 1 −∞

Veamos algunas propiedades de la funci´on de distribuci´on. 1 F (−∞) = 0 y F (∞) = 1 2 F es mon´otona creciente 3 F es continua en R l´ım (F (x + ε) − F (x)) = l´ım

ε→0

ε→0

Z

x+ε

−∞

f (t) dt −

Z

x

−∞

 Z f (t) dt = l´ım ε→0

Por ser f integrable en [x, x + ε], ∃µ ∈ [inf f, sup f ] tal que (Primer Teorema de la Media). Por tanto,

Z

x+ε

f (t) dt x

x+ε

f (t) dt = µ ε x

l´ım (F (x + ε) − F (x)) = l´ım(µ ε) = 0

ε→0

ε→0

La continuidad por la izquierda se demuestra de forma an´aloga. Por ser F continua, se cumple P (X = x) = F (x) − F (x− ) = 0 ∀x ∈ R por tanto P (x1 < X ≤ x2 ) = P (x1 < X < x2 ) = P (x1 ≤ X ≤ x2 ) = P (x1 ≤ X < x2 ) = = F (x2 ) − F (x1 )

Como consecuencia de esta propiedad, al ser la funci´on de distribuci´on continua en R, no tiene discontinuidades (saltos), por tanto la probabilidad de que la v.a. continua X tome un valor concreto es cero (P (X = x) = 0). 4

Si f es continua, entonces F es de clase C 1 y F ′ (x) = f (x) ∀x ∈ R 1 F (x + ε) − F (x) = l´ım F (x) = l´ım ε→0 ε ε→0 ε ′

Z

x

x+ε

f (t) dt

44

Estad´ıstica

Por ser f continua en [x, x + ε], ∃x0 ∈ [x, x + ε] tal que (Primer Teorema de la Media). Por tanto,

Z

x+ε

f (t) dt = f (x0 ) ε x

F (x + ε) − F (x) 1 = l´ım f (x0 ) ε = f (x0 ) ε→0 ε→0 ε ε Como x0 ∈ [x, x + ε] ∀ε ⇒ x0 = x. La derivabilidad por la izquierda se demuestra de F ′ (x) = l´ım

forma an´aloga.

Ejemplo.- Sea X una v.a. continua con funci´on de densidad

f (x) =

 3 2    2x    0

x ∈ [−1, 1] resto

La funci´on de distribuci´ on asociada Z x Z x es • Si x < −1 F (x) = f (t) dt = 0 dt = 0 −∞Z −∞Z Z x x −1 1 3 2 t dt = [x3 + 1] • Si −1 ≤ x < 1 F (x) = f (t) dt = 0 dt + 2 −∞ −1 2 Z Z x Z −1 −∞ Z 1 x 3 2 • Si x ≥ 1 F (x) = f (t) dt = 0 dt + t dt + 0 dt = 1 −∞ −∞ −1 2 1 F (x) 6   0         1 3 F (x) = [x + 1]  2         1

5.4.

1

x < −1 −1 ≤ x < 1 x≥1

-

-1

1

x

Variable aleatoria mixta

Una v.a. mixta viene caracterizada por su funci´on de distribuci´on, definida de igual forma que en los casos anteriores, que es continua por la derecha, con un n´ umero de discontinuidades a lo sumo numerable, pero que no es escalonada. Es decir, en algunos puntos es discreta (puntos de discontinuidad) y en el resto es continua. Por ejemplo, la v.a. X con funci´on de distribuci´on

5 Variable aleatoria unidimensional

45

  0           (x + 1)2 + 1/4        F (x) = 5/8          x + 1/4          1

x < −1 −1 ≤ x < −1/2 −1/2 ≤ x < 1/2 1/2 ≤ x < 3/4 x ≥ 3/4

F (x) 6 1 3/4

r

r

1/2 1/4

r

-

-1

-1/2

1/2

3/4

x

Para esta v.a. se cumple 1 P (X = −1) = F (−1+ ) − F (−1− ) = 1/4 − 0 = 1/4 P (X = −1/2) = F (−1/2+ ) − F (−1/2− ) = 5/8 − 1/2 = 1/8 P (X = 1/2) = F (1/2+ ) − F (1/2− ) = 3/4 − 5/8 = 1/8 P (X = x) = 0 ∀ x 6= −1, −1/2, 1/2 2

P (X = −1)+

Z

−1/2 −1

(2x+2) dx+P (X = −1/2)+

Z

1/2

−1/2

0 dx+P (X = 1/2)+

Z

3/4

1/2

1 dx = 1

46

Estad´ıstica

NOTA: Tanto en el caso de variables discretas como continuas o mixtas, el conocimiento de la funci´on de distribuci´on (o la de probabilidad o la de densidad) es toda la informaci´on que necesitamos para manejar la v.a. y estudiar el experimento para el que ha sido definida. De hecho estas funciones constituyen la m´axima informaci´on posible acerca de la variable.

5.5.

Transformaciones de variables aleatorias

En muchas ocasiones deberemos hacer “operaciones¸con variables aleatorias. Dada una variable aleatoria X una funci´on de ella ser´a una nueva variable aleatoria Y = u(X). En esta secci´on trataremos de calcular la distribuci´on de esta nueva variable. Lo primero que debemos tener en mente es que la “aritm´etica” de las variables aleatorias no coincide con la de los n´ umeros reales. Supongamos que lanzamos un dado y definimos la variable aleatoria X cuyo valor asignado al suceso Si ( ≡ el resultado de la tirada es i) es i. X toma seis posibles valores {1, 2, 3, 4, 5, 6} seg´ un la cara que haya

mostrado el dado. Y1 = 2X es una nueva variable aleatoria que asigna un valor doble al definido anteriormente para cada suceso elemental. Sin embargo Y2 = X + X no tiene la

misma interpretaci´on. En este caso el dado es lanzado dos veces, sum´andose la puntaci´on obtenida en cada tirada. Los posibles valores de Y1 son {2, 4, 6, 8, 10, 12} mientras que

los de Y2 son {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para evitar confusiones es conveniente asignar sub´ındices distintos a las variables que representan cada resultado de un determinado

experimento que se repite varias veces, aun cuando cada una de ellas est´e definida de la misma forma. En el caso de lanzar un dado dos veces podemos considerar la variable X definida anteriormente y obtener los posibles resultados como X1 + X2 donde cada Xi tiene la misma distribuci´on de probabilidad que la X.

5.5.1.

Variable aleatoria discreta

Sea X una v.a. con funci´on de probabilidad f (x) y funci´on de distribuci´on F (x) e, Y = u(X) otra v.a. con funci´on de probabilidad g(y) y funci´on de distribuci´on G(y). Es decir, tenemos una funci´on que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y). Entonces

g(y) = P (Y = y) = P (u(X) = y) = P (X = u−1 (y)) = P (X = w(y)) = f [w(y)] G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)] En general el paso de una v.a. a otra es sencilla, s´olo hay que tener cuidado cuando la funci´on u no es biyectiva. Veamos un par de ejemplos para aclarar esto u ´ ltimo.

5 Variable aleatoria unidimensional

47

Ejemplo.- Sea X una v.a. con funci´on de probabilidad xi

-2

-1

0

1

2

P (X = xi )

0.1

0.2

0.2

0.4

0.1

La funci´on de distribuci´on de X es   0       0.1     0.3 F (x) =  0.5      0.9      1

x < −2

−2 ≤ x < −1

−1 ≤ x < 0 0≤x<1

1≤x<2

x≥2

Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Los valores que

toma la v.a. Y son y = {−4, −2, 0, 2, 4}. Entonces

g(y) = P (Y = y) = P (2X = y) = P (X = y/2) = f (y/2) es decir yi

-4

-2

0

2

4

P (Y = yi )

0.1

0.2

0.2

0.4

0.1

Y, la funci´on de distribuci´on de Y es G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2) es decir   0       0.1     0.3 G(y) =  0.5      0.9      1

y < −4

−4 ≤ y < −2

−2 ≤ y < 0 0≤y<2

2≤y<4

y≥4

Sea ahora Y = u(X) = X 2 . Claramente, la funci´on u no es biyectiva. Tenemos entonces que los valores que toma la v.a. Y son y = {0, 1, 4}, y la funci´on de probabilidad es

es decir

√ √ g(y) = P (Y = y) = P (X 2 = y) = P ( (X = − y ) ∪ (X = + y ) ) = √ √ = P (X = − y ) + P (X = + y )

48

Estad´ıstica yi

0

1

4

P (Y = yi )

0.2

0.6

0.2

Y, la funci´on de distribuci´on de Y es √ √ G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y) = √ √ √ = P (X = − y) + P (− y < X ≤ + y) = √ √ √ = f (− y) + F (+ y) − F (− y) es decir   0     0.2 G(y) =  0.8     1

5.5.2.

y<0 0≤y<1

1≤y<4

y≥4

Variable aleatoria continua

Sea X una v.a. con funci´on de densidad f (x) y funci´on de distribuci´on F (x) e, Y = u(X) otra v.a. con funci´on de densidad g(y) y funci´on de distribuci´on G(y). Es decir, tenemos una funci´on que relaciona a x e y, y = u(x) ⇒ x = u−1 (y) = w(y). Entonces G(y) = P (Y ≤ y) = P (u(X) ≤ y) = P (X ≤ u−1 (y)) = P (X ≤ w(y)) = F [w(y)] g(y) = G′ (y) = F ′ [w(y)] |w ′(y)| = f [w(y)] |w ′(y)| Igual que en el caso de las v.a. discretas, hay que tener cuidado cuando la funci´on u no es biyectiva. Veamos un par de ejemplos para aclarar esto u ´ ltimo. Ejemplo.- Sea X una v.a. con funciones de densidad y distribuci´on

f (x) =

 3 2    2x    0

−1 ≤ x ≤ 1 resto

F (x) =

  0        1

2         1

x < −1 [x3 + 1]

−1 ≤ x < 1 x≥1

Sea Y = u(X) = 2X ⇒ y = u(x) = 2x ⇒ x = u−1 (y) = w(y) = y/2. Entonces

5 Variable aleatoria unidimensional

49

G(y) = P (Y ≤ y) = P (2X ≤ y) = P (X ≤ y/2) = F (y/2) g(y) = G′ (y) = F ′ (y/2) 12 = f (y/2) 12 es decir,

g(y) =

   

3 2 y 16

   0

−2 ≤ y ≤ 2

G(y) =

resto

  0        1

2         1

y < −2 [(y/2)3 + 1]

−2 ≤ y < 2 y≥2

Sea ahora Y = u(X) = X 2 . Claramente, la funci´on u no es biyectiva. √ √ √ √ G(y) = P (Y ≤ y) = P (X 2 ≤ y) = P (− y ≤ X ≤ + y ) = F (+ y ) − F (− y ) √ √ √ √ 1 √ = f (+ y ) √ g(y) = G′ (y) = F ′ (+ y ) 2√1 y − F ′ (− y ) 2−1 + f (− y ) 2√1 y y 2 y es decir,

g(y) =

5.5.3.

 3√    2 y    0

0≤y≤1

G(y) =

resto

Transformaci´ on integral

  0       

√ y y

        1

y<0 0≤y<1 y≥1

Sea X una v.a. con funci´on de distribuci´on, F , estrictamente creciente. Entonces, la transformaci´on biyectiva Y = F (X) da lugar a una nueva v.a. con funciones de distribuci´on y densidad

G(y) = P (Y ≤ y) = P (F (X) ≤ y) = P (X ≤ F −1 (y)) = F (F −1(y)) = y g(y) = G′ (y) = 1

50

Estad´ıstica

Ejemplo.- Sea X una v.a. con funciones de densidad        2   x 1 ≤ x ≤ 2    3  f (x) = F (x) =      0 resto      

y distribuci´on 0 1 2 [x 3

x<1 − 1]

1≤x<2 x≥2

1

Realizamos la transformaci´on Y = 31 [X 2 − 1], entonces  G(y) = P (Y ≤ y) = P 31 [X 2 − 1] ≤ y = P (X 2 ≤ 3y + 1) =

   √ √ √ √ = P − 3y + 1 ≤ X ≤ + 3y + 1 = F + 3y + 1 − F − 3y + 1 =

 √ = F + 3y + 1  3  3 √ √ g(y) = F ′ 3y + 1 2√3y+1 =f 3y + 1 2√3y+1 = = es decir,

2p 3 3y + 1 √ =1 3 2 3y + 1

g(y) =

5.6.

(

1

0≤y≤1

0 resto

    0 G(y) = y    1

y<0 0≤y<1 y≥1

Distribuciones truncadas

En ocasiones, cuando se estudia el comportamiento de una v.a., resulta conveniente restringir su campo de variaci´on a un cierto subconjunto de especial inter´es, lo que conduce a un tipo de v.a. llamada variable aleatoria truncada. Expresado formalmente, sea X una v.a. cuyo campo de variaci´on es el conjunto E y su funci´on de distribuci´on es F (x); y sea S un subconjunto de E tal que P (X ∈ S) > 0.

El problema consiste en calcular la probabilidad de que X ∈ A sabiendo que X ∈ S, siendo A ⊂ S, es decir calcular la probabilidad del suceso condicionado {X ∈ A/X ∈ S}.

Para ello, recurrimos a la definici´on de probabilidad condicional P (X ∈ A/X ∈ S) =

P ((X ∈ A) ∩ (X ∈ S)) P (X ∈ S)

5 Variable aleatoria unidimensional

51

En particular, si consideramos el suceso A = {X ≤ x} entonces la probabilidad

buscada, P (X ≤ x/X ∈ S), es la funci´on de distribuci´on truncada de la v.a. X en el

nuevo campo de variaci´on, S, y la notaremos por FT . As´ı, FT (x) ≡ P (X ≤ x/X ∈ S) =

P ((X ≤ x) ∩ (X ∈ S)) P (X ∈ S)

Ejemplo.- Sea X una v.a. definida en el intervalo E = [xi , xf ] y con funci´on de distribuci´on F . Dados los sucesos S = {x0 < X ≤ x1 } y A = {X ≤ x} (Fig. 5.1), entonces la funci´on

de distribuci´on truncada es

P ((X ∈ A) ∩ (X ∈ S)) = P (X ∈ S)

FT (x) = P (X ∈ A/X ∈ S) = =

P ((X ≤ x) ∩ (x0 < X ≤ x1 )) P (x0 < X ≤ x) = = P (x0 ≤ X ≤ x1 ) P (x0 < X ≤ x1 )

=

F (x) − F (x0 ) , F (x1 ) − F (x0 )

x0 < x ≤ x1

• Si X es discreta, la funci´on de probabilidad truncada es PT (X = x) = P (X = x/X ∈ S) = =

P ((X = x) ∩ (x0 < X ≤ x1 )) = P (x0 ≤ X ≤ x1 )

P (X = x) , F (x1 ) − F (x0 )

x0 < x ≤ x1

• Si X es continua, la funci´on de densidad truncada es fT (x) = FT′ (x) =

xi

f (x) , F (x1 ) − F (x0 )

x0 < x ≤ x1

x0

x1

x

A S E

Figura 5.1: Esquema para una distribuci´on truncada

xf

52

Estad´ıstica

6

Momentos de una variable aleatoria unidimensional

´Indice 6.1. Esperanza matem´ atica . . . . . . . . . . . . . . . . . . . . . . .

54

6.2. Momento de orden k de una variable aleatoria . . . . . . . . .

55

6.3. Varianza y desviaci´ on t´ıpica . . . . . . . . . . . . . . . . . . . .

56

6.4. Otros valores t´ıpicos . . . . . . . . . . . . . . . . . . . . . . . . .

57

6.5. Coeficientes de asimetr´ıa y curtosis

58

. . . . . . . . . . . . . . .

6.6. Teorema de Markov. Desigualdad de Chebychev

. . . . . . .

60

6.7. Funci´ on generatriz de momentos . . . . . . . . . . . . . . . . .

61

6.8. Funci´ on caracter´ıstica . . . . . . . . . . . . . . . . . . . . . . . .

62

6.8.1. Cambio de variable en la funci´on caracter´ıstica . . . . . . . . .

64

53

54

Estad´ıstica

6.1.

Esperanza matem´ atica

Se define la esperanza matem´atica o media de una v.a. X como µ = E[X] =

X

xi P (X = xi )

v.a. discreta

i

µ = E[X] =

Z

+∞

xf (x) dx

v.a. continua

−∞

De forma m´as general, si tenemos una funci´on T (X), X

E[T (X)] =

T (xi ) P (X = xi )

v.a. discreta

i

Z

E[T (X)] =

+∞

T (x)f (x) dx

v.a. continua

−∞

Si la v.a. es discreta y toma un n´ umero finito de valores, entonces su esperanza siempre es finita, pero en el resto de los casos, la esperanza puede no ser finita. Ejemplo 1.- Sea X una v.a. discreta con funci´on de probabilidad

Entonces

pero,

xn

2n−1

P (X = xn )

2−n

∞ X

∞ X 1/2 1 = =1 P (X = xn ) = n 2 1 − 1/2 n=1 n=1

E[X] =

∞ X

∞ X

xn P (X = xn ) =

n=1

2

n−1

n=1



X1 1 = =∞ 2n 2 n=1

Ejemplo 2.- Sea X una v.a. continua con funci´on de densidad

f (x) = Entonces

pero

Z

+∞

    0   

f (x) dx = −∞

E[X] =

Z

x<1

1 x2

Z

x≥1 +∞

1

+∞

−∞

xf (x) dx =

Z

1

1 dx = 1 x2 +∞

x

1 dx = ∞ x2

6 Momentos de una variable aleatoria unidimensional

55

En general, tomaremos como criterio de convergencia de la esperanza matem´atica, la convergencia absoluta de la serie o la integral, es decir si

X i

si

Z

|xi |P (X = xi ) < ∞ ⇒

+∞ −∞

|x|f (x) dx < ∞



X i

Z

xi P (X = xi ) = E[X] < ∞

+∞ −∞

xf (x) dx = E[X] < ∞

Veamos algunas propiedades de la esperanza matem´atica • La esperanza matem´atica de una constante es la misma constante : E[C]=C • E[T1 (X) + T2 (X)] = E[T1 (X)] + E[T2 (X)] • E[aX + b] = aE[X] + b

6.2.

Momento de orden k de una variable aleatoria

Como casos particulares de funci´on de una v.a. se pueden tomar las funciones T1 (X) = X k y T2 (X) = (X − µ)k con k ∈ N. De esta forma, se define el momento de orden k centrado en el origen de X como mk = E[X k ] =

X

xi k P (X = xi )

v.a. discreta

i

k

mk = E[X ] =

Z

+∞

xk f (x) dx

v.a. continua

−∞

y el momento de orden k centrado en la media de X como Mk = E[(X − µ)k ] =

k

Mk = E[(X − µ) ] =

X i

Z

Se comprueba f´acilmente que :

(xi − µ)k P (X = xi )

v.a. discreta

+∞ −∞

• m1 = E[X] = µ • M1 = E[X − µ] = E[X] − µ = 0

(x − µ)k f (x) dx

v.a. continua

56

Estad´ıstica Adem´as, podemos relacionar los momentos centrados en la media con los momentos

centrados en el origen, y viceversa. X Mk = E[(X − µ)k ] = (xi − µ)k P (X = xi ) = i

=

X i

"

!

k 0

xi k −

k

=

0

!

k 1

!

mk −

xi k−1 µ +

k 1

!

=

i

" =

6.3.

k 0

! k 0

!

Mk +

k 1

X i

k

k

(xi − µ) +

2

!

1 !

2

!

!

k

xi k−2 µ2 + · · · + (−1)k

k

µmk−1 +

mk = E[X k ] = E[(X − µ + µ)k ] = X

k

k

µk P (X = xi ) =

k

µ2 mk−2 + · · · + (−1)k

#

k

!

µk

(xi − µ + µ)k P (X = xi ) =

!

(xi − µ)

k−1

k

µMk−1 +

2

µ+···+

!

k k

!

2

µ

µ Mk−2 + · · · +

k

#

P (X = xi ) =

k k

!

µk

Varianza y desviaci´ on t´ıpica

Se define la varianza de una v.a., X, con media µ, como σ 2 = Var(X) = M2 = E[(X − µ)2 ] =

2

2

σ = Var(X) = M2 = E[(X − µ) ] =

X i

Z

(xi − µ)2 P (X = xi )

v.a. discreta

+∞

−∞

(x − µ)2 f (x) dx

v.a. continua

Veamos algunas propiedades : • Var(X) = E[X 2 ] − (E[X])2 X X  Var(X) = (xi − µ)2 P (X = xi ) = xi 2 + µ2 − 2µxi P (X = xi ) = i

i

=

X i

xi 2 P (X = xi ) + µ2 − 2µ

X i

xi P (X = xi ) = E[X 2 ] + µ2 − 2µ2 = E[X 2 ] − (E[X])2

• Var(aX + b) = a2 Var(X)

Sea Y = aX + b ⇒ µY = E[Y ] = E[aX + b] = aE[X] + b = aµX + b. Entonces

Var(aX + b) = Var(Y ) = E[(Y − µY )2 ] =

= E[(aX + b − aµX − b)2 ] = E[(aX − aµX )2 ] = a2 E[(X − µX )2 ] = a2 Var(X)

6 Momentos de una variable aleatoria unidimensional

57

Generalmente, resulta m´as pr´actico utilizar una medida de la dispersi´on de los datos en las mismas unidades que los propios datos, por ello, se define la desviaci´on t´ıpica como σ=

6.4.

p Var(X)

Otros valores t´ıpicos

Mediana (Me) : es el punto que divide la distribuci´on en dos partes de igual probabilidad • v.a. discreta

    P (X ≤ xn ) ≥ 1/2

Me=xn ∈ R tal que

   P (X ≥ x ) ≥ 1/2 n

• v.a. continua

Me=x ∈ R tal que P (X ≥ x) = P (X ≤ x) = 1/2 Moda (Mo) : es el punto (o los puntos) de mayor probabilidad. Mo=xn ∈ R tal que P (X = xn ) ≥ P (X = xi ) Mo=x ∈ R tal que f (x) ≥ f (t)

∀i

∀t

v.a. discreta v.a. continua

Cuantiles : El cuantil de orden p es el valor xp de la variable tal que P (X ≤ xp ) = p

(0 < p < 1)

Como casos particulares citamos : • Cuartiles : Son tres valores, Qn , tales que P (X ≤ Qn ) =

n 4

(n = 1, 2, 3)

• Deciles : Son nueve valores, Dn , tales que P (X ≤ Dn ) =

n 10

(n = 1, . . . , 9)

• Percentiles : Son 99 valores, Pn , tales que P (X ≤ Pn ) =

n 100

(n = 1, . . . , 99)

58

Estad´ıstica

Figura 6.1: Funci´on de densidad de una distribuci´on Normal

6.5.

Coeficientes de asimetr´ıa y curtosis

Una distribuci´on continua muy utilizada es la llamada distribuci´on Normal (Fig. 6.1). En este apartado, pretendemos comparar la distribuci´on de una v.a. cualquiera, X, con media E[X] = µ y varianza Var(X) = σ 2 , con la distribuci´on Normal, en dos aspectos : grado de asimetr´ıa y grado de achatamiento. Una de las propiedades de la distribuci´on Normal, es que su funci´on de densidad es sim´etrica respecto a su media. En general, si la distribuci´on que estamos estudiando es sim´etrica respecto a su media, entonces P (X ≥ µ + x) = P (X ≤ µ − x) v.a. discreta f (µ + x) = f (µ − x)

(x > 0)

v.a. continua

y, es f´acil comprobar, que los momentos de orden impar centrados en la media son todos nulos, M2n+1 = E[(X − µ)2n+1 ] = 0

n = 0, 1, 2, . . .

Sabemos que M1 = 0 para toda v.a., por tanto, utilizamos el siguiente momento m´as f´acil de calcular, que es M3 . As´ı, definimos el coeficiente de asimetr´ıa o sesgo, como el escalar adimensional

6 Momentos de una variable aleatoria unidimensional

59

Figura 6.2: Asimetr´ıa

CA =

X

M3 M3 = 3/2 = " i 3 σ M2 X i

Z

M3 M3 CA = 3 = 3/2 = Z σ M2

(xi − µ)3 P (X = xi )

(xi − µ)2 P (X = xi )

#3/2

v.a. discreta

+∞

−∞ +∞

−∞

(x − µ)3 f (x) dx

3/2 2 (x − µ) f (x) dx

v.a. continua

de forma que si   CA = 0 puede ser sim´etrica       

CA > 0 es asim´etrica positiva o sesgada a la derecha (µ ≥ Me)         CA < 0 es asim´etrica negativa o sesgada a la izquierda (µ ≤ Me)

Respecto al grado de achatamiento o apuntamiento, parece l´ogico utilizar un coeficiente que tenga en cuenta la dispersi´on de los datos en torno a la media. En una distribuci´on Normal, se cumple

M4 =3 M22

y, en general, definimos el coeficiente de apuntamiento o curtosis como el escalar adimensional

60

Estad´ıstica

Figura 6.3: Curtosis

CAp =

X

M4 M4 −3 = 2 −3 = " i 4 σ M2 X i

Z

(xi − µ)4 P (X = xi )

(xi − µ)2 P (X = xi )

v.a. discreta

+∞

M4 M4 CAp = 4 − 3 = 2 − 3 = Z −∞ +∞ σ M2 −∞

de forma que si

#2 − 3

(x − µ)4 f (x) dx

2 − 3 (x − µ)2 f (x) dx

v.a. continua

  CAp > 0 distribuci´on leptoc´ urtica       

CAp = 0 distribuci´on mesoc´ urtica         CAp < 0 distribuci´on platic´ urtica

6.6.

Teorema de Markov. Desigualdad de Chebychev

Sea X una v.a. y g(X) una funci´on tal que g(X) ≥ 0. Entonces, ∀ k > 0 se cumple P (g(X) ≥ k) ≤

E[g(X)] k

La demostraci´ ya que Z +∞ on es muy sencilla, Z Z E[g(X)] = g(x)f (x) dx = g(x)f (x) dx + −∞



Z

g(X)≥k

g(X)≥k

g(x)f (x) dx ≥ k

Z

g(X)≥k

g(X)
g(x)f (x) dx ≥

f (x) dx = kP (g(X) ≥ k)

6 Momentos de una variable aleatoria unidimensional

61

En la pr´actica, se utilizan otras versiones de este teorema, como : • P (g(X) < k) = 1 − P (g(X) ≥ k) ≥ 1 −

E[g(X)] k

• Si g(X) = (X − µ)2 y k = (kσ)2 entonces P ((X − µ)2 < k 2 σ 2 ) ≥ 1 −

E[(X − µ)2 ] =⇒ k2 σ2

σ2 =⇒ k2 σ2 1 P (µ − kσ < X < µ + kσ) ≥ 1 − 2 k P (|X − µ| < kσ) ≥ 1 −

que es la desigualdad de Chebychev. La probabilidad de que una v.a., X, tome un valor dentro de k desviaciones de la media es al menos (1 − 1/k 2 )

6.7.

Funci´ on generatriz de momentos

La funci´ on generatriz de momentos asociada a una v.a. X se define como X eθxi P (X = xi ) v.a. discreta g(θ) = E[eθX ] = i

θX

g(θ) = E[e

]=

Z

+∞

eθx f (x) dx

v.a. continua

−∞

La funci´on generatriz de momentos se utiliza, como su nombre indica, para calcular los momentos deZuna v.a., ya que Z +∞ g(θ) = E[eθX ] = eθx f (x) dx = −∞

+∞ −∞



 θ2 2 θn n 1 + θx + x + · · · + x + · · · f (x) dx = 2! n!

θ2 θn = 1 + θm1 + m2 + · · · + mn + · · · 2! n! es decir, si g(θ) admite desarrollo de Taylor en torno a 0, entonces dr g(θ) mr = dθr θ=0

El inconveniente de utilizar la funci´on generatriz de momentos es que antes de utili-

zarla, hay que saber si la serie o la integral converge. Para evitar este problema, se define la funci´on caracter´ıstica, que estudiamos en el siguiente apartado.

62

Estad´ıstica

6.8.

Funci´ on caracter´ıstica

La funci´ on caracter´ıstica asociada a una v.a. X se define como X ϕ(t) = E[eitX ] = eitxk P (X = xk ) v.a. discreta k

itX

ϕ(t) = E[e

]=

Z

+∞

eitx f (x) dx

v.a. continua

−∞

Veamos algunas de sus propiedades. 1 La funci´on caracter´ıstica existe ∀t ∈ R

ϕ(t) = E[eitX ] = E[cos(tX) + isen(tX)] = E[cos(tX)] + iE[sen(tX)] pero E[|cos(tX)|] =

E[|sen(tX)|] =

Z

|cos(tx)| f (x) dx ≤

Z

|sen(tx)| f (x) dx ≤

Z

+∞ −∞

Z

+∞

−∞

+∞

f (x) dx = 1 < +∞

−∞ +∞

f (x) dx = 1 < +∞

−∞

por tanto, E[cos(tX)] y E[sen(tX)] son convergentes, y ϕ(t) tambi´en. 2 ϕ(0) = 1 3 |ϕ(t)| ≤ 1 itX

|ϕ(t)| = |E[e

itX

]| ≤ E[ |e

|] =

Z

+∞

−∞

itx

|e | f (x) dx =

Z

+∞

f (x) dx = 1 −∞

4 ϕ(−t) = ϕ(t) ϕ(−t) = E[ei(−t)X ] = E[cos(tX) − isen(tX)] = E[cos(tX)] − iE[sen(tX)] = ϕ(t) 5 Si ϕ(t) es la funci´on caracter´ıstica asociada a una v.a., X, con funci´on de distribuci´on F , y a < b son dos puntos de continuidad de F , entonces Z T −iat 1 e − e−ibt F (b) − F (a) = l´ım ϕ(t) dt 2π T →∞ −T it siempre que ϕ(t) sea integrable. En particular,

1 l´ım l´ım F (b) = F (b) − 0 = F (b) − F (−∞) = 2π z→−∞ T →∞

Z

T

−T

e−izt − e−ibt ϕ(t) dt it

6 Si ϕ(t) es integrable, y x un punto de continuidad de F , entonces Z +∞ 1 P (X = x) = e−itx ϕ(t) dt v.a. discreta 2π −∞ 1 f (x) = 2π

Z

+∞

−∞

e−itx ϕ(t) dt

v.a. continua

6 Momentos de una variable aleatoria unidimensional

63

7 Si ϕ(t) es la funci´on caracter´ıstica de una v.a., y admite un desarrollo de Taylor en torno a 0, entonces ϕ(t) = 1 + im1 t +

i2 ik m2 t2 + · · · + mk tk + · · · 2! k!

ϕ(t) = E[eitX ]

=⇒ ϕ(0) = 1

ϕ′ (t) = E[iXeitX ]

=⇒ ϕ′ (0) = E[iX] = im1

ϕ′′ (t) = E[i2 X 2 eitX ] .. .

=⇒ ϕ′′ (0) = E[i2 X 2 ] = i2 m2

dr ϕ(t) dr ϕ(0) r r itX = E[i X e ] =⇒ = E[ir X r ] = ir mr r r dt dt es decir,

1 dr ϕ(t) mr = r i dtr t=0

8 La funci´on caracter´ıstica es uniformemente continua en todo intervalo de la recta real. 9 La funci´on caracter´ıstica, ϕ(t), asociada a una v.a., X, es real si y s´olo si, X es sim´etrica. 10 A toda funci´on caracter´ıstica le corresponde una y s´olo una funci´on de distribuci´on. Es decir, si dos v.a. tienen la misma funci´on caracter´ıstica, entonces tienen la misma funci´on de distribuci´on y viceversa. 11 Sean {X1 , X2 , . . . , Xn } n variables aleatorias independientes con funciones carac-

ter´ısticas {ϕX1 , ϕX2 , . . . , ϕXn }, e Y = X1 + X2 + · · · + Xn . Entonces ϕY (t) =

n Y

ϕXi (t)

i=1

Es necesario resaltar que, a lo largo de este apartado, hemos visto c´omo dada una v.a. se puede calcular su funci´on caracter´ıstica e incluso, a partir de la funci´on caracter´ıstica podemos calcular el valor de la funci´on de distribuci´on asociada, en un punto. En cambio, en ning´ un momento hemos dado un criterio para saber, dada una funci´on cualquiera, ϕ(t), si es la funci´on caracter´ıstica asociada a alguna v.a. Veamos con un par de ejemplos, que la cosa no es sencilla.

1 ∀t ∈ R 1 + t4 Esta funci´on verifica las siguientes propiedades t´ıpicas de una funci´on caracter´ıstica :

Ejemplo 1.- Sea ϕ(t) =

64

Estad´ıstica • ϕ est´a definida en todo R • ϕ(0) = 1 • ϕ(−t) = ϕ(t) • ϕ es uniformemente continua en R • |ϕ(t)| ≤ 1 Supongamos que ϕ(t) es la funci´on caracter´ıstica de una v.a. X. Claramente, ϕ(t)

admite un desarrollo de Taylor, por tanto ϕ′ (0) µ = m1 = E[X] = =0 i ϕ′′ (0) Var(X) = E[(X − µ)2 ] = E[X 2 ] − µ2 = 2 = 0 i Es decir la v.a. X tiene que ser la v.a. degenerada que toma el valor 0 con probabilidad P (X = 0) = 1. Pero, la funci´on caracter´ıstica de esta v.a. degenerada es X ϕ(t) = E[eitX ] = eitxn P (xn ) = eit0 P (0) = 1 n

1 ∀t ∈ R 2 − eit Supongamos que ϕ(t) es la funci´on caracter´ıstica de una v.a., X, discreta. Como

Ejemplo 2.- Sea ϕ(t) =

ϕ(t) es un sumatorio de una serie de t´erminos, vamos a suponer que se trata de una serie de potencias. As´ı, ϕ(t) =

X x



1 1/2 1er t´ermino X 1 ixt e P (x) = = = e = x+1 2 − eit 1 − raz´on 2 1 − 12 eit x=0 itx

es decir, se trata de una v.a. discreta que toma todos los valores enteros no negativos, 1 x, con P (X = x) = x+1 . Si calculamos ahora la funci´on caracter´ıstica de esta v.a., 2 comprobamos f´acilmente que es ϕ(t).

6.8.1.

Cambio de variable en la funci´ on caracter´ıstica

Sea X una v.a. con funci´on caracter´ıstica ϕX (t). Realizamos el cambio Y = aX + b, entonces itY

ϕY (t) = E[e

it(aX+b)

] = E[e

= eitb

Z

]=

Z

+∞

eit(ax+b) f (x) dx =

−∞

+∞

−∞

eitax f (x) dx = eitb E[ei(at)X ] = eitb ϕX (at)

7

Variable aleatoria bidimensional y n-dimensional

´Indice 7.1. Variable aleatoria bidimensional

. . . . . . . . . . . . . . . . .

66

7.2. Variable aleatoria bidimensional discreta . . . . . . . . . . . .

66

7.2.1. Funci´ on de probabilidad . . . . . . . . . . . . . . . . . . . . . .

67

7.2.2. Funci´ on de distribuci´on . . . . . . . . . . . . . . . . . . . . . .

67

7.3. Variable aleatoria bidimensional continua . . . . . . . . . . . .

69

7.3.1. Funci´ on de distribuci´on y funci´on de densidad . . . . . . . . . .

69

7.4. Variable aleatoria bidimensional condicional . . . . . . . . . .

72

7.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .

72

7.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . .

73

7.5. Variables aleatorias bidimensionales independientes . . . . . .

75

7.6. Momentos de una variable aleatoria bidimensional . . . . . .

76

7.6.1. Propiedades de las varianzas y la covarianza . . . . . . . . . . .

78

7.6.2. Coeficiente de correlaci´ on lineal . . . . . . . . . . . . . . . . . .

80

7.7. Funci´ on caracter´ıstica de una variable aleatoria bidimensional 81 7.8. Transformaci´ on de variables aleatorias bidimensionales . . . .

82

7.8.1. Una funci´ on de dos variables aleatorias . . . . . . . . . . . . . .

82

7.8.2. Dos funciones de dos variables aleaorias . . . . . . . . . . . . .

82

7.8.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . .

83

7.8.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . .

83

7.9. Variable aleatoria n-dimensional . . . . . . . . . . . . . . . . .

84

65

66

Estad´ıstica

7.1.

Variable aleatoria bidimensional

Cuando el resultado de un experimento aleatorio se traduce en una u ´ nica observaci´on, tenemos una variable aleatoria unidimensional. Si el resultado del experimento se materializa en dos observaciones simult´aneas, por ejemplo, el peso y la altura de un colectivo de individuos, estamos ante una variable aleatoria bidimensional (X, Y ). Expresado formalmente, partimos de un espacio probabil´ıstico (E, Ω, P ) y dos variables aleatorias X e Y definidas en ´el. El vector aleatorio cuyas componentes son X e Y , se denomina variable aleatoria bidimensional (X, Y ). Este vector aleatorio tendr´a un campo de variaci´on y una distribuci´on de probabilidad, que llamaremos conjunta. Por otra parte, tanto X como Y son v.a. unidimensionales, y tendr´an un campo de variaci´on y una distribuci´on de probabilidad que llamaremos marginales. De nuevo, lo que se pretende es sustituir el ´algebra de sucesos por el a´lgebra de n´ umeros reales y, otra vez, el concepto relevante es el de sucesos generados por variables aleatorias. Dadas dos variables aleatorias X e Y podemos definir los sucesos conjuntos {X ≤ x, Y ≤ y} como: {X ≤ x, Y ≤ y} ≡ {X ≤ x}

\

{Y ≤ y}

De la teor´ıa sabemos que el conocimiento de las probabilidades de los dos sucesos del miembro de la izquierda no basta para calcular la probabilidad de su intersecci´on. S´olo en el caso en que las dos variables unidimensionales X e Y representen resultados independientes la probabilidad de la intersecci´on ser´a el producto de las probabilidades. En general, por tanto, la m´axima informaci´on sobre una variable bidimensional no est´a en las distribuciones marginales sino que deberemos conocer la distribuci´on conjunta. En el caso de variables unidimensionales los sucesos se convierten en intervalos de la recta real y sus probabilidades asociadas pueden calcularse integrando la funci´on de densidad sobre dicho intervalo. Ahora, los sucesos conjuntos se convierten en subconjuntos de R2 . La probabilidad asociada a un suceso de este tipo puede calcularse tambi´en, como veremos, realizando la correspondiente integraci´on en el plano.

7.2.

Variable aleatoria bidimensional discreta

Una v.a. bidimensional, (X, Y ), es discreta cuando las v.a. que la componen, X e Y , son discretas.

7 Variable aleatoria bidimensional y n-dimensional

7.2.1.

67

Funci´ on de probabilidad

Dada una v.a. bidimensional (X, Y ), la funci´on de probabilidad conjunta viene dada por P (X = xi , Y = yj ) = pij

1 ≤ i, j ≤ +∞

debi´endose cumplir • pij ≥ 0 ∀i, j •

∞ X ∞ X

P (X = xi , Y = yj ) =

i=1 j=1

∞ ∞ X X

pij = 1

i=1 j=1

Las funciones de probabilidad marginales son: • v.a. X P (X = xi ) =

∞ X

P (X = xi , Y = yj ) = pi·

1 ≤ i ≤ +∞

P (X = xi , Y = yj ) = p·j

1 ≤ j ≤ +∞

j=1

• v.a. Y P (Y = yj ) =

∞ X i=1

Como tanto X como Y son v.a. unidimensionales, debe cumplirse que ∞ X

P (X = xi ) =

i=1

7.2.2.

∞ X

P (Y = yj ) = 1

j=1

Funci´ on de distribuci´ on

Dada una v.a. bidimensional (X, Y ), la funci´on de distribuci´on conjunta viene dada por

F (xn , ym ) = P (X ≤ xn , Y ≤ ym ) =

n X m X

P (X = xi , Y = yj ) =

i=1 j=1

n X m X

pij

i=1 j=1

La funci´on de distribuci´on conjunta verifica algunas de las propiedades t´ıpicas de la funci´on de distribuci´on unidimensional: (i) F (−∞, −∞) = F (xi , −∞) = F (−∞, yj ) = 0 (ii) F (+∞, +∞) = 1

68

Estad´ıstica

(iii) F es mon´otona creciente: Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y

Si y1 < y2

F (x, y1 ) ≤ F (x, y2 ) ∀x

Las funciones de distribuci´on marginales vienen dadas por • v.a. X FX (xn ) = F (xn , +∞) = P (X ≤ xn , Y ≤ +∞) =

=

∞ n X X

pij =

n X i=1

i=1 j=1

FY (ym ) = F (+∞, ym) = P (X ≤ +∞, Y ≤ ym ) =

=

pij =

i=1 j=1

m X j=1

P (X = xi , Y = yj ) =

i=1 j=1

pi· = P (X ≤ xn ) ∀xn

• v.a. Y

∞ X m X

n X ∞ X

m ∞ X X

P (X = xi , Y = yj ) =

i=1 j=1

p·j = P (Y ≤ ym ) ∀ym

Ejemplo.- Sea la v.a. bidimensional (X, Y ), con funci´on de probabilidad conjunta, HH HH H xi yj HH H

0

1

2

P (Y = yj )

-1

0.01

0.07

0.04

0.12

0

0.05

0.02

0.11

0.18

1

0.32

0.14

0.04

0.50

2

0.06

0.13

0.01

0.20

P (X = xi )

0.44

0.36

0.20

1

3 X 4 X

pij = 0.01 + · · · + 0.01 = 1

Se cumple, XX i

j

P (X = xi , Y = yj ) =

i=1 j=1

7 Variable aleatoria bidimensional y n-dimensional

69

Las funciones de probabilidad marginales son, • v.a. X xi

0

P (X = xi )

1

2

0.44 0.36 0.20

Se cumple, X

P (X = xi ) =

pi· = 0.44 + 0.36 + 0.20 = 1

i=1

i

• v.a. Y

3 X

yj

-1

P (Y = yj )

0

1

2

0.12 0.18 0.50 0.20

Se cumple, X

P (Y = yj ) =

j

7.3.

4 X j=1

p·j = 0.12 + 0.18 + 0.50 + 0.20 = 1

Variable aleatoria bidimensional continua

Una v.a. bidimensional, (X, Y ), es continua cuando las v.a. que la componen, X e Y , son continuas.

7.3.1.

Funci´ on de distribuci´ on y funci´ on de densidad

Dada una v.a. bidimensional (X, Y ), la funci´on de distribuci´on conjunta viene dada por F (x, y) = P (X ≤ x, Y ≤ y) ∀x, y ∈ R La funci´on de distribuci´on conjunta verifica algunas de las propiedades t´ıpicas de la funci´on de distribuci´on unidimensional: (i) F (−∞, −∞) = F (x, −∞) = F (−∞, y) = 0 (ii) F (+∞, +∞) = 1

70

Estad´ıstica

(iii) F es mon´otona creciente: Si x1 < x2 F (x1 , y) ≤ F (x2 , y) ∀y ∈ R

F (x, y1 ) ≤ F (x, y2 ) ∀x ∈ R

Si y1 < y2

En el caso de v.a. unidimensionales continuas, a la funci´on de distribuci´on est´a asociada la funci´on de densidad, que se obtiene derivando la primera. Para las v.a. bidimensionales continuas tambi´en hay una funci´on de densidad conjunta, f (x, y), asociada a la funci´on de distribuci´on conjunta, de tal forma que F (x, y) = P (X ≤ x, Y ≤ y) = Veamos algunas relaciones importantes 1

f (x, y) ≥ 0 ∀x, y ∈ R

2

Z

+∞ −∞

Z

x

−∞

Z

y

f (x, y) dxdy

−∞

+∞

f (x, y) dydx = 1

−∞

P (a ≤ X ≤ b, c ≤ Y ≤ d) =

3

Z

Z

b a

Z

d

f (x, y) dydx c

∂ 2 F (x, y) ∂ 2 F (x, y) = = f (x, y) ∀x, y ∈ R ∂x ∂y ∂y ∂x

4

Las funciones de distribuci´on marginales vienen dadas por, • v.a. X FX (x) = F (x, +∞) = P (X ≤ x, Y ≤ +∞) =

Z

x −∞

Z

+∞

f (x, y) dydx =

−∞

siendo fX (x) =

Z

+∞

−∞

f (x, y) dy ∀ x ∈ R

la funci´on de densidad marginal de X, que debe verificar Z

+∞

fX (x) dx = 1 −∞

Z

x

−∞

fX (x) dx

7 Variable aleatoria bidimensional y n-dimensional

71

• v.a. Y FY (y) = F (+∞, y) = P (X ≤ +∞, Y ≤ y) =

Z

y

−∞

Z

+∞

f (x, y) dxdy =

−∞

Z

y

fY (y) dy −∞

siendo Z

fY (y) =

+∞

f (x, y) dx ∀ y ∈ R

−∞

la funci´on de densidad marginal de Y , que debe verificar Z

+∞

fY (y) dy = 1

−∞

Ejemplo.- Sea (X, Y ) la v.a. bidimensional con funci´on de densidad conjunta 2 f (x, y) = (x + 6y) 0 ≤ x, y ≤ 1 7 •

Z

+∞

−∞

Z

+∞

f (x, y) dydx = −∞

Z

1

0

Z

1

0

2 (x + 6y) dydx = 7

Z

1

0

2 (x + 3) dx = 1 7

• Funci´on de distribuci´on conjunta F (x, y) = =

Z

x 0

Z

x −∞

Z

y

f (x, y) dydx = −∞

Z

0

x

Z

y 0

2 (x + 6y) dydx = 7

2 2 1 1 (xy + 3y 2) dx = ( x2 y + 3xy 2) = xy(x + 6y) 0 ≤ x, y ≤ 1 7 7 2 7

• Funci´on de densidad marginal de X fX (x) =

Z

+∞

f (x, y) dy = −∞

Z

1

0

2 2 (x + 6y) dy = (x + 3) 0 ≤ x ≤ 1 7 7

• Funci´on de densidad marginal de Y fY (y) =

Z

+∞

f (x, y) dx =

−∞

Z

0

1

2 1 (x + 6y) dx = (1 + 12y) 0 ≤ y ≤ 1 7 7

• Funci´on de distribuci´on marginal de X FX (x) =

Z

x −∞

Z

+∞

f (x, y) dydx = −∞

Z

0

x

fX (x) dx =

72

Estad´ıstica =

Z

x

1 2 (x + 3) dx = x(x + 6) 0 ≤ x ≤ 1 7 7

0

• Funci´on de distribuci´on marginal de Y FY (y) = =

Z

y

0

Z

y −∞

Z

+∞

f (x, y) dxdy = −∞

Z

y

fY (y)dy =

0

2 1 1 2 1 ( + 6y) dy = ( y + 3y 2) = y(1 + 6y) 0 ≤ y ≤ 1 7 2 7 2 7

• Se puede comprobar que fX (x) = FX′ (x) 0 ≤ x ≤ 1 Z

+∞

fX (x) dx =

−∞

7.4.

Z

y

fY (y) = FY′ (y) 0 ≤ y ≤ 1

+∞

fY (y) dy = 1

−∞

Variable aleatoria bidimensional condicional

Junto con las distribuciones marginales tenemos otras de gran importancia, las distribuciones condicionales, que surgen cuando en la distribuci´on conjunta se establece una condici´on sobre una de las variables. La distribuci´on condicional expresa el comportamiento probabil´ıstico de una variable aleatoria, cuando la otra est´a sujeta a ciertas condiciones. Partimos de la definici´on de probabilidad condicional de dos sucesos P (A/B) =

P (A ∩ B) P (B)

siempre que P (B) > 0.

7.4.1.

Variable aleatoria discreta

Sea (X, Y ) una v.a. bidimensional discreta con funci´on de probabilidad conjunta P (X = xi , Y = yj ) = pij Definimos la funci´on de distribuci´on de la variable Y condicionada por la variable X, {Y|X } como

P (X = xn , Y ≤ ym ) F (ym |xn ) = P (Y ≤ ym |X=xn ) = = P (X = xn )

m X

pnj

j=1

pn·

7 Variable aleatoria bidimensional y n-dimensional

73

De manera an´aloga, se define la funci´on de distribuci´on de la variable X condicionada por la variable Y , {X|Y } como

P (X ≤ xn , Y = ym ) F (xn |ym ) = P (X ≤ xn |Y =ym ) = = P (Y = ym )

n X

pim

i=1

p·m

Como casos particulares,

P (xr < X ≤ xs , Y ≤ ym ) • P (Y ≤ ym |xr <X≤xs ) = = P (xr < X ≤ xs )

s m X X

pij

i=r+1 j=1 s X

pi·

i=r+1

P (X ≤ xn , Y ≤ ym ) • P (Y ≤ ym |X≤xn ) = = P (X ≤ xn )

n X m X

pij

i=1 j=1 n X

pi·

i=1

7.4.2.

Variable aleatoria continua

Sea (X, Y ) una v.a. bidimensional discreta con funci´on de densidad conjunta f (x, y)

− ∞ ≤ x, y ≤ +∞

Definimos la funci´on de distribuci´on de la variable Y condicionada por la variable X, {Y|X } como

74

Estad´ıstica

F (y|x) = P (Y ≤ y|X=x ) = l´ım P (Y ≤ y|x−ε<X≤x+ε) = ε→0

P (x − ε < X ≤ x + ε, Y ≤ y) = l´ım = l´ım ε→0 ε→0 P (x − ε < X ≤ x + ε)

Z

x+ε

x−ε

Z

Z

y

f (x, y) dydx

−∞ x+ε

=

fX (x) dx

x−ε

Z = l´ım

ε→0

Z

   −∞  y

x−ε

Z



x+ε

x+ε

f (x, y) dx    dy 2ε 

Z

y

f (x, y) dy

−∞

=

fX (x)

fX (x) dx

=

x−ε

=

Z

y −∞



f (x, y) dy = fX (x)

Z

y −∞

f (y|x) dy ∀y ∈ R

habiendo definido la funci´on f (y|x) como f (x, y) ∀y ∈ R fX (x) es decir, f (y|x) es la funci´on de densidad de la variable aleatoria Y condicionada por el f (y|x) =

valor de la variable aleatoria X = x. De manera an´aloga, se define la funci´on de distribuci´on de la variable X condicionada por la variable Y , {X|Y } como F (x|y) = P (X ≤ x|Y =y ) =

Z

x

−∞

f (x, y) dx = fY (y)

habiendo definido la funci´on f (x|y) como

Z

x −∞

f (x|y) dx ∀x ∈ R

f (x, y) ∀x ∈ R fY (y) es decir, f (x|y) es la funci´on de densidad de la variable aleatoria X condicionada por el f (x|y) =

valor de la variable aleatoria Y = y. Como casos particulares, P (X ≤ x, Y ≤ y) = • P (Y ≤ y|X≤x) = P (X ≤ x)

Z

x

−∞

Z

Z

y

f (x, y) dydx

−∞ x

−∞

fX (x) dx

7 Variable aleatoria bidimensional y n-dimensional

P (a ≤ X ≤ b, Y ≤ y) = • P (Y ≤ y|a≤X≤b ) = P (a ≤ X ≤ b)

Z

b

a

Z

75

y

f (x, y) dydx

−∞ Z b

fX (x) dx

a

7.5.

Variables aleatorias bidimensionales independientes

Cuando dos sucesos son independientes, se verifica que P (S1 ∩ S2 ) = P (S1 )P (S2 ) o, tambi´en P (S1 /S2 ) = P (S1 ) P (S2 /S1 ) = P (S2 ) Utilizando el mismo razonamiento, dos variables aleatorias X e Y con funci´on de probabilidad conjunta P (X = xi , Y = yj ) = pij si son discretas, y funci´on de densidad conjunta f (x, y) si son continuas, son independientes, si se verifica     pij = pi· p·j

∀i, j

v.a. discreta

   f (x, y) = f (x)f (y) ∀x, y v.a. continua X Y

TEOREMA 1. Si dos variables X e Y son independientes, cualquier par de variables que se obtengan cada una como funci´on de una sola de las anteriores, Z = g(X) y W = h(Y ) son independientes. TEOREMA 2. Si dos experimentos son independientes, dos variables aleatorias definidas respectivamente a partir de los resultados de cada uno de los experimentos anteriores son independientes.

76

Estad´ıstica

7.6.

Momentos de una variable aleatoria bidimensional

Dada una v.a. bidimensional (X, Y ), se pueden definir los momentos de orden r y s centrados en el origen o centrados en las medias. • Momento de orden r y s centrado en el origen

mrs = E[X r Y s ] =

 XX  xri yjs P (X = xi , Y = yj )      i j  Z     

+∞

−∞

Z

+∞

xr y s f (x, y) dxdy

−∞

Los momentos centrados en el origen m´as utilizados son 2 Momentos de primer orden

µX = m10 = E[X] =

µY = m01 = E[Y ] =

 XX X  x P (X = x , Y = y ) = xi pi·  i i j    i  i j  Z     

+∞

−∞

Z

+∞

xf (x, y) dxdy =

−∞

Z

+∞

xfX (x) dx

−∞

 XX X  y P (X = x , Y = y ) = yj p·j  j i j    j  i j  Z     

+∞

−∞

Z

+∞

−∞

yf (x, y) dxdy =

Z

+∞

yfY (y) dy

−∞

Como puede comprobarse, los momentos de primer orden centrados en el origen m10 y m01 son, respectivamente, las medias, µX y µY , de las distribuciones marginales X e Y .

7 Variable aleatoria bidimensional y n-dimensional

77

2 Momentos de segundo orden  XX X 2  x P (X = x , Y = y ) = x2i pi·  i j i    i  i j

m20 = E[X 2 ] =

 Z     

+∞

−∞

m02 = E[Y 2 ] =

Z

+∞

2

x f (x, y) dxdy =

−∞

Z

+∞

x2 fX (x) dx

−∞

 XX X 2  y P (X = x , Y = y ) = yj2 p·j  i j j    j  i j  Z     

Z

+∞

−∞

m11 = E[XY ] =

+∞

2

y f (x, y) dxdy =

−∞

Z

+∞

y 2 fY (y) dy

−∞

 XX  xi yj P (X = xi , Y = yj )     i j   Z     

+∞

−∞

Z

+∞

xyf (x, y) dxdy

−∞

• Momento de orden r y s centrado en las medias

Mrs = E[(X − µX )r (Y − µY )s ] =

 XX  (xi − µX )r (yj − µY )s P (X = xi , Y = yj )      i j  Z     

+∞

−∞

Z

+∞

−∞

(x − µX )r (y − µY )s f (x, y) dxdy

Los momentos centrados en las medias m´as utilizados son 2 Momentos de primer orden

M10 = E[X − µX ] =

M01 = E[Y − µY ] =

 XX X  (x − µ ) P (X = x , Y = y ) = (xi − µX ) pi· = 0  i X i j    i  i j  Z     

+∞

−∞

Z

+∞

−∞

(x − µX )f (x, y) dxdy =

Z

+∞

−∞

(x − µX )fX (x) dx = 0

 XX X  (yj − µY ) P (Y = xi , Y = yj ) = (yj − µY ) p·j = 0     i j i   Z     

+∞

−∞

Z

+∞

−∞

2 Momentos de segundo orden

(y − µY )f (x, y) dxdy =

Z

+∞

−∞

(y − µY )fY (y) dy = 0

78

Estad´ıstica

2 =M 2 σX 20 = E[(X − µX ) ] =

σY2 = M02 = E[(Y − µY )2 ] =

 XX X 2  (x − µ ) P (X = x , Y = y ) = (xi − µX )2 pi·  i X i j    i  i j  Z     

+∞

−∞

Z

+∞

−∞

(x − µX )2 f (x, y) dxdy =

Z

+∞

−∞

(x − µX )2 fX (x) dx

 XX X 2  (y − µ ) P (Y = x , Y = y ) = (yj − µY )2 p·j  j Y i j    i  i j  Z     

+∞

−∞

σXY = M11 = E[(X − µX )(Y − µY )] =

Z

+∞

−∞

2

(y − µY ) f (x, y) dxdy =

Z

+∞

−∞

(y − µY )2 fY (y) dx

 XX  (xi − µX )(yj − µY ) P (X = xi , Y = yj )      i j  Z     

+∞

−∞

Z

+∞

−∞

(x − µX )(y − µY )f (x, y) dxdy

Como puede comprobarse, los momentos de segundo orden centrados en las medias 2 M20 y M02 son, respectivamente, las varianzas, σX y σY2 , de las distribuciones marginales

X e Y. El momento de segundo orden centrado en las medias M11 se denomina covarianza de la v.a. bidimensional (X, Y ) y la notaremos por σXY o Cov(X, Y ).

7.6.1.

Propiedades de las varianzas y la covarianza

Veamos, en primer lugar, un m´etodo alternativo para el c´alculo de las varianzas y la covarianza. 2 Varianzas 2 σX = E[(X − µX )2 ] = E[(X 2 − 2µX X + µ2X ] = E[X 2 ] − 2µX E[X] + µ2X =

= E[X 2 ] − 2µ2X + µ2X = E[X 2 ] − µ2X = E[X 2 ] − E[X]2 = m20 − m210 σY2

= E[(Y − µY )2 ] = E[(Y 2 − 2µY Y + µ2Y ] = E[Y 2 ] − 2µY E[Y ] + µ2Y = = E[Y 2 ] − 2µ2Y + µ2Y = E[Y 2 ] − µ2Y = E[Y 2 ] − E[Y ]2 = m02 − m201

2 Covarianza

7 Variable aleatoria bidimensional y n-dimensional

σXY

79

= E[(X − µX )(Y − µY )] = E[XY − µX Y − µY X + µX µY ] = = E[XY ] − µX E[Y ] − µY E[X] + µX µY = E[XY ] − µX µY − µY µX + µX µY = = E[XY ] − µX µY = E[XY ] − E[X]E[Y ] = m11 − m10 m01

Ahora, veamos algunas propiedades de las varianzas y la covarianza. Sea (X, Y ) una v.a. bidimensional 1 Var(aX + b) = a2 Var(X) 2 Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y ) • E[aX + bY ] = aE[X] + bE[Y ] = aµX + bµY • Var(aX + bY ) = E [((aX + bY ) − E[(aX + bY )])2 ] = = E [((aX + bY ) − (aµX + bµY ))2 ] = = E [((aX − aµX ) + (bY − bµY ))2 ] = = E [(aX − aµX )2 + (bY − bµY )2 + 2(aX − aµX )(bY − bµY )] = = a2 E[(X − µX )2 ] + b2 E[(Y − µY )2 ] + 2abE[(X − µX )(Y − µY )] = = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y ) 3 Si X e Y son independientes, entonces Cov(X, Y ) = 0 Si X e Y son independientes, entonces • f (x, y) = fX (x)fY (y) Z +∞ Z +∞ Z • E[XY ] = xyf (x, y) dydx = −∞

=

Z

+∞ −∞

−∞

 Z xfX (x) dx

+∞ −∞

Z

+∞

yfY (y) dy −∞

+∞

xyfX (x)fY (y) dydx =

−∞



= E[X]E[Y ]

• Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[X]E[Y ] − E[X]E[Y ] = 0

80

Estad´ıstica

4 Si X e Y son independientes, entonces Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) 5 Cov2 (X, Y ) ≤ Var(X) Var(Y )

7.6.2.

Coeficiente de correlaci´ on lineal

En el cap´ıtulo 6, vimos que la varianza de una v.a. unidimensional nos da una idea del grado de dispersi´on de los valores que toma la variable respecto a su media. Es decir, la varianza es una medida de dispersi´on. Sin embargo, lo que generalmente se utiliza es la ra´ız cuadrada de la varianza, o sea la desviaci´on t´ıpica, y as´ı trabajar con las mismas unidades que la media. La covarianza, en cambio, es un momento que se refiere a una v.a. bidimensional, (X, Y ), y da una idea del grado de asociaci´on lineal que existe entre ambas variables. As´ı, si Cov(X, Y ) > 0, hay una relaci´on lineal positiva entre X e Y en el sentido de, a valores grandes de X le corresponden valores grandes de Y y viceversa; mientras que si Cov(X, Y ) < 0, hay una relaci´on lineal negativa entre X e Y en el sentido de, a valores grandes de X le corresponden valores peque˜ nos de Y , y viceversa. Si Cov(X, Y ) = 0, no hay relaci´on lineal entre ellas. Para medir el grado de relaci´on lineal entre dos variables, conviene trabajar con un par´ametro adimensional. Para ello, se define el coeficiente de correlaci´on lineal,ρ, como ρ= p

Cov(X, Y ) Var(X)Var(Y )

=

σXY σX σY

tambi´en se utiliza el coeficiente de determinaci´on lineal, ρ2 ρ2 =

σ2 Cov2 (X, Y ) = 2XY2 Var(X)Var(Y ) σX σY

El concepto de asociaci´on lineal se estudiar´a m´as adelante, por lo que, ahora, s´olo nos detenemos en observar que −1 ≤ ρ ≤ 1

y

0 ≤ ρ2 ≤ 1

7 Variable aleatoria bidimensional y n-dimensional

7.7.

81

Funci´ on caracter´ıstica de una variable aleatoria bidimensional

Sea (X, Y ) una v.a. bidimensional con funci´on de probabilidad conjunta dada por P (X = x, Y = y) si es discreta, o funci´on de densidad conjunta f (x, y) si es continua. Se define la funci´on caracter´ıstica conjunta como,

ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] =

 XX  eit1 x+it2 y P (X = x, Y = y)      x y  Z     

+∞

−∞

Z

+∞

eit1 x+it2 y f (x, y) dxdy

−∞

Algunas de las propiedades m´as importantes de la funci´on caracter´ıstica son • ϕ(0, 0) = 1 • Se cumple, ∂ r ϕ(t1 , t2 ) = E[ir X r−s Y s eit1 X+it2 Y ] ∂t1r−s ∂ts2 Entonces, los momentos centrados en el origen se pueden calcular como,

mr−s,s = E[X

r−s

1 ∂ r ϕ(t1 , t2 ) Y ]= r i ∂t1r−s ∂ts2 t1 =0,t2 =0 s

• Si ϕ(t1 , t2 ) es la funci´on caracter´ıstica conjunta de (X, Y ), entonces las funciones caracter´ısticas de las distribuciones marginales X e Y son ϕX (t) = E[eitX ] = ϕ(t, 0) ϕY (t) = E[eitY ] = ϕ(0, t) Si, adem´as, X e Y son independientes, entonces

ϕ(t1 , t2 ) = ϕ(t1 , 0)ϕ(0, t2) = ϕX (t1 )ϕY (t2 ) • Si ϕ(t1 , t2 ) es la funci´on caracter´ıstica conjunta de (X, Y ), y Z = X + Y , entonces, ϕZ (t) = ϕ(t, t)

82

Estad´ıstica Si, adem´as, X e Y son independientes, entonces

ϕZ (t) = ϕ(t, t) = ϕX (t)ϕY (t)

7.8.

Transformaci´ on de variables aleatorias bidimensionales

7.8.1.

Una funci´ on de dos variables aleatorias

Sean X e Y dos variables aleatorias con distribuci´on conjunta conocida f (x, y). Consideremos una nueva variable aleatoria Z definida mediante la funci´on Z = g(X, Y ). Definamos ∀z ∈ R el subconjunto de R2  Dz ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z

El suceso {Z ≤ z} es ahora {g(X, Y ) ≤ z} = {(X, Y ) ∈ Dz }, y la funci´on de

distribuci´on de la variable Z es

FZ (z) = P (Z ≤ z) = P ((X, Y ) ∈ Dz ) =

7.8.2.

Z Z

f (x, y) dxdy

Dz

Dos funciones de dos variables aleaorias

Supongamos ahora que dadas X e Y con distribuci´on conjunta conocida f (x, y), queremos calcular la distribuci´on de un par de variables Z y W dadas por Z = g(X, Y ) W = h(X, Y ) Definamos en subconjunto de R2  Dzw ≡ (x, y) ∈ R2 tales que g(x, y) ≤ z , h(x, y) ≤ w

El suceso conjunto {Z ≤ z, W ≤ w} = {(X, Y ) ∈ Dzw }, y la funci´on de distribuci´on

del par (Z, W ) es

FZW (z, w) = P (Z ≤ z, W ≤ w) = P ((X, Y ) ∈ Dzw ) =

Z Z

Dzw

f (x, y) dxdy

7 Variable aleatoria bidimensional y n-dimensional

7.8.3.

Variable aleatoria discreta

Dada una v.a. bidimensional (X, Y ), con funci´on de probabilidad conjunta 1 ≤ i, j ≤ +∞

P (X = xi , Y = yj ) = pij definimos la transformaci´on biun´ıvoca

U = u(X, Y ) V = v(X, Y ) La funci´on de probabilidad conjunta de la nueva v.a. bidimensional (U, V ) ser´a

P (U = ur , V = vs ) = P ((X, Y ) ∈ S) =

7.8.4.

X

(xi ,yj )∈S

P (X = xi , Y = yj ) 1 ≤ r, s ≤ +∞

Variable aleatoria continua

Dada una v.a. bidimensional (X, Y ), con funci´on de densidad conjunta − ∞ ≤ x, y ≤ +∞

f (x, y) definimos la transformaci´on biun´ıvoca

U = u(X, Y ) V = v(X, Y ) La funci´on de densidad conjunta de la nueva v.a. bidimensional (U, V ) ser´a g(u, v) = f (x(u, v), y(u, v))|J|

− ∞ ≤ u, v ≤ +∞

siendo J el jacobiano de la transformaci´on, es decir ∂x ∂u J= ∂y ∂u

= ∂y ∂v

∂x ∂v

∂u ∂x ∂v ∂x

−1 ∂v ∂y

∂u ∂y

83

84

Estad´ıstica

7.9.

Variable aleatoria n-dimensional

Todo lo que se ha visto para v.a. bidimensionales se puede extender al caso de n variables aleatorias. Dado un espacio probabil´ıstico (E, Ω, P ) y n variables aleatorias X1 , X2 , . . . , Xn definidas en ´el, el vector aleatorio (X1 , X2 , . . . , Xn ), se denomina variable aleatoria n-dimensional. La funci´on de densidad conjunta viene dada por P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) v.a. discreta f (x1 , x2 , . . . , xn )

v.a. continua

Las distribuciones marginales se definen como,

P (Xr = xr ) =

X x1

fXr (xr ) =

Z

···

+∞

−∞

···

Z

X X

xr−1 xr+1

···

X

P (X1 = x1 , . . . , Xn = xn )

v.a. discreta

xn

+∞

f (x1 , . . . , xn ) dx1 . . . dxr−1 dxr+1 . . . dxn v.a. continua

−∞

Las n variables aleatorias son independientes si se verifica

P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) × · · · × P (Xn = xn ) ∀x1 , . . . , xn fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 ) × · · · × fXn (xn ) ∀x1 , . . . , xn

8

Distribuciones de probabilidad discretas

´Indice 8.1. Distribuci´ on de Bernoulli, B(1, p) . . . . . . . . . . . . . . . . .

86

8.2. Distribuci´ on Binomial, B(n, p)

. . . . . . . . . . . . . . . . . .

86

8.2.1. Teorema de adici´ on para distribuciones Binomiales . . . . . . .

88

8.2.2. Distribuci´on de la proporci´ on . . . . . . . . . . . . . . . . . . .

89

8.3. Distribuci´ on de Poisson, P(λ) . . . . . . . . . . . . . . . . . . .

89

8.3.1. Teorema de adici´ on para distribuciones de Poisson . . . . . . .

90

8.3.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . .

91

8.3.3. Aproximaci´on de una Binomial por una Poisson . . . . . . . . .

92

8.4. Distribuci´ on Hipergeom´ etrica, H(n, N, A)

. . . . . . . . . . .

92

8.5. Distribuci´ on Geom´ etrica, G(p) . . . . . . . . . . . . . . . . . .

94

8.6. Distribuci´ on Binomial Negativa, BN(r, p) . . . . . . . . . . . .

95

8.6.1. Teorema de adici´ on para distribuciones Binomiales Negativas .

96

85

86

Estad´ıstica

8.1.

Distribuci´ on de Bernoulli, B(1, p)

Supongamos un experimento, llamado experimento de Bernoulli, en el que s´olo se pueden dar dos resultados, ´exito o fracaso. Generalmente, se asigna el valor 1 al suceso ´exito, y el valor 0 al suceso fracaso. Si la probabilidad de ´exito es p y la de fracaso es q = 1 − p, entonces, la funci´on de probabilidad de la v.a. X asociada a este experimento

es

P (X = x) = px q 1−x •

1 X

x = 0, 1

P (X = x) = P (X = 0) + P (X = 1) = p + q = 1

x=0

• Esperanza y Varianza E[X]

=

1 X x=0

xP (X = x) = 0 × P (X = 0) + 1 × P (X = 1) = p

2

2

Var(X) = E[X ] − (E[X]) =

1 X x=0

x2 P (X = x) − p2 =

= 02 × P (X = 0) + 12 × P (X = 1) − p2 = p − p2 = p(1 − p) = pq E[X] = p

Var(X) = pq

• Funci´on Caracter´ıstica ϕ(t) = E[eitX ] =

1 X

eitx P (X = x) = eit0 P (X = 0) + eit1 P (X = 1) = q + p eit

x=0

ϕ(t) = q + p eit

8.2.

Distribuci´ on Binomial, B(n, p)

Si realizamos un experimento de Bernoulli n veces, siempre en las mismas condiciones, y nos interesamos por el n´ umero de ´exitos obtenidos, tenemos una distribuci´on Binomial B(n, p), con funci´on de probabilidad ! n P (X = x) = px q n−x x

x = 0, 1, 2, . . . , n

8 Distribuciones de probabilidad discretas



n X

P (X = x) =

x=0

n X

n x

x=0

!

87

px q n−x = (p + q)n = 1

• Funci´on Caracter´ıstica itX

ϕ(t) = E[e

]=

n X

itx

e P (X = x) =

n X x=0

x=0

n x

!

(p eit )x q n−x = (p eit + q)n

ϕ(t) = (p eit + q)n • Esperanza ϕ′ (t) = npi eit (p eit + q)n−1 =⇒ ϕ′ (0) = npi =⇒ E[X] =

ϕ′ (0) = np i

E[X] = np • Varianza ϕ′′ (t) = npi2 eit [(p eit + q)n−1 + (n − 1)p eit (p eit + q)n−2] ϕ′′ (0) = npi2 [1 + (n − 1)p] = i2 [np + (np)2 − np2 ] E[X 2 ] =

ϕ′′ (0) = np + (np)2 − np2 i2

Var(X) = E[X 2 ] − (E[X])2 = np + (np)2 − np2 − (np)2 = np(1 − p) = npq Var(X) = npq • Moda Buscamos el valor de x tal que P (X = x) ≥ P (X = y)

Supongamos que x es la moda, entonces, ! n P (X = x) > P (X = x − 1) =⇒ px q n−x > x

n x−1

!

∀y = 0, 1, 2, . . . , n. px−1 q n−x+1 =⇒

n! p q n! px q n−x > px−1 q n−x+1 =⇒ > =⇒ x! (n − x)! (x − 1)! (n − x + 1)! x n−x+1

88

Estad´ıstica x < (n + 1)p Por otra parte, P (X = x) > P (X = x + 1) =⇒

n x

!

px q n−x >

n x+1

!

px+1 q n−x−1 =⇒

n! n! q p px q n−x > px+1 q n−x−1 =⇒ > =⇒ x! (n − x)! (x + 1)! (n − x − 1)! n−x x+1 (n + 1)p − 1 < x Por tanto, (n + 1)p − 1 < x < (n + 1)p es decir, la moda es el n´ umero entero, x, no negativo, que se encuentra entre los valores (n + 1)p − 1 y (n + 1)p. Si (n + 1)p es un n´ umero entero no negativo, entonces

la distribuci´on tiene dos modas :

x1 = (n + 1)p − 1

x2 = (n + 1)p

8.2.1.

Teorema de adici´ on para distribuciones Binomiales

Sean X1 ≡ B(n1 , p), . . . , Xr ≡ B(nr , p) r v.a. Binomiales independientes. Entonces

la nueva variable aleatoria

Y = X1 + · · · + Xr ≡ B(n1 + · · · + nr , p) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) = (q + p eit )nk

k = 1, 2, . . . , r

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] = = ϕX1 (t) × · · · × ϕXr (t) = (p eit + q)n1 × · · · × (p eit + q)nr = = (p eit + q)n1 +···+nr Pero, esta es la funci´on caracter´ıstica de una distribuci´on Binomial de par´ametros n = n1 + · · · + nr y p.

8 Distribuciones de probabilidad discretas

8.2.2.

89

Distribuci´ on de la proporci´ on

Si realizamos n veces un experimento de Bernoulli, podemos interesarnos por el n´ umero de ´exitos, para lo cual tenemos la distribuci´on Binomial, o podemos estar interesados en la proporci´on de ´exitos. Sean • X ≡ N´ umero de ´exitos al realizar n veces un experimento de Bernoulli ≡ B(n, p) X • Y ≡ Proporci´on de ´exitos al realizar n veces un experimento de Bernoulli = n La v.a. Y no sigue una distribuci´on Binomial, pero est´a relacionada con ella por una constante, n. Adem´as, se tiene itY

ϕY (t) = E[e

it X n

] = E[e

i nt X

] = E[e

]=

ϕX ( nt )

 1 1 X = E[X] = np = p E[Y ] = E n n n 



Var(Y ) = Var

8.3.

X n



n  i nt = q +pe

1 1 pq Var(X) = npq = n2 n2 n

=

Distribuci´ on de Poisson, P(λ)

Sea X la v.a. que describe el n´ umero de eventos que ocurren por unidad de tiempo o espacio, y λ el n´ umero medio de estos eventos que ocurren por unidad de tiempo o espacio. Imponemos, adem´as, la restricci´on de que los eventos deben ser independientes entre s´ı y ocurrir con una tasa constante. En ese caso, se dice que X sigue una distribuci´on de Poisson de par´ametro λ, y cada uno de los eventos se denomina suceso de Poisson. De forma m´as general, una v.a. sigue una distribuci´on de Poisson, si su funci´on de probabilidad es de la forma P (X = x) = •

∞ X

P (X = x) =

x=0

∞ X λx x=0

x!

−λ

e

−λ

=e

λx −λ e x! ∞ X λx x=0

x!

x = 0, 1, 2, . . . = e−λ eλ = 1

• Funci´on Caracter´ıstica itX

ϕ(t) = E[e

]=

∞ X

itx

−λ

e P (X = x) = e

∞ X (λeit )x x=0

x=0

ϕ(t) = eλ(e

it −1)

x!

it

= e−λ eλe = eλ(e

it −1)

90

Estad´ıstica • Esperanza ϕ′ (t) = iλeit eλ(e

it −1)

=⇒ ϕ′ (0) = λi =⇒ E[X] =

ϕ′ (0) =λ i

E[X] = λ • Varianza ϕ′′ (t) = i2 λeit eλ(e E[X 2 ] =

it −1)

[1 + λeit ] =⇒ ϕ′′ (0) = i2 (λ + λ2 )

ϕ′′ (0) = λ + λ2 =⇒ Var(X) = E[X 2 ] − (E[X])2 = λ + λ2 − λ2 = λ i2 Var(X) = λ

• Moda Supongamos que la moda es x, entonces, λx −λ λx−1 −λ P (X = x) > P (X = x − 1) =⇒ e > e =⇒ x < λ x! (x − 1)! P (X = x) > P (X = x + 1) =⇒

λx+1 −λ λx −λ e > e =⇒ x > λ − 1 x! (x + 1)!

Por tanto, λ−1<x<λ es decir, la moda es el n´ umero entero, x, no negativo, que se encuentra entre λ − 1 y

λ. Si λ es un n´ umero entero no negativo, entonces la distribuci´on tiene dos modas : x1 = λ − 1 x2 = λ

8.3.1.

Teorema de adici´ on para distribuciones de Poisson

Sean X1 ≡ P(λ1 ), . . . , Xn ≡ P(λn ) n v.a. de Poisson independientes. Entonces la

nueva variable aleatoria

Y = X1 + · · · + Xn ≡ P(λ1 + · · · + λn ) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes,

8 Distribuciones de probabilidad discretas

ϕXk (t) = eλk (e

it −1)

91

k = 1, 2, . . . , n

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = = ϕX1 (t) × · · · × ϕXn (t) = eλ1 (e = e(λ1 +···+λn )(e

it −1)

× · · · × eλn (e

it −1)

=

it −1)

Pero, esta es la funci´on caracter´ıstica de una distribuci´on de Poisson de par´ametro λ = λ1 + · · · + λn .

8.3.2.

Probabilidad condicional

Sean X1 ≡ P(λ1 ) y X2 ≡ P(λ2 ), dos v.a. de Poisson independientes. Ya hemos visto

que entonces X1 + X2 ≡ P(λ1 + λ2 ). Pero, si consideramos la v.a. condicionada X1|X1 +X2 su funci´on de probabilidad ser´a

  P (X1 = x, X1 + X2 = y) P (X1 = x, X2 = y − x) P X1 = x|X1 +X2 =y = = = P (X1 + X2 = y) P (X1 + X2 = y) P (X1 = x)P (X2 = y − x) = = P (X1 + X2 = y) λx1 λy−x y! 2 = = x! (y − x)! (λ1 + λ2 )y

y x

y−x λx 1 −λ1 λ2 e e−λ2 x! (y−x)! (λ1 +λ2 )y −(λ1 +λ2 ) e y!

!

λ1 λ1 + λ2

=

x 

λ2 λ1 + λ2

y−x

Pero, esta es la funci´on de probabilidad de una distribuci´on Binomial de par´ametros n = y, p =

λ1 , λ1 +λ2

es decir X1|X1 +X2

 ≡ B n = y, p =

λ1 λ1 + λ2



92

Estad´ıstica

8.3.3.

Aproximaci´ on de una Binomial por una Poisson

Originalmente, Poisson determin´o la distribuci´on que lleva su nombre como el l´ımite de una B(n, p) cuando n tiende a infinito y p tiende a cero, manteniendo constante la esperanza, np. Si hacemos que n → ∞ bajo la condici´on de que λ = np = cte, entonces l´ım np = λ =⇒ p =

n→∞

λ −→ 0 n

Veamos qu´e ocurre al introducir estos l´ımites en la funci´on de probabilidad de una B(n, p) l´ım P (B(n, p) = x) =

n→∞ p→0

l´ım

n→∞ p→0

λx n! = l´ım n→∞ x! (n − x)! nx

n x

!

px q n−x = l´ım

n−x  λ 1− n

n→∞

!   n−x x λ λ 1− = n n x

n

 1− λx n!  l´ım = x! n→∞ nx (n − x)! 1−

   l´ım 1 − λx n(n − 1) · · · [n − (x − 1)] n→∞  = l´ım x! n→∞ nx l´ım 1 − n→∞

n λ n x = λ n

n λ n  λx λ n x = l´ım 1 − = x! n→∞ n λ n

!− nλ −λ x λ 1  = λ e−λ = P (P(λ) = x) = l´ım  1 + n x! n→∞ x! −λ x



Es decir, para valores grandes de n y peque˜ nos de p, de forma que el producto np tenga un valor moderado, una Binomial B(n, p) se puede aproximar por una Poisson, P(λ), siendo λ = np. En general, si np ≥ 5 y p ≤ 0.1 =⇒ B(n, p) ∼ = P(λ = np)

8.4.

Distribuci´ on Hipergeom´ etrica, H(n, N, A)

En urna hay N bolas de las cuales, A son blancas y N −A son negras. La probabilidad

de sacar una bola blanca es p = A/N. Extraemos n bolas, bien sacando todas a la vez o bien una a una sin reemplazamiento, y definimos la v.a. X como el n´ umero de bolas blancas entre las n extra´ıdas, entonces,

8 Distribuciones de probabilidad discretas

A x

P (X = x) =

!

93 !

N −A N n

n−x !

x = 0, 1, 2, . . . , n

NOTA.- Para algunos de estos valores de x, P (X = x) = 0. De hecho, debe ser m´ax{0, n − N + A} ≤ x ≤ m´ın{n, A} sin embargo, a lo largo del desarrollo, tomaremos 0 ≤ x ≤ n. ! ! n n X X A N −A 1 1 P (X = x) = • ! = ! x n − x N N x=0 x=0 n

!

N n

=1

n

• Esperanza !

A E[X] =

n X

xP (X = x) =

n X

n−x ! N

A! = x x! (A − x)! x=1

n−1 X y=0

!

=A

A−1 x−1

! N n

A−1 y

! N n

N −A

n−x !

n−x !

n X x=1

n

x=1

=A

N n

N −A

n X

=A

x

x=0

x=0

n X

x

N −A

!

=A

n−1

A =

n X

x

x

!

N −A N

x=1

n

n−x !

N −A

n−x ! N

(A − 1)! (x − 1)! (A − x)!

!

!

=

=

n

A−1

n−1 X

y

!

(N − 1) − (A − 1)

y=0

(N − 1) − (A − 1) (n − 1) − y ! N −1

!

(n − 1) − y ! N n

!

=n

A = np N

!

=

94

Estad´ıstica

E[X] = n

A = np N

• Varianza N −n A Var(X) = n N −1 N

8.5.

  A (N − n)np(1 − p) 1− = N N −1

Distribuci´ on Geom´ etrica, G(p)

Partimos de un experimento de Bernoulli, siendo p = P (´exito) y q = 1 − p =

P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que

ocurre el primer ´exito. De esta forma, definimos la v.a. X, como el n´ umero de fracasos hasta que se obtiene el primer ´exito. Entonces, P (X = x) = p q x •

∞ X

P (X = x) =

x=0

∞ X

x

pq = p

x=0

∞ X

qx = p

x=0

• Funci´on de distribuci´on F (x) =

x X k=0

P (X ≤ k) =

x = 0, 1, 2, . . . 1 1 =p =1 1−q p

x X

p qk = p

k=0

1 − qxq = 1 − q x+1 1−q

• Funci´on Caracter´ıstica ϕ(t) = E[eitX ] =

∞ X

eitx P (X = x) = p

x=0

∞ X x=0

ϕ(t) =

(q eit )x =

p 1 − q eit

p 1 − q eit

• Esperanza

ϕ′ (t) = ipq

eit 1 q ϕ′ (0) q ′ =⇒ ϕ (0) = ipq = i =⇒ E[X] = = (1 − q eit )2 (1 − q)2 p i p E[X] =

q p

8 Distribuciones de probabilidad discretas

95

• Varianza ϕ′′ (t) = i2 pq eit

ϕ′′ (0) = i2 pq

E[X 2 ] =

(1 − q eit )2 + 2q eit (1 − q eit ) (1 − q eit )4

(1 − q)2 + 2q(1 − q) 2 q = i (p + 2q) (1 − q)4 p2

q ϕ′′ (0) = 2 (p + 2q) 2 i p qp + q 2 q(p + q) q qp + 2q 2 q 2 − = = = 2 2 2 2 2 p p p p p

Var(X) = E[X 2 ] − (E[X])2 =

Var(X) =

8.6.

q p2

Distribuci´ on Binomial Negativa, BN(r, p)

Partimos de un experimento de Bernoulli, siendo p = P (´exito) y q = 1 − p =

P (fracaso), y repetimos el experimento, siempre en las mismas condiciones, hasta que

ocurre el n-´esimo ´exito. De esta forma, definimos la v.a. X, como el n´ umero de fracasos hasta que se obtiene el n-´esimo ´exito. Entonces, x+r−1

P (X = x) =

x

En general, si a ∈ R y n ∈ N, se define ! −a = (−1)n n

!

pr q x

x = 0, 1, 2, . . .

a+n−1 n

!

Utilizando esta expresi´on, tenemos P (X = x) = (−1)x

−r x

!

pr q x =

−r x

!

pr (−q)x

expresi´on similar a la de una distribuci´on Binomial. ! ∞ ∞ X X −r • P (X = x) = pr (−q)x = pr (1 − q)−r = 1 x x=0 x=0

x = 0, 1, 2, . . .

96

Estad´ıstica • Funci´on Caracter´ıstica

itX

ϕ(t) = E[e

]=

∞ X

itx

e P (X = x) = p

x=0

r

∞ X x=0

ϕ(t) =



p 1 − q eit

−r x

!

it x

(−q e ) =



p 1 − q eit

r

r

• Esperanza ϕ′ (t) = ipr qr

eit 1 q ϕ′ (0) q ′ r =⇒ ϕ (0) = ip qr = i r =⇒ E[X] = = r it r+1 r+1 (1 − q e ) (1 − q) p i p q E[X] = r p

• Varianza ϕ′′ (t) = i2 pr qr eit

ϕ′′ (0) = i2 pr qr

(1 − q eit )r+1 + (r + 1)q eit (1 − q eit )r (1 − q eit )2r+2

p + (r + 1)q (1 − q)r+1 + (r + 1)q(1 − q)r = i2 qr 2r+2 (1 − q) p2

ϕ′′ (0) p + (r + 1)q E[X ] = = qr 2 i p2 2

Var(X) = E[X 2 ] − (E[X])2 =

rpq + r(r + 1)q 2 q 2 r 2 rqp + rq 2 rq(p + q) q − = = = 2r 2 2 2 2 p p p p p Var(X) =

8.6.1.

q r p2

Teorema de adici´ on para distribuciones Binomiales Negativas

Sean X1 ≡ BN(r1 , p), . . . , Xn ≡ BN(rn , p) n v.a. Binomiales Negativas independien-

tes. Entonces la nueva variable aleatoria

Y = X1 + · · · + Xn ≡ BN(r1 + · · · + rn , p)

8 Distribuciones de probabilidad discretas

97

Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =

pr k (1 − q eit )rk

k = 1, 2, . . . , n

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = = ϕX1 (t) × · · · × ϕXn (t) = =

pr n pr 1 × · · · × = (1 − q eit )r1 (1 − q eit )rn

pr1 +···+rn (1 − q eit )r1 +···+rn

Pero, esta es la funci´on caracter´ıstica de una distribuci´on Binomial Negativa de par´ametros r = r1 + · · · + rn y p.

98

Estad´ıstica

9

Distribuciones de probabilidad continuas

´Indice 9.1. Distribuci´ on Uniforme, U(a, b) . . . . . . . . . . . . . . . . . . 100 9.2. Distribuci´ on Normal, N(µ, σ) . . . . . . . . . . . . . . . . . . . 101 9.2.1. Teorema de adici´ on para distribuciones Normales . . . . . . . . 103 9.2.2. Distribuci´on Normal est´ andar . . . . . . . . . . . . . . . . . . . 104 9.3. Distribuci´ on Log-Normal, Log-N(µ, σ) . . . . . . . . . . . . . . 105 9.4. Distribuci´ on χ2 de Pearson, χ2n . . . . . . . . . . . . . . . . . . 107 9.4.1. Teorema de adici´ on para distribuciones χ2 de Pearson . . . . . 108 9.5. Distribuci´ on t-Student, tn . . . . . . . . . . . . . . . . . . . . . 109 9.6. Distribuci´ on F-Snedecor, Fn,m

. . . . . . . . . . . . . . . . . . 110

9.7. Distribuci´ on Exponencial, Exp(λ)

. . . . . . . . . . . . . . . . 111

9.7.1. Teorema de adici´ on para distribuciones Exponenciales . . . . . 113 9.8. Distribuci´ on de Erlang Er(n, λ) . . . . . . . . . . . . . . . . . . 113 9.8.1. Teorema de adici´ on para distribuciones de Erlang . . . . . . . . 115 9.9. Relaci´ on entre las distribuciones de Poisson, Exponencial y Erlang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.10. Distribuci´ on de Weibull, W(r, λ) . . . . . . . . . . . . . . . . . 117 9.11. Distribuci´ on Gamma, G(p, q) . . . . . . . . . . . . . . . . . . . 118 9.11.1. Teorema de adici´ on para distribuciones Gamma . . . . . . . . . 119 9.12. Distribuci´ on Beta, B(p, q) . . . . . . . . . . . . . . . . . . . . . 120 9.12.1. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.13. Relaciones entre distribuciones continuas . . . . . . . . . . . . 121 9.14. Distribuci´ on Normal Bidimensional . . . . . . . . . . . . . . . 123

99

100

Estad´ıstica

9.1.

Distribuci´ on Uniforme, U(a, b)

Una v.a. X se dice que sigue una distribuci´on Uniforme, X ≡ U(a, b), si su funci´on

de densidad es de la forma

f (x) =

1 b−a

si a < x < b a

b

Figura 9.1: Funci´on de densidad de una distribuci´on U(a, b)



Z

+∞

f (x) dx =

−∞

Z

b

a

1 dx = 1 b−a

• Funci´on de Distribuci´on Z +∞ Z F (x) = f (x) dx = −∞

x a

x−a 1 dx = b−a b−a

a≤x
• Esperanza y Varianza E[X] =

Z

+∞

xf (x) dx =

−∞

2

E[X ] =

Z

Z

b

x b+a = b−a 2

a

+∞ 2

x f (x) dx =

−∞

Z

a

b

x2 b2 + a2 + ab = b−a 3

b2 + a2 + ab − Var(X) = E[X ] − (E[X]) = 3 2

2

E[X] = • Funci´on Caracter´ıstica Z itX ϕ(t) = E[e ] =

+∞

b+a 2

1 e f (x) dx = b−a itx

−∞

Var(X) =

ϕ(t) =

Z



b+a 2

eibt − eiat i(b − a)t

=

(b − a)2 12

(b − a)2 12

b

a

2

eitx dx =

eibt − eiat i(b − a)t

∀t ∈ R

9 Distribuciones de probabilidad continuas

9.2.

101

Distribuci´ on Normal, N(µ, σ)

Una v.a. X se dice que sigue una distribuci´on Normal, X ≡ N(µ, σ), si su funci´on

de densidad es de la forma

1 f (x) = √ σ 2π

1 − e 2



x−µ σ

2

− ∞ ≤ x ≤ +∞

Figura 9.2: Funci´on de densidad de una distribuci´on N(µ, σ)



Z

+∞

−∞

Z +∞ Z +∞ 2 1 1 1 2 − 12 ( x−µ ) σ f (x) dx = √ dx = √ e e− 2 u du = σ 2π −∞ 2π −∞ Z +∞ Z +∞ 2 1 1 1 2 =√ e− 2 u du = √ z −1/2 e−z dz = √ Γ(1/2) = 1 π 0 π 2π 0

• Funci´on Caracter´ıstica

itX

ϕ(t) = E[e

Z

]=

+∞

−∞

1 = √ σ 2π

Z

1 = √ σ 2π

Z

=

+∞



e

1 2σ 2

−∞ +∞





e

1 2σ 2

Z

+∞

eitx e− 2 ( 1

[(x−µ)2 −2σ2 itx] dx = √1 σ 2π h

(x−(µ+σ2 it))

2

σ 2π

Z

+∞

−∞

− 12

e

 

x−µ 2 σ

) dx =

−∞

+µ2 −(µ+σ2 it)2

i

Z

+∞

−∞

dx =

−∞

µ2 −(µ+σ 2 it)2 − 2σ 2

e

1 e f (x) dx = √ σ 2π itx

2

x − (µ + σ 2 it)  σ dx =

e− 2σ2 [x 1

2 −2(µ+σ 2 it)x+µ2

] dx =

102

Estad´ıstica

=

e−

σ 4 t2 −2µσ 2 it 2σ 2

√ σ 2π

Z

1

+∞

− 12 u2

e

−∞

2 2

1 2 2 eiµt− 2 σ t √ √ σ 2π = eiµt− 2 σ t σ du = σ 2π

1

ϕ(t) = eiµt− 2 σ

2 t2

• Esperanza 1

ϕ′ (t) = (iµ − σ 2 t)eiµt− 2 σ

2 t2

=⇒ ϕ′ (0) = iµ =⇒ E[X] =

ϕ′ (0) =µ i

E[X] = µ • Varianza 1

ϕ′′ (t) = [−σ 2 + (iµ − σ 2 t)2 ] eiµt− 2 σ E[X 2 ] =

2 t2

=⇒ ϕ′′ (0) = −σ 2 + i2 µ2

ϕ′′ (0) = σ 2 + µ2 i2

Var(X) = E[X 2 ] − (E[X])2 = (σ 2 + µ2 ) − µ2 = σ 2 Var(X) = σ 2 • Coeficiente de deformaci´on ϕ′′′ (0) = −3iσ 2 µ + i3 µ3 m3 =

M3 =

D=

ϕ′′′ (0) ϕ′′′ (0) = − = 3σ 2 µ + µ3 3 i i 3 0

!

m3 −

3 1

!

m2 µ +

3 2

!

m1 µ2 −

M3 =0 σ3

La distribuci´on Normal es sim´etrica respecto a la media

3 3

!

µ3 = 0

9 Distribuciones de probabilidad continuas

103

• Coeficiente de curtosis ϕ(iv (0) = 3σ 4 − 6i2 σ 2 µ2 + i4 µ4 m4 =

M4 =

C=

ϕ(iv (0) = 3σ 4 + 6σ 2 µ2 + µ4 i4 4 0

!

m4 −

!

4 1

4

m3 µ +

2

!

m2 µ2 −

4 3

!

m1 µ3 +

4 4

!

µ4 = 3σ 4

M4 −3 =0 σ4

La distribuci´on Normal es mesoc´ urtica

9.2.1.

Teorema de adici´ on para distribuciones Normales

Sean X1 ≡ N(µ1 , σ1 ), . . . , Xn ≡ N(µn , σn ), n v.a. Normales independientes. Enton-

ces, la nueva variable aleatoria

  q 2 2 2 2 Y = b + a1 X1 + · · · + an Xn ≡ N b + a1 µ1 + · · · + an µn , a1 σ1 + · · · + an σn Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, 1

2 2

ϕXk (t) = eiµk t− 2 σk t

k = 1, 2, . . . , n

    ϕY (t) = E[eitY ] = E ei(b+a1 X1 +···+an Xn )t = E eibt × eia1 tX1 × · · · × eian tXn = = eibt × E[eia1 tX1 ] × · · · × E[eian tXn ] = = eibt × ϕX1 (a1 t) × · · · × ϕXn (an t) = 1

1

2 2 2

2 2 2

= eibt × eia1 µ1 t− 2 σ1 a1 t × · · · × eian µn t− 2 σn an t = 1

2 2

2

2

2

= ei(b+a1 µ1 +···+an µn )t− 2 (a1 σ1 +···+an σn )t

104

Estad´ıstica Pero, esta es la funci´on caracter´ıstica de una distribuci´on Normal con media µ =

b + a1 µ1 + · · · + an µn y varianza σ 2 = a21 σ12 + · · · + a2n σn2 .

Tambi´en se puede demostrar el teorema inverso, es decir, si la distribuci´on de la

suma de n variables aleatorias independientes es Normal, entonces cada una de las variables sigue una distribuci´on Normal. Por otra parte, la distribuci´on Normal nunca puede obtenerse exactamente como suma de variables aleatorias no Normales.

9.2.2.

Distribuci´ on Normal est´ andar

Dentro de las distribuciones Normales, la m´as utilizada es la que tiene media µ = 0 y varianza σ 2 = 1, llamada distribuci´on Normal est´andar, N(0, 1). • Funci´on de densidad 1 2 1 f (x) = √ e− 2 x 2π

− ∞ ≤ x ≤ +∞

• Funci´on caracter´ıstica 1 2

ϕ(t) = e− 2 t

∀t ∈ R

• Como µ = 0, los momentos respecto a la media coinciden con los momentos respecto al origen, es decir, Mk = mk ∀k.

• Como la distribuci´on es sim´etrica, los momentos de orden impar son todos nulos, m2k+1 = 0 k = 0, 1, 2, . . . • Los momentos de orden par verifican m2k =

(2k)! 2k k!

k = 0, 1, 2, . . .

En general, siempre podemos pasar de una N(µ, σ) a una N(0, 1) (lo que se llama tipificar la variable N(µ, σ)) y viceversa, por medio de una transformaci´on lineal. 2

N(µ, σ) −→ N(0, 1) Sea Y ≡ N(µ, σ), entonces la nueva v.a. X=

Y −µ ≡ N(0, 1) σ

9 Distribuciones de probabilidad continuas

105

N(0, 1) −→ N(µ, σ)

2

Sea X ≡ N(0, 1), entonces la nueva v.a. Y = µ + σX ≡ N(µ, σ)

9.3.

Distribuci´ on Log-Normal, Log-N(µ, σ)

Sea X ≡ N(µ, σ). Si realizamos la transformaci´on Y = eX la distribuci´on de la nueva v.a., llamada distribuci´on Log-Normal, Log-N(µ, σ), es, GY (y) = P (Y ≤ y) = P (eX ≤ y) = P (X ≤ Ly) = FX (Ly) gY (y) = G′Y (y) = FX′ (Ly)

1 1 = fX (Ly) y y

Por tanto, la funci´on de densidad de una Log-N(µ, σ) es g(y) =

1 Ly−µ 2 1 √ e− 2 ( σ ) yσ 2π

y≥0

Figura 9.3: Funci´on de densidad de una distribuci´on Log-N(µ, σ)



Z

+∞

−∞

g(y) dy =

Z

0

+∞

1 √

yσ 2π

− 12 ( Ly−µ σ )

e

2

dy =

Z

+∞ −∞

1 x−µ 2 1 √ e− 2 ( σ ) dx = 1 σ 2π

106

Estad´ıstica

• Esperanza E[Y ] =

Z

+∞

−∞

1 = √ σ 2π

Z

1 = √ σ 2π

Z

1

+∞

2

− 12 ( x−µ σ )

e −∞ +∞

2

e− 2 ( 1

Ly−µ 2 σ

) dy =

0

1 e dx = √ σ 2π x

1

Z

+∞

e− 2σ2 [(x−µ) 1

2 −2σ 2 x

] dx =

−∞

2 ))2 +µ2 −(µ+σ 2 )2

] dx =

−∞

2

eµ+ 2 σ = √ σ 2π

+∞

e− 2σ2 [(x−(µ+σ

e− 2σ2 (µ −(µ+σ √ = σ 2π 1

Z

1 yg(y) dy = √ σ 2π

Z

Z

2 )2 )

+∞



− 12

e

x−(µ+σ 2 ) σ

1

dx =

−∞ 1

+∞

2

2

1 2 eµ+ 2 σ √ √ σ 2π = eµ+ 2 σ σ 2π

2

e− 2 u σ du =

−∞

1 µ + σ2 2 E[Y ] = e • Varianza 2

E[Y ] =

Z

+∞

−∞

1 y g(y) dy = √ σ 2π 2

1 = √ σ 2π

Z

+∞

− 12 ( x−µ σ )

2

e −∞

Z

1 = √ σ 2π

+∞

Z

+∞

ye− 2 ( 1

Ly−µ 2 σ

) dy =

0

1 e dx = √ σ 2π 2x

e− 2σ2 [(x−(µ+2σ 1

Z

+∞

e− 2σ2 [(x−µ) 1

2 −4σ 2 x

−∞

2 ))2 +µ2 −(µ+2σ 2 )2

] dx =

−∞

1

2

e− 2σ2 (µ −(µ+2σ √ = σ 2π 2

e2µ+2σ = √ σ 2π

Z

+∞

−∞

2 )2 )

Z

+∞

− 12

e



x−(µ+2σ 2 ) σ

2

dx =

−∞ 2

− 21 u2

e

e2µ+2σ √ 2 σ 2π = e2µ+2σ σ du = √ σ 2π 2

2

2

2

Var(Y ) = E[Y 2 ] − E[Y ]2 = e2µ+2σ − e2µ+σ = e2µ+σ (eσ − 1)  2  2 σ Var(Y ) = e − 1 e2µ + σ

] dx =

9 Distribuciones de probabilidad continuas

107

Distribuci´ on χ2 de Pearson, χ2n

9.4.

Sean X1 , . . . , Xn , n v.a. independientes e id´enticamente distribuidas seg´ un una N(0, 1). Entonces, la variable aleatoria X = X12 + · · · + Xn2 = [N(0, 1)]2 + · · · + [N(0, 1)]2 ≡ χ2n sigue una distribuci´on χ2 de Pearson con n grados de libertad, χ2n , con funci´on de densidad 1

f (x) =

2n/2 Γ

n

x

 n  x 2 −1 e− 2

x≥0

2

Figura 9.4: Funci´on de densidad de una distribuci´on χ2n



Z

+∞

1

f (x) dx =

2n/2 Γ

−∞

=

1 2n/2 Γ

Z

n 2

x

n

x 2 −1 e− 2 dx =

0

2

n

+∞

Z

+∞

n

n

2 2 −1 u 2 −1 e−u 2 du =

0

n 1 n Γ =1 2 Γ 2

• Funci´on caracter´ıstica

itX

ϕ(t) = E[e

]=

Z

+∞ itx

e f (x) dx =

−∞

=

1 2n/2 Γ

n 2

Z

0

+∞

n

1

1 2n/2 Γ

n

x 2 −1 e−( 2 −it)x dx =

2

Z

0

+∞

n

x

eitx x 2 −1 e− 2 dx =

108

Estad´ıstica 1

=

2n/2 Γ

n 2

1 = n Γ 2



Z

+∞

0

1 1 − 2it



2 1 − 2it

 n2

Γ

 n2 −1

n 2

=



n

u 2 −1 e−u

1 1 − 2it

2 du = 1 − 2it

 n2

ϕ(t) = (1 − 2it)−n/2 • Esperanza ϕ′ (t) = in(1 − 2it)−1−n/2 =⇒ ϕ′ (0) = in =⇒ E[X] =

ϕ′ (0) =n i

E[X] = n • Varianza ϕ′′ (t) = i2 n(n + 2)(1 − 2it)−2−n/2 =⇒ ϕ′′ (0) = i2 n(n + 2) E[X 2 ] =

ϕ′′ (0) = n2 + 2n 2 i

Var(X) = E[X 2 ] − (E[X])2 = n2 + 2n − n2 = 2n Var(X) = 2n

9.4.1.

Teorema de adici´ on para distribuciones χ2 de Pearson

Sean X1 ≡ χ2n1 , . . . , Xr ≡ χ2nr , r variables aleatorias χ2 de Pearson independientes.

Entonces la nueva variable aleatoria

Y = X1 + · · · + Xr ≡ χ2n1 +···+nr Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) = (1 − 2it)−nk /2

k = 1, 2, . . . , r

9 Distribuciones de probabilidad continuas

109

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 ] × · · · × E[eitXr ] = = ϕX1 (t) × · · · × ϕXr (t) = (1 − 2it)−n1 /2 × · · · × (1 − 2it)−nr /2 = = (1 − 2it)−

n1 +···+nr 2

Pero, esta es la funci´on caracter´ıstica de una distribuci´on χ2 de Pearson con n = n1 + · · · + nr grados de libertad.

9.5.

Distribuci´ on t-Student, tn

Sean Y, X1 , . . . , Xn , n+1 v.a. independientes e id´enticamente distribuidas seg´ un una N(0, 1). Entonces, la variable aleatoria N(0, 1) = r ≡ tn X12 + · · · + Xn2 χ2n n n sigue una distribuci´on t-Student con n grados de libertad, tn , con funci´on de densidad X=r

Y

 n+1  − n+1 Γ 2 x2 2 n 1 + f (x) = √ n nπ Γ 2 

x∈R

Figura 9.5: Funci´on de densidad de una distribuci´on tn



Z

+∞

−∞

f (x) dx = 1 =⇒

Z

n √ n+1   − +∞ nπ Γ 2 x2 2 1+ dx =  n + 1 n −∞ Γ 2

110

Estad´ıstica

• Esperanza 

 n+1 − n+1 Z +∞ Z +∞  Γ 2 x2 2 n E[X] = dx = 0 xf (x) dx = √ x 1+ n −∞ −∞ nπ Γ 2

pues el integrando es una funci´on impar.

E[X] = 0 (n > 1) • Varianza

E[X 2 ]

 n+1 − n+1 Z +∞ Z +∞  Γ 2 x2 2 2 2 n = dx = x f (x) dx = √ x 1+ n −∞ −∞ nπ Γ 2 



 n+1 − n−1 Z +∞  Γ 2 x2 n 2 n 1+ =√ dx = n − 1 −∞ n nπ Γ 2    √ n+1 n−2 Γ nπ Γ n n 2 2  n  = =√ n−1 n−1 n−2 nπ Γ Γ 2 2 

Var(X) = E[X 2 ] − E[X]2 =

n n−2

Var(X) =

9.6.

n n−2

(n > 2)

Distribuci´ on F-Snedecor, Fn,m

Sean X1 , . . . , Xn e Y1 , . . . , Ym , n+m v.a. independientes e id´enticamente distribuidas seg´ un una N(0, 1). Entonces, la variable aleatoria χ2n X12 + · · · + Xn2 n = n2 ≡ Fn,m X= 2 Y1 + · · · + Ym2 χm m m

9 Distribuciones de probabilidad continuas

111

sigue una distribuci´on F-Snedecor con n y m grados de libertad, Fn,m , con funci´on de densidad n f (x) =



n+m m Γ 2 n m Γ Γ 2 2

n/2

m/2



n

x 2 −1 (m + nx)−

n+m 2

x≥0

Figura 9.6: Funci´on de densidad de una distribuci´on Fn,m • Esperanza E[X] =

m m−2

(m > 2)

• Varianza Var[X] =

• Si

9.7.

X ≡ Fn,m

=⇒

2m2 (n + m − 2) n (m − 2)2 (m − 4)

(m > 4)

1 ≡ Fm,n X

Distribuci´ on Exponencial, Exp(λ)

Una v.a. X se dice que sigue una distribuci´on Exponencial de par´ametro λ > 0, X ≡ Exp(λ), si su funci´on de densidad es de la forma f (x) = λ e−λx

x≥0

112

Estad´ıstica

Figura 9.7: Funci´on de densidad de una distribuci´on Exp(λ) •

Z

+∞

f (x) dx =

−∞

Z

+∞

λ e−λx dx = 1

0

• Funci´on de distribuci´on F (x) =

Z

x

f (x) dx =

−∞

Z

x

0

λ e−λx dx = 1 − e−λx

• Funci´on caracter´ıstica itX

ϕ(t) = E[e

]=

Z

+∞ itx

e f (x) dx = −∞

Z

+∞

0

ϕ(t) =

λ e−(λ−it)x dx =

λ λ − it

λ λ − it

• Esperanza ϕ′ (t) =

λi i ϕ′ (0) 1 ′ =⇒ ϕ (0) = =⇒ E[X] = = 2 (λ − it) λ i λ E[X] =

1 λ

• Varianza ϕ′′ (t) =

2λi2 (λ − it)3

ϕ′′ (0) =

2i2 λ2

9 Distribuciones de probabilidad continuas E[X 2 ] =

113

2 ϕ′′ (0) = 2 2 i λ 2 1 1 − 2 = 2 2 λ λ λ

Var(X) = E[X 2 ] − (E[X])2 = Var[X] =

9.7.1.

1 λ2

Teorema de adici´ on para distribuciones Exponenciales

Sean X1 ≡ Exp(λ), . . . , Xn ≡ Exp(λ), n v.a. Exponenciales independientes. Enton-

ces la nueva variable aleatoria

Y = X1 + · · · + Xn ≡ Er(n, λ) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =

λ λ − it

k = 1, 2, . . . , n

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = λ λ ×···× = = ϕX1 (t) × · · · × ϕXn (t) = λ − it λ − it



λ λ − it

n

Pero, esta es la funci´on caracter´ıstica de una distribuci´on de Erlang de par´ametros n y λ (Sec. 9.8).

9.8.

Distribuci´ on de Erlang Er(n, λ)

Una v.a. X se dice que sigue una distribuci´on de Erlang de par´ametros n y λ > 0, X ≡ Er(n, λ), si su funci´on de densidad es de la forma f (x) = •

Z

+∞

−∞

λn f (x) dx = Γ(n)

Z

λn n−1 −λx x e Γ(n)

+∞ n−1 −λx

x

e

0

1 = Γ(n)

Z

0

λn dx = Γ(n)

+∞

un−1 e−u du =

x≥0 Z

0

+∞

 u n−1 λ

e−u

1 Γ(n) = 1 Γ(n)

1 du = λ

114

Estad´ıstica

Figura 9.8: Funci´on de densidad de una distribuci´on Er(n, λ) • Funci´on caracter´ıstica

itX

ϕ(t) = E[e

]=

Z

+∞

−∞

λn = Γ(n)

Z

+∞

0

λn e f (x) dx = Γ(n) itx



u λ − it

n−1

1 λn Γ(n) = = Γ(n) (λ − it)n



−u

e

Z

+∞

xn−1 e−(λ−it)x dx =

0

λn 1 1 du = λ − it Γ(n) (λ − it)n

λ λ − it

ϕ(t) =

Z

+∞

un−1 e−u du =

0

n 

λ λ − it

n

• Esperanza ϕ′ (t) =

nλn i ni ϕ′ (0) n ′ =⇒ ϕ (0) = =⇒ E[X] = = n+1 (λ − it) λ i λ E[X] =

n λ

• Varianza ϕ′′ (t) =

n(n + 1)λn i2 (λ − it)n+2

ϕ′′ (0) =

n(n + 1)i2 λ2

9 Distribuciones de probabilidad continuas E[X 2 ] =

115

n(n + 1) ϕ′′ (0) = 2 i λ2

Var(X) = E[X 2 ] − (E[X])2 = Var[X] =

9.8.1.

n(n + 1) n2 n − 2 = 2 2 λ λ λ

n λ2

Teorema de adici´ on para distribuciones de Erlang

Sean X1 ≡ Er(n1 , λ), . . . , Xr ≡ Er(nr , λ), r v.a. de Erlang independientes. Entonces

la nueva variable aleatoria

Y = X1 + · · · + Xr ≡ Er(n1 + · · · + nr , λ) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =



λ λ − it

nk

k = 1, 2, . . . , r

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xr ) ] = E[eitX1 × · · · × eitXr ] = E[eitX1 ] × · · · × E[eitXr ] = = ϕX1 (t) × · · · × ϕXr (t) =



λ λ − it

n1

×···×



λ λ − it

nr

=



λ λ − it

n1 +···+nr

Pero, esta es la funci´on caracter´ıstica de una distribuci´on de Erlang de par´ametros n = n1 + · · · + nr y λ.

9.9.

Relaci´ on entre las distribuciones de Poisson, Exponencial y Erlang

En la secci´on 8.3, definimos la v.a. de Poisson, P(λ), como la variable que cuenta el n´ umero de eventos que ocurren por unidad de tiempo o espacio, siendo λ el n´ umero medio de estos eventos que ocurren por unidad de tiempo o espacio. L´ogicamente, el n´ umero medio de eventos que ocurren en t unidades de tiempo o espacio ser´a (λ × t), por tanto, la v.a. que cuenta el n´ umero de eventos que ocurren en t unidades de tiempo o

espacio sigue una distribuci´on de Poisson, P(λ × t), de par´ametro (λ × t). As´ı, sean

116

Estad´ıstica

• X ≡ P(λ) ≡

N´ umero de eventos de Poisson que ocurren en una unidad de tiempo P (X = x) = P (ocurran x eventos en una unidad de tiempo) = =

λx −λ e x!

x = 0, 1, 2, . . .

• Xt ≡ P(λt) ≡ N´ umero de eventos de Poisson que ocurren en t unidades de tiempo

P (Xt = x) = P (ocurran x eventos en t unidades de tiempo) = =

(λt)x −λt e x!

x = 0, 1, 2, . . .

Supongamos que estamos interesados en saber cu´ando ocurre el primero de estos eventos de Poisson; es decir, sea • Y ≡ Tiempo transcurrido hasta que ocurre el primer evento de Poisson GY (t) = P (Y ≤ t) = = P (el primer evento ocurra antes de t unidades de tiempo) = = 1 − P (Y ≥ t) = = 1 − P (el primer evento ocurra pasadas t unidades de tiempo) = = 1 − P (en t unidades de tiempo ocurran 0 eventos de Poisson) = = 1 − P (Xt = 0) = 1 − e−λt

(λt)0 = 1 − e−λt 0!

Pero, esta es la funci´on de distribuci´on de una Exponencial de par´ametro λ. Por tanto, Y ≡ Exp(λ)

9 Distribuciones de probabilidad continuas

117

Supongamos ahora, que estamos interesados en saber cu´ando ocurre el n-´esimo de estos eventos de Poisson; es decir, sea • Z ≡ Tiempo transcurrido hasta que ocurre el n-´esimo evento de Poisson

Como los sucesos de Poisson ocurren de forma independiente, una vez que ocurre un

suceso de Poisson, ese instante es el origen de tiempos para el suceso siguiente, es decir

Z ≡ Tiempo transcurrido hasta que ocurre el n-´esimo evento de Poisson ≡ ≡ Tiempo transcurrido hasta que ocurre el 1er evento de Poisson+ +Tiempo transcurrido entre el 1o y el 2o eventos de Poisson+ +Tiempo transcurrido entre el 2o y el 3o eventos de Poisson+ + · · · + Tiempo transcurrido entre el (n − 1)o y el no eventos de Poisson ≡ ≡ Exp(λ) + Exp(λ) + Exp(λ) + · · · + Exp(λ) ≡ Er(n, λ) Por tanto, Z ≡ Er(n, λ)

9.10.

Distribuci´ on de Weibull, W(r, λ)

Sea X una v.a. con distribuci´on Exponencial de par´ametro λ, es decir, X ≡ Exp(λ).

Se dice que la variable aleatoria Y sigue una distribuci´on de Weibull de par´ametros r > 0 y λ, Y ≡ W(r, λ), si es

Y = X 1/r

Veamos algunas propiedades de la distribuci´on de Weibull • Funci´on de densidad GY (y) = P (Y ≤ y) = P (X 1/r ≤ y) = P (X ≤ y r ) = FX (y r ) gY (y) = G′Y (y) = FX′ (y r )ry r−1 = fX (y r )ry r−1 Por tanto,

118

Estad´ıstica

gY (y) = λ r y r−1e−λy

r

y≥0

• Esperanza E[Y ] = E[X

1/r

]=

Z

+∞ 1/r

x

fX (x) dx = λ

−∞



Γ 1+

1 r

1

λ1+ r





− r1

E[Y ]

= E[X

]=

Z



2 r

2

λ1+ r



1 r



+∞ 2/r

x

fX (x) dx = λ

−∞

Γ 1+

x1/r e−λx dx =

  1 Γ 1+ r

• Varianza 2/r

+∞

0

E[Y ] = λ−1/r Γ 1 +

2

Z



Z

+∞

x2/r e−λx dx =

0

− r2

  2 Γ 1+ r

  2  Var(Y ) = E[Y 2 ] − (E[Y ])2 = λ− r Γ 1 + 2r − Γ2 1 + 1r    Var(Y ) = λ−2/r Γ 1 + 2r − Γ2 1 + 1r

9.11.

Distribuci´ on Gamma, G(p, q)

Una v.a. X se dice que sigue una distribuci´on Gamma de par´ametros p > 0 y q > 0, X ≡ G(p, q), si su funci´on de densidad es de la forma q p p−1 −qx x e x≥0 Γ(p) Como se puede comprobar, la distribuci´on de Erlang es un caso particular de la f (x) =

distribuci´on Gamma, para p = n y q = λ. Es decir, Er(n, λ) = G(p = n, q = λ). Por tanto los c´alculos son los mismos y no los vamos a repetir, s´olo citaremos los resultados. • Funci´on caracter´ıstica ϕ(t) =



q q − it

p

9 Distribuciones de probabilidad continuas

119

Figura 9.9: Funci´on de densidad de una distribuci´on G(p, q) • Esperanza y Varianza E[X] =

9.11.1.

p q

Var[X] =

p q2

Teorema de adici´ on para distribuciones Gamma

Sean X1 ≡ G(p1 , q), . . . , Xn ≡ G(pn , q), n v.a. Gamma independientes. Entonces la

nueva variable aleatoria

Y = X1 + · · · + Xn ≡ G(p1 + · · · + pn , q) Para demostrarlo, utilizamos las funciones caracter´ısticas de las variables Xk , y el hecho de que son independientes, ϕXk (t) =



q q − it

pk

k = 1, 2, . . . , n

ϕY (t) = E[eitY ] = E[eit(X1 +···+Xn ) ] = E[eitX1 × · · · × eitXn ] = E[eitX1 ] × · · · × E[eitXn ] = = ϕX1 (t) × · · · × ϕXn (t) =



q q − it

p1

×···×



q q − it

pn

=



q q − it

p1 +···+pn

Pero, esta es la funci´on caracter´ıstica de una distribuci´on Gamma de par´ametros p = p1 + · · · + pn y q.

120

Estad´ıstica

9.12.

Distribuci´ on Beta, B(p, q)

Una v.a. X se dice que sigue una distribuci´on Beta de par´ametros p > 0 y q > 0, X ≡ B(p, q), si su funci´on de densidad es de la forma f (x) =

1 xp−1 (1 − x)q−1 β(p, q)

0≤x≤1

Figura 9.10: Funci´on de densidad de una distribuci´on B(p, q)



Z

+∞

−∞

Z

1 f (x) dx = β(p, q)

1 0

1 β(p, q) = 1 β(p, q)

xp−1 (1 − x)q−1 dx =

• Esperanza

E[X] =

Z

+∞

−∞

=

1 xf (x) dx = β(p, q)

Z

0

1

xp (1 − x)q−1 dx =

1 β(p + 1, q) = β(p, q)

Γ(p + q) Γ(p + 1)Γ(q) Γ(p + q) p pΓ(p) = = Γ(p)Γ(q) Γ(p + q + 1) Γ(p) (p + q)Γ(p + q) p+q E[X] =

p p+q

• Varianza 2

E[X ] =

Z

+∞

−∞

=

1 x f (x) dx = β(p, q) 2

Z

1 0

xp+1 (1 − x)q−1 dx =

1 Γ(p + q) Γ(p + 2)Γ(q) β(p + 2, q) = = β(p, q) Γ(p)Γ(q) Γ(p + q + 2)

9 Distribuciones de probabilidad continuas =

(p + 1)p (p + 1)pΓ(p) Γ(p + q) = Γ(p) (p + q + 1)(p + q)Γ(p + q) (p + q + 1)(p + q)

(p + 1)p Var(X) = E[X ] − (E[X]) = − (p + q + 1)(p + q) 2

=

2



p p+q

2

=

pq (p + q + 1) (p + q)2 Var(X) =

9.12.1.

121

pq (p + q + 1) (p + q)2

Transformaciones

• Sean X1 ≡ G(p1 , 1) y X2 ≡ G(p2 , 1) dos v.a. Gamma independientes, entonces X1 ≡ B(p1 , p2 ) X1 + X2 • Sea X ≡ Fn,m una v.a. F-Snedecor, entonces 

1+

n −1 X ≡ B(m/2, n/2) m

nX ≡ B(n/2, m/2) m + nX

9.13.

Relaciones entre distribuciones continuas

En la figura 9.13 se muestra un croquis de las relaciones que existen entre las distintas distribuciones continuas estudiadas en este cap´ıtulo.

122

Estad´ıstica

eX

µ=0 σ=1

N( µ,σ)

Log-N( µ,σ ) Ln X µ= pq σ 2 = p2 q

N(0,1)

X1

q 2

2

X1 + X2

B(p,q)

n

X + + Xn

n

1

G(p,q) /2

p=n q= λ

/2 q=1

p=n

χ

2 n

tn

p=1 q=1

Er(n, λ) n=2

n=1

χm m χn2 n 2

m=1

X1 +

+ Xn

Exp(λ)

U(0,1) −λLn X

Fm,n

( ver distribucion Beta ) r=1

X

1/r

a + (b-a) X

caso particular transformacion distribucion limite

W(r, λ)

Figura 9.11: Relaciones entre distribuciones continuas

a=0 b=1 U(a,b)

9 Distribuciones de probabilidad continuas

9.14.

123

Distribuci´ on Normal Bidimensional

Una v.a. bidimensional (X, Y ) se dice que sigue una distribuci´on Normal Bidimensional, si su funci´on de densidad conjunta, definida en R2 , es de la forma

f (x, y) =

2πσX σY (

1 p

1 − ρ2

1 exp − 2(1 − ρ2 )

× "

x − µX σX

2

− 2ρ



x − µX σX



y − µY σY



+



y − µY σY

2 #)

siendo

µX = E[X]

2 σX = Var(X)

µY = E[Y ]

σY2 = Var(Y )

ρ= p

Cov(X, Y ) σXY p = σX σY Var(X) Var(Y )

Coeficiente de correlaci´on lineal de (X, Y )

• Funci´on caracter´ıstica 1

2 2

2

2

ϕ(t1 , t2 ) = E[eit1 X+it2 Y ] = ei(µX t1 +µY t2 )− 2 (σX t1 +2ρσX σY t1 t2 +σY t2 ) • Distribuciones marginales 1

2

1

2 2

2

ϕX (t) = ϕ(t, 0) = eiµX t− 2 σX t ϕY (t) = ϕ(0, t) = eiµY t− 2 σY t

=⇒ X ≡ N(µX , σX ) =⇒ Y ≡ N(µY , σY )

Por tanto, las funciones de densidad marginales son fX (x) =

Z

+∞

f (x, y) dy =

−∞

Z

+∞

1 √

e

1 √

e

σX 2π

− 12 (

− 21 (

x−µX 2 ) σX

y−µY σY

x∈R

)2

y∈R σY 2π Es decir, si (X, Y ) es una v.a. Normal Bidimensional, entonces X e Y son v.a. fY (y) =

−∞

f (x, y) dy =

Normales unidimensionales. En general, lo contrario no es cierto. O sea, si X e Y son v.a.

124

Estad´ıstica

Normales unidimensionales, la v.a. (X, Y ) no siempre es una Normal Bidimensional. Lo vemos con un ejemplo Ejemplo.- Sea (X, Y ) una v.a. bidimensional con funci´on de densidad conjunta 1 f (x, y) = 2

"

1 ρ − (x2 −2ρxy+y 2 ) p e 2(1−ρ2 ) + 2π 1 − ρ2 # 1 2 2 ρ (x +2ρxy+y ) − e 2(1−ρ2 ) + p 2 2π 1 − ρ

(x, y) ∈ R2

Claramente, (X, Y ) no es Normal Bidimensional, sin embargo, las distribuciones marginales de X e Y son fX (x) =

Z

+∞

−∞

fY (y) =

Z

+∞

−∞

x2 1 f (x, y) dy = √ e− 2 2π

x∈R

y2 1 f (x, y) dy = √ e− 2 2π

y∈R

es decir, X ≡ N(0, 1) e Y ≡ N(0, 1). • Distribuciones condicionadas − 2 1 2 f (x, y) 1 p f (x|y) = =√ e 2σX (1−ρ ) fY (y) 2πσX 1 − ρ2

− 2 1 2 1 f (x, y) p =√ e 2σY (1−ρ ) f (y|x) = fX (x) 2πσY 1 − ρ2

h

h

 i2 σ x− µX +ρ σX (y−µY ) Y

 i2 σ y− µY +ρ σ Y (x−µX ) X

Por tanto,

X|Y ≡ N(µ, σ) con

Y |X ≡ N(µ, σ) con

 σX  (y − µY ) µ = µX + ρ   σ Y

  

σ = σX

  

σ = σY

p 1 − ρ2

 σY  µ = µY + ρ (x − µX )   σX

Como se puede comprobar, si ρ = 0, entonces

p

X|Y ≡ N(µX , σX ) Y |X ≡ N(µY , σY )

1 − ρ2

9 Distribuciones de probabilidad continuas

125

• Combinaci´on lineal de v.a. Normales

Sea (X, Y ) una v.a. Normal Bidimensional, entonces la variable aleatoria   q 2 2 2 2 Z = aX + bY ≡ N aµX + bµY , a σX + 2abρσX σY + b σY

Vamos a demostrarlo utilizando la funci´on caracter´ıstica.

ϕZ (t) = E[eitZ ] = E[eit(aX+bY ) ] = E[ei(at)X+i(bt)Y ) ] = 1

2 σ 2 +2abρσ σ X Y X

= ϕ(at, bt) = ei(aµX +bµY )t− 2 (a

2 )t2 +b2 σY

Pero, esta es la funci´on caracter´ıstica de una distribuci´on Normal de par´ametros 2 µ = aµX + bµY y σ 2 = a2 σX + 2abρσX σY + b2 σY2 .

Como se puede comprobar f´acilmente, si ρ = 0, entonces   q 2 2 2 2 Z = aX + bY ≡ N aµX + bµY , a σX + b σY • Independencia de v.a. Normales

Sea (X, Y ) una v.a. Normal Bidimensional, entonces se cumple X e Y son independientes ⇐⇒ ρ = 0

2 Si X e Y son independientes =⇒ Cov(X, Y ) = 0 =⇒ ρ = 0. (Esto es v´alido para cualquier v.a. bidimensional (X, Y )) 2 En sentido contrario, si ρ = 0 =⇒ −1 1 f (x, y) = e 2 2πσX σY

1 −1 √ e 2 2π σX





x−µX σX

x−µX σX

2

2  2  y−µ + σ Y Y

=

1 −1 ×√ e 2 2π σY



y−µY σY

2

= fX (x) fY (y)

Por tanto, f (x, y) = fX (x) fY (y), y X e Y son independientes.

• Resumen de las propiedades de la v.a. Normal Bidimensional 2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son Normales Unidimensionales. 2 Si X e Y son Normales Unidimensionales independientes =⇒ (X, Y ) es Normal Bidimensional.

126

Estad´ıstica

2 Si X e Y son Normales Unidimensionales no independientes =⇒ / (X, Y ) es Normal Bidimensional. 2 Si (X, Y ) es Normal Bidimensional =⇒ Z = aX + bY es Normal Unidimensional. 2 Si (X, Y ) es Normal Bidimensional =⇒ X|Y e Y |X son Normales Unidimensionales. 2 Si (X, Y ) es Normal Bidimensional =⇒ X e Y son independientes ⇐⇒ ρ = 0.

10

Convergencia de sucesiones de variables aleatorias

´Indice 10.1. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . 128 10.2. Problema central del l´ımite . . . . . . . . . . . . . . . . . . . . 129 10.2.1. Teorema de Levy-Lindeberg . . . . . . . . . . . . . . . . . . . . 129 10.2.2. Teorema de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . 129 10.3. Aproximaciones a la distribuci´ on Normal . . . . . . . . . . . . 130 10.3.1. Distribuci´on Binomial . . . . . . . . . . . . . . . . . . . . . . . 130 10.3.2. Distribuci´on de Poisson . . . . . . . . . . . . . . . . . . . . . . 131 10.3.2.1. Correcci´on de Yates . . . . . . . . . . . . . . . . . . . 131 10.3.3. Distribuci´on χ2 de Pearson . . . . . . . . . . . . . . . . . . . . 132 10.3.4. Distribuci´on t-Student . . . . . . . . . . . . . . . . . . . . . . . 132

127

128

Estad´ıstica

10.1.

Convergencia en ley

Sea {Fn } una sucesi´on de funciones de distribuci´on. Se dice que {Fn } converge en

ley o en distribuci´ on a la funci´on de distribuci´on F , si

∀x ∈ CF

l´ım Fn (x) = F (x)

n→∞

siendo CF el conjunto de puntos de continuidad de F . La notaci´on ser´a L

{Fn } −→ F Ejemplo.- Sea   0 x<0  (   1 0 x≤0 nx 0 ≤ x < Fn (x) = =⇒ l´ım Fn (x) = G(x) = n n→∞  1 x>0    1 x≥ 1 n pero, G no es una funci´on de distribuci´on (no es continua por la derecha en x = 0), por tanto, {Fn } no converge en ley a G. En cambio, si consideramos ( 0 x<0 F (x) = 1 x≥0 F es funci´on de distribuci´on, y {Fn } converge en ley a F , pues l´ım Fn (x) = F (x) ∀x ∈ R − {0}

n→∞

pero 0 ∈ / CF , por tanto

l´ım Fn (x) = F (x) ∀x ∈ CF

n→∞

Consideremos ahora una sucesi´on de v.a., {Xn }, con funciones de distribuci´on {Fn }

y funciones caracter´ısticas {ϕn }. Y, sea X una v.a. con funci´on de distribuci´on F y funci´on

caracter´ıstica ϕ. Entonces

• Se dice que {Xn } converge en ley a la v.a. X, si {Fn } converge en ley a F , y se notar´a por

L

{Xn } −→ X • Si {Fn } converge en ley a F , entonces {ϕn } converge puntualmente a ϕ, es decir l´ım ϕn (t) = ϕ(t) ∀t ∈ R

n→∞

• Si {ϕn } converge puntualmente a una funci´on ψ continua en 0, entonces ψ es la funci´on caracter´ıstica asociada a una v.a. Y con funci´on de distribuci´on G, y se

cumple que {Fn } converge en ley a G.

10 Convergencia de sucesiones de variables aleatorias

10.2.

129

Problema central del l´ımite

Dada una sucesi´on de v.a., {Xn }, definidas sobre el mismo espacio probabil´ıstico, se

dice que verifica el problema central del l´ımite, si se cumple n X

Xk − E

" n X

Xk

k=1 v ! u n X u tVar Xk

k=1

#

L

−→ N(0, 1)

k=1

10.2.1.

Teorema de Levy-Lindeberg

Sea {Xn } una sucesi´on de v.a. independientes e id´enticamente distribuidas, con

E[Xn ] = µ < +∞ y Var(Xn ) = σ 2 < +∞. Entonces, {Xn } verifica el problema central del l´ımite. Es decir

n X

Xk =⇒

k=1

 " # n n X X     E[Xk ] = nµ Xk = E     k=1 k=1

!   n n  X X    Xk = Var(Xk ) = nσ 2   Var k=1

y, se cumple n X k=1

Xk − E

" n X k=1

Xk

v ! u n X u tVar Xk

#

=

k=1

n X k=1

Xk − nµ √

σ n

L

−→ N(0, 1)

k=1

o, lo que es lo mismo

n X k=1

10.2.2.

√ L Xk −→ N(nµ, σ n )

Teorema de Lindeberg

Sea {Xn } una sucesi´on de v.a. independientes tales que :

130

Estad´ıstica

i) Yn =

n X

Xi

i=1

ii) E[Xn ] = µn < +∞ ∀n ∈ N iii) ∃ k ≥ 3 tal que Mk (Xn ) = E[(Xn − µn )k ] < +∞ ∀n ∈ N

iv) l´ım

n→∞

n X

Mk (Xi )

i=1

σ k (Yn )

= l´ım

n→∞

n X i=1

E[(Xi − µi )k ]

hp

ik = 0

Var(Yn )

Entonces, {Xn } verifica el problema central del l´ımite.

Si k = 3, el Teorema de Lindeberg se conoce como Teorema de Liapunov.

10.3.

Aproximaciones a la distribuci´ on Normal

10.3.1.

Distribuci´ on Binomial

Sea {Xn } una sucesi´on de v.a. independientes e id´enticamente distribuidas seg´ un

una B(1, p), es decir, Xn ≡ B(1, p) ∀n ∈ N. Entonces,

n X k=1

Xk ≡ B(n, p) =⇒

 " # n X     Xk = np E     k=1

!   n  X    Xk = npq   Var k=1

y, se cumple n X k=1

Xk − E

" n X k=1

Xk

v ! u n X u tVar Xk

#

=

B(n, p) − np L −→ N(0, 1) √ npq

k=1

Es decir, para un n suficientemente grande se cumple que B(n, p) − np ∼ √ = N(np, npq ) = N(0, 1) =⇒ B(n, p) ∼ √ npq En la pr´actica, esta aproximaci´on es buena cuando np(1 − p) > 5.

10 Convergencia de sucesiones de variables aleatorias

10.3.2.

131

Distribuci´ on de Poisson

Puesto que la distribuci´on Binomial se comporta en el l´ımite como una Poisson, tambi´en ´esta u ´ ltima se puede aproximar por una Normal. En la pr´actica, si λ > 5 entonces se puede utilizar la siguiente aproximaci´on √ P(λ) ∼ = N(λ, λ ) 10.3.2.1.

Correcci´ on de Yates

Cuando una variable aleatoria discreta se aproxima por una variable aleatoria continua, como es el caso de la Binomial o la Poisson por la Normal, surge un problema a la hora de calcular probabilidades. Por ejemplo, sabemos que P (x1 ≤ B(n, p) ≤ x2 ) 6= P (x1 < B(n, p) ≤ x2 ) P (B(n, p) = x) 6= 0 sin embargo, P x1 ≤ N(np, P N(np,





  √ npq ) ≤ x2 = P x1 < N(np, npq ) ≤ x2

 npq ) = x = 0

Para resolver este problema se aplica la correcci´on de Yates, que consiste en ampliar o reducir el intervalo de integraci´on de la v.a. continua, para asegurar la inclusi´on o exclusi´on de los l´ımites de la v.a. discreta. De forma general, si X es una v.a. discreta, e Y una v.a. continua tal que X ∼ = Y , entonces P (X = x) ≃ P (x − 0.5 ≤ Y ≤ x + 0.5) P (x1 < X ≤ x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 + 0.5) P (x1 ≤ X ≤ x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 + 0.5) P (x1 < X < x2 ) ≃ P (x1 + 0.5 ≤ Y ≤ x2 − 0.5) P (x1 ≤ X < x2 ) ≃ P (x1 − 0.5 ≤ Y ≤ x2 − 0.5)

132

Estad´ıstica

10.3.3.

Distribuci´ on χ2 de Pearson

Como la distribuci´on Chi-cuadrado con n grados de libertad se define como la suma de n v.a. independientes e id´enticamente distribuidas, cuando n ≥ 30 se puede utilizar la siguiente aproximaci´on

p

10.3.4.

2χ2n ∼ =N



2n − 1, 1



Distribuci´ on t-Student

Teniendo en cuenta que una distribuci´on t-Student con n grados de libertad se define como el cociente

N(0, 1) tn = r χ2n n 2 y, que la distribuci´on χn se puede aproximar por una Normal, cuando n ≥ 30 se puede utilizar la siguiente aproximaci´on

 r  n tn ∼ = N 0, n−2

11

Regresi´on y correlaci´on

´Indice 11.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2. Regresi´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 11.2.1. M´etodo de los m´ınimos cuadrados . . . . . . . . . . . . . . . . 134 11.2.2. M´etodo de la distribuci´on condicional . . . . . . . . . . . . . . 136 11.2.3. Regresi´on Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11.2.3.1. M´etodo de los m´ınimos cuadrados . . . . . . . . . . . 137 11.2.3.2. M´etodo de la distribuci´on condicional . . . . . . . . . 138 11.3. Correlaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 11.3.1. Coeficiente de correlaci´ on lineal . . . . . . . . . . . . . . . . . . 140

133

134

Estad´ıstica

11.1.

Introducci´ on

Sea (X, Y ) una v.a. bidimensional. Algo que nos podemos preguntar es si existe alg´ un tipo de relaci´on entre las dos variables que forman el par, es decir, si existe alguna funci´on que las relaciona. Por supuesto, el hecho de que exista alguna relaci´on entre ellas implica que no son independientes. Tenemos pues dos objetivos, 1.- Determinar la funci´on Y = h1 (X) que mejor expresa el comportamiento de la v.a. Y para cada valor que pueda tomar X. Esta funci´on se conoce como curva de regresi´ on de Y sobre X. Igualmente, se puede determinar la funci´on X = h2 (Y ) que mejor expresa el comportamiento de la v.a. X para cada valor que pueda tomar Y . Esta funci´on se conoce como curva de regresi´on de X sobre Y . 2.- Medir el grado de asociaci´on que pueda existir entre las dos v.a. Este par´ametro se conoce como coeficiente de correlaci´on. La regresi´on tiene dos significados. Uno, surge de la distribuci´on conjunta de las dos v.a., y es el que vamos a estudiar en este cap´ıtulo. El otro, que estudiaremos m´as adelante, es emp´ırico, y nace de la necesidad de ajustar una funci´on a un conjunto de datos.

11.2.

Regresi´ on

En la regresi´on de Y sobre X, como ya se ha dicho, se quiere encontrar una funci´on Y = h1 (X) que mejor exprese el comportamiento de la v.a. Y para cada valor que pueda tomar X. Para ello, podemos utilizar dos m´etodos

11.2.1.

M´ etodo de los m´ınimos cuadrados

Este m´etodo consiste en encontrar la funci´on Y = h1 (X) de forma que el error cuadr´atico medio (ECM) sea m´ınimo, siendo   ECM = E (Y − h1 (X))2

Este m´etodo tiene el inconveniente de que es necesario conocer a priori la forma de la funci´on h1 . Ejemplo 1.- Dada una v.a. bidimensional (X, Y ), con funci´on de densidad conjunta 4 f (x, y) = x2 (x + y) 0 ≤ x ≤ 1; 0 ≤ y ≤ 3 9

11 Regresi´ on y correlaci´ on

135

De las variables X e Y se sabe que existe una relaci´on del tipo Y = aX +

b X

Se pide, calcular los valores de a y b que mejor ajustan este tipo de relaci´on. 

ECM = E (Y − h1 (X))

 2

" 2 # b = E Y − aX − X

Para calcular el m´ınimo de ECM, tenemos que derivar respecto de a y b     ∂ECM b 2   = E 2(Y − aX − )(−X) = 2 −E[XY ] + aE[X ] + b =0   X  ∂a

          1 b 1 Y ∂ECM   + a + bE = E 2(Y − aX − )(− ) = 2 −E =0 ∂b X X X X2

entonces,

  aE[X 2 ] + b = E[XY ]   

     Y 1    a + bE =E 2 X X

2

• E[X ] =

Z

+∞ −∞

Z

+∞

     Y   E[XY ] − E E[X 2 ]   X     b=    1   1 − E[X 2 ]E X2

4 x f (x, y) dxdy = 9 2

−∞

=⇒

     1 Y   − E[XY ]E E   X X2     a =   1    1 − E[X 2 ]E   X2 

Z

1

x=0

Z

3

x4 (x + y) dydx =

y=0

28 45



 Z +∞ Z +∞ Z Z 3 1 4 1 8 1 • E = f (x, y) dxdy = (x + y) dydx = 2 X2 9 x=0 y=0 3 −∞ −∞ x 

 Z +∞ Z +∞ Z Z 3 y Y 8 4 1 • E = xy(x + y) dydx = f (x, y) dxdy = X 9 x=0 y=0 3 −∞ −∞ x • E[XY ] = Por tanto,

Z

+∞ −∞

Z

+∞

−∞

4 xyf (x, y) dxdy = 9

Z

1 x=0

Z

3

x3 y(x + y) dydx = y=0

7 5

136

Estad´ıstica  144   a=   89

    b = 35 89 y, la relaci´on entre las dos variables es de la forma Y =

11.2.2.

144 35 X+ 89 89X

M´ etodo de la distribuci´ on condicional

Para cada valor x que toma la variable X, el comportamiento de la variable Y viene definido por la v.a. condicionada Y |X=x , con funci´on de densidad condicionada f (y|x).

El criterio de este m´etodo consiste en definir la funci´on h1 de tal forma que asigne

a cada valor x del campo de variaci´on de la variable X, el valor medio o esperanza de la variable Y condicionado a ese valor x. Es decir, y = h1 (x) = E [Y |X=x ] =

Z

+∞

yf (y|x) dy −∞

Ejemplo 2.- Dada la v.a. bidimensional (X, Y ) con funci´on de densidad conjunta f (x, y) = x + y

0 ≤ x, y ≤ 1

Se pide, calcular la curva de regresi´on de Y sobre X. Primero, tenemos que calcular la funci´on de densidad condicional f (y|x) • fX (x) = • f (y|x) =

Z

+∞

f (x, y) dy =

−∞

Z

1

(x + y) dy = x +

0

f (x, y) 2(x + y) = fX (x) 2x + 1

1 2

0≤x≤1

0≤y≤1

Ahora, h1 (x) = E [Y |X=x ] =

Z

+∞

yf (y|x) dy = −∞

Z

0

1

2y(x + y) 3x + 2 dy = 2x + 1 6x + 3

Por tanto, la relaci´on entre las dos variables es de la forma Y =

3X + 2 6X + 3

11 Regresi´ on y correlaci´ on

11.2.3.

137

Regresi´ on Lineal

Un caso particular de curva de regresi´on de Y sobre X se da cuando la curva que relaciona las dos variables es una recta del tipo Y = h1 (X) = a + bX 11.2.3.1.

M´ etodo de los m´ınimos cuadrados

ECM = E[(Y − h1 (X)2 ] = E[(Y − a − bX)2 ]  ∂ECM   = E [2(Y − a − bX)(−1)] = 2 (−E[Y ] + a + bE[X]) = 0   ∂a

    ∂ECM = E [2(Y − a − bX)(−X)] = 2 −E[XY ] + aE[X] + bE[X 2 ] = 0 ∂b

entonces,

    a + bE[X] = E[Y ]

   aE[X] + bE[X 2 ] = E[XY ]

=⇒

 E[XY ] − E[X]E[Y ] Cov(X, Y )     b = E[X 2 ] − (E[X])2 = Var(X)     a = E[Y ] − bE[X]

Por tanto, la recta de regresi´on lineal de Y sobre X es Y = a + bX, con b=

Cov(X, Y ) σXY = 2 Var(X) σX

a = E[Y ] − bE[X] = µY − bµX o, expresado de otra forma Y = a + bX = µY − bµX + bX = µY + b(X − µX ) =⇒ Y − µY =

σXY (X − µX ) 2 σX

De igual forma, la recta de regresi´on lineal de X sobre Y es X = a′ + b′ Y , con

138

Estad´ıstica

Cov(X, Y ) σXY = 2 Var(Y ) σY

b′ =

a′ = E[X] − b′ E[Y ] = µX − b′ µY o, expresado de otra forma X = a′ + b′ Y = µX − b′ µY + b′ Y = µX + b′ (Y − µY ) =⇒ X − µX =

σXY (Y − µY ) σY2

• Los coeficientes b y b′ (las pendientes de las rectas de regresi´on de Y sobre X y de X sobre Y , respectivamente), se llaman coeficientes de regresi´on lineal. Siempre

tienen el mismo signo, por tanto, o las dos rectas son crecientes o las dos rectas son decrecientes, siempre que Cov(X, Y ) 6= 0. • El punto de intersecci´on de las dos rectas de regresi´on se denomina centro de gravedad de la v.a. bidimensional (X, Y ).

11.2.3.2.

M´ etodo de la distribuci´ on condicional

Si al aplicar el m´etodo de la distribuci´on condicional para obtener la curva de regresi´on de Y sobre X obtenemos una recta, entonces y = E[Y |X=x ] = a + bx Es decir, E[Y |X=x ] =

Z

+∞

yf (y|x) dy =

−∞

1 = fX (x)

Entonces,

Z

+∞

Z

Z

+∞

y −∞

f (x, y) dy = fX (x)

+∞

yf (x, y) dy = a + bx −∞

yf (x, y) dy = afX (x) + bxfX (x) −∞

=⇒

11 Regresi´ on y correlaci´ on

139

 Z +∞ Z +∞ Z +∞ Z +∞    yf (x, y) dydx = afX (x) dx + bxfX (x) dx    −∞ −∞ −∞ −∞  Z     

+∞

−∞

Z

+∞

xyf (x, y) dydx =

−∞

Y, despejando,

Z

+∞

axfX (x) dx +

−∞

    E[Y ] = a + bE[X]

Z

=⇒

+∞

bx2 fX (x) dx

−∞

   E[XY ] = aE[X] + bE[X 2 ]  Cov(X, Y ) E[XY ] − E[X]E[Y ]     b = E[X 2 ] − (E[X])2 = Var(X)     a = E[Y ] − bE[X]

Por tanto, los coeficientes de la recta obtenidos con el m´etodo de la distribuci´on condicional coinciden con los obtenidos con el m´etodo de los m´ınimos cuadrados.

11.3.

Correlaci´ on

Ligado al concepto de regresi´on (relaci´on entre dos variables X e Y ), est´a el de correlaci´on (grado de relaci´on entre las variables X e Y ). Es decir, al calcular la curva de regresi´on de Y sobre X, Y = h1 (X), en realidad estamos calculando una funci´on que, con el criterio que hayamos escogido, mejor ajusta los valores de la variable Y para un valor dado de la variable X. Ahora, debemos cuantificar c´omo es de bueno ese ajuste. Una forma bastante l´ogica de cuantificar la bondad del ajuste consiste en medir la diferencia entre el verdadero valor de la variable Y , y el valor asignado por la curva de regresi´on, h1 (X). Para que las diferencias positivas no se cancelen con las negativas, generalmente se recurre al estudio de las diferencias al cuadrado. As´ı, se define la varianza residual, σR2 , como la media cuadr´atica de estos errores   σR2 = E (Y − h1 (X))2

Como se puede comprobar, coincide con el error cuadr´atico medio. Partiendo de σR2 , Pearson defini´o el coeficiente general de correlaci´on como

140

Estad´ıstica

ρG =

s

1−

σR2 σY2

mientras que ρ2G se denomina coeficiente general de determinaci´on. En cualquier caso, se cumple 0 ≤ ρ2G ≤ 1 −1 ≤ ρG ≤ 1

11.3.1.

Coeficiente de correlaci´ on lineal

Ya que generalmente la regresi´on que m´as se utiliza es la lineal, vamos a estudiar con m´as profundidad el coeficiente de correlaci´on lineal. Si partimos de la recta de regresi´on de Y sobre X calculada en la secci´on 11.2.3, σXY (X − µX ) 2 σX

Y = h1 (X) = µY + La varianza residual ser´a



σR2 = E (Y − h1 (X))

2

=E

"

σXY Y − µY − 2 (X − µX ) σX

2 #

=

  σ2  σXY 2 = E (Y − µY )2 + XY E (X − µ ) − 2 2 E[(Y − µY )(X − µX )] = X 4 σX σX = σY2 +

2 2 σXY σXY σXY 2 2 σ − 2 σ = σ − XY X Y 4 2 2 σX σX σX

Y, el coeficiente de correlaci´on lineal es

ρ =

=

s

σ2 = 1− R σY2

v u u u t

1−

σY2 −

2 σXY 2 σX

σY2

σXY Cov(X, Y ) =p σX σY Var(X) Var(Y )

=

s

1−1+

2 σXY = 2 2 σX σY

que, como se puede comprobar, coincide con el estudiado en la secci´on 7.6.2. Adem´as, el coeficiente de determinaci´on lineal viene dado por

11 Regresi´ on y correlaci´ on

141

2 Cov2 (X, Y ) σXY ρ = 2 2 = σX σY Var(X) Var(Y ) 2

Veamos algunas propiedades de estos coeficientes. • Como ocurre de forma general, 0 ≤ ρ2 ≤ 1 y

−1 ≤ρ≤1

• Los coeficientes de regresi´on lineal, b y b′ , y el coeficiente de correlaci´on lineal, ρ, tie-

nen el mismo signo, pues ´este s´olo depende del signo de Cov(X, Y ). Si Cov(X, Y ) >

0, entonces las rectas de regresi´on son crecientes y el coeficiente de correlaci´on lineal es positivo. Si Cov(X, Y ) < 0, entonces las rectas de regresi´on son decrecientes y el coeficiente de correlaci´on lineal es negativo. • Como b =

σXY σXY y b′ = 2 , entonces, 2 σX σY ρ=

• Como



b b′

b=

σXY σY σY σXY = =ρ 2 σX σX σY σX σX

b′ =

σX σXY σY σXY =ρ = 2 σY σX σY σY σY

las rectas de regresi´on tambi´en se pueden escribir como, Y − µY = ρ

σY (X − µX ) σX

X − µX = ρ

σX (Y − µY ) σY

142

Estad´ıstica

12

Distribuciones de muestreo

´Indice 12.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 12.2. Definici´ on de estad´ıstico . . . . . . . . . . . . . . . . . . . . . . 145 12.3. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . . 145 12.3.1. Poblaci´ on Madre Normal . . . . . . . . . . . . . . . . . . . . . 145 12.3.2. Poblaci´ on Madre no Normal . . . . . . . . . . (n − 1)s2 12.4. Estad´ıstico . . . . . . . . . . . . . . σ2 x ¯−µ . . . . . . . . . . . . . . . . 12.5. Estad´ıstico √ s/ n 12.5.1. Poblaci´ on Madre Normal . . . . . . . . . . .

. . . . . . . . . . 146 . . . . . . . . . . 146 . . . . . . . . . . 147 . . . . . . . . . . 147

12.5.2. Poblaci´ on Madre no Normal . . . . . . . . . . . . . . . . . . . . 148 12.6. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . 148 12.6.1. Poblaci´ on Madre Normal . . . . . . . . . . . . . . . . . . . . . 148 12.6.2. Poblaci´ on Madre no Normal . . . . . . . . . . . . . . . . . . . . 149 12.7. Estad´ıstico desviaci´ on t´ıpica muestral . . . . . . . . . . . . . . 150 12.8. Estad´ıstico diferencia de medias muestrales . . . . . . . . . . . 152 12.9. Estad´ıstico cociente de varianzas muestrales . . . . . . . . . . 153 12.10.Estad´ıstico proporci´ on muestral . . . . . . . . . . . . . . . . . . 154 12.11.Estad´ıstico elemento que ocupa el lugar r . . . . . . . . . . . . 155 12.11.1.Estad´ıstico m´ aximo valor de una muestra . . . . . . . . . . . . 155 12.11.2.Estad´ıstico m´ınimo valor de una muestra . . . . . . . . . . . . 156 12.11.3.Estad´ıstico recorrido de una muestra . . . . . . . . . . . . . . . 156 12.11.4.Estimaci´on de cuantiles . . . . . . . . . . . . . . . . . . . . . . 157

143

144

Estad´ıstica

12.1.

Introducci´ on

Consideremos una poblaci´on de la que necesitamos analizar alguna caracter´ıstica. Lo ideal ser´ıa estudiar todos y cada uno de los elementos de esa poblaci´on, pero esto, en la gran mayor´ıa de las ocasiones resulta dif´ıcil, caro e incluso, a veces, imposible. Ello obliga a elegir un determinado n´ umero de elementos (muestra) de la poblaci´on, analizar en ellos la caracter´ıstica antes mencionada y, de los resultados obtenidos, inferir lo que sucede en la totalidad de la poblaci´on. Esto nos lleva a la Teor´ıa de Muestras. A la poblaci´on objeto del estudio le damos el nombre de Poblaci´on Madre (P.M.). Consideramos ´esta en su totalidad, y por un m´etodo aleatorio elegimos n elementos, obteniendo lo que se llama una muestra de tama˜ no n. Ahora bien, los n elementos se pueden extraer de dos maneras: • Todos a la vez (o uno a uno sin reemplazamiento), con lo cual el n´ umero de! muestras N posibles de tama˜ no n que se pueden obtener est´a determinado por , siendo n N el n´ umero total de elementos de la Poblaci´on Madre. Adem´as, el n´ umero de muestras posibles, considerando todos los tama˜ nos, es finito: ! ! ! N N N + +···+ = 2N − 1 1 2 N Esto dar´a lugar al estudio de unas consecuencias que quedar´an reflejadas en la llamada Teor´ıa de Muestras de Poblaci´on Finita. • La muestra de tama˜ no n se obtiene sacando los elementos uno a uno, con reempla-

zamiento. A este tipo de muestra le daremos el nombre de muestra aleatoria simple (m.a.s.) de tama˜ no n. En este caso, no importa el tama˜ no N de la P.M., que incluso

pudiera ser N < n. Ahora, el n´ umero de muestras posibles, considerando todos los tama˜ nos, es infinito. Esto dar´a lugar al estudio de unas consecuencias que quedar´an reflejadas en la llamada Teor´ıa de Muestras de Poblaci´on Infinita. En general, mientras no se especifique lo contrario, a lo largo de este curso consideraremos siempre que, por defecto, la muestra se ha obtenido con reemplazamiento. Es decir, se trata de una m.a.s. S´olo en el cap´ıtulo 14 daremos una descripci´on de los resultados referentes a las muestras obtenidas sin reemplazamiento.

12 Distribuciones de muestreo

12.2.

145

Definici´ on de estad´ıstico

Consideremos, en un espacio unidimensional, una Poblaci´on Madre definida por su funci´on de densidad f (x). De ella, extraemos una m.a.s. de tama˜ no n, {x1 , x2 , . . . , xn }. Cada uno de los valores xi son extracciones aleatorias e independientes obtenidas de una

P.M. intacta (extracci´on con reemplazamiento). Los posibles valores de cada una de las extracciones, xi , es una variable aleatoria, Xi . Por tanto, con este procedimiento hemos construido una variable aleatoria n-dimensional X = (X1 , X2 , . . . , Xn ), donde todas las v.a. son independientes e id´enticamente distribuidas con la misma distribuci´on que la v.a. asociada a la P.M. Es decir, si la P.M. sigue una distribuci´on N(µ, σ), entonces cada Xi ≡ N(µ, σ).

LLamaremos Estad´ıstico a cualquier funci´on de las n variables aleatorias, T (X) = T (X1 , X2 , . . . , Xn )

El estudio de la teor´ıa de muestras que haremos en este curso estar´a dedicado a obtener la distribuci´on de la variable aleatoria T (X), cuando T (X) sea cierto tipo de funci´on conocida. Incurriendo en un abuso de notaci´on, utilizaremos la expresi´on xi para referirnos tanto a la v.a. Xi , como a un valor de la misma, xi .

12.3.

Estad´ıstico media muestral x ¯=

12.3.1.

n 1X

n

xi

i=1

Poblaci´ on Madre Normal

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que xi ≡ N(µ, σ)

y que las n v.a. son independientes. Entonces, la v.a. x¯ tambi´en sigue una distribuci´on Normal, por ser combinaci´on lineal de v.a. Normales. Adem´as, "

# n n n 1X 1X 1X E[¯ x] = E xi = E[xi ] = µ=µ n i=1 n i=1 n i=1 Var(¯ x) = Var

n 1X xi n i=1

!

n n 1 X 1 X 2 σ2 = 2 Var(xi ) = 2 σ = n i=1 n i=1 n

Por tanto, si la Poblaci´on Madre es N(µ, σ) el estad´ıstico media es

146

Estad´ıstica

√ x¯ ≡ N (µ, σ/ n )

12.3.2.

Poblaci´ on Madre no Normal

Dada una m.a.s., {x1 , . . . , xn } de una P.M.≡ ?(µ, σ) sabemos que xi ≡ ? (µ, σ) y que

las n v.a. son independientes. Entonces, se puede aplicar el Teorema de Levi-Lindeberg. n X i=1

xi − E

" n X

xi

i=1

v ! u n X u tVar xi

#

n¯ x − nµ x¯ − µ = √ = √ −→ N(0, 1) σ/ n nσ 2

i=1

Por tanto,

√ si n > 30 =⇒ x¯ ∼ = N (µ, σ/ n ) √ si n < 30 =⇒ x¯ ≡ ? (µ, σ/ n )

12.4.

Estad´ıstico

(n − 1)s2 σ2

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), definimos la varianza mues-

tral, s2 , como

n

1 X (xi − x¯)2 s = n − 1 i=1 2

Entonces,

12 Distribuciones de muestreo

147

n n (n − 1)s2 1 X 1 X 2 (xi − x¯) = 2 [(xi − µ) − (¯ x − µ)]2 = = σ2 σ 2 i=1 σ i=1

" n # n n X X 1 X 2 2 (xi − µ) + (¯ x − µ) − 2(¯ x − µ) (xi − µ) = = σ 2 i=1 i=1 i=1 # " n 1 X = (xi − µ)2 + n(¯ x − µ)2 − 2n(¯ x − µ)2 = σ 2 i=1 # " n 1 X = (xi − µ)2 − n(¯ x − µ)2 = σ 2 i=1 2 n  X xi − µ

=

σ

i=1





x¯ − µ √ σ/ n

2

Pero,

xi ≡ N(µ, σ)

2 n  X xi − µ xi − µ ≡ N(0, 1) =⇒ ≡ χ2n =⇒ σ σ i=1



x¯ − µ √ ≡ N(0, 1) =⇒ x¯ ≡ N(µ, σ/ n ) =⇒ σ/ n



x¯ − µ √ σ/ n

2

≡ χ21

y, aunque en general la diferencia de dos v.a. Chi-cuadrado no sigue una distribuci´on Chi-cuadrado, en este caso especial se puede demostrar que (n − 1)s2 ≡ χ2n−1 2 σ

x ¯−µ √ s/ n

12.5.

Estad´ıstico

12.5.1.

Poblaci´ on Madre Normal

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sabemos que   x¯ − µ σ √ ≡ N(0, 1) =⇒ x¯ ≡ N µ, √ n σ/ n

148

Estad´ıstica

Por otra parte,

(n − 1)s2 ≡ χ2n−1 σ2

entonces, dividiendo,

Por tanto,

x¯ − µ √ N(0, 1) x¯ − µ σ/ n r =r 2 = √ ≡ tn−1 2 s/ n χn−1 (n − 1)s 1 2 σ n−1 n−1 x¯ − µ √ ≡ tn−1 s/ n

12.5.2.

Poblaci´ on Madre no Normal

Aunque la P.M. no sea Normal, si el tama˜ no de muestra es suficientemente grande, se puede hacer la aproximaci´on σ 2 ≃ s2 y aplicar el Teorema de Levy-Lindeberg. As´ı, si n > 30 =⇒

x¯ − µ ∼ √ = N(0, 1) s/ n

si n < 30 =⇒ —

12.6.

Estad´ıstico varianza muestral 2

s =

12.6.1.

1 n−1

n X i=1

(xi − x ¯ )2

Poblaci´ on Madre Normal

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), tenemos

entonces,

σ2 (n − 1)s2 2 2 ≡ χn−1 =⇒ s = X X= σ2 n−1 E[s2 ] =

σ2 σ2 E[X] = (n − 1) = σ 2 n−1 n−1

Var(s2 ) =

σ4 σ4 2σ 4 Var(X) = 2(n − 1) = (n − 1)2 (n − 1)2 n−1

12 Distribuciones de muestreo

149

Por tanto, r  2 2 ∼ si n > 100 =⇒ s = N σ , σ 2

2

si n < 100 =⇒ s ≡ ?

12.6.2.



2

σ ,σ

2

r

2 n−1

2 n−1





Poblaci´ on Madre no Normal

Aunque la P.M. no sea Normal, utilizando el desarrollo del apartado 12.4, llegamos a n

n 1 X (xi − µ)2 − (¯ x − µ)2 s = n − 1 i=1 n−1 2

y, por tanto

n

1 X n E[s ] = E[(xi − µ)2 ] − E[(¯ x − µ)2 ] n − 1 i=1 n−1 2

Pero,

E[xi ] = µ =⇒ E[(xi − µ)2 ] = Var(xi ) = σ 2 E[¯ x] = µ =⇒ E[(¯ x − µ)2 ] = Var(¯ x) =

σ2 n

entonces, n σ2 n 2 σ − = σ2 E[s ] = n−1 n−1 n Operando se puede demostrar tambi´en que 2

2

Var(s ) = σ

4



CAp 2 + n−1 n



siendo CAp el coeficiente de apuntamiendo o curtosis de la poblaci´on que, en caso de ser desconocido, se puede aproximar por el coeficiente de curtosis de la muestra. Por tanto r   2 CAp 2 2 2 ∼ + s = ? σ ,σ n−1 n

150

Estad´ıstica

12.7.

Estad´ıstico desviaci´ on t´ıpica muestral s=

"

1 n−1

n X i=1

(xi − x ¯)

2

#1/2

Dada una m.a.s., {x1 , . . . , xn }, de una P.M.≡ N(µ, σ), sea X=

n−1 2 s ≡ χ2n−1 σ2

=⇒

fX (x) =

n−3 x 1  x 2 e− 2 ,  n−1 n−1 2 2 Γ 2

x>0

σ2 X, es decir, Y = s2 . Entonces n−1   n−3 2 n−1 n−1 n−1 1   gY (y) = e− 2σ2 y y , y>0 2 n−1 n−1 σ σ2 2 2 Γ 2 √ Hacemos el cambio de variable T = Y , es decir, T = s. Entonces Hacemos el cambio de variable Y =

y, operando

1   hT (t) = n−1 n−1 2 2 Γ 2

n−1 2 t σ2

 n−3 2

n−1 2

e− 2σ2 t

 n−1 n−1 2 2 n−1 2 2   tn−2 e− 2σ2 t , hT (t) = n−1 σ n−1 Γ 2 

Entonces,



n−1 2t , σ2

t>0

t>0

12 Distribuciones de muestreo

151



 n−1 n−1 2 Z ∞ Z ∞ 2 n−1 2 2   E[T ] = t hT (t) dt = tn−1 e− 2σ2 t dt = n−1 0 0 σ n−1 Γ 2  n−1 n−1 2 Z ∞ 2 2   = n−1 0 n−1 σ Γ 2 

= σ

= σ

r r

1 2   n −1 n−1 Γ 2

√ !n−1 1 σ √ σ 2u √ n − 1 √ du = e−u √ 2 u n−1 2 Z



n

u 2 −1 e−u du =

0

n Γ 2  2  n−1 n−1 Γ 2

donde, para calcular la integral hemos realizado el cambio Por otra parte,



√ n−1 u= √ 2σ

E[T 2 ] = E[s2 ] = σ 2 Y, por u ´ ltimo, la varianza de T viene dada por 

 2 Var(T ) = E[T ] − (E[T ]) =  1 − n − 1 2

2

Por tanto, la distribuci´on del estad´ıstico s es  r ∼ si n > 100 =⇒ s = N σ, σ 

 si n < 100 =⇒ s ≡ ?  σ

r

1 2(n − 1)

n



Γ2  2  2  σ n−1  2 Γ 2



v   u 2 n u Γ Γ 2 2 u  2  , σ u1 −  2  t n − 1 n−1 n−1 2 n−1 Γ Γ 2 2 n

   

152

Estad´ıstica

12.8.

Estad´ıstico diferencia de medias muestrales

De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )

extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1, y2 , . . . , ym }, de tama˜ nos n y m, con medias y varianzas

n

n

1X x¯ = xi n i=1

1 X = (xi − x¯)2 n − 1 i=1

s2x

m

m

1 X 1 X y¯ = yi s2y = (yi − y¯)2 m i=1 m − 1 i=1

Definimos el estad´ıstico diferencia de medias como n

x¯ − y¯ =

m

1X 1 X xi − yi n i=1 m i=1

• Si σx y σy son conocidos  √  x¯ ≡ N (µx , σx / n )             

=⇒

√ y¯ ≡ N (µy , σy / m )

(¯ x − y¯) − (µx − µy ) r ≡ N (0, 1) σx2 σy2 + n m

• Si σx y σy son desconocidos ◦ si σx2 = σy2 = σ 2  (¯ x − y¯) − (µx − µy )   r ≡ N (0, 1)    1 1   + σ   n m   

         2 2    (n − 1)sx + (m − 1)sy ≡ χ2 n+m−2 σ2

donde

Sp =

s

=⇒

(¯ x − y¯) − (µx − µy ) r ≡ tn+m−2 1 1 Sp + n m

(n − 1)s2x + (m − 1)s2y n+m−2

12 Distribuciones de muestreo

153

◦ si σx2 6= σy2 (¯ x − y¯) − (µx − µy ) ∼ r = tγ s2x s2y + n m donde,

s2y s2x A= , B= n m

(A + B)2 γ= A2 B2 + n−1 m−1

12.9.

Estad´ıstico cociente de varianzas muestrales

De dos Poblaciones Normales P.M.= X ≡ N (µx , σx ) y P.M.= Y ≡ N (µy , σy )

extraemos dos muestras independientes, {x1 , x2 , . . . , xn } y {y1 , y2 , . . . , ym}, de tama˜ nos n y m, con medias y varianzas

n

n

1X xi x¯ = n i=1

s2x

1 X = (xi − x¯)2 n − 1 i=1

m

m

1 X 1 X y¯ = yi s2y = (yi − y¯)2 m i=1 m − 1 i=1

Definimos el estad´ıstico cociente de varianzas como n

s2x = s2y Del apartado 12.4 sabemos que

1 X (xi − x¯)2 n − 1 i=1 m

1 X (yi − y¯)2 m − 1 i=1

(n − 1)s2x ≡ χ2n−1 σx2 (m − 1)s2y ≡ χ2m−1 σy2 entonces, como

χ2n−1 /(n−1) χ2m−1 /(m−1)

≡ Fn−1,m−1 , s2x /σx2 ≡ Fn−1,m−1 s2y /σy2

154

Estad´ıstica

12.10.

Estad´ıstico proporci´ on muestral

Partimos de una P.M. Binomial de par´ametro p, es decir, p es la proporci´on de ´exitos de la Poblaci´on. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores ( 1 si es ´exito xi = 0 si es fracaso es decir, cada v.a. xi ≡ B(1, p) Sean las v.a.

X ≡ n´ umero de ´exitos de la muestra pb ≡ proporci´on de ´exitos de la muestra Entonces,

X=

n X i=1

"

n

1X X xi ≡ B(n, p) y pb = xi = n i=1 n

# n n 1X 1X 1 E[b p] = E xi = E[xi ] = np = p n i=1 n i=1 n n

Var(b p) = Var

1X xi n i=1

!

n 1 X 1 p(1 − p) Var(x ) = np(1 − p) = i n2 i=1 n2 n

=

Aplicando el Teorema de Levy-Lindeberg n X i=1

xi − E

" n X i=1

xi

v ! u n X u tVar xi

#

=

i=1

Por tanto,

si n > 30 =⇒ pb ∼ = N p, si n < 30 =⇒ pb ≡ ?

p,

r

r

nb p − np pb − p −→ N(0, 1) =r √ np p(1 − p) n

p(1 − p) n

p(1 − p) n

!

!

  p y X ∼ = N np, np(1 − p) y X ≡ B(n, p)

12 Distribuciones de muestreo

12.11.

155

Estad´ıstico elemento que ocupa el lugar r

En ocasiones no estamos interesados en estimar un par´ametro de la poblaci´on sino, por ejemplo, el valor m´aximo o m´ınimo que puede tomar. As´ı, podemos interesarnos por la temperatura m´axima en vez de por la temperatura media. De esta forma surge el estad´ıstico que estima el lugar que ocupa un elemento de la muestra, al ordenarla de forma creciente. Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un r − 1 elementos ur−1

n − r elementos

1 elemento ur

ur + dur

ur+1

n g(ur )dur = [P (X < ur )]r−1 P (ur < X ≤ ur + dur ) [P (X > ur )]n−r P Rr−1,1,n−r

g(ur )dur = Por tanto,

g(ur ) =

12.11.1.

n! [F (ur )]r−1 f (ur )dur [1 − F (ur )]n−r (r − 1)! 1! (n − r)!

n! [F (ur )]r−1 f (ur ) [1 − F (ur )]n−r (r − 1)! 1! (n − r)!

ur ∈ R

Estad´ıstico m´ aximo valor de una muestra

Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un

Utilizando el mismo razonamiento que en la Sec. 12.11, el valor m´aximo de la muestra

viene dado por un , por tanto, g(un ) = n [F (un )]n−1 f (un )

un ∈ R

156

Estad´ıstica

12.11.2.

Estad´ıstico m´ınimo valor de una muestra

Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un

Utilizando el mismo razonamiento que en la Sec. 12.11, el valor m´ınimo de la muestra

viene dado por u1 , por tanto, g(u1) = n f (u1) [1 − F (u1 )]n−1

12.11.3.

u1 ∈ R

Estad´ıstico recorrido de una muestra

Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un As´ı, se define el recorrido de una muestra como

R = max{xi } − min{xi } = un − u1 Utilizando el mismo razonamiento que en la Sec. 12.11, se puede obtener la funci´on de densidad conjunta, g(ui , uj ), del lugar que ocupan dos elementos de la muestra, con i<j

g(ui, uj )dui duj = [P (X < ui )]i−1 × P (ui < X ≤ ui + dui ) × [P (ui < X < uj )]j−i−1 × n ×P (uj < X ≤ uj + duj ) × [P (X > uj )]n−j × P R i−1,1,j−i−1,1,n−j

Por tanto,

g(ui , uj ) =

n! × [F (ui )]i−1 × f (ui )× (i − 1)! (j − i − 1)! (n − j)! ×[F (uj ) − F (ui )]j−i−1 × f (uj ) × [1 − F (uj )]n−j

ui ≤ uj

Como R = un − u1 , entonces, un = R + u1 , y en particular g(u1 , un ) =

n! [F (un ) − F (u1 )]n−2 f (u1 )f (un ) (n − 2)!

− ∞ ≤ u1 ≤ un ≤ +∞

12 Distribuciones de muestreo

157

por lo que g(u1 , R) = n(n − 1) [F (R + u1 ) − F (u1)]n−2 f (u1 )f (R + u1 ) y la funci´on de densidad de R ser´a la marginal de g(u1, R), es decir

gR (R) =

Z

+∞

g(u1, R) du1 =

−∞

Z

+∞

−∞

n(n − 1) [F (R + u1 ) − F (u1)]n−2 f (u1)f (R + u1 ) du1

Mientras que la funci´on de distribuci´on de R se puede expresar como

GR (R) =

12.11.4.

Z

R 0

Z

+∞

g(u1 , R) du1 −∞



=n

Z

+∞

−∞

[F (R + u1 ) − F (u1)]n−1 f (u1 ) du1

Estimaci´ on de cuantiles

Sea X la v.a. continua asociada a una P.M. con funciones de distribuci´on y densidad F (x) y f (x), respectivamente. Extraemos una m.a.s. {x1 , . . . , xn } y la ordenamos en forma creciente, quedando de la forma {u1 , . . . , un }, con u1 ≤ u2 ≤ · · · ≤ ur ≤ · · · ≤ un .

Definimos el estimador, x bp , del p-cuantil poblacional, xp , como el p-cuantil de la muestra, es decir

x bp =

  u   [np]+1

Si np ∈ /Z

   1 (u + u np np+1 ) Si np ∈ Z 2 donde los corchetes, [ ], indican la parte entera. Si f (xp ) > 0, el estimador p-cuantil tiene una distribuci´on asint´oticamente Normal, con E[b xp ] ≃ xp

y

Var(b xp ) ≃

p(1 − p) nf 2 (xp )

Ejemplo.- Dada una P.M.≡ N(µ, σ) con funci´on de densidad dada por (  2 ) 1 x−µ 1 exp − f (x) = √ x∈R 2 σ 2πσ Un estimador de la mediana poblacional, Me, ser´ıa la mediana muestral, x e. Si la

muestra es suficientemente grande, entonces

158

Estad´ıstica

E[e x] ≃ Me = µ 0.5 × 0.5 πσ 2 2 =  2n 1 n √ 2πσ donde hemos utilizado el hecho de que en una distribuci´on Normal, Me = µ. As´ı, r   π x e∼ = N µ, σ 2n Var(e x) ≃

p(1 − p) = nf 2 (Me)

13

Estimaci´on puntual y estimaci´on por intervalo

´Indice 13.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 13.2. Propiedades deseables de los estimadores puntuales

. . . . . 163

13.2.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . 163 13.2.2. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . 164 13.2.3. Error cuadr´atico medio . . . . . . . . . . . . . . . . . . . . . . 165 13.2.4. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . 166 13.2.5. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . 167 13.2.5.1. Teorema (Cota de Cram´er-Rao) . . . . . . . . . . . . 168 13.3. M´ etodos de estimaci´ on puntual . . . . . . . . . . . . . . . . . . 170 13.3.1. M´etodo de m´ axima verosimilitud . . . . . . . . . . . . . . . . . 170 13.3.2. Propiedades de los estimadores de m´ axima verosimilitud . . . . 172 13.3.3. M´etodo de los momentos

. . . . . . . . . . . . . . . . . . . . . 173

13.4. Estimaci´ on por intervalo de confianza . . . . . . . . . . . . . . 174 13.4.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . 176 13.4.1.1. P.M. ≡ N(µ, σ) con σ conocido . . . . . . . . . . . . 176

13.4.1.2. P.M. ≡ N(µ, σ) con σ desconocido . . . . . . . . . . 177

13.4.1.3. P.M. ≡ ?(µ, σ) con σ conocido y n > 30 . . . . . . . 178

13.4.1.4. P.M. ≡ ?(µ, σ) con σ conocido y n < 30 . . . . . . . 178 13.4.1.5. P.M. ≡ ?(µ, σ) con σ desconocido y n > 30 . . . . . 179

13.4.1.6. P.M. ≡ ?(µ, σ) con σ desconocido y n < 30 . . . . . 179

13.4.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . 179

13.4.2.1. P.M. ≡ N(µ, σ) con µ desconocido . . . . . . . . . . 179

159

160 13.4.3. Intervalo de confianza para la diferencia de medias . . . . . . . 180 13.4.3.1. P.M. Normales con σx y σy conocidas . . . . . . . . . 181 13.4.3.2. P.M. Normales con σx2 = σy2 = σ2 desconocida . . . 181 13.4.3.3. P.M. Normales con σx2 6= σy2 desconocidas . . . . . . 182

13.4.4. Intervalo de confianza para el cociente de varianzas . . . . . . . 182 13.4.5. Intervalo de confianza para la proporci´ on poblacional . . . . . . 183

13.4.5.1. P.M. Binomial y n > 30 . . . . . . . . . . . . . . . . 184 13.5. Intervalo de confianza asint´ otico . . . . . . . . . . . . . . . . . 185

13 Estimaci´ on puntual y estimaci´ on por intervalo

13.1.

161

Introducci´ on

En el cap´ıtulo anterior hemos calculado la distribuci´on de algunos estad´ısticos y mencionado brevemente que los estad´ısticos se utilizan para estimar los valores de par´ametros desconocidos de una poblaci´on. En este cap´ıtulo se examinar´a con detalle el concepto de estimaci´on de par´ametros mediante la especificaci´on de las propiedades deseables de los estimadores (estad´ısticos), y el desarrollo de t´ecnicas apropiadas para implementar el proceso de estimaci´on. Se utilizar´a el punto de vista de la teor´ıa de muestras, que considera a un par´ametro poblacional como una cantidad fija (nunca una v.a.), pero desconocida. La estimaci´on de un par´ametro de la poblaci´on involucra el uso de los datos muestrales en conjunci´on con alg´ un estad´ıstico. Existen dos formas de realizar la estimaci´on: la estimaci´on puntual y la estimaci´on por intervalo. En la primera, se busca un estimador que, con base en los datos muestrales, d´e origen a una estimaci´on univaluada del valor del par´ametro poblacional, y que recibe el nombre de valor estimado. Para la segunda, se determina un intervalo en el que, en forma probable, se encuentra el valor del par´ametro. Este intervalo recibe el nombre de intervalo de confianza. Antes de entrar en materia, vamos a ver algunas definiciones que ser´an de utilidad. En general, el planteamiento del problema es el siguiente • En una P.M. definida por su funci´on de distribuci´on F (x, θ) existe un par´ametro, θ, cuyo valor es desconocido.

• Para poder asignar un valor a dicho par´ametro θ, extraemos una muestra aleatoria de tama˜ no n, X = {x1 , . . . , xn }.

b = T (X), que supone • Con los datos de la muestra, construimos un estad´ıstico, Θ una simplificaci´on de la informaci´on proporcionada por la muestra.

´ N DE VEROSIMILITUD DE LA MUESTRA FUNCIo Puesto que las n variables aleatorias de la muestra constituyen una v.a. n-dimensional, {x1 , . . . , xn }, se llama funci´on de verosimilitud de la muestra a la funci´on de densidad de dicha v.a. n-dimensional, y se denota por L(x1 , . . . , xn , θ).

∗ Si la P.M. es una v.a. continua con funci´on de densidad f (x, θ), y la muestra es aleatoria simple; entonces las n v.a. son independientes e id´enticamente distribuidas seg´ un la distribuci´on de la P.M. Por tanto, L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ)

162

Estad´ıstica

∗ Si la P.M. es una v.a. discreta, sea como sea la muestra aleatoria, con o sin reemplazamiento,

L(x1 , . . . , xn , θ) = P (de que salga la muestra obtenida) ´ PUNTUAL ESTIMACION b de un par´ametro poblacional θ, es un valor u Una estimaci´on puntual, θ, ´ nico del b Por ejemplo, el valor x¯ del estad´ıstico media muestral, X, ¯ calculado a partir estad´ıstico Θ.

de una muestra de tama˜ no n, es una estimaci´on puntual del par´ametro media poblacional µ.

ESTIMADOR El estad´ıstico que se utiliza para obtener una estimaci´on puntual es un estimador. Por ejemplo, el estad´ıstico varianza muestral, s2 , que es una funci´on de la muestra aleatoria, es un estimador de σ 2 . ESTIMADOR SUFICIENTE Estimador suficiente es el que proporciona la m´axima informaci´on posible sobre el par´ametro poblacional, θ, una vez determinado el tama˜ no n de la muestra. ESTIMADOR CONSISTENTE b es un estimador consistente del par´ametro θ si Se dice que un estad´ıstico, Θ, b − θ| ≤ ǫ) = 1 P (|Θ

cuando

n→∞

ESTIMADOR INSESGADO

b es un estimador insesgado del par´ametro θ si Se dice que un estad´ıstico, Θ, ESTIMADOR SESGADO

b =θ E[Θ]

b es un estimador sesgado del par´ametro θ si Se dice que un estad´ıstico, Θ, y b(θ) recibe el nombre de sesgo.

b = θ + b(θ) E[Θ]

ESTIMADOR EFICIENTE Si se consideran todos los posibles estimadores insesgados de un par´ametro poblacional, θ, aqu´el que tenga la varianza m´as peque˜ na se dir´a que es el estimador m´as eficiente.

13 Estimaci´ on puntual y estimaci´ on por intervalo

13.2.

163

Propiedades deseables de los estimadores puntuales

13.2.1.

Estimador suficiente

Un estad´ıstico T (X) es suficiente, si el conocimiento pormenorizado de los elementos de la muestra no a˜ nade ninguna informaci´on sobre θ que no proporcione la simplificaci´on T (X). Una definici´on m´as t´ecnica ser´ıa que un estad´ıstico T (X) es suficiente respecto al par´ametro θ, si la funci´on de distribuci´on de la muestra, condicionada por un valor del estad´ıstico (o sea, F (X|T (X)=t )) no depende de θ. Ejemplo.- De una P.M. Binomial, desconocemos la proporci´on de ´exitos. Es decir, θ = p es desconocido. Extraemos una m.a.s. de tama˜ no n = 50, {x1 , . . . , x50 }, de tal forma que ( 1 si es ´exito xi = 0 si es fracaso Construyo dos estad´ısticos T1 (X) =

50 X

xi

i=1

T2 (X) = m´ax {xi } Con los datos de la muestra obtenemos los valores de los estad´ısticos t1 = T1 (x) =

50 X

xi = 35

i=1

t2 = T2 (x) = m´ax {xi } = 1 En el primer caso, el hecho de que t1 = 35 significa que en la muestra han aparecido exactamente 35 ´exitos de 50 casos muestreados. Para realizar una estimaci´on de la proporci´on de ´exitos de la poblaci´on, me basta con este dato, podr´ıa suponer de forma razonable que p ≈ 35/50. No necesito conocer cu´ales de los elementos muestreados son

´exitos. Es decir, no necesito conocer de forma pormenorizada el valor de cada uno de los elementos de la muestra. En el segundo caso, sin embargo, el hecho de que t2 = 1 significa que en la muestra ha aparecido al menos un ´exito entre los 50 casos muestreados. En este caso, el conocimiento

164

Estad´ıstica

pormenorizado de los valores de la muestra s´ı a˜ nadir´ıa informaci´on, y bastante, sobre el posible valor de p. Claramente, T1 (X) es un estimador suficiente del par´ametro p, mientras que T2 (X) no lo es.

13.2.2.

Estimador consistente

Como hemos visto en el ejemplo anterior, los valores obtenidos con las muestras nos van a servir para estimar el verdadero valor del par´ametro θ desconocido. As´ı pues, es razonable pensar que un buen estimador debe ser capaz de aproximarse mejor al valor del par´ametro a medida que aumenta el tama˜ no de la muestra. Siguiendo con el ejemplo de la P.M. binomial, si en vez de una muestra de tama˜ no n = 50, saco una muestra de tama˜ no n = 5000, es de esperar que la proporci´on de ´exitos en esta segunda muestra se aproxime m´as al verdadero valor de p que los 35/50 obtenidos con la primera muestra. Sea T (X) un estimador de θ, y sean T1 (X), . . . , Tn (X) una secuencia de estimadores que representan a T con distintos tama˜ nos de muestra 1, . . . , n, respectivamente. Se dice que T es un estimador consistente para θ si l´ım P (|Tn − θ| ≤ ε) = 1

n→∞

Ejemplo.- Tenemos una P.M. con distribuci´on no Normal y media desconocida, es decir, θ = µ. Extraemos muestras de distintos tama˜ nos, y construimos los estad´ısticos n

1X Tn (X) = x¯n = xi n i=1

n = 1, 2, 3, . . .

De cada una de estas v.a. sabemos que E[¯ xn ] = µ y Var(¯ xn ) = σ 2 /n. Por el teorema de Chebychev,   p √  1 1 xn ) ≥ 1 − 2 =⇒ P |¯ P |¯ xn − E[¯ xn ]| ≤ k Var(¯ xn − µ| ≤ kσ/ n ≥ 1 − 2 k k √ n ε, tomando k = σ P (|¯ xn − µ| ≤ ε) ≥ 1 −

σ2 =⇒ l´ım P (|¯ xn − µ| ≤ ε) = 1 n→∞ nε2

Es decir, cuanto mayor es el tama˜ no de la muestra, m´as se aproxima el valor de la media muestral al valor de la media poblacional. Por tanto, la media muestral es un estimador consistente de la media poblacional.

13 Estimaci´ on puntual y estimaci´ on por intervalo

13.2.3.

165

Error cuadr´ atico medio

b se utiliza para estimar el valor de un par´ametro de Puesto que un estimador, Θ,

la poblaci´on, θ, es conveniente que el valor esperado del estimador coincida con el valor del par´ametro que va a estimar. Para que las diferencias negativas no se cancelen con las positivas, se define el Error Cuadr´atico Medio (ECM) como, i h b − θ)2 ECM = E (Θ

b es una v.a. (funci´on de Si desarrollamos esta expresi´on, teniendo en cuenta que Θ

los elementos de la muestra) y θ es una constante (par´ametro desconocido de la P.M.),  2  i h 2 b − E[Θ]) b − (θ − E[Θ]) b b − θ) = E (Θ = ECM = E (Θ     2  2 h i b b b b b b = E Θ − E[Θ] + E θ − E[Θ] − 2(θ − E[Θ])E Θ − E[Θ] =  2 b + θ − E[Θ] b = Var(Θ) −0

Es decir,

i  2 h b + θ − E[Θ] b b − θ)2 = Var(Θ) ECM = E (Θ

El ECM es la suma de dos cantidades no negativas, una es la varianza del estimador y la otra es el cuadrado del sesgo del estimador. Estas dos cantidades est´an relacionadas con las propiedades deseables de un estimador. Por una parte, la varianza (dispersi´on) de un estimador debe ser lo m´as peque˜ na posible y, por otra, el valor esperado del estimador debe coincidir con el valor del par´ametro a estimar. Por tanto, el problema de encontrar el mejor estimador de θ se puede plantear, de forma simplificada, en t´erminos de encontrar el estimador que tenga el ECM m´as peque˜ no de entre todos los estimadores factibles de θ. Sin embargo, en realidad el problema es mucho m´as complicado. Aun si fuese pr´actico calcular el ECM de un gran n´ umero de estimadores, para la mayor´ıa de los par´ametros poblacionales no existe ning´ un estimador que minimice el ECM para todos los posibles b 1 , puede tener un ECM m´ınimo para algunos valores valores de θ. Es decir, un estimador, Θ

b 2 , tendr´a la misma propiedad para otros valores de de θ, mientras que otro estimador, Θ

θ.

166

Estad´ıstica

Ejemplo.- De una P.M. se extrae una m.a.s. {x1 , . . . , xn }, de la cual se sabe que E[xi ] = µ y Var(xi ) = σ 2 ∀i = 1, n. Consideramos dos estimadores de la media n

X b 1 = x¯ = 1 Θ xi n i=1 n

Entonces  n 1X   b  E[Θ1 ] = E[xi ] = µ   n i=1  

b2 = Θ

1 X xi n + 1 i=1

b 1) = =⇒ ECM(Θ

 n  X  σ2   b 1) = 1  Var( Θ Var(x ) = i  n2 i=1 n

 n 1 X n   b  E[Θ2 ] = µ E[xi ] =   n + 1 i=1 n+1  

 n  X  1 n   b  Var(xi ) = σ2  Var(Θ2 ) = (n + 1)2 2 (n + 1) i=1

σ2 n

b 2) = =⇒ ECM(Θ

µ2 + nσ 2 (n + 1)2

Si n = 10 y σ 2 = 100, entonces,

b 1 ) = 10 ECM(Θ 2 b 2 ) = µ + 1000 ECM(Θ 121

Al igualar ambas expresiones y resolver para µ, se tiene que si µ < si µ >





b 1 ) > ECM(Θ b 2) 210 =⇒ ECM(Θ b 1 ) < ECM(Θ b 2) 210 =⇒ ECM(Θ

Por esta raz´on, se deben examinar criterios adicionales para la selecci´on de los estimadores de θ, aun cuando el error cuadr´atico medio es el concepto m´as importante.

13.2.4. que

Estimador insesgado

b es un estimador insesgado del par´ametro θ, si cumple Se dice que un estimador Θ b =θ E[Θ]

13 Estimaci´ on puntual y estimaci´ on por intervalo

167

para todos los posibles valores de θ. De esta forma, para cualquier estimador insesgado, b se cumple que ECM=Var(Θ). b Como vimos en el cap´ıtulo anterior, sea como sea la Θ,

P.M., la esperanza de la media muestral coincide con la media poblacional. Por tanto, la

media de la muestra, x¯, es un estimador insesgado de µ.

Si un estimador no es insesgado, se dice que es sesgado, y se llama sesgo a la funci´on b − θ. El sesgo puede ser positivo, lo cual implica que el estimador en (no v.a.) b(θ) = E[Θ]

cuesti´on est´a sobrevalorando, en media, el valor de θ; o puede ser negativo, lo cual implica que el estimador en cuesti´on est´a infravalorando, en media, el valor de θ.

Ejemplo.- De una P.M.≡ N(µ, σ) extraemos una m.a.s., {x1 , . . . , xn }, y construimos dos

estimadores de la varianza,

n

b 1 = s2 = Θ

1 X (xi − x¯)2 n − 1 i=1

n

X b2 = 1 Θ (xi − x¯)2 n i=1

En la secci´on 12.4 vimos que, si la poblaci´on es Normal, entonces (n − 1)s2 /σ 2 ≡

χ2n−1 . Por tanto,

b 1 ] = E[s2 ] = E[Θ

σ2 E[χ2n−1 ] = σ 2 n−1

n−1 2 1 n−1 b E[Θ1 ] = σ = σ2 − σ2 n n n P 2 2 b 1 = s = (xi − x¯) /(n − 1) es un estimador Por tanto, la varianza muestral, Θ b 2 = P(xi − x¯)2 /n es un insesgado de la varianza de la poblaci´on, σ 2 . En cambio, Θ b 2 es b(θ) = −θ/n < 0, es decir, el estimador estimador sesgado de σ 2 . Adem´as, el sesgo de Θ b 2] = E[Θ

b 2 est´a infravalorando, en media, el verdadero valor de la varianza de la poblaci´on σ 2 . Θ

Esta es la raz´on por la cual se define la varianza muestral con el dividendo igual a n − 1

en vez de igual a n. Por u ´ ltimo, hay que se˜ nalar que el hecho de que s2 sea un estimador insesgado de σ 2 , no implica que s sea un estimador insesgado de σ (ver Sec. 12.7).

13.2.5.

Estimador eficiente

Sin perder de vista el hecho de que estamos buscando aquellos estimadores con ECM b m´ınimo, si consideramos los estimadores insesgados, para ellos se cumple ECM=Var(Θ).

Por tanto, el problema se reduce a encontrar un estimador insesgado que tenga varianza b es un estimador insesgado de varianza m´ınima. En general, se dice que el estimador Θ

168

Estad´ıstica

b = θ), y Var(Θ) b es menor que la varianza de m´ınima uniforme de θ, si es insesgado (E[Θ] cualquier otro estimador de θ para todos los posibles valores de θ.

La varianza de un estimador insesgado es la cantidad m´as importante para decidir b1 y Θ b 2 son dos estimadores c´omo de bueno es el estimador para estimar θ. Por ejemplo, si Θ

b 1 es m´as eficiente que Θ b 2 si Var(Θ b 1 ) ≤Var(Θ b 2 ), cumpli´endose insesgados de θ, se dice que Θ

la desigualdad en el sentido estricto para alg´ un valor de θ. Es muy com´ un utilizar el b 1 )/Var(Θ b 2 ) para determinar la eficiencia relativa de Θ b 1 respecto a Θ b 2 . Si cociente Var(Θ

los estimadores son sesgados, las eficiencias relativas se calculan con los respectivos errores cuadr´aticos medios.

Pero, dicho todo esto, seguimos teniendo un problema. Una vez que tenemos un estimador y conocemos su varianza, ¿c´omo podemos saber si existe otro estimador con una varianza m´as peque˜ na? Para resolverlo, recurrimos al siguiente teorema. 13.2.5.1.

Teorema (Cota de Cram´ er-Rao)

Dada una P.M. con funci´on de densidad f (x, θ) y una muestra aleatoria simple de b es un estimador de θ, entonces se cumple tama˜ no n, {x1 , . . . , xn }, si Θ b ≥ Var(Θ)

E



(1 + b′ (θ))2

∂Ln L(x1 , . . . , xn , θ) ∂θ

2 =

(1 + b′ (θ))2 − (1 + b′ (θ))2 " #   2 = 2 ∂ Ln f (x, θ) ∂Ln f (x, θ) nE nE ∂2θ ∂θ

b y L(x1 , . . . , xn , θ) la funci´on de verosimilitud de la muestra. siendo b(θ) el sesgo de Θ

La primera expresi´on a la derecha de la desigualdad se conoce como cota de Cram´erRao. El resto de igualdades representan distintas versiones, generalmente m´as sencillas

de calcular, de dicha cota. Lo primero que debemos observar es que, si el estimador es insesgado, entonces b(θ) = 0. La cota de Cram´er-Rao establece un l´ımite inferior para la varianza de cualquier estimador de θ. Esto no implica necesariamente que deba existir un estimador de θ cuya varianza coincida con la cota de Cram´er-Rao. Es decir, es posible encontrar un estimador de θ que tenga la varianza m´as peque˜ na posible de entre todos los estimadores de θ, pero cuya varianza sea m´as grande que el l´ımite inferior establecido por la cota de Cram´er-Rao. Este estimador, en el caso de que adem´as fuera insesgado, seguir´ıa siendo un estimador insesgado de varianza m´ınima uniforme para θ. Un estimador cuya varianza coincide con la cota de Cram´er-Rao se dice que es un estimador eficiente. Si, adem´as, es insesgado, se llama estimador de eficiencia absoluta o

13 Estimaci´ on puntual y estimaci´ on por intervalo

169

completa. De esta forma, un estimador de θ de eficiencia absoluta es el mejor estimador de θ que se puede encontrar. Ejemplo.- De una P.M.≡ N(µ, σ), con σ conocido y θ = µ desconocido, se extrae una m.a.s. de tama˜ no n, {x1 , . . . , xn }. Como estimador de la media de la poblaci´on, utilizamos la media muestral

n

X b = x¯ = 1 Θ xi n i=1

√ de la que sabemos que su distribuci´on es x¯ ≡ N(µ, σ/ n ). Por tanto, E[¯ x] = µ = θ =⇒ es insesgado =⇒ b(θ) = 0 σ2 Var(¯ x) = n Vamos a calcular la cota de Cram´er-Rao (CCR) de los estimadores insesgados de la media de una poblaci´on Normal. CCR = nE

"

1 ∂Ln f (x, θ) ∂θ

2 # =

−1  ∂ Ln f (x, θ) nE ∂2θ 

2

Como P.M.≡ N(µ, σ), su funci´on de densidad es de la forma 1 2 1 f (x, θ) = √ e− 2σ2 (x−θ) σ 2π

entonces Ln f (x, θ) = Ln



1 √ σ 2π





1 (x − θ)2 2σ 2

∂Ln f (x, θ) 1 = 2 (x − θ) ∂θ σ 1 ∂ 2 Ln f (x, θ) =− 2 2 ∂ θ σ

Por tanto,



   ∂ 2 Ln f (x, θ) 1 1 E =E − 2 =− 2 2 ∂ θ σ σ

CCR =

Es decir,

σ2 −1  = n ∂ 2 Ln f (x, θ) nE 2 ∂ θ 

Var(¯ x) = CCR

170

Estad´ıstica

y, adem´as, x¯ es insesgado. Entonces, la media muestral de una poblaci´on Normal es un estimador de eficiencia absoluta de la media poblacional. Por u ´ ltimo, hay que se˜ nalar que, como se ha visto en este ejemplo, para calcular la cota de Cram´er-Rao es necesario conocer la distribuci´on de la P.M.

13.3.

M´ etodos de estimaci´ on puntual

En las secciones anteriores hemos comentado ampliamente las propiedades que debe tener un buen estimador. Incluso hemos visto, a trav´es de los ejemplos, que un estimador de la media poblacional podr´ıa ser la media muestral, un estimador de la varianza poblacional podr´ıa ser la varianza muestral, y un estimador de la proporci´on de ´exitos de la poblaci´on podr´ıa ser la proporci´on de ´exitos de la muestra. Pero, ¿qu´e ocurre si el par´ametro θ de la poblaci´on no es ni su media, ni su varianza ni su proporci´on de ´exitos? Por ejemplo, si la P.M. tiene una funci´on de densidad θ f (x, θ) = x ≥ 0, θ > 0 (1 + x)1+θ En este caso, θ no es ninguno de los par´ametros “conocidos”, por tanto, en un principio, no tenemos ninguna pista sobre c´omo podr´ıa ser un estimador de θ. En esta secci´on vamos a dar dos m´etodos para obtener un estimador de cualquier par´ametro poblacional θ.

13.3.1.

M´ etodo de m´ axima verosimilitud

La idea en la que se basa este m´etodo es muy sencilla y, adem´as, bastante l´ogica. Si de una poblaci´on cualquiera he obtenido una muestra en particular, es razonable pensar que la muestra obtenida es la que mayor probabilidad ten´ıa de salir. Veamos esta idea con un ejemplo Ejemplo.- Una urna contiene bolas rojas y blancas con una proporci´on de bolas rojas, p, desconocida. Extraemos 10 bolas con reemplazamiento (m.a.s. de tama˜ no n = 10) con el resultado de 3 bolas rojas y 7 blancas. Parece l´ogico pensar que el hecho de que en la muestra aparezcan 3 bolas rojas de 10 es porque, seg´ un la proporci´on real de bolas rojas que hay en la urna, es m´as probable que salgan 3 rojas a que salgan 5 o´ 9. Es decir, la muestra que ha salido es la que mayor probabilidad ten´ıa de salir. Vamos a trasladar este razonamiento a n´ umeros. La probabilidad de que salga la muestra que ha salido (o sea, la funci´on de verosimilitud de la muestra) es 10 L(p) = p3 (1 − p)7 P R3,7 = p3 (1 − p)7

10! 3! 7!

13 Estimaci´ on puntual y estimaci´ on por intervalo

171

Para calcular el valor de p que hace que esta probabilidad sea m´axima, basta con derivar respecto de p e igualar a 0.  10! ∂L(p)  2 10! = 3p (1 − p)7 − 7p3 (1 − p)6 = p2 (1 − p)6 [3 − 10p] =0 ∂p 3! 7! 3! 7!

Entonces, se pueden dar 3 casos • p=0

• p=1

imposible, pues hay al menos una bola roja imposible, pues hay al menos una bola blanca

∂ 2 L(p) • p = 3/10 adem´as, <0 ∂ 2 p p=3/10

Es decir, si en la muestra han salido 3 bolas rojas de las 10 muestreadas, el valor de p que hace de esta muestra la m´as probable es p = 3/10. Ahora, vamos a generalizar este ejemplo al caso de una P.M. cualquiera, con funci´on de densidad f (x, θ), siendo θ un par´ametro cualquiera de la poblaci´on. Extraemos una m.a.s. de tama˜ no n, {x1 , . . . , xn }. La funci´on de verosimilitud de la muestra, por ser muestra extra´ıda con reemplazamiento, viene dada por

L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ) La m´axima verosimilitud puede obtenerse derivando L con respecto a θ e igualando a cero. Para ello, es conveniente tomar primero logaritmos y luego derivar, ya que la funci´on logaritmo es estrictamente creciente. As´ı, obtenemos θ en t´erminos de los xi . El m´etodo puede generalizarse para el caso en que existan varios par´ametros poblacionales a estimar. Ahora, se toman las derivadas parciales respecto a cada uno de los par´ametros, se igualan a cero y se resuelven las ecuaciones resultantes. Ejemplo.- De una P.M. con funci´on de densidad f (x, θ) =

θ (1 + x)1+θ

x ≥ 0, θ > 0

b de θ. La extraemos una m.a.s. de tama˜ no n, {x1 , . . . , xn }, para calcular un estimador, Θ, funci´on de verosimilitud de la muestra es

L(x1 , . . . , xn , θ) = f (x1 , θ) × · · · × f (xn , θ) =

θn

n Y i=1

(1 + xi )1+θ

172

Estad´ıstica Antes de derivar, tomamos logaritmos n n Y X 1+θ Ln L(x1 , . . . , xn , θ) = Ln θ − Ln (1 + xi ) = nLn θ − (1 + θ) Ln (1 + xi ) n

i=1

i=1

n

∂Ln L(x1 , . . . , xn , θ) n X b= = − Ln (1 + xi ) = 0 =⇒ Θ n X ∂θ θ i=1

n Ln (1 + xi )

i=1

∂ 2 Ln L(x1 , . . . , xn , θ) n =− <0 2 b2 ∂ θ b Θ θ=Θ

Por tanto, el estimador de m´axima verosimilitud (EMV) de θ viene dado por b= Θ

n n X

Ln (1 + xi )

i=1

Hay que se˜ nalar que no siempre es posible aplicar el m´etodo de m´axima verosimilitud para calcular un estimador (ver Sec. 13.3.2).

13.3.2.

Propiedades de los estimadores de m´ axima verosimilitud

En esta secci´on vamos a enumerar una serie de propiedades o teoremas que verifican los estimadores de m´axima verosimilitud (EMV), comenzando con una definici´on sobre las condiciones en las que se puede aplicar el m´etodo de m´axima verosimilitud. • Condiciones de regularidad de Fisher-Wolfowitz 1.- La P.M. de la que procede la muestra tiene un campo de variaci´on que no depende del par´ametro θ, y, por tanto, la muestra tampoco. 2.- La funci´on de verosimilitud de la muestra admite, por lo menos, las derivadas de primer y segundo orden respecto del par´ametro θ. 3.- Las operaciones de derivaci´on e integraci´on (o suma, en el caso de v.a. discretas) son intercambiables. • Bajo condiciones de regularidad, los EMV son consistentes. b entonces el EMV de θ es fun• Si un par´ametro θ posee un estimador suficiente, Θ, b Esto no implica que todos los EMV sean suficientes, pues no todos los ci´on de Θ. par´ametros poblacionales poseen un estimador suficiente.

13 Estimaci´ on puntual y estimaci´ on por intervalo

173

• Los EMV no siempre son insesgados, pero s´ı son asint´oticamente insesgados, es decir l´ım b(θ) = 0

n→∞

• Bajo condiciones de regularidad, si existe un estimador eficiente de θ, ´este coincide con el obtenido por el m´etodo de m´axima verosimilitud. De nuevo, esto no implica que todos los EMV sean eficientes. • Bajo condiciones de regularidad, los EMV son asint´oticamente eficientes y asint´otib es el EMV de θ, entonces camente Normales. Es decir, si Θ b ≡ N θ, p 1 l´ım Θ I(θ)

n→∞

siendo

I(θ) = E

"

!

∂Ln L(x1 , . . . , xn , θ) ∂θ

2 #

b es el EMV de θ, entonces g(Θ) b es el EMV de g(θ), siempre que g sea continua • Si Θ y biun´ıvoca.

13.3.3.

M´ etodo de los momentos

Este m´etodo consiste en igualar los momentos de la distribuci´on de la P.M., con los correspondientes momentos muestrales, teniendo en cuenta que, para una m.a.s. de tama˜ no n, {x1 , . . . , xn }, el momento centrado en el origen de orden r es n

1X r mr = x n i=1 i Ejemplo.- De una P.M. con funci´on de densidad f (x, θ) =

θ (1 + x)1+θ

x ≥ 0, θ > 0

b de θ. extraemos una m.a.s. de tama˜ no n, {x1 , . . . , xn }, para calcular un estimador, Θ, Los momentos de primer orden de la poblaci´on y la muestra son, Z +∞ Z +∞ θ 1 E[P.M.] = xf (x, θ) dx = x dx = (θ > 1) 1+θ (1 + x) θ−1 −∞ 0 n

1X xi m1 = n i=1

174

Estad´ıstica

e, igualando,

n

1 1X b= n xi =⇒ Θ = n X θ−1 n i=1

+1 xi

i=1

Como se puede comprobar, el estimador obtenido por el m´etodo de m´axima verosimilitud puede no coincidir con el obtenido por el m´etodo de los momentos.

13.4.

Estimaci´ on por intervalo de confianza

En lugar de hacer una estimaci´on puntual del par´ametro poblacional θ, se pretende dar un intervalo en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de θ. Es decir, un intervalo de confianza del par´ametro θ es de la forma θb − e < θ < θb + e

donde, generalmente, θb es una estimaci´on puntual de θ, obtenida con el estimador puntual b Se llama amplitud del intervalo o margen de error, al tama˜ Θ. no del intervalo, 2e. Cuando calculamos un intervalo para un par´ametro poblacional θ, tambi´en debemos

dar una medida de la bondad de la estimaci´on, es decir, la probabilidad de que el valor del par´ametro θ se encuentre realmente dentro del intervalo construido. As´ı, si P (θb − e < θ < θb + e) = 1 − α

decimos que el intervalo (θb − e, θb + e) es un intervalo de confianza del (1 − α)100 %. La fracci´on (1 − α) recibe el nombre de coeficiente de confianza o grado de confianza; y los puntos extremos, θb − e y θb + e, se llaman l´ımites de confianza. Se llama nivel de significaci´on (N.S.) a la probabilidad de que el verdadero valor de

θ est´e fuera del intervalo de confianza, es decir

N.S. = α100 % De esta forma, tenemos distintos niveles de significaci´on, seg´ un el grado de confianza obtenido. Algunos de ellos tienen nombre propio, por ejemplo • Confianza Casi Significativa Confianza = 1 − α = 95 % N.S. = α = 5 %

13 Estimaci´ on puntual y estimaci´ on por intervalo

175

• Confianza Significativa Confianza = 1 − α = 99 % N.S. = α = 1 %

• Confianza Muy Significativa Confianza = 1 − α = 99.5 % N.S. = α = 0.5 %

Por u ´ ltimo, se habla de seguridad estad´ıstica cuando se trabaja con un intervalo de confianza del tipo θb − 3σΘb < θ < θb + 3σΘb

b siendo σΘb la desviaci´on t´ıpica del estad´ıstico Θ.

En las secciones siguientes vamos a construir el intervalo de confianza de varios

par´ametros poblacionales tales como la media, la varianza o la proporci´on de ´exitos, siguiendo siempre el mismo esquema: 1.- Se definir´a la distribuci´on de la P.M. b del par´ametro poblacional θ. Si es posible, 2.- Se definir´a un estimador puntual, Θ, estimador insesgado.

b En cualquier caso, se 3.- Cuando sea posible, se definir´a la distribuci´on de la v.a. Θ. b y σ 2 =Var(Θ). b contar´a con la media y la varianza del estimador, µ b =E(Θ) Θ

b Θ

4.- Fijado un nivel de confianza, (1 − α)100 %, se construir´a un intervalo de confianza, partiendo de el hecho de que

b − θ| ≤ k) = 1 − α P (|Θ

b sea conocida, buscaremos en las tablas apropiadas el Cuando la distribuci´on de Θ b sea desconocida, calcularemos k aplicando valor de k y, cuando la distribuci´on de Θ

el teorema de Chebychev.

176

Estad´ıstica

13.4.1.

Intervalo de confianza para la media

Dada un P.M. con media µ, como estimador puntual de la media de la poblaci´on, se utiliza la media de la muestra n

1X x¯ = xi n i=1 13.4.1.1.

P.M. ≡ N(µ, σ) con σ conocido

Si tenemos una muestra de tama˜ no n, entonces el estad´ıstico media muestral sigue √ una distribuci´on x¯ ≡ N(µ, σ/ n ). Tipificando la variable, x¯ − µ √ ≡ N(0, 1) σ/ n entonces,

es decir

  x¯ − µ P −zα/2 < √ < zα/2 = 1 − α σ/ n   σ σ P x¯ − √ zα/2 < µ < x¯ + √ zα/2 = 1 − α n n

siendo zα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una N(0, 1) (Fig. 13.1). Por tanto, una estimaci´on puntual de la media poblacional µ, se obtiene seleccionando una muestra aleatoria simple de tama˜ no n, y calculando su media x¯. Mientras que un intervalo de confianza del (1 − α)100 % para la media poblacional viene dado por σ σ x¯ − √ zα/2 < µ < x¯ + √ zα/2 n n La semiamplitud del intervalo es σ e = √ zα/2 n Si e es un dato del problema, podemos determinar el tama˜ no de la muestra adecuado al nivel de confianza pedido, por medio de la expresi´on 2 σ zα/2 n= e

13 Estimaci´ on puntual y estimaci´ on por intervalo

177

Figura 13.1: P (−zα/2 < N(0, 1) < zα/2 ) = 1 − α 13.4.1.2.

P.M. ≡ N(µ, σ) con σ desconocido

Si x¯ y s son la media y la desviaci´on t´ıpica de una muestra aleatoria simple de tama˜ no n obtenida de una poblaci´on Normal con varianza σ 2 desconocida, entonces x¯ − µ √ ≡ tn−1 s/ n entonces, P es decir



−tα/2

x¯ − µ < √ < tα/2 s/ n



= 1−α

  s s P x¯ − √ tα/2 < µ < x¯ + √ tα/2 = 1 − α n n

siendo tα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una tn−1 (Fig. 13.2). Por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional

viene dado por

s s x¯ − √ tα/2 < µ < x¯ + √ tα/2 n n

178

Estad´ıstica

Figura 13.2: P (−tα/2 < tn−1 < tα/2 ) = 1 − α 13.4.1.3.

P.M. ≡ ?(µ, σ) con σ conocido y n > 30

Aun cuando la forma de la P.M. sea desconocida o no Normal, si el tama˜ no de la muestra es suficientemente grande, n > 30, sabemos que x¯ − µ ∼ √ = N(0, 1) σ/ n y, por tanto, un intervalo de confianza del (1 − α)100 % para la media poblacional viene dado por

σ σ x¯ − √ zα/2 < µ < x¯ + √ zα/2 n n 13.4.1.4.

P.M. ≡ ?(µ, σ) con σ conocido y n < 30

Del estad´ıstico media muestral s´olo sabemos que su esperanza es E[¯ x] = µ y su varianza es Var(¯ x) = σ 2 /n, pero no conocemos su distribuci´on, por lo que s´olo podemos aplicar el Teorema de Chebychev. P



σ σ x¯ − √ k < µ < x¯ + √ k n n



≥ 1 − αk

13 Estimaci´ on puntual y estimaci´ on por intervalo

179

siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media poblacional viene dado por

σ σ x¯ − √ k < µ < x¯ + √ k n n 13.4.1.5.

P.M. ≡ ?(µ, σ) con σ desconocido y n > 30

Si x¯ y s son la media y la desviaci´on t´ıpica de una muestra aleatoria simple de tama˜ no n > 30 obtenida de una poblaci´on desconocida o no Normal, con varianza σ 2 desconocida, entonces se puede aproximar σ 2 ≃ s2 y,

x¯ − µ ∼ √ = N(0, 1) s/ n

y, por tanto, un intervalo de confianza del (1 − α)100 % para µ es s s x¯ − √ zα/2 < µ < x¯ + √ zα/2 n n 13.4.1.6.

P.M. ≡ ?(µ, σ) con σ desconocido y n < 30

Es el u ´ nico caso en el que no poseemos herramientas suficientes para obtener un intervalo de confianza v´alido para la media. En cualquier caso, como estimaci´on puntual de µ, siempre es v´alida la media muestral, sea cual sea el tama˜ no de la muestra.

13.4.2.

Intervalo de confianza para la varianza

13.4.2.1.

P.M. ≡ N(µ, σ) con µ desconocido

Dada un P.M.≡ N(µ, σ) con media µ desconocida, como estimador puntual de la varianza de la poblaci´on, se utiliza la varianza de la muestra n

1 X s = (xi − x¯)2 n − 1 i=1 2

En la secci´on 12.4, comprobamos que

(n − 1)s2 ≡ χ2n−1 2 σ Entonces, se puede escribir   (n − 1)s2 2 2 < χα/2 = 1 − α P χ1−α/2 < σ2

180

Estad´ıstica

Figura 13.3: P (χ21−α/2 < χ2n−1 < χ2α/2 ) = 1 − α o bien 2

P

(n − 1)s (n − 1)s < σ2 < 2 χα/2 χ21−α/2

2

!

= 1−α

donde χ21−α/2 y χ2α/2 son los valores de la distribuci´on χ2n−1 que dejan a´reas de 1 − α/2 y α/2, respectivamente, a su derecha (Fig. 13.3)

Por tanto, un intervalo de confianza del (1 − α)100 % para la varianza muestral de

una poblaci´on Normal viene dado por

(n − 1)s2 (n − 1)s2 2 < σ < χ2α/2 χ21−α/2

13.4.3.

Intervalo de confianza para la diferencia de medias

Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡

N(µy , σy ). De cada una de ellas extraemos una muestra de tama˜ nos n y m, respectivamen√ te. El estad´ıstico media de la primera muestra ser´a x¯ ≡ N (µx , σx / n), y el estad´ıstico √ media de la segunda muestra ser´a y¯ ≡ N (µy , σy / m)

13 Estimaci´ on puntual y estimaci´ on por intervalo

181

Una estimaci´on puntual de la diferencia de medias, (µx − µy ), viene dada por la

diferencia de las medias de las muestras,

n

x¯ − y¯ =

m

1X 1 X xi − yi n i=1 m i=1

Para obtener un intervalo de confianza, debemos tener en cuenta si las varianzas son conocidas. 13.4.3.1.

P.M. Normales con σx y σy conocidas

En este caso, (¯ x − y¯) − (µx − µy ) q ≡ N(0, 1) σy2 σx2 + n m

Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es (¯ x − y¯) − 13.4.3.2.

r

σx2 σy2 + zα/2 < µx − µy < (¯ x − y¯) + n m

r

σx2 σy2 + zα/2 n m

P.M. Normales con σx2 = σy2 = σ 2 desconocida

En este caso, hemos visto que (¯ x − y¯) − (µx − µy ) r ≡ tn+m−2 1 1 Sp + n m

siendo

Sp =

s

(n − 1)s2x + (m − 1)s2y n+m−2

Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es

(¯ x − y¯) − Sp

r

1 1 + tα/2 < (µx − µy ) < (¯ x − y¯) + Sp n m

r

1 1 + tα/2 n m

siendo tα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una tn+m−2 .

182

Estad´ıstica

13.4.3.3.

P.M. Normales con σx2 6= σy2 desconocidas

En este caso, hemos visto que (¯ x − y¯) − (µx − µy ) ∼ r = tγ s2x s2y + n m

siendo

s2y s2x (A + B)2 A= , B= γ= B2 A2 n m + n−1 m−1 Entonces, un intervalo de confianza del (1 − α)100 % para la diferencia de medias es (¯ x − y¯) −

r

s2x s2y + tα/2 < (µx − µy ) < (¯ x − y¯) + n m

r

s2x s2y + tα/2 n m

siendo tα/2 , el n´ umero real que deja un ´area de α/2 unidades a su derecha en una tγ

13.4.4.

Intervalo de confianza para el cociente de varianzas

Suponemos dos poblaciones, X e Y , con distribuciones X ≡ N(µx , σx ) e Y ≡

N(µy , σy ). De cada una de ellas extraemos una muestra de tama˜ nos n y m, respectivamente. Sean s2x y s2y las varianzas de las muestras. Una estimaci´on puntual del cociente de varianzas, σx2 /σy2 , viene dada por el cociente de las varianzas de las muestras

s2x s2y

1 n−1

= 1 m−1

n X

(xi − x¯)2

i=1 m X i=1

(yi − y¯)2

Para obtener un intervalo de confianza, consideramos el estad´ıstico s2x /σx2 ≡ Fn−1,m−1 s2y /σy2 Entonces, P



s2 /σ 2 f1−α/2 (n − 1, m − 1) < x2 x2 < fα/2 (n − 1, m − 1) sy /σy



=1−α

siendo f1−α/2 (n − 1, m − 1) y fα/2 (n − 1, m − 1), los n´ umeros reales que dejan un a´rea de 1 − α/2 y α/2 unidades a su derecha, respectivamente, en una Fn−1,m−1 (Fig. 13.4). O bien,

13 Estimaci´ on puntual y estimaci´ on por intervalo

183

Figura 13.4: P (f1−α/2 < Fn−1,m−1 < fα/2 ) = 1 − α

P



s2x 1 σx2 1 s2x < < s2y fα/2 (n − 1, m − 1) σy2 s2y f1−α/2 (n − 1, m − 1)



=1−α

Utilizando las propiedades de la distribuci´on F-Snedecor, tambi´en se puede escribir como P



s2x s2x 1 σx2 < fα/2 (m − 1, n − 1) < s2y fα/2 (n − 1, m − 1) σy2 s2y



= 1−α

Entonces un intervalo de confianza del (1 − α)100 % para el cociente de varianzas

poblacionales viene dado por

s2x s2x σx2 1 < fα/2 (m − 1, n − 1) < s2y fα/2 (n − 1, m − 1) σy2 s2y

13.4.5.

Intervalo de confianza para la proporci´ on poblacional

Partimos de una P.M. Binomial de par´ametro p, es decir, p es la proporci´on de ´exitos de la Poblaci´on. Extraemos una m.a.s. {x1 , . . . , xn } y asignamos los valores ( 1 si es ´exito xi = 0 si es fracaso

184

Estad´ıstica

es decir, cada v.a. xi ≡ B(1, p) Sean las v.a.

X ≡ n´ umero de ´exitos de la muestra pb ≡ proporci´on de ´exitos de la muestra

Una estimaci´on puntual de la proporci´on de ´exitos de la poblaci´on viene dada por la proporci´on de ´exitos de la muestra n

1X pb = xi n i=1

Para encontrar un intervalo de confianza, tenemos en cuenta el tama˜ no de la muestra. 13.4.5.1.

P.M. Binomial y n > 30

Si el tama˜ no de la muestra es suficientemente grande, entonces pb ≃ N p,

y,

r

p(1 − p) n





  pb − p = 1−α r P −z < < z α/2 α/2   p(1 − p) n

Por tanto, P

!

pb −

r

p(1 − p) zα/2 < p < pb + n

r

p(1 − p) zα/2 n

!

= 1−α

Podr´ıamos decir que un intervalo de confianza del (1 − α)100 % para la proporci´on

de ´exitos de la poblaci´on viene dado por r r p(1 − p) p(1 − p) pb − zα/2 < p < pb + zα/2 n n

pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular los l´ımites del intervalo. Para resolver este problema se puede proceder de dos formas.

13 Estimaci´ on puntual y estimaci´ on por intervalo

185

• Una soluci´on consiste en aproximar el valor de p por el valor de la proporci´on

muestral. Por tanto, un intervalo de confianza del (1 − α)100 % para la proporci´on de ´exitos de la poblaci´on viene dado por pb −

r

pb(1 − pb) zα/2 < p < pb + n

r

pb(1 − pb) zα/2 n

• Otro m´etodo consiste en utilizar como valor aproximado del producto p(1 − p), su m´aximo valor posible. As´ı,

y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p =

1 1 ⇒ p(1 − p) = 2 4

Entonces, un intervalo de confianza del (1 − α)100 % para la proporci´on de ´exitos

viene dado por

pb −

13.5.

r

1 zα/2 < p < pb + 4n

r

1 zα/2 4n

Intervalo de confianza asint´ otico

b MV es su estimador de m´axima Si θ es cualquier par´ametro de una poblaci´on, Θ b MV es asint´otiverosimilitud y θbMV es su estimaci´on de m´axima verosimilitud entonces, Θ

camente Normal con par´ametros

b MV ] −→ θ µΘb MV = E[Θ

2 σΘ b

MV

b MV ) −→ = Var(Θ

−1 ∂ LnL(x1 , . . . , xn ; θ) b ∂θ2 θ=θMV 2

donde LnL(x1 , . . . , xn ; θ) es el logaritmo neperiano de la funci´on de verosimilitud de la muestra. Por tanto, si la muestra es suficientemente grande, podemos construir un intervalo de confianza para el par´ametro θ de la forma habitual, teniendo en cuenta que b MV − µ b Θ ΘMV ∼ = N(0, 1) σΘb MV

entonces P

−zα/2

b MV − µ b Θ ΘMV < < zα/2 σΘb MV

!

=1−α

186

Estad´ıstica

es decir, θbMV − zα/2 σΘb MV < θ < θbMV + zα/2 σΘb MV

Un inconveniente de este m´etodo general es que la convergencia de la distribuci´on de b MV hacia la Normal puede ser muy lenta y entonces el intervalo de confianza ser´a poco Θ

preciso. Esto no ocurre cuando θ es un par´ametro de centralizaci´on.

Ejemplo.- Vamos a obtener el intervalo de confianza asint´otico del par´ametro λ de una poblaci´on Exponencial Dada la P.M. = X ≡ Exp(λ), entonces f (x, λ) = λe−λx 1 1 µ = E[X] = σ 2 = Var(X) = 2 λ λ i) Obtenemos el estimador de m´axima verosimilitud de λ La funci´on de verosimilitud de una muestra de tama˜ no n es L(x1 , . . . , xn ; λ) = f (x1 , λ) × · · · × f (xn , λ) = λn e−λ

P

xi

Obtenemos el logaritmo neperiano Ln L(x1 , . . . , xn ; λ) = nLn λ − λ Entonces n P ∂Ln L = − xi = 0 ∂λ λ

1 n b λMV = P = xi x¯

ii) Realizamos las aproximaciones bMV ] ≃ λ E[λ

bMV ) ≃ Var(λ

n−λ

=⇒

−1 ∂ LnL ∂λ2 2

bMV λ=λ

=

P

P

xi

xi = 0

=⇒

1 −1 = n n¯ x2 − 2 λ λ=λbMV

iii) Si el tama˜ no de la muestra es suficientemente grande, un intervalo de confianza del (1 − α) % para el par´ametro λ de una poblaci´on Exponencial es 1 1 1 1 − zα/2 √ < λ < + zα/2 √ x¯ x¯ n x¯ x¯ n

14

Teor´ıa de muestras de poblaci´on finita

´Indice 14.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 14.2. Distribuciones de muestreo

. . . . . . . . . . . . . . . . . . . . 189

14.2.1. Estad´ıstico media muestral . . . . . . . . . . . . . . . . . . . . 189 14.2.2. Estad´ıstico varianza muestral . . . . . . . . . . . . . . . . . . . 191 14.2.3. Estad´ıstico proporci´ on muestral . . . . . . . . . . . . . . . . . . 193 14.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . 194 14.3.1. Intervalo de confianza para la media poblacional . . . . . . . . 194 14.3.1.1. P.M. ≡ ?(µ, σ) con σ conocido . . . . . . . . . . . . . 195

14.3.1.2. P.M. ≡ ?(µ, σ) con σ desconocido . . . . . . . . . . . 195

14.3.2. Intervalo de confianza para la proporci´ on poblacional . . . . . . 195

187

188

Estad´ıstica

14.1.

Introducci´ on

A lo largo de este cap´ıtulo supondremos que la muestra aleatoria se ha realizado sin reemplazamiento o, lo que es equivalente, se han extra´ıdo los n elementos a la vez. Es importante resaltar dos cosas: • Si la muestra se extrae sin reemplazamiento, las v.a. {x1 , . . . , xn } que representan a la muestra no son independientes, pues cada extracci´on depende de las extracciones

anteriores y, adem´as, no est´an id´enticamente distribuidas, pues en cada extracci´on la configuraci´on de la poblaci´on es distinta. Por tanto, por muy grande que sea el tama˜ no de la muestra, en ning´ un caso estaremos en condiciones de aplicar el Teorema de Levy-Lindeberg. Es decir, en ning´ un caso podremos aproximar la distribuci´on del estad´ıstico muestral por una distribuci´on Normal. Por otra parte, el conocimiento de la distribuci´on poblacional es, en la mayor´ıa de los casos, irrelevante. • Aunque la diferencia te´orica entre la teor´ıa de poblaci´on infinita y poblaci´on finita

radica en el m´etodo de extracci´on de la muestra (con o sin reemplazamiento), en la pr´actica, casi todas las muestras se realizan sin reemplazamiento. Al fin y al cabo ser´ıa una p´erdida de tiempo y de dinero inspeccionar dos veces el mismo elemento de la poblaci´on. ¿C´omo se diferencian entonces en la pr´actica? Veamos un ejemplo. Supongamos que queremos estimar la proporci´on de ´exitos, p1 y p2 , de dos poblaciones. En el primer caso, la poblaci´on la constituyen los 34 millones de espa˜ noles con derecho a voto. Extraemos una muestra aleatoria, sin reemplazamiento, de 1000 personas. Extraemos el primer elemento, lo examinamos, y lo dejamos fuera. Cuando vamos a extraer el segundo elemento, la poblaci´on consta de 34.000.000 − 1 ≃ 34.000.000 elementos y la proporci´on de ´exitos de la “nueva” poblaci´on es ≃ p1 , por tanto, podemos considerar que x1 y x2 provienen de la misma P.M. y, adem´as, son independientes. Cuando vamos a extraer el tercer elemento,

la poblaci´on consta de 34.000.000 − 2 ≃ 34.000.000 elementos y la proporci´on de

´exitos de la “nueva” poblaci´on es ≃ p1 , por tanto, podemos considerar que x1 , x2 y x3 provienen de la misma P.M. y, adem´as, son independientes. Y as´ı sucesivamente.

Por tanto, en este caso, no importa c´omo se haya extra´ıdo la muestra, pues siempre podremos considerar que {x1 , . . . , x1000 } son independientes y est´an id´enticamen-

te distribuidas. En el segundo caso, supongamos que tenemos que inspeccionar un lote de 50 piezas. Extraemos una muestra aleatoria, sin reemplazamiento, de 20 piezas. Claramente, ahora cada extracci´on realizada modifica la composici´on de la

14 Teor´ıa de muestras de poblaci´ on finita

189

poblaci´on, tanto en tama˜ no como en proporci´on de piezas defectuosas, y, por tanto, {x1 , . . . , x20 } no son independientes ni est´an id´enticamente distribuidas. Como conclusi´on, en la pr´actica, lo que diferencia una muestra con reemplazamiento de otra sin reemplazamiento, es la relaci´on entre el tama˜ no de la poblaci´on y el tama˜ no de la propia muestra. Un criterio de uso generalizado es considerar como m.a.s. toda muestra que cumpla la relaci´on n/N < 0.10. A lo largo de este cap´ıtulo supondremos que la muestra la componen n v.a. que no son independientes ni est´an id´enticamente distribuidas. La nomenclatura empleada a lo largo de este cap´ıtulo es la siguiente • Poblaci´on Madre formada por N elementos {X1 , X2 , . . . , XN } N 1 X • Media Poblacional µ = Xi N i=1 N 1 X • Varianza Poblacional σ = (Xi − µ)2 N i=1 2

• Muestra sin reemplazamiento formada por n elementos {x1 , x2 , . . . , xn } n

1X xi • Media Muestral x¯ = n i=1 n

1 X • Varianza Muestral s = (xi − x¯)2 n − 1 i=1 2

14.2.

Distribuciones de muestreo

14.2.1.

Estad´ıstico media muestral n

1X x¯ = xi n i=1

Si llamamos η = x¯ y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces ! N 1 ! m= y P (η = zi ) = n N n

190

Estad´ıstica

Por tanto, E[η] =

m X

1

zi P (η = zi ) =

N

i=1

n N −1 1

=

N n

=

!

n−1

!

!

m X

1

zi =

N

i=1

n

(X1 + · · · + XN ) n

! (z1 + · · · + zm ) = N −1

n−1 ! N

=

!

N

1X Xi = n i=1

n

N N 1 X n1X Xi = Xi = µ N n i=1 N i=1

Es decir, E[¯ x] = µ Para calcular la varianza,   Var(η) = E (η − µη )2 = E[η 2 ] − (E[η])2

Pero

2

• E[η ]

=

m X

zi2 P (η

= zi ) =

N

i=1

=

n 1

1 ! 2 n N n

=

• (E[η])

1

2

"

N −1 n−1

!

!

m X

zi2 =

i=1

N X

Xi2 + 2

N −2

i=1

n−2

!

X i<j

N X n−1 1 X 2 Xi + 2 Xi Xj nN i=1 Nn(N − 1) i<j

= µ2 =

N 1 X Xi N i=1

!2

1 = 2 N

N X i=1

Xi2 + 2

X i<j

Xi Xj

!

#

Xi Xj =

14 Teor´ıa de muestras de poblaci´ on finita

191

Entonces

Var(η) =



X N

1 1 − 2 nN N

Xi2

+2

i=1



1 n−1 − 2 Nn(N − 1) N

X

Xi Xj =

i<j

N

X N −nX 2 N −n = Xi Xj = X − 2 nN 2 i=1 i nN 2 (N − 1) i<j " # N N −n 2 X N −1X 2 = X − 2 Xi Xj = n(N − 1) N 2 i=1 i N i<j N −n = n(N − 1)

"

1 1 − 2 N N

X N i=1

"

N 1 N −n 1 X 2 Xi − 2 = n(N − 1) N i=1 N

# X 2 Xi Xj = Xi2 − 2 N i<j N X

Xi2 + 2

i=1

X

Xi Xj

i<j

!#

=

# " N N  N −n 1 X N −n 1 X 2 2 ¯ ¯ 2= Xi − X = Xi − X = n(N − 1) N i=1 n(N − 1) N i=1 = Es decir,

N −n 2 σ n(N − 1)

N −n 2 σ n(N − 1) Adem´as, cuando N es grande con respecto a n, entonces Var(¯ x) =

estad´ıstico media es igual que en el caso de poblaci´on infinita. Por tanto, x¯ ≡ ?

14.2.2.



µ, σ

r

N −n n(N − 1)



Estad´ıstico varianza muestral n

1 X (xi − x¯)2 s = n − 1 i=1 2

N −n N −1

→ 1 y la varianza del

192

Estad´ıstica Si llamamos η = s2 y {z1 , . . . , zm } a los posibles valores que puede tomar η, entonces ! N m= n

y

z1 =

z2 =

.. . zm =

1 X (Xi − x¯1 )2 n−1

−→ x¯1 =

1 X (Xi − x¯2 )2 n−1

−→ x¯2 =

1X Xi n

−→ P (η = z1 ) =

1X Xi n

−→ P (η = z2 ) =

N n

1X 1 X (Xi − x¯m )2 −→ x¯m = Xi −→ P (η = zm ) = n−1 n

donde cada zi es de la forma

Entonces,

1

 1 X 2 1 X 2 2 (Xi − x¯i ) = Xi − n¯ xi zi = n−1 n−1

1 N n 1 N n

! ! !

14 Teor´ıa de muestras de poblaci´ on finita

E[η] =

m X

zi P (η = zi ) =

i=1

=

z1 + · · · + zm = ! N n

1 ! n−1 N 1

"

N −1

"

N −1

n−1

n

=

193

1

1 ! n−1 N

n−1

n

1 − n 2 n

N −1 n−1

!

N X

!

!

N X

Xi2

i=1

N X i=1

−n

m X

x¯2i

i=1

#

=

Xi2 −

Xi2 + 2

i=1

N −2 n−2

!

X

Xi Xj

i<j

!#

=

N

=

=

n(n − 1) 1 1 X n 1 n−1X 2 Xi − 2 Xi Xj = N n − 1 n i=1 N(N − 1) n − 1 n i<j N X 1 X 2 2 N Xi − Xi Xj = σ2 N i=1 N(N − 1) i<j N −1

Por tanto, E[s2 ] =

14.2.3.

N σ2 N −1

Estad´ıstico proporci´ on muestral

Tenemos una P.M. ≡ B(1, p) de N elementos, {X1 , . . . , Xi }, entre los cuales hay A

´exitos y (N − A) fracasos; siendo

p = P (´exito) = proporci´on de ´exitos de la P.M. =

A N

q = P (fracaso) = proporci´on de fracasos de la P.M. = 1 − p por tanto, µ = E[P.M.] = p

y

σ 2 = Var(P.M.) = p(1 − p)

194

Estad´ıstica Sacamos una muestra aleatoria sin reemplazamiento, {x1 , . . . , xn }, entre los cuales

hay a ´exitos y (n − a) fracasos; siendo

pb = P (´exito) = proporci´on de ´exitos de la muestra =

a n

qb = P (fracaso) = proporci´on de fracasos de la muestra = 1 − pb

A cada elemento de la muestra le asignamos el valor     1 si es ´exito xi =

entonces

   0 si es fracaso n

1X xi = x¯ pb = n i=1

es decir, la proporci´on muestral no es m´as que la media muestral por lo que podemos aplicar los resultados de la secci´on 14.2.1. As´ı E[b p] = E[¯ x] = µ = p Var(b p) = Var(¯ x) = Por tanto,

N −n 2 N −n σ = p(1 − p) n(N − 1) n(N − 1)

  r N −n pb ≡ ? p, p(1 − p) n(N − 1)

14.3.

Intervalos de confianza

14.3.1.

Intervalo de confianza para la media poblacional

Dada un P.M. con media µ, como estimador puntual de la media de la poblaci´on, se utiliza la media de la muestra n

1X x¯ = xi n i=1

14 Teor´ıa de muestras de poblaci´ on finita 14.3.1.1.

195

P.M. ≡ ?(µ, σ) con σ conocido

Atendiendo a lo dicho en el apartado 14.2.1, la distribuci´on frecuencial del estad´ıstico media es x¯ ≡ ?

µ, σ

s

N −n n(N − 1)

!

Teniendo en cuenta que la u ´ nica herramienta aplicable es Chebychev, P

x¯ − σ

s

N −n k < µ < x¯ + σ n(N − 1)

s

N −n k n(N − 1)

!

≥ 1 − αk

siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media poblacional viene dado por x¯ − σ 14.3.1.2.

r

r

N −n k < µ < x¯ + σ n(N − 1)

N −n k n(N − 1)

P.M. ≡ ?(µ, σ) con σ desconocido

Atendiendo a lo dicho en el apartado 14.2.2,   N −1 2 N 2 σ =⇒ E s = σ2 E[s ] = N −1 N 2

por tanto, podemos tomar como estimaci´on de la varianza poblacional, el valor de la varianza de la muestra, corregido por el factor

N −1 . N

A partir de aqu´ı, estamos en las

mismas condiciones que en el apartado anterior. As´ı, P

x¯ − s

r

N −n k < µ < x¯ + s nN

r

N −n k nN

!

≥ 1 − αk

siendo αk = 1/k 2 . Por tanto, un intervalo de confianza del (1 − αk )100 % para la media poblacional viene dado por

x¯ − s

14.3.2.

r

N −n k < µ < x¯ + s nN

r

N −n k nN

Intervalo de confianza para la proporci´ on poblacional

Dada un P.M. con una proporci´on de ´exitos p, como estimador puntual de dicho par´ametro se utilizar´a la proporci´on de ´exitos de la muestra, pb.

196

Estad´ıstica Seg´ un lo dicho en el apartado 14.2.3 pb ≡ ?

p,

s

N −n p(1 − p) n(N − 1)

!

Teniendo en cuenta que la u ´ nica herramienta aplicable es Chebychev,

P

pb −

s

N −n k < p < pb + p(1 − p) n(N − 1)

s

N −n k p(1 − p) n(N − 1)

!

≥ 1 − αk

siendo αk = 1/k 2 . Entonces, podr´ıamos decir que un intervalo de confianza del (1 − αk )100 % para la proporci´on de ´exitos de la poblaci´on vendr´ıa dado por s s N −n N −n pb − p(1 − p) k < p < pb + p(1 − p) k n(N − 1) n(N − 1)

pero esto no sirve de mucho pues como no conocemos el valor de p, no se pueden calcular los l´ımites del intervalo. Para resolver este problema, se puede proceder de dos formas. • Una soluci´on consiste en aproximar el valor de p por el valor de la proporci´on muestral. Por tanto, un intervalo de confianza del (1 − αk )100 % para la proporci´on de ´exitos de la poblaci´on es

r r N −n N −n pb − pb(1 − pb) k < p < pb + pb(1 − pb) k n(N − 1) n(N − 1)

• Otro m´etodo consiste en utilizar como valor aproximado del producto p(1 − p), su m´aximo valor posible. As´ı,

y = p(1 − p) ⇒ y ′ = 1 − 2p = 0 ⇒ p =

1 1 ⇒ p(1 − p) = 2 4

Entonces, un intervalo de confianza del (1 − αk )100 % para la proporci´on de ´exitos viene dado por

pb −

r

1 N −n k < p < pb + 4 n(N − 1)

r

1 N −n k 4 n(N − 1)

Contraste de hip´otesis

15 ´Indice

15.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 15.2. Las hip´ otesis nula y alternativa . . . . . . . . . . . . . . . . . . 199 15.3. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 15.4. Nivel de significaci´ on y regi´ on cr´ıtica

. . . . . . . . . . . . . . 204

15.5. Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 15.6. Potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . 209 15.7. Contrastes para la media de una poblaci´ on . . . . . . . . . . . 209 15.7.1. Varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . 210 15.7.1.1. Poblaci´ on Madre Normal o n ≥ 30 . . . . . . . . . . 210

15.7.2. Varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . 211

15.7.2.1. Poblaci´ on Madre Normal . . . . . . . . . . . . . . . . 211 15.7.2.2. Poblaci´ on Madre no Normal . . . . . . . . . . . . . . 213 15.8. Comparaci´ on de medias

. . . . . . . . . . . . . . . . . . . . . . 213

15.8.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . 213 15.8.2. Varianzas desconocidas e iguales . . . . . . . . . . . . . . . . . 213 15.8.3. Varianzas desconocidas y distintas . . . . . . . . . . . . . . . . 213 15.8.4. Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . 214 15.9. Pruebas sobre proporciones . . . . . . . . . . . . . . . . . . . . 214 15.9.1. Diferencia de dos proporciones . . . . . . . . . . . . . . . . . . 215 15.10.Pruebas sobre varianzas . . . . . . . . . . . . . . . . . . . . . . 215 15.10.1.Una poblaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 15.10.2.Comparaci´on de varianzas . . . . . . . . . . . . . . . . . . . . . 215

197

198

Estad´ıstica

15.1.

Introducci´ on

Con frecuencia, los problemas a los que nos enfrentamos no se refieren s´olo a la estimaci´on de un par´ametro poblacional. Se nos puede plantear el problema de rechazar o aceptar cierta hip´otesis realizada sobre una poblaci´on, en base al estudio de una muestra m´as peque˜ na. Los procedimientos que conducen a la aceptaci´on o rechazo de una hip´otesis estad´ıstica se enmarcan dentro de la llamada Teor´ıa de la Decisi´on. Una Hip´otesis Estad´ıstica es una afirmaci´on o conjetura acerca de una o m´as poblaciones. Nunca se sabe con absoluta certeza la veracidad o falsedad de una hip´otesis estad´ıstica, a no ser que se examine la poblaci´on entera. Esto, por supuesto, es poco pr´actico en la mayor´ıa de las ocasiones. En su lugar, se toma una muestra aleatoria de la poblaci´on de inter´es, y se utilizan los datos de dicha muestra para obtener evidencias que confirmen o no la hip´otesis propuesta. La evidencia de la muestra que es inconsistente con la hip´otesis planteada conduce a un rechazo de la misma, mientras que la evidencia que la apoya, conduce a su no rechazo. Debe quedar claro que el dise˜ no de un procedimiento de decisi´on debe llevarse a cabo con la idea de la probabilidad de una conclusi´on equivocada. Por ejemplo, supongamos que la hip´otesis planteada es que la fracci´on, p, de art´ıculos defectuosos en un cierto proceso es de 0.10. El experimento consiste en observar una muestra aleatoria del producto en cuesti´on. Supongamos, adem´as, que se estudian 100 art´ıculos y se encuentran 12 defectuosos. Es razonable concluir que esta evidencia no refuta la hip´otesis de que p = 0.10, y entonces esto puede conducir a su aceptaci´on. Sin embargo, tampoco rebate que p = 0.12 o tal vez, incluso, que p = 0.15. Por tanto, debemos acostumbrarnos a entender que la aceptaci´ on de una hip´ otesis implica tan s´ olo que los datos no proporcionan evidencia suficiente para rechazarla. Por otra parte, el rechazo de una hip´ otesis implica que la evidencia de la muestra la refuta. Dicho de otra forma, el rechazo de una hip´ otesis significa que la probabilidad de que dicha hip´ otesis sea cierta es muy peque˜ na. Por ejemplo, en la hip´otesis de proporci´on de defectos, de una muestra de 100 art´ıculos, 20 son defectuosos. Esto es una evidencia para rechazar la hip´otesis, pues si en realidad fuese p = 0.10, la probabilidad de obtener 20 o m´as art´ıculos defectuosos es aproximadamente 0.0035. Con el peque˜ no riesgo de llegar a una conclusi´on equivocada, parece l´ogico rechazar la hip´otesis de que p = 0.10. Generalmente, en este tipo de problemas, si queremos respaldar un argumento, lo que debemos intentar es rechazar el argumento contrario. Es decir, si queremos mostrar una evidencia contundente a favor del argumento de que tomar caf´e aumenta el riesgo de

15 Contraste de hip´ otesis

199

infarto, la hip´otesis a probar debe ser de la forma “no hay aumento en el riesgo de infarto al tomar caf´e”. Como resultado, el argumento se alcanza v´ıa rechazo. De igual forma, para respaldar la afirmaci´on de que un tipo de medidor es m´as preciso que otro, se prueba con la hip´otesis de que no hay diferencia en la exactitud de los dos tipos de medidores.

15.2.

Las hip´ otesis nula y alternativa

La estructura de la prueba de hip´otesis se formula utilizando el t´ermino Hip´otesis Nula. Esto se refiere a cualquier hip´otesis que se desee probar, y se representa por H0 . El rechazo de H0 da como resultado la aceptaci´on de una Hip´otesis Alternativa, que se representa por H1 . Una hip´otesis nula referente a un par´ametro poblacional debe ser establecida de tal forma que especifique un valor exacto del par´ametro, mientras que la hip´otesis alternativa admite la posibilidad de varios valores. De aqu´ı que, si H0 es la hip´otesis nula p = 0.5 para una poblaci´on binomial, la hip´otesis alternativa, H1 , ser´ıa una de las siguientes: p > 0.5, p < 0.5 ´o p 6= 0.5.

Una hip´otesis como la hip´otesis nula anterior, p = 0.5, que especifica un valor

exacto del par´ametro se denomina simple, mientras que una hip´otesis como cualquiera de las hip´otesis alternativas anteriores que no especifican un valor exacto del par´ametro se denomina compuesta. Conviene observar que, seg´ un lo dicho anteriormente no hay diferencia entre el test H0 : p = 0.5 ; H1 : p > 0.5 y el test H0 : p ≤ 0.5 ; H1 : p > 0.5. En ambos, aceptar H0 significa que no hay evidencia suficiente para creer que p > 0.5 y por tanto que H1 sea cierta. Rechazar la hip´otesis nula significar´ıa, por el contrario, que la proporci´on p es superior a 0.5. As´ı, por simplicidad, la hip´ otesis nula se toma siempre simple. La hip´otesis alternativa se clasifica como unilateral si conocemos en qu´e direcci´on puede ser falsa H0 (los casos H1 : p > 0.5 ´o H1 : p < 0.5) y bilateral si no podemos saber la direcci´on (H1 : p 6= 0.5)

Para aclarar un poco los conceptos anteriormente expuestos, consideremos el siguien-

te ejemplo. Se sabe que, pasados 2 a˜ nos, cierto tipo de vacuna es eficaz s´olo en un 25 % de los casos. Para verificar si una vacuna nueva y algo m´as cara es mejor que la anterior para proporcionar protecci´on contra el mismo virus durante un periodo m´as largo, se inyecta en 20 personas elegidas al azar. Si m´as de 8 de los que recibieron la nueva vacuna superan el periodo de 2 a˜ nos sin contraer el virus, la nueva vacuna se considerar´a mejor que la que se utiliza actualmente. El requisito de que el n´ umero exceda de 8 es algo arbitrario,

200

Estad´ıstica

pero parece razonable en el sentido de que representa una peque˜ na ganancia respecto a las 5 personas que podr´ıa esperarse recibieran protecci´on contra el virus, pasados 2 a˜ nos, si a las 20 personas se les hubiera inyectado la vacuna antigua. La hip´otesis alternativa es la de que la nueva vacuna es mejor que la antigua. Esto equivale a probar la hip´otesis de que el par´ametro binomial para la probabilidad de un ´exito en un intento es p = 1/4, contra la alternativa de que p > 1/4. Por lo general, esto se escribe como sigue: H0 : p = 1/4 H1 : p > 1/4 Recordemos que, en realidad, queremos rechazar la hip´otesis nula de que las dos vacunas son iguales. El estad´ıstico de prueba sobre el cual se basa la decisi´on es X, la cantidad de individuos en el grupo de prueba que reciben protecci´on contra el virus con la nueva vacuna, para un periodo de al menos 2 a˜ nos, es decir X ≡ B(20, p). Los posibles valores de X, de 0 a 20, se dividen en dos grupos: aquellos valores menores o

iguales que 8, y los que son mayores que 8. Todos los posibles valores mayores que 8 constituyen la llamada Regi´on Cr´ıtica o de Rechazo, y todos los valores menores o iguales que 8 constituyen la Regi´on de Aceptaci´on. El u ´ ltimo valor que se tiene en la regi´on de aceptaci´on antes de pasar a la regi´on cr´ıtica (en este caso el 8), recibe el nombre de Valor Cr´ıtico. Por tanto, si x > 8, se rechaza H0 en favor de la hip´otesis alternativa H1 . Si x ≤ 8 se acepta H0 , siendo x el valor de X observado en la muestra.

El procedimiento de decisi´on que hemos descrito podr´ıa conducir a cualquiera de dos conclusiones err´oneas. Por ejemplo, la nueva vacuna puede no ser mejor que la antigua y, en particular para el grupo de individuos seleccionados aleatoriamente, m´as de 8 sobrepasan el periodo de 2 a˜ nos sin contraer el virus. Estar´ıamos cometiendo el error de rechazar H0 cuando realmente es cierta. De igual forma, podr´ıa ocurrir que 8 o menos individuos del grupo de prueba sobrepasan el periodo de 2 a˜ nos con ´exito, y se concluye que la nueva vacuna no es mejor, cuando en realidad s´ı lo es. Estar´ıamos aceptando H0 , cuando en realidad es falsa. • Se dice que se ha cometido un error tipo I, cuando se rechaza la hip´otesis nula siendo ´esta verdadera.

• Se dice que se ha cometido un error tipo II, cuando se acepta la hip´otesis nula siendo ´esta falsa.

La probabilidad de cometer un error tipo I se llama Nivel de Significaci´on o tama˜ no de la regi´on cr´ıtica, y se representa por α. En ejemplo anterior,

15 Contraste de hip´ otesis

201

  α = P (error tipo I) = P Rechazar H0 = H0 es cierta

  X 20 = P X > 8 P [B(20, 1/4) = x] = 0.0409 = p = 1/4 x=9

Se dice, entonces, que la hip´otesis nula, p = 1/4, se est´a probando con un nivel de significaci´on de α = 0.0409. Este nivel de significaci´on es bastante peque˜ no, por tanto, es poco probable que se cometa un error tipo I. Es decir, es poco probable que m´as de 8 individuos se mantengan inmunes al virus durante 2 o m´as a˜ nos utilizando una nueva vacuna que, en realidad, es equivalente a la que ya existe en el mercado. La probabilidad de cometer un error tipo II, representado por β, es imposible de calcular a no ser que se tenga una hip´otesis alternativa espec´ıfica. Si se prueba la hip´otesis nula de que p = 1/4 en contraposici´on con la hip´otesis alternativa de que p = 1/2, entonces estamos en condiciones de calcular la probabilidad de aceptar H0 cuando en realidad es falsa. Simplemente hay que calcular la probabilidad de obtener 8 o menos individuos en el grupo de prueba que sobrepasen el periodo de 2 a˜ nos, cuando p = 1/2. Es decir,   β = P (error tipo II) = P Aceptar H0 = H0 es falsa

  X 8 = P X ≤ 8 = P [B(20, 1/2) = x] = 0.2517 p = 1/2 x=0

´ Esta es una probabilidad bastante grande, lo que indica un procedimiento de prueba con el cual es muy probable que se rechace la nueva vacuna cuando, en realidad, es superior a la que se utiliza en la actualidad. En una situaci´on ideal, ser´ıa preferible utilizar un procedimiento con el que ambos tipos de error fuesen peque˜ nos. Siempre es posible disminuir el valor de β, incrementando el tama˜ no de la regi´on cr´ıtica. Por ejemplo, veamos qu´e ocurre con α y β cuando tomamos como valor cr´ıtico 7. Ahora, al probar p = 1/4 contra la hip´otesis alternativa de que p = 1/2, se encuentra que

202

Estad´ıstica

α = P (error tipo I) = P

= P





 Rechazar H0 = H0 es cierta

 X 20 X > 7 P [B(20, 1/4) = x] = 0.1018 = p = 1/4 x=8

  β = P (error tipo II) = P Aceptar H0 = H0 es falsa = P



 X 7 X ≤ 7 = P [B(20, 1/2) = x] = 0.1316 p = 1/2 x=0

Al adoptar un nuevo procedimiento de decisi´on, se reduce la probabilidad de cometer un error tipo II, a expensas de incrementar la probabilidad de cometer un error tipo I. Para una muestra de tama˜ no fijo, la disminuci´on en la probabilidad de un tipo de error casi siempre resulta en un aumento en la probabilidad del otro tipo de error. Sin embargo, se puede reducir la probabilidad de cometer ambos tipos de error, aumentando el tama˜ no de la muestra. Por ejemplo, supongamos que inyectamos la nueva vacuna a 100 individuos tomados aleatoriamente. Si m´as de 36 del grupo de muestra sobrepasan el periodo de 2 a˜ nos, se rechaza la hip´otesis nula de que p = 1/4 y se acepta la hip´otesis alternativa de que p = 1/2. Para determinar la probabilidad de cometer un error tipo I, utilizamos la aproximaci´on de la curva normal con 1 µ = np = 100 × = 25 4 Tipificamos la normal Z=

y

σ=



npq =

r

100 ×

1 3 × = 4.33 4 4

36.5 − 25 X −µ = = 2.66 σ 4.33

entonces α = P (error tipo I) = P  = P X > 36



p = 1/4

 = Rechazar H0 H0 es cierta



≃ P (Z > 2.66) = 0.0039

Para determinar la probabilidad de cometer un error tipo II, utilizamos de nuevo la aproximaci´on de la curva normal con

15 Contraste de hip´ otesis

203

Figura 15.1: Representaci´on esquem´atica de la probabilidad de cometer errores de tipo I y II en un contraste de hip´otesis. r 1 1 1 √ µ = np = 100 × = 50 y σ = npq = 100 × × = 5 2 2 2 Tipificamos la normal X −µ 36.5 − 50 Z= = = −2.70 σ 5 entonces   β = P (error tipo II) = P Aceptar H0 = H0 es falsa = P



 X ≤ 36 ≃ P (Z < −2.70) = 0.0035 p = 1/2

En la figura 15.1 se muestra un esquema de los errores tipo I y tipo II correspondientes al ejemplo anterior.

15.3.

Metodolog´ıa

Para establecer y realizar un contraste de hip´otesis sobre un par´ametro poblacional, θ, se realizan los siguientes pasos: 1. Definir las hip´otesis nula H0 y alternativa H1 . Recordamos que la hip´otesis nula siempre la consideramos simple (H0 : θ = θ0 ). b que permita medir si existe discrepancia entre los 2. Considerar un estad´ıstico, Θ, datos muestrales y la hip´otesis H0 . Para ello, es necesario conocer la distribuci´on de

este estad´ıstico bajo la suposici´on de que H0 es cierta.

204

Estad´ıstica

3. Definir la regi´on cr´ıtica del test, es decir, especificar qu´e valores del estad´ıstico consideramos inadmisibles para asumir H0 . Esta especificaci´on se cuantifica en t´erminos de probabilidades: nos interesa saber cu´ando la diferencia entre el valor esperado del estad´ıstico bajo la hip´otesis H0 y su valor obtenido para la muestra (lo que se conoce como “disparo”) es demasiado grande para poder atribuirse al azar. b y 4. Tomar una muestra, calcular el valor que toma el estad´ıstico en la muestra, θ, tomar una decisi´on seg´ un su valor caiga o no en la regi´on cr´ıtica.

Lo que debe especificarse al definir un contraste de hip´otesis es, por tanto, el estad´ıstico que vamos a utilizar y la regi´on cr´ıtica. En gran parte de los casos, la elecci´on del estad´ıstico o es evidente (la media muestral, por ejemplo, si las hip´otesis se refieren al valor medio de una cantidad) o ´este resulta ser est´andar, y por tanto conocido de antemano para un determinado tipo de problema (como el estad´ıstico de Pearson que estudiaremos posteriormente en los contrastes de bondad del ajuste). La elecci´on de la regi´on cr´ıtica se hace de acuerdo al inter´es que tengamos en minimizar el error de tipo I. Para reducir la posibilidad de un error de tipo II deberemos jugar con el tama˜ no de la muestra.

15.4.

Nivel de significaci´ on y regi´ on cr´ıtica

Tradicionalmente la regi´on cr´ıtica de un contraste se determina fijando de antemano b La regi´on un nivel de significaci´on α. Supongamos un contraste basado en un estad´ıstico Θ. b que consideramos tan poco probables como cr´ıtica ser´a el conjunto de posibles valores de Θ

para rechazar H0 . Llamemos a esta regi´on Dc , de tal modo que rechazaremos H0 si el valor b obtenido en el muestreo θb ∈ Dc . de Θ Recordando la definici´on del nivel de significaci´on:

Podemos reescribir:

  α = P Rechazar H0 H0 es cierta α=P



 b θ ∈ Dc H0 es cierta

Recordemos que es posible calcular esta probabilidad ya que conocemos la distrib bajo la suposici´on de que H0 es cierta. As´ı, fijado de antemano buci´on del estad´ıstico Θ

el nivel de significaci´on α podremos obtener de la ecuaci´on anterior la regi´on cr´ıtica Dc . Basta entonces tomar la decisi´on:

15 Contraste de hip´ otesis

205

• Si θb ∈ Dc se rechaza la hip´otesis H0

• En caso contrario no existe evidencia suficiente que permita rechazar H0 , para el nivel de significaci´on prefijado.

En general, en este curso vamos a trabajar solo con tres tipos de contrastes, para los cuales la relaci´on entre el nivel de significaci´on y la regi´on cr´ıtica es (Fig. 15.2): • Contraste bilateral ◦ Contraste H0 : θ = θ0 H1 : θ 6= θ0 ◦ C´alculo de la Regi´on Cr´ıtica

α/2 = P



α/2 = P



◦ Decisi´on

  b  Θ < a1 =⇒ a1    θ = θ0   b > a2 Θ =⇒ a2 θ = θ0

=⇒

    

RC = (−∞, a1)∪(a2, +∞)

Si θb < a1 ´o θb > a2 =⇒ Rechazo H0 en favor de H1 Si a1 < θb < a2 =⇒ No Rechazo H0

• Contraste unilateral por la derecha ◦ Contraste H0 : θ = θ0 H1 : θ > θ0 ◦ C´alculo de la Regi´on Cr´ıtica  b α = P Θ > a

θ = θ0



=⇒

a

=⇒

RC = (a, +∞)

206

Estad´ıstica ◦ Decisi´on Si θb > a =⇒ Rechazo H0 en favor de H1 Si θb < a =⇒ No Rechazo H0

• Contraste unilateral por la izquierda ◦ Contraste H0 : θ = θ0 H1 : θ < θ0 ◦ C´alculo de la Regi´on Cr´ıtica  b < a α=P Θ

θ = θ0



=⇒

a

=⇒

RC = (−∞, a)

◦ Decisi´on

Si θb < a =⇒ Rechazo H0 en favor de H1 Si θb > a =⇒ No Rechazo H0

Este mecanismo basado en la fijaci´on de un nivel de significaci´on no es completamente satisfactorio y, en la actualidad, se prefiere el enfoque basado en lo que se conoce como Valor-p de un contraste. Antes de definirlo conviene detenerse en las limitaciones del enfoque anterior. El resultado del test depende enormemente de la elecci´on del nivel α. As´ı, es posible rechazar H0 con un α = 0.05 y, sin embargo no hacerlo si α = 0.045. De hecho, con este enfoque, no queda constancia del grado de evidencia que la muestra indica a favor o en contra de H0 . En la figura 15.3 se muestran dos disparos que conducir´ıan al rechazo de H0 aunque, claramente, la evidencia de este rechazo es muy distinta.

15.5.

Valor-p

b para el que hemos Supongamos un contraste de hip´otesis basado en un estad´ıstico Θ b Se define Valor-p del contraste obtenido un disparo, o valor estimado en la muestra, de θ. como:

15 Contraste de hip´ otesis

207

Figura 15.2: Regi´on cr´ıtica para un nivel de significaci´on α. (a): contraste bilateral, (b): contraste unilateral por la derecha, (c): contraste unilateral por la izquierda. En todos los b cuando H0 es cierta, es decir cuando casos se ha dibujado la distribuci´on del estad´ıstico Θ

θ = θ0

208

Estad´ıstica

Rechazo

α

Figura 15.3: Dos disparos que conducen al rechazo de la hip´otesis H0 . Claramente la evidencia para este rechazo es muy distinta en ambos casos.

  b b Contraste bilateral Valor-p = P |Θ| ≥ θ H0 es cierta

 b ≥ θb Valor-p = P Θ

 b ≤ θb Valor-p = P Θ

H0 es cierta

H0 es cierta



Contraste unilateral por la derecha



Contraste unilateral por la izquierda

La relaci´on del Valor-p con el nivel de significaci´on es evidente: seg´ un el enfoque anterior, no rechazar´ıamos H0 para ning´ un nivel de significaci´on α menor que el Valor-p. Habitualmente, el criterio basado en el Valor-p es como sigue: 1. Si Valor-p ≥ 0.2 se considera que no existe evidencia estad´ıstica para rechazar la hip´otesis H0 .

2. Si Valor-p ≤ 0.01 se considera que la evidencia es m´as que suficiente para rechazar H0 en favor de H1 .

3. Si 0.01 ≤ Valor-p ≤ 0.2 la aceptaci´on o rechazo de H0 depender´a de la confianza

que tengamos a priori en la hip´otesis H0 . Normalmente se rechaza H0 si el Valor-p es menor que 0.1

15 Contraste de hip´ otesis

15.6.

209

Potencia de un contraste

La potencia de un contraste se define en t´erminos de la probabilidad de cometer un error de tipo II (es decir, aceptar H0 siendo falsa): un test es tanto m´as potente cuanto menor sea esta probabilidad. Ya hemos visto que para calcular la probabilidad de error de tipo II necesitamos una hip´otesis alternativa H1 completamente especificada. Si nuestro contraste se refiere a alg´ un par´ametro poblacional, θ, deberemos especificar su valor. Se define la funci´ on o curva de operaci´on caracter´ıstica (O.C.) de un contraste, β(θ), como (Fig 15.4.a):     β(θ) = P (error tipo II) = P Aceptar H0 = P Aceptar H0 H0 es falsa θ

Si el valor de θ se toma como aquel que especifica la hip´otesis nula θ0 , β(θ0 ) ser´a la

probabilidad de aceptar H0 cuando ´esta es cierta y, por tanto, est´a relacionada con el nivel de significaci´on mediante la igualdad: β(θ0 ) = 1 − α Para cualquier otro valor de θ se obtiene la probabilidad de error de tipo II si la hip´otesis alternativa H1 especifica dicho valor para el par´ametro. Se define la funci´ on o curva de potencia de un contraste como (Fig 15.4.b)

P otencia(θ) = 1 − β(θ) = P



   Rechazar H0 = P Rechazar H0 H0 es falsa θ

Obs´ervese que para dos contrastes con igual nivel de significaci´on, el de mayor potencia es aquel en el que es menos probable cometer un error de tipo II. Como se ha visto en el ejemplo anterior una posible manera de aumentar la potencia de un contraste es aumentar el tama˜ no muestral.

15.7.

Contrastes para la media de una poblaci´ on

Vamos a establecer en esta secci´on una serie de contrastes relacionados con el valor de la media de una poblaci´on. Los estad´ısticos que vamos a emplear han sido estudiados en el cap´ıtulo dedicado a las distribuciones en el muestreo.

210

Estad´ıstica

15.7.1.

Varianza conocida

Supongamos una P.M. de media µ y varianza σ conocida. Sabemos que la distribuci´on en el muestreo del estad´ıstico media muestral n

es x¯ ≡

15.7.1.1.

 √     N µ, σ/ n    ? (µ, σ/√n )

1X x¯ = xi n i=1 si la poblaci´on madre es normal N(µ, σ) o n ≥ 30 si la poblaci´on madre es ? (µ, σ)

Poblaci´ on Madre Normal o n ≥ 30

• Contraste bilateral H0 : µ = µ 0 H1 : µ 6= µ0 Empleando la notaci´on zp para el cuantil 1 − p de una normal est´andar N(0, 1) (es

decir, zp es el valor para el que la funci´on de distribuci´on vale p o, dicho de otro modo, que deja una probabilidad 1 − p a su izquierda) tenemos, para un nivel de significaci´on α

  x¯ − µ0 √ < zα/2 = 1 − α P −zα/2 < σ/ n √ √ y, por tanto, una regi´on de aceptaci´on (µ0 − zα/2 σ/ n, µ0 + zα/2 σ/ n). Tomando el valor muestral de x¯ rechazaremos H0 si obtenemos un valor fuera de este intervalo

y deberemos aceptarla en caso contrario. El nivel cr´ıtico del test, o Valor-p, ser´a   x¯ − µ0 Valor-p = P |N(0, 1)| > √ σ/ n

• Contraste unilateral por la derecha

H0 : µ = µ 0 H1 : µ > µ 0 El contraste es completamente an´alogo al anterior salvo que ahora la regi´on de aceptaci´on no est´a limitada por la izquierda. Tenemos ahora que   x¯ − µ0 √ < zα = 1 − α P σ/ n

15 Contraste de hip´ otesis

211

√ y, por tanto, una regi´on de aceptaci´on (−∞, µ0 + zα σ/ n). El nivel cr´ıtico del test, o Valor-p, ser´a ahora   x¯ − µ0 √ Valor-p = P N(0, 1) > σ/ n • Contraste unilateral por la izquierda H0 : µ = µ 0 H1 : µ < µ 0  x¯ − µ0 √ > −zα = 1 − α P σ/ n √ y la regi´on de aceptaci´on es (µ0 − zα σ/ n, +∞). El nivel cr´ıtico del test, o Valor-p, 

ser´a ahora

  x¯ − µ0 √ Valor-p = P N(0, 1) < σ/ n

En ambos casos (prueba bilateral o unilateral), el tama˜ no de la muestra n puede fijarse con alguna suposici´on a˜ nadida. Lo m´as habitual es obligar a que, dada una hip´otesis alternativa determinada H1 : µ = µ0 + δ, el error de tipo II sea menor que una cantidad prefijada. Es f´acil demostrar que se obtiene una potencia 1 − β para un tama˜ no muestral

n∼

 (zα + zβ )2 σ 2      δ2

si la prueba es unilateral

   (z + zβ )2 σ 2   α/2 si la prueba es bilateral δ2

15.7.2.

Varianza desconocida

15.7.2.1.

Poblaci´ on Madre Normal

En el caso de que desconozcamos la varianza de la poblaci´on madre, pero ´esta sea N(µ, σ), hemos visto que

x¯ − µ √ ≡ tn−1 s/ n

siendo tn−1 una variable t de Student con n − 1 grados de libertad. • Contraste bilateral

212

Estad´ıstica

H0 : µ = µ 0 H1 : µ 6= µ0 Empleando la notaci´on tp para el cuantil 1 − p de una t de Student con n-1 grados

de libertad tn−1 tenemos, para un nivel de significaci´on α   x¯ − µ0 √ < tα/2 = 1 − α P −tα/2 < s/ n √ √ y, por tanto, una regi´on de aceptaci´on (µ0 − tα/2 s/ n, µ0 + tα/2 s/ n). Tomando el valor muestral de x¯ rechazaremos H0 si obtenemos un valor fuera de este intervalo

y deberemos aceptarla en caso contrario. El nivel cr´ıtico del test, o Valor-p, ser´a   x¯ − µ0 Valor-p = P |tn−1 | > √ s/ n

• Contraste unilateral por la derecha

H0 : µ = µ 0 H1 : µ > µ 0 Tenemos ahora que



 x¯ − µ0 √ < tα = 1 − α P s/ n √ y, por tanto, una regi´on de aceptaci´on (−∞, µ0 + tα s/ n). El nivel cr´ıtico del test, o Valor-p, ser´a ahora Valor-p = P



tn−1

x¯ − µ0 √ > s/ n



• Contraste unilateral por la izquierda H0 : µ = µ 0 H1 : µ < µ 0 Tenemos ahora que

 x¯ − µ0 √ > −tα = 1 − α P s/ n √ y, por tanto, una regi´on de aceptaci´on (µ0 − tα s/ n, +∞). El nivel cr´ıtico del test, 

o Valor-p, ser´a ahora

Valor-p = P



tn−1

x¯ − µ0 √ < s/ n



15 Contraste de hip´ otesis 15.7.2.2.

213

Poblaci´ on Madre no Normal

Incluso en el caso de que la poblaci´on madre no sea normal, en virtud del teorema central del l´ımite, para valores grandes de n (n > 30) podemos utilizar la aproximaci´on x¯ − µ ∼ √ = N(0, 1) s/ n

15.8.

Comparaci´ on de medias

A partir de esta secci´on no seremos exhaustivos en la presentaci´on de los contrastes, sino que nos limitaremos a considerar el estad´ıstico m´as apropiado y su distribuci´on. El mecanismo para construir el contraste a partir de esta informaci´on es siempre igual. Sean dos muestras de tama˜ nos n y m sacadas de dos poblaciones normales con medias µx y µy y varianzas σx y σy respectivamente. La hip´otesis nula del contraste ser´a H0 : µ x − µ y = d 0

15.8.1.

Varianzas conocidas

El estad´ıstico relevante es (¯ x − y¯) − (µx − µy ) r ≡ N (0, 1) σx2 σy2 + n m

15.8.2.

Varianzas desconocidas e iguales s

15.8.3.

donde,

(¯ x − y¯) − (µx − µy ) ≡ tn+m−2 r 2 2 (n − 1)sx + (m − 1)sy 1 1 + n+m−2 n m

Varianzas desconocidas y distintas (¯ x − y¯) − (µx − µy ) ∼ r = tγ s2x s2y + n m

214

Estad´ıstica

(A + B)2 γ= B2 A2 + n−1 m−1

15.8.4.

s2y s2x A= , B= n m

Muestras apareadas

El anterior enfoque para la comparaci´on de medias no es completamente satisfactorio. En algunos casos podemos sospechar que las muestras tomadas independientemente de las dos poblaciones no han sido hechas bajo las mismas condiciones, lo que falsear´ıa el resultado del contraste. ´esto es especialmente relevante si la poblaciones presentan una gran variabilidad, lo que suele ser indicativo de que existen muchos factores que pueden influir en sus par´ametros. Una manera de evitar este problema es tomar, si se puede, muestras apareadas: medidas realizadas por pares en situaciones lo m´as semejantes posibles. Por ejemplo, para medir la eficacia de dos marcas de neum´aticos conviene tomar medidas de los neum´aticos montados sobre el mismo veh´ıculo, con lo que eliminaremos la variabilidad debida a los distintos conductores, amortiguadores, mec´anica etc. En un proceso de medida apareado obtenemos n pares de valores x1,i , x2,i referidos ¯ a las dos poblaciones 1 y 2. Se toma el valor yi = x1,i − x2,i del estad´ıstico diferencia D. Si µD¯ y sD¯ son su media y desviaci´on muestral respectivamente, el estad´ıstico T =

¯ − µD¯ D √ ≡ tn−1 sD¯ / n

La hip´otesis nula para este contraste se reduce a H0 : µD¯ = d0 En la tabla 15.1 se encuentra un esquema de los contrastes relativos a medias

15.9.

Pruebas sobre proporciones

El n´ umero de elementos de una poblaci´on que presentan una determinada caracter´ıstica sigue una distribuci´on binomial, como sabemos. Si X es una variable binomial B(n, p), la proporci´on de elementos de la poblaci´on que presentan la caracter´ıstica deseada ser´a su valor medio dividido por n. Para n grande, la variable binomial se aproxima a una normal, por lo que salvo en el caso de poblaciones peque˜ nas (n < 30) los contrastes de proporciones son an´alogos a los referidos a las medias de una poblaci´on.

15 Contraste de hip´ otesis

215

En el caso de poblaciones peque˜ nas se procede como en el ejemplo que abre este cap´ıtulo, manejando directamente el estad´ıstico media de una variable binomial.

15.9.1.

Diferencia de dos proporciones

Si tenemos dos poblaciones y queremos medir si la diferencia de proporciones p1 − p2

de una caracter´ıstica determinada en ellas es 0 se emplea el estad´ıstico pb1 − pb2 Z=p ∼ N(0, 1) pe(1 − pe)(1/n1 + 1/n2 )

donde

x1 + x2 n1 + n2 siendo x1 y x2 el n´ umero de elementos de cada muestra que presentan la caracter´ıstica. pe =

15.10.

Pruebas sobre varianzas

15.10.1.

Una poblaci´ on

Tomando una muestra de tama˜ no n de una poblaci´on madre normal de varianza σ 2 , se cumple para la varianza muestral s2 (n − 1)s2 ≡ χ2n−1 σ2

15.10.2.

Comparaci´ on de varianzas

Dadas dos muestras de tama˜ nos n y m de dos poblaciones normales de varianzas σx y σy respectivamente s2x /σx2 ≡ Fn−1,m−1 s2y /σy2 siendo s2x y s2y la varianza muestral de cada poblaci´on.

216

Estad´ıstica

Figura 15.4: Dada la hip´otesis nula H0 : p = 1/4. Curva de operaci´on caracter´ıstica para las hip´otesis alternativas (a1) H1 : p 6= 1/4; (a2) H1 : p > 1/4; (a3) H1 : p < 1/4. Curva

de potencia para las hip´otesis alternativas (b1) H1 : p 6= 1/4; (b2) H1 : p > 1/4; (b3) H1 : p < 1/4

15 Contraste de hip´ otesis

217

Cuadro 15.1: Pruebas relativas a medias H0

Valor del estad´ıstico de prueba

µ = µ0

x¯ − µ0 √ ; σ conocida z= σ/ n

µ = µ0

µ1 − µ2 = d0

µ1 − µ2 = d0

x¯ − µ0 √ ; ν =n−1 t= s/ n σ desconocida z=p

(¯ x1 − x¯2 ) − d0

(σ12 /n1 ) + (σ22 /n2 ) σ1 y σ2 conocidas (¯ x1 − x¯2 ) − d0 t= p sp (1/n1 ) + (1/n2 )

ν = n1 + n2 − 2, σ1 = σ2 pero desconocida,

s2p =

(n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2

(¯ x1 − x¯2 ) − d0 t= p 2 (s1 /n1 ) + (s22 /n2 ) µ1 − µ2 = d0

ν=

(s21 /n1 + s22 /n2 )2 (s21 /n1 )2 (s22 /n2 )2 + n1 − 1 n2 − 1

σ1 6= σ2 y desconocidas

µD = d0

d¯ − d0 √ ; ν =n−1 t= sd / n observaciones apareadas

H1

Regi´on cr´ıtica

µ < µ0

z < −zα

µ > µ0

z > zα

µ 6= µ0

|z| > zα/2

µ > µ0

t > tα

µ 6= µ0

|t| > tα/2

µ1 − µ2 > d0

z > zα

µ1 − µ2 6= d0

|z| > zα/2

µ1 − µ2 < d0

t < −tα

µ1 − µ2 > d0

t > tα

µ1 − µ2 6= d0

|t| > tα/2

µ1 − µ2 < d0

t < −tα

µ1 − µ2 > d0

t > tα

µ1 − µ2 6= d0

|t| > tα/2

µD < d0

t < −tα

µD > d0

t > tα

µD 6= d0

|t| > tα/2

µ < µ0

µ1 − µ2 < d0

t < −tα

z < −zα

218

Estad´ıstica

16

Contrastes no param´etricos

´Indice 16.1. Contraste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 16.1.1. Prueba de bondad del ajuste . . . . . . . . . . . . . . . . . . . 221 16.1.1.1. Hip´otesis simple . . . . . . . . . . . . . . . . . . . . . 221 16.1.1.2. Hip´otesis compuesta . . . . . . . . . . . . . . . . . . . 221 16.1.2. Prueba de homogeneidad . . . . . . . . . . . . . . . . . . . . . 222 16.1.3. Prueba de independencia . . . . . . . . . . . . . . . . . . . . . 223 16.2. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 223 16.3. Otros contrastes no param´ etricos . . . . . . . . . . . . . . . . . 224 16.3.1. Contrastes de posici´ on . . . . . . . . . . . . . . . . . . . . . . . 224 16.3.1.1. Test de los signos . . . . . . . . . . . . . . . . . . . . 225 16.3.1.2. Test de Wilcoxon de los rangos signados . . . . . . . . 226 16.3.1.3. Test de la mediana . . . . . . . . . . . . . . . . . . . . 227 16.3.1.4. Test de Mann-Whitney . . . . . . . . . . . . . . . . . 227 16.3.2. Contrastes de independencia . . . . . . . . . . . . . . . . . . . 228 16.3.2.1. Test τ de Kendall . . . . . . . . . . . . . . . . . . . . 228 16.3.2.2. Test del coeficiente de correlaci´ on entre rangos o test de Spearman . . . . . . . . . . . . . . . . . . . . . . . 229 16.3.2.3. Test de rachas . . . . . . . . . . . . . . . . . . . . . . 229 16.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

219

220

Estad´ıstica En el cap´ıtulo anterior hemos manejado contrastes param´etricos, es decir, aquellos

en los que se estudia la veracidad de hip´otesis acerca de los par´ametros de los que depende la distribuci´on de una poblaci´on. En muchas otras ocasiones es necesario emitir un juicio sobre la distribuci´on poblacional en su conjunto. Los problemas m´as habituales que suelen plantearse son los siguientes: • Decidir, a la vista de una muestra aleatoria de una poblaci´on, si puede admitirse

que ´esta sigue una cierta distribuci´on dada N(0,1), Poisson(5), etc.) o bien pertenece a un cierto tipo de distribuciones (es normal, exponencial, geom´etrica, etc.). Los contrastes que dilucidan esta cuesti´on se denominan de bondad del ajuste.

• Analizar si varias muestras aleatorias provienen de poblaciones con la misma distribuci´on te´orica, de forma que puedan utilizarse conjuntamente para inferencias

posteriores sobre ´esta o si, por el contrario, son muestras de poblaciones con distinta distribuci´on. Es el problema de la homogeneidad de varias muestras. • Estudiar, en el caso de que se observen dos o m´as caracter´ısticas de los elementos

de la poblaci´on (de forma que la distribuci´on te´orica no sea unidimensional) si las caracter´ısticas observadas pueden ser consideradas independientes y proceder a su an´alisis por separado o, por el contrario, existe relaci´on estad´ıstica entre ellas. Cualquiera de estos problemas se denominan no param´etricos ya que no se trata de

decidir entre distribuciones Fθ que s´olo se diferencian en el valor del par´ametro θ. As´ı, por ejemplo, si queremos probar una hip´otesis nula como que la distribuci´on es Exp(λ = 5) la hip´otesis alternativa contiene a todas las distribuciones continuas y no s´olo a las exponenciales con otro valor de su par´ametro λ.

16.1.

Contraste χ2

Reciben este nombre los contrastes basados en el estad´ıstico de Pearson. Omitiremos la justificaci´on te´orica, algo complicada, del proceder para su c´alculo as´ı como de la obtenci´on de su distribuci´on.

16 Contrastes no param´ etricos

221

16.1.1.

Prueba de bondad del ajuste

16.1.1.1.

Hip´ otesis simple

Supongamos una muestra aleatoria simple de tama˜ no n de una distribuci´on desconocida F . Tratamos de contrastar si puede aceptarse la hip´otesis H0 : F = F0 , donde F0 es una distribuci´on conocida completamente especificada, es decir, de la que conocemos todos y cada uno de los par´ametros de los que depende (la media y la desviaci´on en el caso de una normal, el valor del par´ametro λ en el caso de una exponencial, etc.). El procedimiento a seguir es el siguiente: 1. Se divide el recorrido de la distribuci´on poblacional en k conjuntos disjuntos o clases: A1 , A2 , · · · , Ak 2. Se calcula el n´ umero ni de elementos de la muestra observados en cada clase Ai . 3. Se calcula el n´ umero ni,esp de elementos esperados en cada clase si la hip´otesis H0 es cierta. Para ello, basta multiplicar la probabilidad que la distribuci´on F0 asigna a cada clase por el n´ umero de elementos de la muestra. IMPORTANTE. S´olo puede realizarse el contraste si cada uno de los ni,esp es mayor o igual a 5. En caso contrario, se unen varias clases Aj hasta conseguirlo. En lo que sigue supondremos que el n´ umero de clases k en las que hemos descompuesto el recorrido de la distribuci´on te´orica es el resultado de esta operaci´on: entre las k clases no hay ninguna con ni,esp < 5. 4. Se realiza el test empleando el estad´ıstico de Pearson:

D=

k X (ni − ni,esp )2 i=1

ni,esp

que, en las condiciones antes citadas, sigue una distribuci´on χ2 con k − 1 grados de libertad. (La regi´on cr´ıtica es de la forma D > c). 16.1.1.2.

Hip´ otesis compuesta

Supongamos ahora (lo que suele ser m´as habitual) que la hip´otesis a contrastar especifica una familia de distribuciones de forma funcional dada pero dependiente de algunos par´ametros no especificados (por ejemplo, suponemos que nuestra poblaci´on es normal de media 1 pero desconocemos la desviaci´on o, suponiendo que es normal, no conocemos

222

Estad´ıstica

ni la media ni la desviaci´on, etc.). En este sentido se dice que la hip´otesis nula es ahora compuesta pues unifica varias hip´otesis simult´aneamente. Una posibilidad para resolver el problema es tomar varias muestras: con las primeras estimamos los par´ametros y con la u ´ ltima realizamos el contraste χ2 anterior. Sin embargo, es posible (y m´as conveniente en muchos casos) realizar el estudio empleando una u ´ nica muestra. El procedimiento a seguir en este segundo caso es: 1. Se estiman los par´ametros a partir de la muestra empleando el criterio de m´ axima verosimilitud. 2. Se repite el proceso anterior con la salvedad de que ahora la distribuci´on del estad´ıstico D de Pearson es una χ2 con k − 1 − ν grados de libertad, siendo ν el n´ umero de par´ametros que hemos estimado.

16.1.2.

Prueba de homogeneidad

Supongamos que se dispone de m muestras aleatorias simples de otras tantas poblaciones cuyos tama˜ nos son, respectivamente, n1 , n2 , · · ·, nm . A partir de estos datos se desea decidir si la distribuci´on poblacional es la misma en todos los casos y, por consiguiente,

se dispone de una muestra de tama˜ no n = n1 + n2 + · · · + nm de una u ´ nica distribuci´on o, por el contrario, se trata de poblaciones heterog´eneas con diferentes distribuciones.

Nuevamente, el conjunto de posibles valores de las observaciones se divide en k clases disjuntas: A1 , A2 , · · ·, Ak . Si llamamos nij al n´ umero de observaciones de la muestra i que pertenecen a la clase Aj podemos construir la siguiente tabla de contingencia: Muestra

A1

A2

1

n11

n12

2 .. .

n21 .. .

n22 .. .

m

nm1

nm2

Total

n·1

n·2

···

Ak

Total

n1k

n1

n2k .. .

n2 .. .

· · · nmk

nm

··· ··· .. .

···

n·k

n

donde ni es la suma de los elementos de la fila i y n·j es la suma de la columna j. El contraste se realiza recurriendo al estad´ıstico D=

m X k X (nij − ni n·j /n)2 ni n·j /n i=1 j=1

que sigue una distribuci´on χ2 con (m − 1)(k − 1) grados de libertad.

16 Contrastes no param´ etricos

16.1.3.

223

Prueba de independencia

Supongamos que de n elementos de una poblaci´on se han observado dos caracter´ısticas X e Y , obteni´endose una muestra aleatoria simple bidimensional (x1 , y1 ), (x2 , y2), · · ·,(xn , yn ). Sobre la base de dichas observaciones se desea contrastar si las caracter´ısticas poblacionales X e Y son independientes o no.

Para ello se divide el conjunto de posibles valores de X en k clases disjuntas A1 , A2 , · · ·, Ak y los de Y en r clases disjuntas B1 , B2 , · · ·, Br . Al clasificar los elementos

de la muestra aparecer´a un cierto n´ umero de ellos , nij , en cada una de las k × r clases

constituidas, dando lugar a una tabla de contingencia de la forma: B1

B2

A1

n11

n12

A2 .. .

n21 .. .

n22 .. .

Ak

nk1

nk2

Total

n·1

n·2

···

Br

Total

n1r

n1·

n2r .. .

n2· .. .

· · · nkr

nk·

··· ··· .. . ···

n·r

n

El contraste se realiza mediante el estad´ıstico k X r X (nij − ni· n·j /n)2 D= ni· n·j /n i=1 j=1

que sigue una distribuci´on χ2 con kr − 1 grados de libertad.

Tanto en este caso como en el anterior la regi´on cr´ıtica del test es de la forma D > c.

16.2.

Contraste de Kolmogorov-Smirnov

El contraste K-S es una contraste de bondad del ajuste v´alido u ´ nicamente para distribuciones continuas. No es conveniente su uso cuando hay que estimar par´ametros ya que la distribuci´on del estad´ıstico es entonces s´olo aproximada. La hip´otesis nula de este contraste es que la muestra proviene de una distribuci´on continua F0 (x). El procedimiento para construir el contraste es: 1. Se ordenan los n valores muestrales de forma que x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn

224

Estad´ıstica

2. Se calcula la funci´on de distribuci´on emp´ırica de la muestra , Fn (x), con:   0        r Fn (x) =  n        1

x < x1 xr ≤ x ≤ xr + 1 x ≥ xn

3. Se calcula la discrepancia m´axima entre la funci´on de distribuci´on emp´ırica y la te´orica F0 (x) con el estad´ıstico ∆n = m´ax |Fn (x) − F0 (x)| cuya distribuci´on es conocida y est´a tabulada seg´ un los valores de n. Para realizar correctamente el contraste hay que calcular para cada punto muestral xh el valor ∆n (xh ) = m´ax{|Fn (xh−1 ) − F0 (xh )| , |Fn (xh ) − F0 (xh )|} El m´aximo de los n valores as´ı obtenidos es el estad´ıstico ∆n de KolmogorovSmirnov. La regi´on cr´ıtica del test es de la forma ∆n > c.

16.3.

Otros contrastes no param´ etricos

16.3.1.

Contrastes de posici´ on

En ocasiones s´olo nos interesa conocer, de una poblaci´on desconocida, su posici´on sobre la recta real, porque se da por supuesto que las condiciones en que se observa el fen´omeno s´olo pueden trasladar la distribuci´on sin deformarla. Ejemplos de este tipo de situaciones pueden ser: 1. Una empresa cambia su horario de entrada, adelant´andolo media hora, y se pregunta si ello habr´a afectado a los retrasos de sus empleados. Los datos son aleatorios, variando de d´ıa en d´ıa y de un empleado a otro, pero es aceptable pensar que la forma de su distribuci´on no ha variado; el temor es que se haya desplazado hacia la derecha, increment´andose el tiempo perdido.

16 Contrastes no param´ etricos

225

2. Una comunidad ha modificado la procedencia del agua para consumo dom´estico. Tras cierto tiempo, quiere comprobar si ello ha afectado a la concentraci´on de sodio en la sangre de sus habitantes, en el sentido de que la distribuci´on de dicha concentraci´on se haya trasladado hacia uno u otro lado, mientras que la forma de la distribuci´on se supone que no habr´a variado apenas. 3. Se desea saber si las ventas en dos establecimientos de la misma cadena son an´alogas. Presumiblemente la forma de la distribuci´on de las ventas diarias ser´a similar para ambas, as´ı que el objetivo es detectar si una est´a desplazada respecto a la otra. Si no puede suponerse la normalidad de la poblaci´on madre (ya que entonces lo adecuado es aplicar los contrastes param´etricos sobre la media de una normal) es posible abordar el problema de la posici´on de la distribuci´on usando la mediana muestral. 16.3.1.1.

Test de los signos

Tenemos una distribuci´on continua desconocida F cuya mediana ser´a Me. Probaremos a contrastar la hip´otesis nula H0 : Me = m0 frente a alguna de las alternativas Me < m0 , Me > m0 ´o Me 6= m0 . El estad´ıstico que se

emplea es

T = { N´ umero de observaciones muestrales mayores que m0 } que, si H0 es correcta, tiene una distribuci´on binomial B(n, 1/2), siendo n el tama˜ no de la muestra.

S La regi´on cr´ıtica ser´a de la forma {T ≤ k}, {T ≥ k} ´o {T ≤ k} {T ≥ n − k},

seg´ un sea la hip´otesis alternativa una de las rese˜ nadas arriba, y donde k puede fijarse determinando un nivel cr´ıtico α. • Si el tama˜ no muestral es apreciable (n > 20) puede aproximarse la distribuci´on binomial por la normal correspondiente.

• Seg´ un la hip´otesis de continuidad de la distribuci´on no deber´ıan obtenerse valores muestrales coincidentes con la mediana. En la pr´actica ´esto puede ocurrir, siendo

aconsejable excluir tales valores, disminuyendo consecuentemente el tama˜ no de la muestra.

226

Estad´ıstica

• Es f´acil generalizar este contraste para cualquier otro cuantil, cambiando el par´ametro p de la binomial.

• Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los

datos, siendo entonces m0 = 0. Este procedimiento nos dir´a si la mediana de las dos

muestras es igual o no. 16.3.1.2.

Test de Wilcoxon de los rangos signados

En el caso en que sepamos que la distribuci´on poblacional, adem´as de continua, es sim´ etrica puede mejorarse el contraste anterior de la siguiente manera. Si Di = xi − m0 son las diferencias entre las observaciones muestrales y el valor a

contrastar para Me, se ordenan, en orden creciente, los valores absolutos |Di | y se anota

el rango (o lugar) r (|Di |) que cada uno ocupa en dicha ordenaci´on. El estad´ıstico en que se basa el test es la suma de los rangos de las observaciones mayores que m0 , cuya distribuci´on, si H0 es cierta, se encuentra tabulada. T+ =

X

∀Di >0

r (|Di |)

+ • Si el tama˜ no muestral es apreciable (n > 20) la distribuci´on del estad´   ıstico T puede p aproximarse por la normal N n(n + 1)/4, n(n + 1)(2n + 1)/24 . En todo caso,

la distribuci´on de T + es sim´etrica en torno a n(n + 1)/4

• Igual que antes, seg´ un la hip´otesis de continuidad de la distribuci´on, no deber´ıan obtenerse valores muestrales coincidentes con la mediana. En la pr´actica ´esto puede

ocurrir, siendo aconsejable excluir tales valores, disminuyendo consecuentemente el tama˜ no de la muestra. • Si tenemos datos apareados se puede aplicar el contraste a la diferencia de los

datos, siendo entonces m0 = 0. Este procedimiento nos dir´a si la mediana de las dos

muestras es igual o no. • Si se conoce la mediana poblacional este test se convierte en una prueba sobre la hip´otesis subyacente de que la distribuci´on es sim´etrica respecto a la mediana. As´ı,

para tama˜ nos muestrales grandes, para los que la mediana muestral tiende al valor de la mediana poblacional, puede usarse, sustituyendo m0 por el valor muestral de la mediana, para contrastar la simetr´ıa de la distribuci´on.

16 Contrastes no param´ etricos 16.3.1.3.

227

Test de la mediana

Los dos tests anteriores se refieren a la mediana de una u ´ nica poblaci´on y hacen uso de una u ´ nica muestra (en el caso de los datos apareados la poblaci´on y la muestra que interesan son las diferencias entre las parejas de datos). Sin embargo, con frecuencia se plantean situaciones en las cuales hay que comparar dos poblaciones continuas y tratar de detectar desplazamientos entre ambas distribuciones. Supongamos, por tanto, dos muestras aleatorias simples: x1 , x2 , · · · , xn e y1 , y2 , · · · , ym

correspondientes a cada poblaci´on e independientes entre s´ı. Si se ordenan conjuntamente

en orden creciente, la mediana z de la muestra combinada es el valor central, en el caso de que n + m sea impar, y el promedio de los dos valores centrales en el caso de que n + m sea par. El estad´ıstico que se emplea es T = N´ umero de xi inferiores a z Si Mex = Mey , es decir, si la hip´otesis H0 es cierta, la distribuci´on de T es hipergeom´etrica p P (T = t) =

t

!

n+m−p

n−t ! n+m

!

n

donde p es la parte entera de (n+ m)/2 y t puede variar entre max{0, y min{n, p}.  p −m}  p Si n y m son grandes la distribuci´on de T es aproximadamente N n/2, nm/4(n + m) . 16.3.1.4.

Test de Mann-Whitney

Este contraste “resuelve.el mismo caso que el anterior: detectar diferencias de posici´on entre dos poblaciones continuas de las que tenemos dos muestras aleatorias simples. El estad´ıstico a utilizar es V , calculado como sigue: 1. Se ordenan conjuntamente, igual que en el caso anterior, las dos muestras en orden creciente. 2. Para cada valor xi correspondiente a la primera muestra (que debe corresponder a la de tama˜ no muestral menor) se cuenta el n´ umero de valores de la segunda muestra que hay por debajo de ´el. 3. V es la suma de los n´ umeros calculados anteriormente.

228

Estad´ıstica Supongamos, por ejemplo, que al ordenar la muestra el resultado hubiera sido (cada x

representa un valor de la primera muestra y cada y uno de la segunda): xxyyxyyyxxyxxyx, entonces V = 0 + 0 + 2 + 5 + 5 + 6 + 6 + 7 = 31 La distribuci´ este estad´ıstico se halla  on dep  tabulada. Si n y m son grandes es, aproximadamente, N nm/2, nm(n + m + 1)/12 . En todo caso, la distribuci´on de V es sim´etrica en torno a nm/2.

16.3.2.

Contrastes de independencia

Vamos a estudiar algunos contrastes para decidir sobre la independencia de dos caracter´ısticas poblacionales continuas X e Y cuya distribuci´on conjunta no sea normal y que no est´an basados en el contraste χ2 . En el caso de distribuci´on conjunta normal lo m´as adecuado es realizar un contraste param´etrico sobre el coeficiente de correlaci´on. 16.3.2.1.

Test τ de Kendall

Supongamos un conjunto de n observaciones apareadas: (x1 , y1 ), (x2 , y2), · · ·, (xn , yn ).

Para calcular el estad´ıstico T de Kendall se procede como sigue:

1. Se ordena la muestra seg´ un la primera componente, de modo que x1 < x2 < · · · < xn 2. Consideramos ahora la segunda componente de cada par as´ı ordenado y ecribimos su rango, es decir, el lugar que ocupa respecto del resto de valores de y. Obtenemos entonces una sucesi´on de valores r1 , r2 , · · · , rn donde rj ≡ lugar que ocupa la segunda

componente del par i-´esimo en la ordenaci´on de estos valores.

3. Para cada valor de esta sucesi´on se cuenta cu´antos de los valores posteriores a ´el son mayores. 4. Se suman los n´ umeros as´ı obtenidos. Llamemos P a su valor. 5. T =

4P −1 n(n − 1)

La distribuci´on de T est´a tabulada y para n > 10 es aproximadamente s ! 2(2n + 5) N 0, 9n(n − 1) La regi´on cr´ıtica de este contraste es de la forma {|T | > k}

16 Contrastes no param´ etricos 16.3.2.2.

229

Test del coeficiente de correlaci´ on entre rangos o test de Spearman

Supongamos de nuevo una muestra apareada de valores (xi , yi ). Este contraste est´a basado en el estad´ıstico de Spearman, RS , que se calcula como sigue: 1. Se ordena la muestra seg´ un los valores de la primera componente (en orden creciente de ´esta). 2. Consideramos de nuevo el rango, rj , que corresponde al valor de la segunda componente y que ocupa el lugar j-´esimo de esta ordenaci´on. 3. Calculamos U =

n X j=1

4. RS = 1 −

(rj − j)2

6U n(n2 − 1)

La distribuci´on de RS est´a tabulada y para n > 10 es aproximadamente   1 N 0, √ n−1 16.3.2.3.

Test de rachas

Un problema de independencia distinto de los anteriores se plantea cuando existen dudas acerca de que una muestra sea realmente aleatoria simple, es decir, que las sucesivas observaciones hayan sido efectuadas independientemente. Condiciones de muestreo sin las debidas garant´ıas de aleatoriedad pueden afectar a la independencia de las observaciones y dar al traste con la aplicaci´on de todos los m´etodos basados en el muestreo aleatorio simple. Supongamos una variable que s´olo puede tomar dos valores (digamos 0 y 1). Al tomar una muestrta obtendremos sucesiones de la forma 0001101011110001. Se llama racha a cada uno de los conjuntos de ceros consecutivos que se observan hasta llegar a un 1 y a cada uno de los conjuntos de unos consecutivos que se observan hasta llegar a un 0. La muestra anterior, por ejemplo, tiene 8 rachas. Si R es el n´ umero de rachas en una muestra que tiene n ceros y m unos (y por tanto tama˜ no n + m) puede demostrarse que si la muestra es aleatoria n−1 P (R = 2r) = 2

r−1

!

m−1

n+m n

r−1 !

!

230

Estad´ıstica

n−1 P (R = 2r + 1) =

r−1

!

m−1 r

!

+

n+m n

n−1 !

r

!

m−1 r−1

!

con r ≤ min{n, m}.

Si n y m son grandes (superiores a 10) puede tomarse como distribuci´on de R s ! 2nm 2nm(2nm − n − m) N + 1, (n + m) (n + m)2 (n + m − 1

S La regi´on cr´ıtica de este contraste es de la forma {R < k1 } {R > k2 }.

16.4.

Ejemplos

Ejemplo 1 Se ha estimado que el n´ umero de accidentes diarios en una determinada carretera sigue una distribuci´on de Poisson de par´ametro 2. Durante 200 d´ıas se han recogido los siguientes datos: n◦ de accidentes

0

n◦ de d´ıas

1

2

3

4

5

6 7

22 53 58 39 20 5

2 1

con los que se quiere contrastar si se ajusta a la distribuci´on indicada. Si la hip´otesis es cierta se espera un n´ umero de d´ıas igual a 200 veces la probabilidad de que una Poisson de par´ametro 2 valga 0, 1, 2, 3, 4, 5, 6 ´o 7: Los valores esperados son: n◦ de accidentes n◦ esperado de d´ıas

0

1

2

3

4

≥5

27.06 54.14 54.14 36.08 18.04 10.54

donde se han agrupado las categor´ıas correspondientes a 5 o m´as accidentes para satisfacer la condici´on de que el n´ umero esperado en cada categor´ıa sea mayor o igual a 5. El estad´ıstico D de Pearson vale

D=

5 X (ni − ni,esp)2 i=0

ni,esp

5 X 222 532 82 n2i = −n + = + +···+ − 200 = 2.307 n 27.06 54.14 10.54 i=0 i,esp

16 Contrastes no param´ etricos

231

cuya distribuci´on, si la hip´otesis es correcta, es aproximadamente χ2 con 5 grados de libertad. Por ejemplo, P (χ25 > 7.29) = 0.2, de modo que s´olamente un valor de D superior a 7.29 permitir´ıa, con nivel de significaci´on 0.2, afirmar que la distribuci´on de accidentes no es una Poisson de par´ametro 2. El valor p del contraste realizado es superior a 0.7.

232

Estad´ıstica

Ejemplo 2 Una m´aquina, en correcto estado de funcionamiento, fabrica piezas cuya longitud se distribuye seg´ un una N(10.5; 0.15). En determinado momento se observa la siguiente muestra, de tama˜ no 40, de la longitud de las piezas producidas: 10.39 10.66 10.12 10.32 10.25 10.91 10.52 10.83 10.72 10.28 10.35 10.46 10.54 10.72 10.23 10.18 10.62 10.49 10.32 10.61 10.64 10.23 10.29 10.78 10.81 10.39 10.34 10.62 10.75 10.34 10.41 10.81 10.64 10.53 10.31 10.46 10.47 10.43 10.57 10.74 y se desea saber si la muestra avala que la m´aquina est´a funcionando correctamente. Vamos a realizar el contraste de bondad del ajuste de χ2 primero y, posteriormente, el de Kolmogorov-Smirnov. Para realizar el contraste χ2 , tomamos 8 intervalos buscando los cuantiles de o´rdenes 0.125, 0.25, 0.375, · · ·, 0.875, de modo que el n´ umero esperado de valores sea 5 en cada

intervalo. La partici´on resultante es:

Ai

ni

ni,esp

≤ 10.33

10

5

(10.33, 10.4]

5

5

(10.4, 10.45]

2

5

(10.45, 10.5]

4

5

(10.5, 10.55]

3

5

(10.55, 10.6]

1

5

(10.6, 10.67]

6

5

> 10.67

9

5

Total

40

40

52 + 02 + 32 + 12 + 22 + 42 + 12 + 42 = 14.4 5 Si la hip´otesis fuera correcta la distribuci´on de D ser´ıa χ2 con 7 grados de libertad y la D=

tabla indica que P (χ27 > 14.4) = 0.0445 Y, por tanto, se puede afirmar con cualquier nivel de significaci´on superior a 0.0445 que las piezas no siguen la distribuci´on N(10.5; 0.15).

16 Contrastes no param´ etricos

233

Para realizar ahora el contraste K-S se construye la siguiente tabla, cuya segunda columna da el n´ umero de observaciones acumuladas hasta el valor muestral, la tercera la funci´on de distribuci´on muestral (dividiendo por el tama˜ no de la muestra), la cuarta la distribuci´on te´orica (dada por la hip´otesis nula) y las dos siguientes las diferencias: la quinta de la misma fila y la sexta de cada F0 (xi ) con la de la fila anterior de la distribuci´on de la muestra.

234

Estad´ıstica xi

i

Fn (xi )

F0 (xi )

10.12

1

0.025

0.0056

10.18

2

0.050

10.23

4

10.25

Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi ) 0.0194

0.0056

0.0164

0.0336

-0.0086

0.100

0.0359

0.0641

-0.0141

5

0.125

0.0478

0.0772

-0.0522

10.28

6

0.150

0.0712

0.0788

-0.0538

10.29

7

0.175

0.0807

0.0943

-0.0693

10.31

8

0.200

0.1026

0.0974

-0.0724

10.32 10

0.250

0.1151

0.1349

-0.0849

10.34 12

0.300

0.1431

0.1569

-0.1069

10.35 13

0.325

0.1587

0.1663

-0.1413

10.39 15

0.375

0.2317

0.1433

-0.0933

10.41 16

0.400

0.2743

0.1257

-0.1007

10.43 17

0.425

0.3204

0.1046

-0.0796

10.46 19

0.475

0.3949

0.0801

-0.0301

10.47 20

0.500

0.4207

0.0793

-0.0543

10.49 21

0.525

0.4734

0.0516

-0.0266

10.52 22

0.550

0.5530

-0.0030

0.0280

10.53 23

0.575

0.5793

-0.0043

0.0293

10.54 24

0.600

0.6051

-0.0051

0.0301

10.57 25

0.625

0.6796

-0.0546

0.0796

10.61 26

0.650

0.7683

-0.1183

0.1433

10.62 28

0.700

0.7881

-0.0881

0.1381

10.64 30

0.750

0.8247

-0.0747

0.1247

10.66 31

0.775

0.8569

-0.0819

0.1069

10.72 33

0.825

0.9288

-0.1038

0.1538

10.74 34

0.850

0.9452

-0.0952

0.1202

10.75 35

0.875

0.9522

-0.0772

0.1022

10.78 36

0.900

0.9690

-0.0690

0.0940

10.81 38

0.950

0.9806

-0.0306

0.0806

10.83 39

0.975

0.9861

-0.0111

0.0361

10.91 40

1

0.9969

0.0031

0.0219

La entrada con mayor valor absoluto de la quinta columna es 0.1663 mientras que la de la sexta es 0.1538. As´ı, el estad´ıstico de Kolmogorov-Smirnov vale ∆40 = 0.1663

16 Contrastes no param´ etricos

235

y, seg´ un la tabla, corresponde a un valor p muy cercano a 0.2 (y desde luego, mayor que 0.1). No hay, por tanto, evidencia seg´ un este contraste en contra de la hip´otesis nula. En este ejemplo se comprueba que, a veces, el contraste χ2 detecta diferencias que el de Kolmogorov-Smirnov no es capaz de detectar. Ejemplo 3 Hemos deducido del contraste χ2 anterior que la maquina no fabrica piezas tal y como pens´abamos. Sin embargo parece plausible pensar que la distribuci´on de longitudes sigue siendo normal, s´olo que la media y desviaci´on han cambiado. Probemos esta hip´otesis. Lo primero que ha de hacerse es estimar la media y la desviaci´on t´ıpica por m´axima verosimilitud. Para una normal, los estimadores de estas cantidades resultan ser la media y la desviaci´on muestral, obteni´endose para nuestra muestra µ b = x¯ = 10.502

σ b = s = 0.2025

Tratemos de ajustar nuestros datos a una normal con estos par´ametros. Tomamos una partici´on arbitraria y construimos la tabla Ai

ni

ni,esp

≤ 10.3

7

6.37

(10.3, 10.4]

8

5.92

(10.4, 10.5]

6

7.55

(10.5, 10.6]

4

7.59

(10.6, 10.7]

6

6.00

> 10.7

9

6.57

seg´ un la cual D = 3.708. Al tener seis intervalos y haber estimado dos par´ametros la distribuci´on de D, si H0 es cierta, es una χ2 con 6 − 1 − 2 = 3 grados de libertad. Como P (χ23 > 3.708) = 0.295 La muestra no permite ahora rechazar la hip´otesis de que la longitud de las piezas fabricadas sigue una distribuci´on normal N(10.502; 0.2025). Ejemplo 4 Los impactos de 60 bombas volantes sobre la superficie de Londres, considerada cuadrada, fueron clasificados en 9 zonas obtenidas dividiendo cada lado en tres partes iguales, con los siguientes resultados

236

Estad´ıstica 8

7

3

5

9

11

6

4

7

Los responsables de la defensa quer´ıan averiguar si las bombas persegu´ıan alg´ un objetivo concreto o se distribu´ıan al azar sobre la superficie de la ciudad. Con distribuci´on uniforme sobre toda la superficie, cada cuadr´ıcula tendr´ıa probabilidad 1/9 de recibir cada impacto y, por tanto, un n´ umero esperado de impactos de 60/9. El estad´ıstico de Person vale ahora D = 7.5 y su distribuci´on te´orica deber´ıa ser una χ2 con 8 grados de libertad. P (χ28 > 7.5) = 0.48 valor que no permite rechazar la hip´otesis de uniformidad. Ejemplo 5 Un modelo gen´etico indica que la distribuci´on de dalt´onicos se ajusta a las probabilidades Hombres

Mujeres

Normales

q/2

q 2 /2 + pq

Dalt´onicos

p/2

p2 /2

siendo p = 1−q la proporci´on de cromosomas X portadores del daltonismo. Para comprobar la teor´ıa se examinaron 2000 individuos elegidos al azar con los siguientes resultados Hombres

Mujeres

Normales

894

1015

Dalt´onicos

81

10

y se desea saber si las observaciones concuerdan con el modelo. Puesto que q no es conocido habr´a que hallar su estimaci´on de m´axima verosimilitud. La muestra observada tiene por verosimilitud  q 894 2000! 894! 81! 1015! 10! 2



1−q 2

81 h   10 q i1015 (1 − q)2 q 1− 2 2

cuyo logaritmo (prescindiendo de los t´erminos independientes de q) es

16 Contrastes no param´ etricos

237

894 log q + 81 log (1 − q) + 1015 log q + 1015 log (2 − q) + 20 log (1 − q) y tiene por derivada respecto a q 101 1015 1909 − − q 1−q 2−q La estimaci´on de q es qb = 0.91277 y los n´ umeros esperados en cada uno de los cuatro grupos son

Hombres

Mujeres

Normales

912.77

992.39

Dalt´onicos

87.23

7.61

El estad´ıstico D = 2.097 debe seguir una distribuci´on χ2 con 2 grados de libertad. Como P (χ22 > 2.097) = 0.35 no puede rechazarse la hip´otesis nula. Ejemplo 6 Se quiere estudiar si los distintos grupos sangu´ıneos se presentan con las mismas frecuencias en tres grupos ´etnicos diferentes. Para ello se analizaron un cierto n´ umero de individuos de cada raza, obteni´endose los resultados siguientes: Raza

0

A

B

AB

Total

A

32

11

7

2

52

B

47

13 17

9

86

C

23

7

9

6

45

102 31 33

17

183

Total

El estad´ıstico D = 4.691 y debe seguir una χ2 con 6 grados de libertad. Como P (χ26 > 4.691) = 0.584 No podemos rechazar la igualdad de frecuencias. Esta claro que las cifras de las distintas filas de la tabla anterior no son comparables entre s´ı directamente, puesto que se refieren a diferentes tama˜ nos muestrales. En porcentajes, los datos se expresan:

238

Estad´ıstica Raza

0

A

B

AB

Total

A

61.54 21.15 13.46

3.85

100

B

54.65 15.12 19.77 10.46

100

C

51.11 15.56 20.00 13.33

100

55.74 16.94 18.03

100

Total

9.29

La simple inspecci´on de esta tabla parece indicar que hay diferencias significativas, al menos entre el primer grupo ´etnico y los otros dos. Sin embargo, el contraste nos indica que estas diferencias son completamente admisibles como debidas al azar y no contradicen, en absoluto, la hip´otesis de igualdad de fercuencia de cada grupo sangu´ıneo. Ejemplo 7 Para comprobar la eficacia del test χ2 de homogeneidad se han simulado dos muestras aleatorias simples, de tama˜ no 50, de las distribuciones N(0,1) y Cauchy ( de densidad π −1 (1 + x2 )−1 ), cuya apariencia gr´afica es similar. Las muestras obtenidas han sido: N(0,1) -0.99

Cauchy

1.54

-1.02

0.56 -0.36

-2.15

1.34 -2.98

0.31 -0.18

0.41

0.51 -0.44

-0.60

0.58

-0.28

0.75

0.26 -0.89

1.76

-1.21

0.98 -0.46

0.07

1.11

-16.39

0.39 -0.45

-0.44

0.68

1.27 -1.13

1.22

0.46

2.18

-0.63

1.03

7.05 -5.96

1.23

0.77

0.03

0.71

-0.56

-0.91

0.44 -27.53

0.44

3.77

-0.69

0.21

1.88

2.57 -0.80 -0.16

-0.52

1.24 -1.18

-0.52

0.28

0.89

0.03

0.25

0.83

-1.24

0.88

-0.96

0.29

0.31

0.99

0.15 -0.13 -1.56

1.28

1.58 -1.74 28.33

-0.58

0.58

-1.24 -0.64

-1.34 -0.99

1.85

0.08

-0.16

-1.21 -0.21 -0.22

12.89

0.11

0.66

-0.71 -4.07 1.28

Podemos clasificar estas muestras en los intervalos

1.39

2.45

1.41

-3.49

-1.42

16 Contrastes no param´ etricos

239

Aj

n1j

n2j

n·j

(−∞, −2]

0

7

7

(−2, −1.2]

4

4

8

(−1.2, −0.9]

4

3

7

(−0.9, −0.6]

3

4

7

(−0.6, −0.3]

5

4

9

(−0.3, 0]

7

1

8

(0, −0.3]

7

3

10

(0.3, 0.6]

7

4

11

(0.6, 0.9]

4

4

8

(0.9, 1.2]

3

1

4

(1.2, 2]

5

9

14

(2, ∞]

1

6

7

50

50

100

Total

El estad´ıstico D toma el valor 20.03 y tiene distribuci´on χ2 con 11 grados de libertad. Puesto que P (χ211 > 20.03) = 0.045 se puede rechazar la homogeneidad de ambas muestras con nivel cr´ıtico 0.045. Ejemplo 8 Para estudiar si el grupo sangu´ıneo tiene relaci´on con la predisposici´on a padecer diabetes, se seleccionan al azar 400 sujetos de los que se ha determinado el grupo sangu´ıneo y el nivel de glucosa en id´enticas condiciones experimentales. Clasificada la segunda medida en bajo, medio y alto, los resultados han sido: Bajo

Medio

Alto

Total

0

137

86

35

258

A

42

23

11

76

B

19

17

7

43

AB

14

7

2

23

Total

212

133

55

400

Con los datos expresados en la tabla se obtiene D = 2.406. Por otra parte, D tiene distribuci´on χ2 con 6 grados de libertad y P (χ26 > 2.204) = 0.9

240

Estad´ıstica

por lo que no puede concluirse de ninguna manera que haya una relaci´on entre el grupo sangu´ıneo y la diabetes. Ejemplo 9 Un laboratorio farmac´eutico afirma que uno de sus productos confiere inmunidad contra la picadura de insectos durante un tiempo exponencial de media 2.5 horas. Probado en 25 sujetos, en un ambiente con gran n´ umero de mosquitos, los instantes (en horas) en que recibieron la primera picadura fueron: 0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.23 0.51 0.74 0.96 1.17 1.46 1.62 2.18 2.25 2.79 3.45 3.83 3.92 4.27 5.43 5.79 5.91 6.34 Construimos, para realizar un contraste K-S, la tabla: xi

i

Fn (xi )

0.01

2

0.08

0.02

5

0.03

F0 (xi ) Fn (xi ) − F0 (xi ) Fn (xi−1 ) − F0 (xi ) 0.004

0.076

0.004

0.20

0.008

0.192

-0.072

7

0.28

0.012

0.268

-0.188

0.23

8

0.32

0.088

0.232

-0.192

0.51

9

0.36

0.185

0.175

-0.135

0.74 10

0.40

0.256

0.144

-0.104

0.96 11

0.44

0.319

1.121

-0.081

1.17 12

0.48

0.374

0.106

-0.066

1.46 13

0.52

0.442

0.078

-0.038

1.62 14

0.56

0.477

0.083

-0.043

2.18 15

0.60

0.582

0.018

0.022

2.25 16

0.64

0.593

0.047

-0.007

2.79 17

0.68

0.672

0.008

0.032

3.45 18

0.72

0.748

-0.028

0.068

3.83 19

0.76

0.784

-0.024

0.064

3.92 20

0.80

0.792

0.008

0-032

4.27 21

0.84

0.819

0.021

0-019

5.43 22

0.88

0.886

-0.006

0.046

5.79 23

0.92

0.901

0.019

0.021

5.91 24

0.96

0.906

0-054

-0.014

6.34 25

1

0.921

0.079

-0.039

16 Contrastes no param´ etricos

241

en la que la cuarta columna contiene la funci´on de distribuci´on te´orica: 1−e−0.4x . Se tiene, de esta tabla, que ∆25 = 0.268 y la correspondiente tabla indica que la hip´otesis de que la distribuci´on es la que dice la empresa puede ser rechazada con nivel de significaci´on 0.05. Probemos ahora un contraste χ2 . Como hay s´olo 25 datos lo m´as l´ogico es descomponer el recorrido de la variable en 5 intervalos de probabilidad 1/5, obteni´endose: Ai

ni

ni,esp

[0, 0.558)

9

5

(0.558, 1.277]

3

5

(1.277, 2.291]

4

5

(2.291, 4.024]

4

5

(4.024, ∞)

5

5

y un valor del estad´ıstico D = 4.4 que, comparado con la distribuci´on χ24 , no permite rechazar la hip´otesis de ajuste ni siquiera con nivel de significaci´on 0.3. Ahora es este contraste el que no es capaz de detectar las diferencias que s´ı ha detectado KolmogorovSmirnov. Ejemplo 10 Una empresa decide adelantar su horario de entrada en una hora. Antes del cambio sab´ıa que la media de retraso de sus empleados era de 5 minutos. Tras el cambio selecciona 12 empleados y observa, en un determinado d´ıa, los siguientes retrasos (en minutos): 2.5 1.2 7

1.8 8.3 6.8

5.2 3.4 4.7 6.2

9.1 5.2

El contraste que desea realizar la empresa es H0 : Me = 5 (los retrasos no han variado) frente a H1 : Me > 5 (los retrasos han aumentado). Vamos a emplear el test de los signos: el n´ umero de datos superiores a 5 es T = 7, y la distribuci´on binomial B(12, 1/2),indica que, si H0 es correcta, P (T ≥ 7) = 0.3871 lo que indica que no es rechazable la hip´otesis nula. Ejemplo 11 Supongamos ahora que la empresa anterior seleccion´o 16 de sus empleados y midi´o sus retrasos en dos d´ıas , antes y despu´es del cambio de horario. Los resultados fueron:

242

Estad´ıstica 2.1/3.4 1.2/5.1 4.2/2.6 4.6/7.4 0.7/2.4 3.2/2.7 5.6/5.2 1.8/2.9 4.8/6.5 2.3/7.3 0.4/0.8 2.5/2.2 3.2/9.8 4.7/2.8 1.6/2.2 6.3/6.5 que se traduce en los siguientes aumentos de los retrasos: 1.3 3.9 -1.6

2.8

1.7 5.0

-0.3 6.6 -1.9

0.4

1.7 -0.5 -0.4 1.1 0.6

0.2

Si Me es la mediana de la distribuci´on de incrementos se puede contrastar, ahora, la hip´otesis H0 : Me = 0 frente a H1 : Me > 0. El n´ umero de incrementos positivos es T = 11 y la distribuci´on binomial B(16, 1/2) proporciona P (T ≥ 11) = 0.105 y se podr´ıa rechazar la hip´otesis Me = 0 con nivel cr´ıtico 0.105. Ejemplo 12 Supongamos que la distribuci´on de sodio por unidad de volumen de sangre en una poblaci´on es sim´etrica alrededor de 3.24 g. Se ha cambiado el suministro de agua y se han obtenido los siguientes an´alisis de 15 habitantes (en gramos por unidad de volumen): 2.37 2.95 3.40 2.46 3.66 3.18 2.72 3.71 3.87 1.97 1.66 3.72 2.10 1.83 3.03 Las diferencias respecto a la mediana, con los rangos, en la ordenaci´on creciente de sus valores absolutos, indicados junto a cada t´ermino, tal y como se requiere para aplicar el test de los rangos asignados a H0 : Me = 3.24 frente a H1 : Me 6= 3.24 son: −0.8711

+0.6310

−0.294

−1.2713

+0.162 −1.5815

−0.69

+0.487

+0.426 −1.1412

−0.061

−1.4114

−0.528

+0.375

−0.213

La suma de los rangos de los t´erminos positivos es T + = 2 + 6 + 5 + 10 + 7 = 30. Con nivel de significaci´on α = 0.1 la tabla indica que la hip´otesis Me = 3.24 puede ser rechazada si T + ≥ 89 ´o T + ≤ 31. En cambio, para α = 0.05 la regi´on cr´ıtica del test es T + ≥ 94 ´o T + ≤ 26. Los datos obtenidos permiten, pues, afirmar que la distribuci´on de la cantidad de sodio ha variado, con un riesgo de error pr´oximo al 10 %.

16 Contrastes no param´ etricos

243

Ejemplo 13 En 8 personas elegidas al azar se analiz´o el contenido en sodio antes y despu´es del cambio de suministro de agua, con los siguientes resultados: 3.34/2.58 2.82/2.46 3.06/3.50 2.30/2.16 4.22/3.78 3.55/3.19 2.61/2.94 2.83/1.94 Los incrementos han sido: -0.76 -0.36 +0.44 -0.14 -0.44 -0.36 +0.33 -0.89 (7)

(3.5)

(5.5)

(1)

(5.5)

(3.5)

(2)

(8)

con los rangos que se indican en la segunda fila. El test de Wilcoxon para el contraste de Me = 0 frente a Me 6= 0 nos proporciona el estad´ıstico T + = 7.5, mientras que la tabla correspondiente indica que, con nivel de significaci´on 0.1, la hip´otesis Me = 0 s´olo podr´ıa rechazarse si fuese T + ≥ 30 ´o T + ≤ 6. Ejemplo 14 Las ventas de los establecimientos A y B fueron controladas durante 9 y 12 d´ıas respectivamente, con los siguientes resultados (en miles de pesetas): A:

132.5 167.4 189.8 124.6 136.6 147.5 159.9 117.8 106.3

B:

97.4

108.2 114.1

118.4 109.2

86.3

101.8 122.6

78.3

136.2

89.5

92.7

La ordenaci´on conjunta de ambas muestras (sin perder la procedencia de cada dato) figura en la siguiente tabla: A: B:

106.3 78.3

86.3

A: B:

89.5

92.7

97.4

101.8

124.6 132.5 118.4 122.6

117.8 108.2 109.2 114.1

136.6 147.5 159.9 167.4 189.8 136.3

La mediana de la muestra conjunta (que ocupa el valor 11) es el valor 117.8 y hay un u ´ nico t´ermino de la primera muestra inferior a este, luego T = 1. Para contrastar Mex = Mey frente a Mex > Mey con nivel de significaci´on α, el test de la mediana utiliza la regi´on cr´ıtica {T ≤ k} donde ha de ser

244

Estad´ıstica

10 P (T ≤ k) =

k X

t

!

11 21

t=0

9

9−t !

!

≤α

Con k = 1 el nivel de significaci´on resulta α = 0.0058, de forma que se puede afirmar que Mex > Mey con gran seguridad. El contratse χ2 aplicado a la tabla de contingencia < 120 > 120

Total

A

2

7

9

B

10

2

12

Total

12

9

21

da una valor del estad´ıstico D = 7.84 que, comparado con una distribuci´on χ21 , permite tambi´en descartar la homogeneidad de ambas muestras con nivel de significaci´on inferior a 0.01. Con los tama˜ nos muestrales usados y la partici´on elegida, el contraste χ2 es menos fiable que el de la mediana. Con tama˜ nos muestrales grandes, y sobre todo si no hay constancia de la igualdad de forma de las distribuciones, es preferible el contraste χ2 . Tratemos ahora de emplear el test de Mann-Whitney. Para la ordenaci´on de las muestras anterior basta contar el n´ umero de elementos de la muestra B que hay por debajo de cada elemento de la muestra A para obtener: V = 6 + 9 + 11 + 11 + 12 + 12 + 12 + 12 + 12 = 97 Como V es aproximadamente N(54, 14.07) tenemos P (V > 96) ≃ P (N(0, 1) > 2.98) = 0.0014 y el test de Mann-Whitney corrobora, con nivel de significaci´on inferior a 0.005 que las ventas del establecimiento A son superiores a las del B. Ejemplo 15 En 10 empleados de una empresa se ha observado la distancia (en km.) de su domicilio a la sede de la empresa y el retraso (en min.) con el que llegaron al trabajo cierto d´ıa. Los resultados fueron:

16 Contrastes no param´ etricos

245

(3.3, 5, 1) (2.4, 3.6) (1.9, 4.2) (2.8, 6.3) (1.2, 2.3) (2.7, 3.4)

(4.0, 2.8) (0.7, 3.2) (6.1, 5.3) (3.7, 3.7)

Ordenada la muestra seg´ un la distancia, los retrasos asociados son 3.2 2.3 4.2

3.6 3.4

6.3

5.1 3.7

2.8 5.3

(3) (1) (7)

(5) (4) (10) (8) (6)

(2) (9)

cuyos rangos (en la ordenaci´on de valores de menor a mayor) se han indicado debajo de cada uno. El recuento de valores mayores que quedan a la derecha de cada rango proporciona P = 7 + 8 + 3 + 4 + 4 + 0 + 1 + 1 + 1 = 29 con lo cual T = 13/45 = 0.288. La correspondiente tabla indica que deber´ıa ser T > 0.33 para poder rechazar la hip´otesis de independencia con nivel de significaci´on 0.1. Por tanto, los datos no permiten concluir que haya relaci´on entre el retraso y la distancia del domicilio a la empresa. Probemos ahora con el test de Spearman. Con la ordenaci´on ya efectuada anteriormente: U = 22 + 12 + 42 + 12 + 12 + 42 + 12 + 22 + 72 + 12 = 94 y el estad´ıstico de Spearman vale RS = 1 − 6U/990 = 0.43. De la correspondiente tabla observamos que dicho coeficiente no es suficiente para rechazar la independencia entre las variables ni siquiera con nivel de significaci´on 0.1. Ejemplo 16 Al extraer 17 bolas con reemplazamiento de una bolsa con bolas blancas y negras se ha obtenido el resultado BBBBNNNBBBBBBBBNN que muestra R = 4 rachas. Puesto que hay 12 blancas y 5 negras, el n´ umero de rachas podr´ıa haber sido cualquiera entre 2 y 11. Las f´ormulas dadas anteriomente permiten calcular la probabilidad de cada uno de los valores: 2

3

4

5

6

7

8

9

10

11

0.0003 0.002 0.014 0.046 0.107 0.195 0.213 0.24 0.107 0.075 Incluyendo las probabilidades de menor a mayor, se observa que {R ≤ 4} es la regi´on

cr´ıtica con tama˜ no α = 0.0169; con tama˜ no α = 0.0631 se podr´ıa rechazar para {R ≤ 5} S y para α = 0.1377 se obtendr´ıa la regi´on cr´ıtica {R ≤ 5} {R = 11}.

246

Estad´ıstica

Ejemplo 17 Queremos comprobar si al tomar en d´ıas consecutivos los datos de ventas del establecimiento B del ejemplo 14 hemos afectado a su independencia. Los 12 datos tienen como mediana 105. Los t´erminos de la muestra original, comparados con esta mediana dan la secuencia de signos -++--+-+-++con R = 9 rachas. Con n = m = 6 la distribuci´on de R es sim´etrica entre 2 y 12, obteni´endose las probabilidades: 2 y 12 3 y 11 4 y 10

5y9

0.002

0.011 0.216 0.216

0.011

0.054

6y8

7

S La regi´on cr´ıtica {R ≤ 4} {R ≥ 10} tendr´ıa tama˜ no =0.134, de forma que, con

R = 9, no puede afirmarse que la toma de datos en d´ıas consecutivos haya afectado a la independencia de la muestra. Ejemplo 18 Una afecci´on de la gl´andula tiroides ha sido investigada en una cierta regi´on durante los a˜ nos ochenta. El n´ umero de casos observados desde junio de 1986 hasta mayo de 1989 vienen dados en la siguiente tabla A˜ no

Mes E

F M

A

M

1986

J

J A

S

O

N

D

6

9

8

6

8

11

8

1987

5

4

4

2

1

8

8

6

2

2

1

2

1988

7

8

3

1

2

7

7

6

5

5

3

5

1989

1

2

1

1

2

Se quiere investigar si existe o no alguna periodicidad en dicha enfermedad contrastando: (a) Si pueden considerarse homog´eneas las tres temporadas durante las cuales se recogieron los datos. (b) Si los casos se presentan con variaciones estacionales. (a) En primer lugar se trata de detectar si hay una pauta com´ un en los tres ciclos anuales considerados, ya que, en caso contrario, ello significar´ıa que el comportamiento es diferente cada a˜ no. Para ello , conviene agrupar los datos de la froma

16 Contrastes no param´ etricos

247

J

J

A

S

O

N

D

E

F

M

A-M

Total

1986-87

6

9

8

6

8

11

8

5

4

4

3

72

1987-88

8

8

6

2

2

1

2

7

8

3

3

50

1988-89

7

7

6

5

5

3

5

1

2

1

3

45

Total

21

24 20 13 15 15

15 13 14

8

9

167

con los meses de abril y mayo sumados para conseguir que sea ni n·j /n ≥ 2. El estad´ıstico

de contraste toma el valor

m X k 3 X 11 X X (nij − ni n·j /n)2 nij D= = n −1 + ni n·j /n nn i=1 j=1 i=i j=1 i ·j

!

= 24.477

y D tiene distribuci´on χ220 , cuya tabla indica que la hip´otesis de que las tres temporadas siguen el mismo patr´on no puede ser rechazada con nivel de significaci´on 0.1 (el nivel cr´ıtico es, de hecho, 0.222). (b) Admitida la homogeneidad de las tres muestras, los 167 casos, agrupados por meses, se distribuyen como indica la tabla siguiente J

J

A

S

O

21 24 20 13 15

N

D

E

F

M

A

M

15 15 13 14

8

4

5

La influencia del mes sobre el n´ umero de casos ocurridos tendr´ıa que ser descartada si las frecuencias observadas fuesen compatibles con probabilidades de 1/12 para cada uno de ellos; es decir si no pudiese admitirse que los datos fueran desviaciones debidas al azar en torno a 167/12 casos por mes. El estad´ıstico de Pearson para dicho contraste vale 12

D = −167 +

12 X 2 n = 29.24 167 j=1 j

y tiene distribuci´on χ211 . La hip´otesis de uniformidad de la distribuci´on puede rechazarse, por tanto, con nivel de significaci´on 0.005. Las diferencias entre los tres meses de verano (J,J,A) no son significativas, pues los datos J

J

A

21

24

20

65/3 65/3 65/3 dan como valor del estad´ıstico de Pearson D = −65 + 3/65 con la distribuci´on

χ22

3 X

n2j = 0.4 que, comparado

j=1

no permite rechazar la hip´otesis de que los casos se presentan

unifromemente distribuidos entre los tres meses.

248

Estad´ıstica Lo mismo ocurre con los tres meses de primavera (M,A,M: D = 1.53 < χ22;0.1 ) y, por

supuesto, con los seis meses de oto˜ no-invierno. En cambio, existen diferencias significativas entre estos tres periodos. Por ejemplo, la comparaci´on entre el verano y los seis meses siguientes da como resultado Verano

Oto˜ no-Invierno

65

85

150/3

2 · 150/3

D = 6.75 > χ21;0.01 de manera que no hay un reparto uniforme de los casos entre los tres meses de verano y los seis siguientes. En definitiva, puede concluirse que la incidencia de la enfermedad es m´as alta en verano y m´as baja en primavera, respecto del nivel medio durante el resto del a˜ no. Los datos de este ejemplo corresponden a una serie temporal (un conjunto de observaciones a lo largo del tiempo) que tienen su tratamiento espec´ıfico. Esto no significa, sin embargo, que los resultados obtenidos mediante las t´ecnicas est´andar para estas series sean “mejores”que las que hemos obtenido. La principal diferencia radica en la capacidad que da el an´alisis de series temporales de predecir el comportamiento futuro (al menos a corto plazo). Ejemplo 19 Las 100 primeras cifras decimales del n´ umero π son

π = 3.14159265358979323846264338327950288419716939937510 58209749445923078164062862089986280348253421170679 y queremos saber si estas cifras tienen las propiedades de una secuencia de cifras elegida al azar. Se puede contrastar, en primer lugar, si todas las cifras aparecen con la misma frecuencia 1/10, que si hubiesen sido elegidas al azar de una urna con diez bolas numeradas del 0 al 9. Para ello comparamos las frecuencias esperadas y observadas, mediante la tabla

ni ni,esp

0

1

2

3

4

5

6

7

8

8

8

12 11

10

8

9

8

12 14

10 10 10 10

9

10 10 10 10 10 10

16 Contrastes no param´ etricos

249

El valor del estad´ıstico de Pearson resulta 9

D=

1 X (ni − 10)2 = 4.2 10 i=0

que, comparado con la distribuci´on χ29 lleva a aceptar la hip´otesis de unifromidad con un nivel cr´ıtico pr´oximo a 0.9. Podemos contrastar ahora si la posici´on de las cifras parece el resultado de haberlas elegido al azar, sin dependencia entre ellas. Para ello lo adecuado es el test de rachas: eligiendo 4.5 como promedio de las 10 cifras, se indican con un + o un - aquellos d´ıgitos que sean, respectivamente, menores o mayores que 4.5; se obtiene as´ı 1

4

1

5

9

2

6

5

3

5

8

9

7

9

3

− − −

+

+

+

+

+

+

+

+

3

3

2



+

3



7

9

5

0

2

8

− − − +

− −

+

+

+

7

5

1

0

5

− − 8

− −

+

+

2

6

4



+

6

9

− − 3

9

− + 9

3

+

+

+

+

+

9

3

0



+

5



7

8

1

+

+ 6

2

8

− +

+

8

− −

+

+



+

− − −

2

0

8

3

4

6

4

0

6



+

+

8

2

− −

+



4

2

3

8

4

+

+

2

0

9

− − +







2

5

3

2

+

− − −

1

8 9

7

4

+

+

8

6

2

− +

+

+

1

1

− −

0

9

8

4

6

− + 7

1

+



4

4

− − 9

9

− − +

+

+

7

0

6

7

9

+

− +

+

+

con n = 49 signos – y m = 51 signos + y un total de R = 54 rachas. Como n y m son grandes, para que la colocaci´on de las cifras parezca hecha al azar, R tendr´ıa que tener aproximadamente distribuci´on ! r 2 · 49 · 51 2 · 49 · 51 · (2 · 49 · 51 − 49 − 51) N = N(50.98; 4.97) + 1; 100 990000 El nivel cr´ıtico resulta 2P (R > 54) = 2P (Z > 0.61) = 0.5418 que no permite, en absoluto, afirmar que las cifras no est´an colocadas al azar. Otra posibilidad, en la misma direcci´on, es clasificar las cifras en pares e impares, tratando de detectar alguna regularidad en la colocaci´on de unas y otras. Concretamente tenemos ahora la tabla:

250

Estad´ıstica 1

4

1

5

9

2

6

5

3

5

8

9

7

9

3

2

3

8

4

6

i

p

i

i

i

p

p

i

i

i

p

i

i

i

i

p

i

p p

p

2

6

4

3

3

8

3

2

7

9

5

0

2

8

8

4

1

9

7

1

p p

p

i

i

p

i

p

i

i

i

p p

p

p

p

i

i

i

i

6

9

3

9

9

3

7

5

1

0

5

8

2

0

9

7

4

9

4

4

p

i

i

i

i

i

i

i

i

p

i

p p

p

i

i

p

i

p

p

5

9

2

3

0

7

8

1

6

4

0

6

2

8

6

2

0

8

9

9

i

i

p

i

p

i

p

i

p

p

p

p p

p

p

p

p

p

i

i

8

6

2

8

0

3

4

8

2

5

3

4

2

1

1

7

0

6

7

9

p p

p

p

p

i

p p

p

i

i

p p

i

i

i

p

p

i

i

con n = 49 cifras impares, m = 51 pares y R = 43 rachas. La distribuci´on aproximada de R es la misma normal anterior y el nivel cr´ıtico resulta 2P (R > 43) = 2P (Z > −1.6) = 0.1096 que tampoco permite afirmar que las cifras no est´an situadas como si hubiesen sido elegidas al azar.

Regresi´on lineal simple

17 ´Indice

17.1. Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 17.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 17.3. M´ etodo de m´ınimos cuadrados . . . . . . . . . . . . . . . . . . 254 17.4. Propiedades de los estimadores de m´ınimos cuadrados . . . . 256 17.4.1. Propiedades generales . . . . . . . . . . . . . . . . . . . . . . . 256 17.4.2. Condiciones de normalidad . . . . . . . . . . . . . . . . . . . . 257 17.5. Varianza residual . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 17.6. Inferencias respecto a los par´ ametros . . . . . . . . . . . . . . 258 17.7. Predicci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 17.7.1. Estimaci´on de la respuesta media . . . . . . . . . . . . . . . . . 259 17.7.2. Predicci´on de una observaci´on . . . . . . . . . . . . . . . . . . . 260 17.8. An´ alisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . 261 17.9. Coeficiente de correlaci´ on . . . . . . . . . . . . . . . . . . . . . 263 17.9.1. Inferencias sobre el coeficiente de correlaci´ on . . . . . . . . . . 264 17.10.Contraste de linealidad . . . . . . . . . . . . . . . . . . . . . . . 265

251

252

Estad´ıstica

17.1.

Introducci´ on

En la pr´actica, con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe alguna relaci´on inherente entre ellas. Por ejemplo, en un caso industrial, se puede saber que el contenido de alquitr´an en el producto de salida de un proceso qu´ımico est´a relacionado con la temperatura con la que ´este se lleva a cabo. Puede ser interesante desarrollar un m´etodo de predicci´on, esto es, un procedimiento para estimar el contenido de alquitr´an para varios niveles de temperatura tomados de informaci´on experimental. El aspecto estad´ıstico del problema consiste entonces en lograr la mejor estimaci´on de la relaci´on entre las variables. Para este ejemplo y para la mayor´ıa de las aplicaciones, existe una clara distinci´on entre las variables en cuanto a su papel dentro del proceso experimental. Muy a menudo se tiene una sola variable dependiente o respuesta Y , que no se controla en el experimento. Esta respuesta depende de una o m´as variables independientes o de regresi´on, como son x1 , x2 , . . . , xk , las cuales se miden con un error despreciable y en realidad, en la mayor´ıa de los casos, se controlan en el experimento. As´ı, las variables independientes no son aleatorias y por tanto no tienen propiedades distribucionales. En el ejemplo citado anteriormente, la temperatura es la variable independiente o variable de regresi´on, x, y el contenido de alquitr´an es la respuesta, Y . La relaci´on fija para un conjunto de datos experimentales se caracteriza por una ecuaci´on de predicci´on que recibe el nombre de ecuaci´on de regresi´ on. En el caso de una sola x, se habla de regresi´on simple. Para k variables independientes, se habla de regresi´on m´ ultiple. En este curso se tratar´a el tema de la regresi´on lineal simple. Representamos una m.a.s. de tama˜ no n por el conjunto {(x1 , y1), . . . , (xn , yn )}. Si se tomaran muestras adicionales utilizando exactamente los mismos valores de x, se debe esperar que los valores

de y var´ıen. De ah´ı que el valor yi en el par ordenado (xi , yi ) sea un valor de la v.a. Y |xi . Por conveniencia se define Y |x como la v.a. Y correspondiente a un valor gen´erico x, y su

media y su varianza se indican por µY |x y σ 2 Y |x , respectivamente; mientras que si x = xi , el s´ımbolo Yi representa la v.a. Y |xi con media µYi = µY |xi y varianza σ 2 Yi = σ 2 Y |xi .

El t´ermino regresi´on lineal implica que µY |x est´a linealmente relacionado con x por

la recta de regresi´on lineal poblacional µY |x = α + βx donde los coeficientes de regresi´on α y β son par´ametros que deben estimarse a partir de los datos muestrales. Si a y b representan estas estimaciones, respectivamente, se puede

17 Regresi´ on lineal simple

253

Figura 17.1: Descripci´on del modelo de regresi´on lineal simple. entonces estimar µY |x por yb de la regresi´on muestral o recta de regresi´on ajustada o

estimada

yb = a + bx

El s´ımbolo yb se utiliza aqu´ı para distinguir entre el valor estimado que da la recta

de regresi´on muestral y el valor experimental real observado, y, para alg´ un valor de x.

17.2.

Modelo lineal

En el caso de una regresi´on lineal simple, donde hay una sola variable de regresi´on, x, y una sola v.a. dependiente, Y , los datos pueden representarse por los pares de observaciones {(x1 , y1 ), . . . , (xn , yn )}. Es conveniente utilizar los conceptos de la secci´on anterior para definir cada v.a. Yi = Y |xi por medio de un modelo estad´ıstico. Si se postula que todas las medias µYi caen sobre una recta (Fig. 17.1), µYi = α + βxi

i = 1, . . . , n

(17.1)

entonces cada Yi puede describirse por el modelo de regresi´on lineal simple Yi = µYi + Ei = α + βxi + Ei

i = 1, . . . , n

(17.2)

254

Estad´ıstica

Figura 17.2: Descripci´on del error del modelo (εi ) y del residuo (ei ). donde el error aleatorio Ei , el error del modelo, debe tener media nula. Cada observaci´on (xi , yi ) de la muestra satisface la ecuaci´on yi = α + βxi + εi

(17.3)

donde εi es el valor que asume la v.a. Ei cuando Yi toma el valor yi . La ecuaci´on anterior puede considerarse como el modelo para una sola observaci´on yi . De manera similar, al utilizar la recta de regresi´on lineal estimada yb = a + bx

cada par de observaciones satisface la relaci´on

yi = a + bxi + ei

(17.4)

donde ei = yi − ybi se llama residuo y describe el error en el ajuste del modelo en el punto i de los datos. La diferencia entre ei y εi se muestra claramente en la figura 17.2.

17.3.

M´ etodo de m´ınimos cuadrados

El m´etodo se basa en encontrar las estimaciones a y b de α y β de tal forma que la suma de los cuadrados de los residuos sea m´ınima. Si notamos por P P P SSE = e2i = (yi − ybi )2 = (yi − a − bxi )2

17 Regresi´ on lineal simple

255

Derivando respecto de a y b, e igualando a cero se tiene  P P ∂(SSE)   = −2 (yi − a − bxi ) = 0 (=⇒ ei = 0)   ∂a

    ∂(SSE) = −2 P(y − a − bx )x = 0 (=⇒ P x e = 0) i i i i i ∂b

de donde

(17.5)

 P P  yi   na + b xi =

   a P x + b P x2 = P x y i i i i

que se pueden resolver para dar las expresiones de a y b  P P P n xi yi − ( xi ) ( yi )   b=  P 2 P 2   n x − ( xi )  i      P P    y xi i−b   a= n

(17.6)

Para simplificar un poco, definimos x¯ =

y¯ =

1P xi n

1P yi n

Sxx =

Syy =

Sxy = Entonces,

P P P 1 P (xi − x¯)2 = x2i − ( xi )2 = x2i − n¯ x2 n

P P 2 1 P 2 P 2 (yi − y¯)2 = yi − ( yi ) = yi − n¯ y2 n

P P P P 1 P (xi − x¯)(yi − y¯) = xi yi − ( xi ) ( yi ) = xi yi − n¯ xy¯ n b=

Sxy Sxx

(17.7)

a = y¯ − b¯ x Por tanto, la recta de regresi´on estimada se puede expresar como yb = y¯ + b(x − x¯)

(17.8)

256

Estad´ıstica

17.4.

Propiedades de los estimadores de m´ınimos cuadrados

17.4.1.

Propiedades generales

Adem´as de la suposici´on de que el t´ermino de error del modelo, Ei , es una v.a. con media cero, supongamos que cada Ei tiene la misma varianza, σ 2 (homocedasticidad), y que E1 , E2 , . . . , En son independientes. Con estas hip´otesis sobre las Ei podemos calcular la media y la varianza de los estimadores de α y β. Es importante recordar que los valores de a y b, obtenidos en base a una muestra dada de n observaciones, son solo estimaciones de los par´ametros reales α y β. Si el experimento se repite varias veces, utilizando los mismos valores de x, es muy probable que las estimaciones resultantes de α y β difieran de un experimento a otro. Estas estimaciones diferentes pueden considerarse como valores asumidos por las v.a. A y B. Dado que los valores de x permanecen fijos, los valores de A y B dependen de las variaciones de los valores de y, o en forma m´as precisa, de los valores de las v.a. Y1 , Y2 , . . . , Yn . Las suposiciones distribucionales de las Ei implican que Y1 , Y2 , . . . , Yn tambi´en se distribuyen independientemente con medias µYi = α + βxi y varianzas iguales σ 2 ; es decir, σ 2 Yi = σ 2 para i = 1, 2, . . . , n. Dado que el estimador P P P P P xi Yi − ( xi ) ( Yi ) n xi Yi − n¯ x ( Yi ) (x − x¯)Yi = P i B= =  P 2 P 2 P 2 1 P 2 (xi − x¯)2 n xi − ( xi ) n xi − ( xi ) n P es de la forma B = ai Yi , donde n

(xi − x¯) ai = P (xi − x¯)2

entonces,

µB

i = 1, 2, . . . , n

P P (xi − x¯)E[Yi ] (xi − x¯)(α + βxi ) P = E[B] = P = = 2 (xi − x¯) (xi − x¯)2 =

σB2

P

P P P P 1 1 [α xi + β x2i − nα¯ x − β x¯ xi ] = β [ x2i − n¯ x2 ] = β Sxx Sxx

P P σ 2 (xi − x¯)2 σ2 (xi − x¯)2 Var(Yi ) σ2 P = P = Var(B) = = P 2 2 = Sxx (xi − x¯)2 ( (xi − x¯)2 ) ( (xi − x¯)2 )

17 Regresi´ on lineal simple

257

Igualmente, el estimador A se puede expresar como

A=

P

Yi − B n

P

xi

P   1P (xi − x¯)Yi P 1 x¯(xi − x¯) Yi − x¯ P = −P = Yi n n (xi − x¯)2 (xi − x¯)2

es decir, A tambi´en es una combinaci´on lineal de las v.a. independientes Yi , por tanto, operando, se llega f´acilmente a µA = E[A] =

P



x¯(xi − x¯) 1 −P n (xi − x¯)2



E[Yi ] = α

rP 2 2 xi x¯(xi − x¯) 1 2 −P Var(Yi ) = σ = Var(A) = 2 n (xi − x¯) nSxx Por tanto, sea cual sea la distribuci´on de los errores del modelo, los estimadores σA2

P



m´ınimo cuadr´aticos, A y B, de los coeficientes de regresi´on α y β, son insesgados. Por la propia definici´on de los estimadores A y B, se deduce que no son independientes, siendo Cov(A, B) = E[(A − α)(B − β)] = −

17.4.2.

x¯σ 2 Sxx

Condiciones de normalidad

Para conocer la forma de la distribuci´on de los estimadores A y B, es necesario conocer previamente la distribuci´on de los errores del modelo. Si a las hip´otesis de independencia y homocedasticidad de los errores del modelo a˜ nadimos la hip´otesis de normalidad, es decir, Ei ≡ N(0, σ) i = 1, . . . , n, entonces todas las v.a. involucradas hasta ahora: Yi ,

A, B, resultan ser combinaciones lineales de v.a. Normales e independientes, por tanto su distribuci´on tambi´en ser´a Normal. As´ı,   Yi ≡ N(µYi , σ) i = 1, . . . , n          B ≡ N(β, σ/√S ) xx Si Ei ≡ N(0, σ) i = 1, . . . , n =⇒     rP 2 !    xi    A ≡ N α, σ nS xx

17.5.

Varianza residual

Seg´ un lo expuesto anteriormente, la hip´otesis de normalidad en los errores del modelo asegura la normalidad de los estimadores m´ınimo cuadr´aticos sin embargo, para tener

258

Estad´ıstica

completamente especificadas sus distribuciones, es necesario tener una estimaci´on de la varianza de los errores, σ 2 . Para ello, definimos la varianza residual como P 2 P SSE e (yi − ybi )2 i s2 = = = n−2 n−2 n−2 Veamos una forma m´as sencilla de expresar s2

P P (yi − ybi )2 = (yi − a − bxi )2 = P P = (yi − (¯ y − b¯ x) − bxi )2 = ((yi − y¯) − b(xi − x¯))2 = P P P = (yi − y¯)2 + b2 (xi − x¯)2 − 2b (yi − y¯)(xi − x¯) =

SSE =

= Syy + b2 Sxx − 2bSxy = Syy + bSxy − 2bSxy = Syy − bSxy Por tanto,

P

Syy − bSxy (yi − ybi )2 = (17.9) n−2 n−2 y, como es habitual en la varianzas que proceden de distribuciones normales, la varianza 2

s =

residual sigue una distribuci´on del tipo Chi-cuadrado. En particular, (n − 2)s2 ≡ χ2n−2 2 σ

(17.10)

Por tanto, la varianza residual es una estimaci´on insesgada de la varianza de los errores del modelo.

17.6.

Inferencias respecto a los par´ ametros

Una vez estimada la varianza de los errores, y recordando que mantenemos las hip´otesis de normalidad de los mismos, podemos construir los estad´ısticos adecuados para realizar inferencias respecto a los par´ametros de regresi´on. As´ı, √ B ≡ N(β, σ/ Sxx ) 2

(n − 2)s ≡ χ2n−2 2 σ A ≡ N α, σ

rP

x2i nSxx

(n − 2)s2 ≡ χ2n−2 2 σ

!       

    

B−β √ B−β σ/ Sxx √ = ≡ tn−2 =⇒ s  2 s/ S xx  (n − 2)s   (n − 2)σ 2

A−α rP 2 xi σ A−α nSxx =⇒ s = r P 2 ≡ tn−2  xi  (n − 2)s2  s    nSxx (n − 2)σ 2

(17.11)

(17.12)

17 Regresi´ on lineal simple

259

Por tanto, un intervalo de confianza del (1 − α)100 % para la pendiente de la recta

de regresi´on poblacional, β, es

b − tα/2 √

s s < β < b + tα/2 √ Sxx Sxx

y, un intervalo de confianza del (1 − α)100 % para la ordenada en el origen de la recta de

regresi´on poblacional, α, es

a − tα/2 s

17.7.

rP

x2i < α < a + tα/2 s nSxx

rP

x2i nSxx

Predicci´ on

Un modelo de regresi´on, fijado un valor particular de la variable independiente (xp ), permite en primer lugar, estimar el valor medio de la respuesta (µYp ); y en segundo lugar, prever futuros valores de la variable respuesta (yp ). Tanto la estimaci´on de la media, como la predicci´on de un valor de la variable dependiente, se obtienen sustituyendo en la recta de regresi´on estimada. Es decir, µYp ≃ ybp = a + bxp yp ≃ ybp = a + bxp

sin embargo, la precisi´on de estas estimaciones es distinta, como veremos en las siguientes secciones.

17.7.1.

Estimaci´ on de la respuesta media

Utilizando la notaci´on habitual para v.a.

entonces E[Ybp ]

Ybp = A + Bxp = E[A + Bxp ] = E[A] + E[B]xp = α + βxp = µYp

Var(Ybp ) = Var(A + Bxp ) = Var((Y¯ − B x¯) + Bxp ) = Var(Y¯ + B(xp − x¯)) = σ2 σ2 = Var(Y¯ ) + (xp − x¯)2 Var(B) = + (xp − x¯)2 = σ2 n Sxx



1 (xp − x¯)2 + n Sxx



260

Estad´ıstica

donde hemos utilizado el hecho de que las variables Y¯ y B son independientes. Entonces,

Ybp ≡ N µYp , σ

r

1 (xp − x¯)2 + n Sxx

(n − 2)s2 ≡ χ2n−2 σ2 es

!       

Ybp − µYp ≡ tn−2 =⇒ r  1 (xp − x¯)2   + s    n Sxx

Por tanto, un intervalo de confianza del (1 − α)100 % para la respuesta media, µYp ,

ybp − tα/2 s

17.7.2.

r

1 (xp − x¯)2 + < µYp < ybp + tα/2 s n Sxx

r

1 (xp − x¯)2 + n Sxx

Predicci´ on de una observaci´ on

En este caso, utilizamos la v.a. Ybp − Yp E[Ybp − Yp ]

= E[Ybp ] − E[Yp ] = µYp − µYp = 0

Var(Ybp − Yp ) = Var(Ybp ) + Var(Yp ) = σ 2



1 (xp − x¯)2 + n Sxx



+ σ2 =

  1 (xp − x¯)2 =σ 1+ + n Sxx 2

Entonces

Ybp − Yp ≡ N 0, σ (n − 2)s2 ≡ χ2n−2 σ2

r

1 (xp − x¯)2 1+ + n Sxx

!       

Ybp − Yp ≡ tn−2 =⇒ r  1 (xp − x¯)2   s 1+ +    n Sxx

y, un intervalo de confianza del (1 − α)100 % para una predicci´on, yp , es r

1 (xp − x¯)2 < yp < ybp + tα/2 s ybp − tα/2 s 1 + + n Sxx

r

1+

1 (xp − x¯)2 + n Sxx

17 Regresi´ on lineal simple

17.8.

261

An´ alisis de la varianza

El contraste m´as importante en regresi´on se refiere a la pendiente de la recta de regresi´on poblacional, y se plantea de la forma H0 : β = 0 H1 : β 6= 0 Aunque en la secci´on 17.6 hemos dado un estad´ıstico v´alido para este contraste (Eq. 17.11), en este apartado vamos a estudiarlo desde otro punto de vista. Si la pendiente de la verdadera recta de regresi´on es distinta de cero, entonces las desviaciones de los datos, yi , respecto a su valor medio, y¯, se pueden descomponer en dos partes (Fig. 17.3(a)): una, el residuo, es decir (yi − ybi ); y otra, la diferencia entre el valor

predicho por la recta de regresi´on estimada y el valor medio de los datos, es decir, (b yi − y¯).

Sin embargo, si la verdadera pendiente de la recta de regresi´on es nula (Fig. 17.3(b)), entonces todos los valores predichos verifican ybi = y¯, por lo que la segunda componente

es nula.

El residuo representa las fluctuaciones aleatorias dentro del rango probable de va-

lores que puede asumir la v.a. Yi , mientras que la segunda componente representa las fluctuaciones intr´ınsecas debidas a la relaci´on lineal que verifican las v.a. Yi ; as´ı, cuanto m´as nos alejamos de la zona central, (¯ x, y¯), m´as grandes deben ser estas fluctuaciones. De esta forma, la variaci´on total se puede expresar como P P (yi − y¯)2 = [(yi − ybi ) + (b yi − y¯)]2 = P P P = (yi − ybi )2 + (b yi − y¯)2 + 2 (yi − ybi )(b yi − y¯) = P P 2 2 = (yi − ybi ) + (b yi − y¯)

donde hemos utilizado el hecho de que (Eq. 17.5) P

P P P (a + bxi )ei = a ei + b xi ei = 0 P P y¯(yi − ybi ) = y¯ ei = 0 ybi (yi − ybi ) =

En resumen, la variaci´on total

P P P (yi − y¯)2 = (yi − ybi )2 + (b yi − y¯)2

(17.13)

se descompone en dos t´erminos independientes: el primero refleja la variabilidad no explicada por la regresi´on, que es debida al car´acter aleatorio de la relaci´on; y el segundo contiene la variabilidad explicada por la regresi´on, y puede interpretarse como la parte determinista de la variabilidad de la respuesta. LLamaremos

262

Estad´ıstica

Figura 17.3: Descomposici´on de la varianza para el caso de (a) pendiente no nula; y (b) pendiente nula. SST = SSE =

P (yi − y¯)2 = Syy = Suma Total de los Cuadrados

P (yi − ybi )2 = Syy − bSxy = Suma de los Cuadrados de los Errores

17 Regresi´ on lineal simple

263

Fuente

Suma

Grados

Cuadrados

Error

Cuadrados

Libertad

Medios

Regresi´on

SSR

1

Error

SSE

Total

SST

n−2 n−1

SSR/1

Estad´ıstico

Valor-P

f = SSR/s2

P (F1,n−2 ≥ f )

SSE/(n − 2)

Figura 17.4: Tabla ANOVA SSR =

P (b yi − y¯)2 = bSxy = Suma de los Cuadrados de Regresi´on

Se puede demostrar que, si la hip´otesis nula es cierta es decir, si β = 0, entonces SSR/σ 2 ≡ χ21

y SST /σ 2 ≡ χ2n−1

Por tanto, SSR SSR/1 = 2 ≡ F1,n−2 SSE/(n − 2) s

(17.14)

Este estad´ıstico se puede utilizar como alternativa al estad´ıstico dado en (Eq. 17.11) para realizar el contraste regresi´on. Si su valor, f , es peque˜ no, significa que SSE es muy grande comparado con el valor de SSR es decir, la mayor parte de la variabilidad observada es puramente aleatoria, y la componente explicada por el modelo (la recta propuesta) tiene muy poca influencia, por tanto no se rechaza H0 . Por otra parte, si f es grande, significa que SSR es muy grande comparado con SSE es decir, la mayor parte de la variabilidad observada se debe a la existencia de una recta de regresi´on con pendiente no nula, por tanto se rechaza H0 . De hecho, se cumple !2 b − β √ f= = t2 s/ Sxx β=0

La forma habitual de presentar todos los datos vistos en esta secci´on es en la llamada

tabla ANOVA (del ingl´es, ANalysis Of VAriance), que se muestra en la figura 17.4.

17.9.

Coeficiente de correlaci´ on

La evaluaci´on global de una recta de regresi´on puede hacerse mediante la varianza residual, que es un ´ındice de la precisi´on del modelo. Sin embargo, esta medida no es u ´ til

264

Estad´ıstica

para comparar rectas de regresi´on de variables distintas, ya que depende de las unidades de medida. Una medida m´as adecuada de la bondad del ajuste es el llamado coeficiente de determinaci´on del modelo, definido como la proporci´on de la variabilidad total explicada por el modelo propuesto

P SSR (b yi − y¯)2 R = =P SST (yi − y¯)2 Para el caso particular del modelo lineal, 2

2 Sxy Sxy = r =b Syy Sxx Syy 2

(17.15)

y, el coeficiente de correlaci´on lineal de la muestra es r=p

Sxy Sxx Syy

(17.16)

que representa una estimaci´on del coeficiente de correlaci´on lineal de la poblaci´on Cov(X, Y ) ρ= p Var(X) Var(Y )

Sea cual sea el modelo propuesto, siempre se cumple que 0 ≤ R2 ≤ 1. En particular, • 0 ≤ r 2 ≤ 1 (−1 ≤ r ≤ 1) • Si r 2 = 1, existe una relaci´on lineal perfecta entre las variables X e Y (Si r = 1 la relaci´on es positiva, es decir, la pendiente de la recta es positiva. Si r = −1 la relaci´on es negativa, es decir, la pendiente de la recta es negativa). En

consecuencia, las variables son dependientes.

• Si r 2 = 0 (r = 0), no existe relaci´on lineal entre las variables X e Y . De forma general, esto no implica que las variables sean independientes, ya que podr´ıa existir una relaci´on no lineal entre ellas.

17.9.1.

Inferencias sobre el coeficiente de correlaci´ on

El contraste H0 : ρ = 0 es equivalente al ya estudiado H0 : β = 0, y se puede realizar con el estad´ıstico

ya que se cumple

√ r n−2 √ ≡ tn−2 1 − r2 √ r n−2 √ = 1 − r2

!2 b − β √ = t2 s/ Sxx β=0

(17.17)

17 Regresi´ on lineal simple

265

Para realizar el contraste general H0 : ρ = ρ0 6= 0, es necesario que la poblaci´on, es

decir, la v.a. (X, Y ), siga una distribuci´on Normal Bidimensional. En ese caso, se utiliza el estad´ıstico 1 1+r ∼ Ln = N 2 1−r

17.10.



1 1 1+ρ Ln ,√ 2 1−ρ n−3



(17.18)

Contraste de linealidad

Hasta ahora, hemos supuesto que realmente existe una recta de regresi´on que ajusta perfectamente los datos, es decir, las medias de las v.a. Yi se encuentran sobre una recta µYi = α + βxi

i = 1, . . . , n

que hemos estimado por ybi = a + bxi

i = 1, . . . , n

Por tanto, la primera pregunta deber´ıa haber sido ¿es cierta esa afirmaci´on? El contraste de linealidad est´a dise˜ nado para responder a esta cuesti´on. Cuando las medias de las v.a. Yi no se encuentran sobre una recta (Fig. 17.5) pero casi, este “casi” es la llamada componente de falta de ajuste, y el contraste de linealidad cuantifica este desajuste para contrastar la hip´otesis de linealidad del modelo. Para realizar el contraste, es necesario disponer de varios valores de y para algunos o todos los valores de x. LLamaremos xi (i = 1, . . . , d) a los valores distintos que toma la variable x. Para cada valor de xi existir´an observaciones yij

(j = 1, . . . , ni ), de forma

que n = n1 + · · · + nd (Fig. 17.6)

La l´ogica del contraste puede entenderse suponiendo que representamos gr´aficamente

las medias de las distribuciones condicionadas, y¯i . Nos encontraremos con alguna de las situaciones que muestra la figura 17.7: el gr´afico 17.7 (a) sugiere que probablemente la hip´otesis de linealidad es cierta, ya que las medias y¯i parecen tener una relaci´on lineal; en 17.7 (b) se detecta una relaci´on claramente no lineal; y en 17.7 (c) no est´a clara la existencia de relaci´on. El contraste de linealidad compara las medias muestrales estimadas directamente de los datos observacionales, y¯i , con las medias muestrales estimadas bajo la hip´otesis de linealidad, ybi . Intuitivamente, si medimos la discrepancia entre ambas estimaciones con P ni (y¯i − ybi )2 , tenderemos a rechazar la hip´otesis de linealidad si esta discrepancia es grande, y a no rechazarla cuando es peque˜ na. Para cuantificar el tama˜ no de esta discre-

pancia, se compara con una medida de la variabilidad muestral cuyo valor esperado no

266

Estad´ıstica

Figura 17.5: Descripci´on del modelo de regresi´on lineal simple con componente de falta de ajuste. depende de la hip´otesis que estamos contrastando. Un t´ermino razonable de comparaci´on PP es (yij − y¯i )2 , que mide la variabilidad inherente a los datos, sin depender de la

hip´otesis de linealidad.

Vamos a aclarar estos conceptos con la figura 17.8. La ausencia de una relaci´on lineal perfecta permite descomponer los residuos, eij = yij − ybi , en suma de dos componentes:

una, (yij − y¯i ), debida a la fluctuaci´on aleatoria dentro del rango probable de valores que

puede asumir la v.a. Yi para cada valor fijo xi ; y otra,(y¯i − ybi ), que contiene los errores debidos a la falta de ajuste ya que, al fin y al cabo, las medias no est´an sobre una recta

por lo que la recta estimada no puede contener a las medias estimadas. Si la relaci´on

lineal es perfecta, entonces y¯i = ybi (i = 1, . . . , d) y la segunda componente es nula, por

lo que la varianza residual es una estimaci´on insesgada de la varianza de los errores del modelo (como vimos en la secci´on 17.5) pero, si la relaci´on lineal no es perfecta, la segunda componente es distinta de cero, por lo que la varianza residual pasa a ser una estimaci´on

sesgada de σ 2 al contener un t´ermino de falta de ajuste que no tiene nada que ver con el error del modelo.

17 Regresi´ on lineal simple

267

observaciones

x1

y11

y12

· · · y1j

···

y1n1

n1 1 X y1j y¯1 = n1 j=1 n

· · · y2j

···

y2n2

.. .

.. .

.. .

···

yij

···

yini

.. .

.. .

.. .

.. .

x2

y21

y22

.. .

.. .

.. .

.. .

xi

yi1

yi2

.. .

.. .

.. .

xd

yd1

d

1X ni xi x¯ = n i=1

yd2

d

···

· · · ydnd

ydj

n

2 1 X y¯2 = y2j n2 j=1 .. . ni 1 X y¯i = yij ni j=1 .. .

nd 1 X ydj y¯d = nd j=1

d

i 1X 1 XX ni y¯i yij = y¯ = n i=1 j=1 n i=1

Figura 17.6: Tabla de datos para realizar el contraste de linealidad La descomposici´on de la suma de los cuadrados de los residuos es sencilla pues, SSE =

ni d X X i=1 j=1

=

ni d X X

i=1 j=1

i=1 j=1

(yij − y¯i ) +

ni d X X

(yij − y¯i )2 +

d X

ni d X X

(yij − y¯i )2 +

d X

i=1 j=1

=

ni ni d X d X X X 2 = (yij − ybi ) = [(yij − y¯i ) + (y¯i − ybi )]2 = ni d X X

i=1 j=1

=

e2ij

i=1 j=1

2

i=1 j=1

i=1

i=1

ni d X X (y¯i − ybi ) + 2 (yij − y¯i )(y¯i − ybi ) = 2

i=1 j=1

"n # d i X X ni (y¯i − ybi )2 + 2 (y¯i − ybi ) (yij − y¯i ) = i=1

ni (y¯i − ybi )2

j=1

268

Estad´ıstica

Figura 17.7: Medias condicionadas y la recta de regresi´on.

donde hemos utilizado el hecho de que

ni X j=1

cuadrados de los residuos ni d X X i=1 j=1

2

(yij − ybi ) =

ni d X X i=1 j=1

(yij − y¯i ) = 0. En resumen, la suma de los

2

(yij − y¯i ) +

d X i=1

ni (y¯i − ybi )2

(17.19)

se descompone en dos t´erminos independientes: el primero refleja la fluctuaciones aleatorias de cada observaci´on en torno a su valor medio; y el segundo refleja la ausencia de una relaci´on lineal perfecta en la medias de las v.a. Yi . LLamaremos SSE =

ni d X X i=1 j=1

(yij − ybi )2 = Suma de los Cuadrados de los Residuos

17 Regresi´ on lineal simple

269

Figura 17.8: Descomposici´on del residuo (eij ) cuando existe componente de falta de ajuste. ni d X X SSE(p) = (yij − y¯i )2 = Error Puro i=1 j=1

SSE(a) =

d X i=1

ni (y¯i − ybi )2 = Error por Falta de Ajuste

Se puede demostrar que, si la hip´otesis de linealidad es cierta, entonces SSE(p)/σ 2 ≡ χ2n−d

y SSE(a)/σ 2 ≡ χ2d−2

Por tanto, SSE(p)/(n − d) es una estimaci´on insesgada de la varianza, σ 2 , de los

errores del modelo, y el estad´ıstico

SSE(a)/(d − 2) ≡ Fd−2,n−d SSE(p)/(n − d)

(17.20)

representa el cociente entre la variaci´on debida a la falta de ajuste y la variaci´on debida a causas puramente aleatorias. As´ı, este estad´ıstico nos sirve para contrastar la hip´otesis de linealidad. Si su valor, f , es grande, significa que la mayor parte del error procede de la componente de falta de ajuste, por lo que deberemos rechazar la hip´otesis de relaci´on lineal perfecta. Por el contrario, si f es peque˜ no, significa que la mayor parte del error es puramente aleatorio y no rechazaremos la hip´otesis de relaci´on lineal perfecta.

270

Estad´ıstica La forma habitual de presentar todos los datos vistos en esta secci´on es en la tabla

ANOVA completa, que se muestra en la figura 17.9

Fuente

Suma

Grados

Cuadrados

Error

Cuadrados

Libertad

Medios

Regresi´ on

SSR

1

Error

SSE

n−2

SSE/(n − 2)

Ajuste

SSE(a)

d−2

SSE(a)/(d − 2)

Puro

SSE(p)

n−d

SSE(p)/(n − d)

SST

n−1

Total

SSR/1

Estad´ıstico

SSR/1 SSE/(n − 2)

P (F1,n−2 ≥ f )

SSE(a)/(d − 2) SSE(p)/(n − d)

P (Fd−2,n−d ≥ f )

f=

f=

Valor-P

Figura 17.9: Tabla ANOVA completa

Tablas estad´ısticas

A

271

Tabla A.1: Distribuci´on Binomial. P (B(n, p) ≤ x) =

x X k=0

n k

!

pk (1 − p)n−k

p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

1

0

.9000

.8000

.7500

.7000

.6000

.5000

.4000

.3000

.2000

.1000

1

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

0

.8100

.6400

.5625

.4900

.3600

.2500

.1600

.0900

.0400

.0100

1

.9900

.9600

.9375

.9100

.8400

.7500

.6400

.5100

.3600

.1900

2

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

0

.7290

.5120

.4219

.3430

.2160

.1250

.0640

.0270

.0080

.0010

1

.9720

.8960

.8438

.7840

.6480

.5000

.3520

.2160

.1040

.0280

2

.9990

.9920

.9844

.9730

.9360

.8750

.7840

.6570

.4880

.2710

3

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

0

.6561

.4096

.3164

.2401

.1296

.0625

.0256

.0081

.0016

.0001

1

.9477

.8192

.7383

.6517

.4752

.3125

.1792

.0837

.0272

.0037

2

.9963

.9728

.9492

.9163

.8208

.6875

.5248

.3483

.1808

.0523

3

.9999

.9984

.9961

.9919

.9744

.9375

.8704

.7599

.5904

.3439

4

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

0

.5905

.3277

.2373

.1681

.0778

.0312

.0102

.0024

.0003

.0000

1

.9185

.7373

.6328

.5282

.3370

.1875

.0870

.0308

.0067

.0005

2

.9914

.9421

.8965

.8369

.6826

.5000

.3174

.1631

.0579

.0086

3

.9995

.9933

.9844

.9692

.9130

.8125

.6630

.4718

.2627

.0815

4

1.0000

2

3

4

5

5 6

.9997

.9990

.9976

.9898

.9688

.9222

.8319

.6723

.4095

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

0

.5314

.2621

.1780

.1176

.0467

.0156

.0041

.0007

.0001

.0000

1

.8857

.6554

.5339

.4202

.2333

.1094

.0410

.0109

.0016

.0001

2

.9841

.9011

.8306

.7443

.5443

.3438

.1792

.0705

.0170

.0013

3

.9987

.9830

.9624

.9295

.8208

.6562

.4557

.2557

.0989

.0159

4

.9999

.9984

.9954

.9891

.9590

.8906

.7667

.5798

.3446

.1143

5

1.0000

.9999

.9998

.9993

.9959

.9844

.9533

.8824

.7379

.4686

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

6

272

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

7

0

.4783

.2097

.1335

.0824

.0280

.0078

.0016

.0002

.0000

.0000

1

.8503

.5767

.4449

.3294

.1586

.0625

.0188

.0038

.0004

.0000

2

.9743

.8520

.7564

.6471

.4199

.2266

.0963

.0288

.0047

.0002

3

.9973

.9667

.9294

.8740

.7102

.5000

.2898

.1260

.0333

.0027

4

.9998

.9953

.9871

.9712

.9037

.7734

.5801

.3529

.1480

.0257

5

1.0000

.9996

.9987

.9962

.9812

.9375

.8414

.6706

.4233

.1497

1.0000

.9999

.9998

.9984

.9922

.9720

.9176

.7903

.5217

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

6 7 8

0

.4305

.1678

.1001

.0576

.0168

.0039

.0007

.0001

.0000

.0000

1

.8131

.5033

.3671

.2553

.1064

.0352

.0085

.0013

.0001

.0000

2

.9619

.7969

.6785

.5518

.3154

.1445

.0498

.0113

.0012

.0000

3

.9950

.9437

.8862

.8059

.5941

.3633

.1737

.0580

.0104

.0004

4

.9996

.9896

.9727

.9420

.8263

.6367

.4059

.1941

.0563

.0050

5

1.0000

.9988

.9958

.9887

.9502

.8555

.6846

.4482

.2031

.0381

6

.9999

.9996

.9987

.9915

.9648

.8936

.7447

.4967

.1869

7

1.0000

1.0000

8 9

.9999

.9993

.9961

.9832

.9424

.8322

.5695

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

0

.3874

.1342

.0751

.0404

.0101

.0020

.0003

.0000

.0000

.0000

1

.7748

.4362

.3003

.1960

.0705

.0195

.0038

.0004

.0000

.0000

2

.9470

.7382

.6007

.4628

.2318

.0898

.0250

.0043

.0003

.0000

3

.9917

.9144

.8343

.7297

.4826

.2539

.0994

.0253

.0031

.0001

4

.9991

.9804

.9511

.9012

.7334

.5000

.2666

.0988

.0196

.0009

5

.9999

.9969

.9900

.9747

.9006

.7461

.5174

.2703

.0856

.0083

6

1.0000

.9997

.9987

.9957

.9750

.9102

.7682

.5372

.2618

.0530

1.0000

.9999

.9996

.9962

.9805

.9295

.8040

.5638

.2252

1.0000

1.0000

.9997

.9980

.9899

.9596

.8658

.6126

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

7 8 9

273

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

10

0

.3487

.1074

.0563

.0282

.0060

.0010

.0001

.0000

.0000

.0000

1

.7361

.3758

.2440

.1493

.0464

.0107

.0017

.0001

.0000

.0000

2

.9298

.6778

.5256

.3828

.1673

.0547

.0123

.0016

.0001

.0000

3

.9872

.8791

.7759

.6496

.3823

.1719

.0548

.0106

.0009

.0000

4

.9984

.9672

.9219

.8497

.6331

.3770

.1662

.0473

.0064

.0001

5

.9999

.9936

.9803

.9527

.8338

.6230

.3669

.1503

.0328

.0016

6

1.0000

.9991

.9965

.9894

.9452

.8281

.6177

.3504

.1209

.0128

7

.9999

.9996

.9984

.9877

.9453

.8327

.6172

.3222

.0702

8

1.0000

1.0000

.9999

.9983

.9893

.9536

.8507

.6242

.2639

1.0000

.9999

.9990

.9940

.9718

.8926

.6513

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

9 10 11

0

.3138

.0859

.0422

.0198

.0036

.0005

.0000

.0000

.0000

.0000

1

.6974

.3221

.1971

.1130

.0302

.0059

.0007

.0000

.0000

.0000

2

.9104

.6174

.4552

.3127

.1189

.0327

.0059

.0006

.0000

.0000

3

.9815

.8389

.7133

.5696

.2963

.1133

.0293

.0043

.0002

.0000

4

.9972

.9496

.8854

.7897

.5328

.2744

.0994

.0216

.0020

.0000

5

.9997

.9883

.9657

.9218

.7535

.5000

.2465

.0782

.0117

.0003

6

1.0000

.9980

.9924

.9784

.9006

.7256

.4672

.2103

.0504

.0028

7

.9998

.9988

.9957

.9707

.8867

.7037

.4304

.1611

.0185

8

1.0000

.9999

.9994

.9941

.9673

.8811

.6873

.3826

.0896

1.0000

1.0000

.9993

.9941

.9698

.8870

.6779

.3026

1.0000

.9995

.9964

.9802

.9141

.6862

1.0000

1.0000

1.0000

1.0000

1.0000

9 10 11

274

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

12

0

.2824

.0687

.0317

.0138

.0022

.0002

.0000

.0000

.0000

.0000

1

.6590

.2749

.1584

.0850

.0196

.0032

.0003

.0000

.0000

.0000

2

.8891

.5583

.3907

.2528

.0834

.0193

.0028

.0002

.0000

.0000

3

.9744

.7946

.6488

.4925

.2253

.0730

.0153

.0017

.0001

.0000

4

.9957

.9274

.8424

.7237

.4382

.1938

.0573

.0095

.0006

.0000

5

.9995

.9806

.9456

.8822

.6652

.3872

.1582

.0386

.0039

.0001

6

.9999

.9961

.9857

.9614

.8418

.6128

.3348

.1178

.0194

.0005

7

1.0000

.9994

.9972

.9905

.9427

.8062

.5618

.2763

.0726

.0043

8

.9999

.9996

.9983

.9847

.9270

.7747

.5075

.2054

.0256

9

1.0000

1.0000

.9998

.9972

.9807

.9166

.7472

.4417

.1109

1.0000

.9997

.9968

.9804

.9150

.7251

.3410

1.0000

.9998

.9978

.9862

.9313

.7176

1.0000

1.0000

1.0000

1.0000

1.0000

10 11 12 13

0

.2542

.0550

.0238

.0097

.0013

.0001

.0000

.0000

.0000

.0000

1

.6213

.2336

.1267

.0637

.0126

.0017

.0001

.0000

.0000

.0000

2

.8661

.5017

.3326

.2025

.0579

.0112

.0013

.0001

.0000

.0000

3

.9658

.7473

.5843

.4206

.1686

.0461

.0078

.0007

.0000

.0000

4

.9935

.9009

.7940

.6543

.3530

.1334

.0321

.0040

.0002

.0000

5

.9991

.9700

.9198

.8346

.5744

.2905

.0977

.0182

.0012

.0000

6

.9999

.9930

.9757

.9376

.7712

.5000

.2288

.0624

.0070

.0001

7

1.0000

.9988

.9944

.9818

.9023

.7095

.4256

.1654

.0300

.0009

8

.9998

.9990

.9960

.9679

.8666

.6470

.3457

.0991

.0065

9

1.0000

.9999

.9993

.9922

.9539

.8314

.5794

.2527

.0342

1.0000

.9999

.9987

.9888

.9421

.7975

.4983

.1339

.9999

.9983

.9874

.9363

.7664

.3787

1.0000

.9999

.9987

.9903

.9450

.7458

1.0000

1.0000

1.0000

1.0000

1.0000

10 11 12

1.0000

13

275

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

14

0

.2288

.0440

.0178

.0068

.0008

.0001

.0000

.0000

.0000

.0000

1

.5846

.1979

.1010

.0475

.0081

.0009

.0001

.0000

.0000

.0000

2

.8416

.4481

.2811

.1608

.0398

.0065

.0006

.0000

.0000

.0000

3

.9559

.6982

.5213

.3552

.1243

.0287

.0039

.0002

.0000

.0000

4

.9908

.8702

.7415

.5842

.2793

.0898

.0175

.0017

.0000

.0000

5

.9985

.9561

.8883

.7805

.4859

.2120

.0583

.0083

.0004

.0000

6

.9998

.9884

.9617

.9067

.6925

.3953

.1501

.0315

.0024

.0000

7

1.0000

.9976

.9897

.9685

.8499

.6047

.3075

.0933

.0116

.0002

8

.9996

.9978

.9917

.9417

.7880

.5141

.2195

.0439

.0015

9

1.0000

.9997

.9983

.9825

.9102

.7207

.4158

.1298

.0092

1.0000

.9998

.9961

.9713

.8757

.6448

.3018

.0441

11

1.0000

.9994

.9935

.9602

.8392

.5519

.1584

12

1.0000

.9999

.9991

.9919

.9525

.8021

.4154

1.0000

.9999

.9992

.9932

.9560

.7712

1.0000

1.0000

1.0000

1.0000

1.0000

10

13 14 15

0

.2059

.0352

.0134

.0047

.0005

.0000

.0000

.0000

.0000

.0000

1

.5490

.1671

.0802

.0353

.0052

.0005

.0000

.0000

.0000

.0000

2

.8159

.3980

.2361

.1268

.0271

.0037

.0003

.0000

.0000

.0000

3

.9444

.6482

.4613

.2969

.0905

.0176

.0019

.0001

.0000

.0000

4

.9873

.8358

.6865

.5155

.2173

.0592

.0093

.0007

.0000

.0000

5

.9977

.9389

.8516

.7216

.4032

.1509

.0338

.0037

.0001

.0000

6

.9997

.9819

.9434

.8689

.6098

.3036

.0950

.0152

.0008

.0000

7

1.0000

.9958

.9827

.9500

.7869

.5000

.2131

.0500

.0042

.0000

.9992

.9958

.9848

.9050

.6964

.3902

.1311

.0181

.0003

8 9

.9999

.9992

.9963

.9662

.8491

.5968

.2784

.0611

.0022

10

1.0000

.9999

.9993

.9907

.9408

.7827

.4845

.1642

.0127

1.0000

.9999

.9981

.9824

.9095

.7031

.3518

.0556

1.0000

.9997

.9963

.9729

.8732

.6020

.1841

1.0000

.9995

.9948

.9647

.8329

.4510

1.0000

.9995

.9953

.9648

.7941

1.0000

1.0000

1.0000

1.0000

11 12 13 14 15

276

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

16

0

.1853

.0281

.0100

.0033

.0003

.0000

.0000

.0000

.0000

.0000

1

.5147

.1407

.0635

.0261

.0033

.0003

.0000

.0000

.0000

.0000

2

.7892

.3518

.1971

.0994

.0183

.0021

.0001

.0000

.0000

.0000

3

.9316

.5981

.4050

.2459

.0651

.0106

.0009

.0000

.0000

.0000

4

.9830

.7982

.6302

.4499

.1666

.0384

.0049

.0003

.0000

.0000

5

.9967

.9183

.8103

.6598

.3288

.1051

.0191

.0016

.0000

.0000

6

.9995

.9733

.9204

.8247

.5272

.2272

.0583

.0071

.0002

.0000

7

.9999

.9930

.9729

.9256

.7161

.4018

.1423

.0257

.0015

.0000

8

1.0000

.9985

.9925

.9743

.8577

.5982

.2839

.0744

.0070

.0001

9

.9998

.9984

.9929

.9417

.7728

.4728

.1753

.0267

.0005

10

1.0000

.9997

.9984

.9809

.8949

.6712

.3402

.0817

.0033

1.0000

.9997

.9951

.9616

.8334

.5501

.2018

.0170

12

1.0000

.9991

.9894

.9349

.7541

.4019

.0684

13

1.0000

.9999

.9979

.9817

.9006

.6482

.2108

1.0000

.9997

.9967

.9739

.8593

.4853

1.0000

.9997

.9967

.9719

.8147

1.0000

1.0000

1.0000

1.0000

11

14 15 16 17

0

.1668

.0225

.0075

.0023

.0002

.0000

.0000

.0000

.0000

.0000

1

.4818

.1182

.0501

.0193

.0021

.0001

.0000

.0000

.0000

.0000

2

.7618

.3096

.1637

.0774

.0123

.0012

.0001

.0000

.0000

.0000

3

.9174

.5489

.3530

.2019

.0464

.0064

.0005

.0000

.0000

.0000

4

.9779

.7582

.5739

.3887

.1260

.0245

.0025

.0001

.0000

.0000

5

.9953

.8943

.7653

.5968

.2639

.0717

.0106

.0007

.0000

.0000

6

.9992

.9623

.8929

.7752

.4478

.1662

.0348

.0032

.0001

.0000

7

.9999

.9891

.9598

.8954

.6405

.3145

.0919

.0127

.0005

.0000

8

1.0000

.9974

.9876

.9597

.8011

.5000

.1989

.0403

.0026

.0000

9

.9995

.9969

.9873

.9081

.6855

.3595

.1046

.0109

.0001

10

.9999

.9994

.9968

.9652

.8338

.5522

.2248

.0377

.0008

11

1.0000

.9999

.9993

.9894

.9283

.7361

.4032

.1057

.0047

1.0000

.9999

.9975

.9755

.8740

.6113

.2418

.0221

1.0000

.9995

.9936

.9536

.7981

.4511

.0826

14

.9999

.9988

.9877

.9226

.6904

.2382

15

1.0000

.9999

.9979

.9807

.8818

.5182

12 13

16

1.0000

17

277

.9998

.9977

.9775

.8332

1.0000

1.0000

1.0000

1.0000

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

18

0

.1501

.0180

.0056

.0016

.0001

.0000

.0000

.0000

.0000

.0000

1

.4503

.0991

.0395

.0142

.0013

.0001

.0000

.0000

.0000

.0000

2

.7338

.2713

.1353

.0600

.0082

.0007

.0000

.0000

.0000

.0000

3

.9018

.5010

.3057

.1646

.0328

.0038

.0002

.0000

.0000

.0000

4

.9718

.7164

.5187

.3327

.0942

.0154

.0013

.0000

.0000

.0000

5

.9936

.8671

.7175

.5344

.2088

.0481

.0058

.0003

.0000

.0000

6

.9988

.9487

.8610

.7217

.3743

.1189

.0203

.0014

.0000

.0000

7

.9998

.9837

.9431

.8593

.5634

.2403

.0576

.0061

.0002

.0000

8

1.0000

.9957

.9807

.9404

.7368

.4073

.1347

.0210

.0009

.0000

9

.9991

.9946

.9790

.8653

.5927

.2632

.0596

.0043

.0000

10

.9998

.9988

.9939

.9424

.7597

.4366

.1407

.0163

.0002

11

1.0000

.9998

.9986

.9797

.8811

.6257

.2783

.0513

.0012

1.0000

.9997

.9942

.9519

.7912

.4656

.1329

.0064

1.0000

.9987

.9846

.9058

.6673

.2836

.0282

14

.9998

.9962

.9672

.8354

.4990

.0982

15

1.0000

.9993

.9918

.9400

.7287

.2662

12 13

16

.9999

.9987

.9858

.9009

.5497

17

1.0000

.9999

.9984

.9820

.8499

1.0000

1.0000

1.0000

1.0000

18

278

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

19

0

.1351

.0144

.0042

.0011

.0001

.0000

.0000

.0000

.0000

.0000

1

.4203

.0829

.0310

.0104

.0008

.0000

.0000

.0000

.0000

.0000

2

.7054

.2369

.1113

.0462

.0055

.0004

.0000

.0000

.0000

.0000

3

.8850

.4551

.2631

.1332

.0230

.0022

.0001

.0000

.0000

.0000

4

.9648

.6733

.4654

.2822

.0696

.0096

.0006

.0000

.0000

.0000

5

.9914

.8369

.6678

.4739

.1629

.0318

.0031

.0001

.0000

.0000

6

.9983

.9324

.8251

.6655

.3081

.0835

.0116

.0006

.0000

.0000

7

.9997

.9767

.9225

.8180

.4878

.1796

.0352

.0028

.0000

.0000

8

1.0000

.9933

.9713

.9161

.6675

.3238

.0885

.0105

.0003

.0000

9

.9984

.9911

.9674

.8139

.5000

.1861

.0326

.0016

.0000

10

.9997

.9977

.9895

.9115

.6762

.3325

.0839

.0067

.0000

11

1.0000

.9995

.9972

.9648

.8204

.5122

.1820

.0233

.0003

12

.9999

.9994

.9884

.9165

.6919

.3345

.0676

.0017

13

1.0000

.9999

.9969

.9682

.8371

.5261

.1631

.0086

1.0000

.9994

.9904

.9304

.7178

.3267

.0352

15

.9999

.9978

.9770

.8668

.5449

.1150

16

1.0000

.9996

.9945

.9538

.7631

.2946

1.0000

.9992

.9896

.9171

.5797

18

.9999

.9989

.9856

.8649

19

1.0000

1.0000

1.0000

1.0000

14

17

279

Tabla A.1: Distribuci´on Binomial (Continuaci´on) p n

x

.10

.20

.25

.30

.40

.50

.60

.70

.80

.90

20

0

.1216

.0115

.0032

.0008

.0000

.0000

.0000

.0000

.0000

.0000

1

.3917

.0692

.0243

.0076

.0005

.0000

.0000

.0000

.0000

.0000

2

.6769

.2061

.0913

.0355

.0036

.0002

.0000

.0000

.0000

.0000

3

.8670

.4114

.2252

.1071

.0160

.0013

.0000

.0000

.0000

.0000

4

.9568

.6296

.4148

.2375

.0510

.0059

.0003

.0000

.0000

.0000

5

.9887

.8042

.6172

.4164

.1256

.0207

.0016

.0000

.0000

.0000

6

.9976

.9133

.7858

.6080

.2500

.0577

.0065

.0003

.0000

.0000

7

.9996

.9679

.8982

.7723

.4159

.1316

.0210

.0013

.0000

.0000

8

.9999

.9900

.9591

.8867

.5956

.2517

.0565

.0051

.0001

.0000

9

1.0000

.9974

.9861

.9520

.7553

.4119

.1275

.0171

.0006

.0000

10

.9994

.9961

.9829

.8725

.5881

.2447

.0480

.0026

.0000

11

.9999

.9991

.9949

.9435

.7483

.4044

.1133

.0100

.0001

12

1.0000

.9998

.9987

.9790

.8684

.5841

.2277

.0321

.0004

1.0000

.9997

.9935

.9423

.7500

.3920

.0867

.0024

1.0000

.9984

.9793

.8744

.5836

.1958

.0113

15

.9997

.9941

.9490

.7625

.3704

.0432

16

1.0000

13 14

.9987

.9840

.8929

.5886

.1330

17

.9998

.9964

.9645

.7939

.3231

18

1.0000

.9995

.9924

.9308

.6083

1.0000

.9992

.9885

.8784

1.0000

1.0000

1.0000

19 20

280

Tabla A.2: Distribuci´on de Poisson. P (P(λ) ≤ x) =

x

0.1

0.2

0.3

0.4

λ 0.5

0 1 2 3 4 5 6

0.9048 0.9953 0.9998 1.0000

0.8187 0.9825 0.9989 0.9999 1.0000

0.7408 0.9631 0.9964 0.9997 1.0000

0.6703 0.9384 0.9921 0.9992 0.9999 1.0000

0.6065 0.9098 0.9856 0.9982 0.9998 1.0000

x

1.0

1.5

2.0

2.5

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

0.3679 0.7358 0.9197 0.9810 0.9963 0.9994 0.9999 1.0000

0.2231 0.5578 0.8088 0.9344 0.9814 0.9955 0.9991 0.9998 1.0000

0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 0.9989 0.9998 1.0000

0.0821 0.2873 0.5438 0.7576 0.8912 0.9580 0.9858 0.9958 0.9989 0.9997 0.9999 1.0000

λ 3.0 0.0498 0.1991 0.4232 0.6472 0.8153 0.9161 0.9665 0.9881 0.9962 0.9989 0.9997 0.9999 1.0000

281

x X λk k=0

k!

e−λ

0.6

0.7

0.8

0.9

0.5488 0.8781 0.9769 0.9966 0.9996 1.0000

0.4966 0.8442 0.9659 0.9942 0.9992 0.9999 1.0000

0.4493 0.8088 0.9526 0.9909 0.9986 0.9998 1.0000

0.4066 0.7725 0.9371 0.9865 0.9977 0.9997 1.0000

3.5

4.0

4.5

5.0

0.0302 0.1359 0.3208 0.5366 0.7254 0.8576 0.9347 0.9733 0.9901 0.9967 0.9990 0.9997 0.9999 1.0000

0.0183 0.0916 0.2381 0.4335 0.6288 0.7851 0.8893 0.9489 0.9786 0.9919 0.9972 0.9991 0.9997 0.9999 1.0000

0.0111 0.0611 0.1736 0.3423 0.5321 0.7029 0.8311 0.9134 0.9597 0.9829 0.9933 0.9976 0.9992 0.9997 0.9999 1.0000

0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682 0.9863 0.9945 0.9980 0.9993 0.9998 0.9999 1.0000

Tabla A.2: Distribuci´on de Poisson (Continuaci´on) x

5.5

6.0

6.5

7.0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

0.0041 0.0266 0.0884 0.2017 0.3575 0.5289 0.6860 0.8095 0.8944 0.9462 0.9747 0.9890 0.9955 0.9983 0.9994 0.9998 0.9999 1.0000

0.0025 0.0174 0.0620 0.1512 0.2851 0.4457 0.6063 0.7440 0.8472 0.9161 0.9574 0.9799 0.9912 0.9964 0.9986 0.9995 0.9998 0.9999 1.0000

0.0015 0.0113 0.0430 0.1118 0.2237 0.3690 0.5265 0.6728 0.7916 0.8774 0.9332 0.9661 0.9840 0.9929 0.9970 0.9988 0.9996 0.9998 0.9999 1.0000

0.0009 0.0073 0.0296 0.0818 0.1730 0.3007 0.4497 0.5987 0.7291 0.8305 0.9015 0.9467 0.9730 0.9872 0.9943 0.9976 0.9990 0.9996 0.9999 1.0000

λ 7.5 0.0006 0.0047 0.0203 0.0591 0.1321 0.2414 0.3782 0.5246 0.6620 0.7764 0.8622 0.9208 0.9573 0.9784 0.9897 0.9954 0.9980 0.9992 0.9997 0.9999 1.0000

282

8.0

8.5

9.0

9.5

0.0003 0.0030 0.0138 0.0424 0.0996 0.1912 0.3134 0.4530 0.5925 0.7166 0.8159 0.8881 0.9362 0.9658 0.9827 0.9918 0.9963 0.9984 0.9993 0.9997 0.9999 1.0000

0.0002 0.0019 0.0093 0.0301 0.0744 0.1496 0.2562 0.3856 0.5231 0.6530 0.7634 0.8487 0.9091 0.9486 0.9726 0.9862 0.9934 0.9970 0.9987 0.9995 0.9998 0.9999 1.0000

0.0001 0.0012 0.0062 0.0212 0.0550 0.1157 0.2068 0.3239 0.4557 0.5874 0.7060 0.8030 0.8758 0.9261 0.9585 0.9780 0.9889 0.9947 0.9976 0.9989 0.9996 0.9998 0.9999 1.0000

0.0001 0.0008 0.0042 0.0149 0.0403 0.0885 0.1649 0.2687 0.3918 0.5218 0.6453 0.7520 0.8364 0.8981 0.9400 0.9665 0.9823 0.9911 0.9957 0.9980 0.9991 0.9996 0.9999 0.9999 1.0000

Tabla A.2: Distribuci´on de Poisson (Continuaci´on) x

10.0

11.0

12.0

13.0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

0.0000 0.0005 0.0028 0.0103 0.0293 0.0671 0.1301 0.2202 0.3328 0.4579 0.5830 0.6968 0.7916 0.8645 0.9165 0.9513 0.9730 0.9857 0.9928 0.9965 0.9984 0.9993 0.9997 0.9999 1.0000

0.0000 0.0002 0.0012 0.0049 0.0151 0.0375 0.0786 0.1432 0.2320 0.3405 0.4599 0.5793 0.6887 0.7813 0.8540 0.9074 0.9441 0.9678 0.9823 0.9907 0.9953 0.9977 0.9990 0.9995 0.9998 0.9999 1.0000

0.0000 0.0001 0.0005 0.0023 0.0076 0.0203 0.0458 0.0895 0.1550 0.2424 0.3472 0.4616 0.5760 0.6815 0.7720 0.8444 0.8987 0.9370 0.9626 0.9787 0.9884 0.9939 0.9970 0.9985 0.9993 0.9997 0.9999 0.9999 1.0000

0.0000 0.0000 0.0002 0.0011 0.0037 0.0107 0.0259 0.0540 0.0998 0.1658 0.2517 0.3532 0.4631 0.5730 0.6751 0.7636 0.8355 0.8905 0.9302 0.9573 0.9750 0.9859 0.9924 0.9960 0.9980 0.9990 0.9995 0.9998 0.9999 1.0000

λ 14.0 0.0000 0.0000 0.0001 0.0005 0.0018 0.0055 0.0142 0.0316 0.0621 0.1094 0.1757 0.2600 0.3585 0.4644 0.5704 0.6694 0.7559 0.8272 0.8826 0.9235 0.9521 0.9712 0.9833 0.9907 0.9950 0.9974 0.9987 0.9994 0.9997 0.9999 0.9999 1.0000

283

15.0

16.0

17.0

18.0

0.0000 0.0000 0.0000 0.0002 0.0009 0.0028 0.0076 0.0180 0.0374 0.0699 0.1185 0.1848 0.2676 0.3632 0.4657 0.5681 0.6641 0.7489 0.8195 0.8752 0.9170 0.9469 0.9673 0.9805 0.9888 0.9938 0.9967 0.9983 0.9991 0.9996 0.9998 0.9999 1.0000

0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0040 0.0100 0.0220 0.0433 0.0774 0.1270 0.1931 0.2745 0.3675 0.4667 0.5660 0.6593 0.7423 0.8122 0.8682 0.9108 0.9418 0.9633 0.9777 0.9869 0.9925 0.9959 0.9978 0.9989 0.9994 0.9997 0.9999 0.9999 1.0000

0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054 0.0126 0.0261 0.0491 0.0847 0.1350 0.2009 0.2808 0.3715 0.4677 0.5640 0.6550 0.7363 0.8055 0.8615 0.9047 0.9367 0.9594 0.9748 0.9848 0.9912 0.9950 0.9973 0.9986 0.9993 0.9996 0.9998 0.9999 1.0000

0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029 0.0071 0.0154 0.0304 0.0549 0.0917 0.1426 0.2081 0.2867 0.3751 0.4686 0.5622 0.6509 0.7307 0.7991 0.8551 0.8989 0.9317 0.9554 0.9718 0.9827 0.9897 0.9941 0.9967 0.9982 0.9990 0.9995 0.9998 0.9999 0.9999 1.0000

Tabla A.3: Distribuci´on Normal Est´andar. P (N(0, 1) ≥ z)

z

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0

.5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641

0.1

.4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247

0.2

.4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859

0.3

.3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483

0.4

.3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121

0.5

.3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776

0.6

.2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451

0.7

.2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148

0.8

.2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867

0.9

.1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611

1.0

.1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379

1.1

.1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170

1.2

.1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985

1.3

.0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823

1.4

.0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681

1.5

.0668 .0655 .0642 .0630 .0618 .0606 .0594 .0582 .0571 .0559

284

Tabla A.3: Distribuci´on Normal Est´andar (Continuaci´on)

z

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

1.6

.0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455

1.7

.0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367

1.8

.0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294

1.9

.0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233

2.0

.0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183

2.1

.0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143

2.2

.0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110

2.3

.0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084

2.4

.0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064

2.5

.0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048

2.6

.0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036

2.7

.0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026

2.8

.0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019

2.9

.0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014

3.0

.0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010

3.1

.0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007

3.2

.0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005

3.3

.0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003

3.4

.0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002

285

Tabla A.4: Distribuci´on t-Student. P (tn ≥ a) Probabilidades Grados de libertad

0.40

0.25

0.15

0.10

0.05

0.025

0.001

0.005

1

0.3249 1.0000 1.9626 3.0777 6.3138 12.7062 31.8205 63.6567

2

0.2887 0.8165 1.3862 1.8856 2.9200

4.3027

6.9646

9.9248

3

0.2767 0.7649 1.2498 1.6377 2.3534

3.1824

4.5408

5.8408

4

0.2707 0.7407 1.1896 1.5332 2.1318

2.7764

3.7470

4.6041

5

0.2672 0.7267 1.1558 1.4759 2.0150

2.5706

3.3649

4.0321

6

0.2648 0.7176 1.1342 1.4398 1.9432

2.4469

3.1427

3.7074

7

0.2632 0.7111 1.1192 1.4149 1.8946

2.3646

2.9980

3.4995

8

0.2619 0.7064 1.1081 1.3968 1.8595

2.3060

2.8965

3.3554

9

0.2610 0.7027 1.0997 1.3830 1.8331

2.2622

2.8215

3.2498

10

0.2602 0.6998 1.0931 1.3722 1.8125

2.2281

2.7638

3.1693

11

0.2596 0.6974 1.0877 1.3634 1.7959

2.2010

2.7181

3.1058

12

0.2590 0.6955 1.0832 1.3562 1.7823

2.1788

2.6810

3.0546

13

0.2586 0.6938 1.0795 1.3502 1.7709

2.1604

2.6503

3.0123

14

0.2582 0.6924 1.0763 1.3450 1.7613

2.1448

2.6245

2.9768

15

0.2579 0.6912 1.0735 1.3406 1.7531

2.1314

2.6025

2.9467

16

0.2576 0.6901 1.0711 1.3368 1.7459

2.1199

2.5835

2.9208

17

0.2573 0.6892 1.0690 1.3334 1.7396

2.1098

2.5669

2.8982

18

0.2571 0.6884 1.0672 1.3304 1.7341

2.1009

2.5524

2.8784

19

0.2569 0.6876 1.0655 1.3277 1.7291

2.0930

2.5395

2.8609

20

0.2567 0.6870 1.0640 1.3253 1.7247

2.0860

2.5280

2.8453

286

Tabla A.4: Distribuci´on t-Student (Continuaci´on) Probabilidades Grados de libertad

0.40

0.25

0.15

0.10

0.05

0.025

0.001

0.005

21

0.2566 0.6864 1.0627 1.3232 1.7207 2.0796 2.5176 2.8314

22

0.2564 0.6858 1.0614 1.3212 1.7171 2.0739 2.5083 2.8188

23

0.2563 0.6853 1.0603 1.3195 1.7139 2.0687 2.4999 2.8073

24

0.2562 0.6848 1.0593 1.3178 1.7109 2.0639 2.4922 2.7969

25

0.2561 0.6844 1.0584 1.3163 1.7081 2.0595 2.4851 2.7874

26

0.2560 0.6840 1.0575 1.3150 1.7056 2.0555 2.4786 2.7787

27

0.2559 0.6837 1.0567 1.3137 1.7033 2.0518 2.4727 2.7707

28

0.2558 0.6834 1.0560 1.3125 1.7011 2.0484 2.4671 2.7633

29

0.2557 0.6830 1.0553 1.3114 1.6991 2.0452 2.4620 2.7564

30

0.2556 0.6828 1.0547 1.3104 1.6973 2.0423 2.4573 2.7500

35

0.2553 0.6816 1.0520 1.3062 1.6896 2.0301 2.4377 2.7238

40

0.2550 0.6807 1.0500 1.3031 1.6839 2.0211 2.4233 2.7045

45

0.2549 0.6800 1.0485 1.3006 1.6794 2.0141 2.4121 2.6896

50

0.2547 0.6794 1.0473 1.2987 1.6759 2.0086 2.4033 2.6778

60

0.2545 0.6786 1.0455 1.2958 1.6706 2.0003 2.3901 2.6603

70

0.2543 0.6780 1.0442 1.2938 1.6669 1.9944 2.3808 2.6479

80

0.2542 0.6776 1.0432 1.2922 1.6641 1.9901 2.3739 2.6387

90

0.2541 0.6772 1.0424 1.2910 1.6620 1.9867 2.3685 2.6316

100

0.2540 0.6770 1.0418 1.2901 1.6602 1.9840 2.3642 2.6259

120

0.2539 0.6765 1.0409 1.2886 1.6577 1.9799 2.3578 2.6174

150

0.2538 0.6761 1.0400 1.2872 1.6551 1.9759 2.3515 2.6090

200

0.2537 0.6757 1.0391 1.2858 1.6525 1.9719 2.3451 2.6006

300

0.2536 0.6753 1.0382 1.2844 1.6499 1.9679 2.3388 2.5923



0.2533 0.6745 1.0364 1.2816 1.6449 1.9600 2.3263 2.5758

287

Tabla A.5: Distribuc´on χ2n . P (χ2n ≥ a) Probabilidades Grados de libertad

0.99

0.975

0.95

0.90

0.75

0.50

0.25

0.10

0.05

0.025

0.01

1

1.571∗

9.821∗

39.320∗

0.016

0.102

0.455

1.323

2.706

3.841

5.024

6.635

2

0.020

0.051

0.103

0.211

0.575

1.386

2.773

4.605

5.991

7.378

9.210

3

0.115

0.216

0.352

0.584

1.213

2.366

4.108

6.252

7.815

9.349

11.346

4

0.297

0.484

0.711

1.064

1.923

3.357

5.385

7.779

9.488

11.143

13.277

5

0.554

0.831

1.145

1.610

2.675

4.351

6.626

9.236

11.070

12.832

15.086

288

6

0.872

1.237

1.635

2.204

3.455

5.348

7.841

10.645

12.592

14.449

16.812

7

1.239

1.690

2.167

2.833

4.255

6.346

9.037

12.017

14.067

16.013

18.475

8

1.646

2.180

2.733

3.490

5.071

7.344

10.219

13.362

15.507

17.535

20.090

9

2.088

2.700

3.325

4.168

5.899

8.343

11.389

14.684

16.919

19.023

21.666

10

2.558

3.247

3.940

4.865

6.737

9.342

12.549

15.987

18.307

20.483

23.209

11

3.053

3.816

4.575

5.578

7.584

10.341

13.701

17.275

19.675

21.920

24.725

12

3.571

4.404

5.226

6.304

8.438

11.340

14.845

18.549

21.026

23.337

26.217

13

4.107

5.009

5.892

7.041

9.299

12.340

15.984

19.812

22.362

24.712

27.688

14

4.660

5.629

6.571

7.790

10.165

13.339

17.117

21.064

23.685

26.119

29.141

15

5.229

6.262

7.261

8.547

11.037

14.339

18.245

22.307

24.996

27.488

30.578

16

5.812

6.908

7.962

9.312

11.912

15.338

19.369

23.542

26.296

28.845

32.000

17

6.408

7.564

8.672

10.085

12.792

16.338

20.489

24.769

27.587

30.191

33.409

18

7.015

8.231

9.390

10.865

13.675

17.338

21.605

25.989

28.869

31.526

34.805

19

7.633

8.907

10.117

11.651

14.562

18.338

22.718

27.204

30.144

32.852

36.191

20

8.260

9.591

10.851

12.443

15.452

19.337

23.828

28.412

31.410

34.170

37.566



Dividir entre 1000

Tabla A.5: Distribuci´on χ2n (Continuaci´on) Probabilidades Grados de

289

libertad

0.99

0.975

0.95

0.90

0.75

0.50

0.25

0.10

0.05

0.025

0.01

21

8.897

10.283

11.591

13.240

16.344

20.337

24.935

29.615

32.671

35.479

38.932

22

9.542

10.982

12.338

14.041

17.240

21.337

26.039

30.813

33.924

36.781

40.289

23

10.196

11.689

13.091

14.848

18.137

22.337

27.141

32.007

35.172

38.076

41.638

24

10.856

12.401

13.848

15.659

19.037

23.337

28.241

33.196

36.415

39.364

42.980

25

11.524

13.120

14.611

16.473

19.939

24.337

29.339

34.382

37.652

40.646

44.314

26

12.198

13.844

15.379

17.292

20.843

25.336

30.435

35.563

38.885

41.923

45.642

27

12.879

14.573

16.151

18.114

21.749

26.336

31.528

36.741

40.113

43.194

46.963

28

13.565

15.308

16.928

18.939

22.657

27.336

32.620

37.916

41.329

44.461

48.278

29

14.256

16.047

17.708

19.768

23.567

28.336

33.711

39.087

42.557

45.722

49.588

30

14.954

16.791

18.493

20.599

24.478

29.336

34.800

40.256

43.773

46.979

50.892

40

22.164

24.433

26.509

29.050

33.660

39.335

45.616

51.805

55.758

59.342

63.691

50

29.707

32.357

34.764

37.689

42.942

49.335

56.334

63.167

67.505

71.420

76.154

60

37.485

40.482

43.188

46.459

52.294

59.335

66.981

74.397

79.082

83.298

88.379

70

45.442

48.758

51.739

55.329

61.698

69.334

77.577

85.527

90.531

95.023

100.425

80

53.540

57.153

60.391

64.278

71.144

70.334

88.130

96.578

101.879

106.629

112.329

90

61.754

65.647

69.126

73.291

80.625

89.334

98.650

107.565

113.145

118.136

124.116

100

70.065

74.222

77.929

82.358

90.133

99.334

109.141

118.498

124.342

129.561

135.807

Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.25 Grados de

Grados del libertad del numerador (n)

libertad del denominador (m)

290

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120

1 2 3 4 5

5.83 2.57 2.02 1.81 1.69

7.50 3.00 2.28 2.00 1.85

8.20 3.15 2.36 2.05 1.88

8.58 3.23 2.39 2.06 1.89

8.82 3.28 2.41 2.07 1.89

8.98 3.31 2.42 2.08 1.89

9.10 3.34 2.43 2.08 1.89

9.19 3.35 2.44 2.08 1.89

9.26 3.37 2.44 2.08 1.89

9.32 3.38 2.44 2.08 1.89

9.41 3.39 2.45 2.08 1.89

9.49 3.41 2.46 2.08 1.89

9.58 3.43 2.46 2.08 1.88

9.63 3.43 2.46 2.08 1.88

9.67 3.44 2.47 2.08 1.88

9.71 3.45 2.47 2.08 1.88

9.76 3.46 2.47 2.08 1.87

9.80 3.47 2.47 2.08 1.87

9.85 3.48 2.47 2.08 1.87

6 7 8 9 10

1.62 1.57 1.54 1.51 1.49

1.76 1.70 1.66 1.62 1.60

1.78 1.72 1.67 1.63 1.60

1.79 1.72 1.66 1.63 1.59

1.79 1.71 1.66 1.62 1.59

1.78 1.71 1.65 1.61 1.58

1.78 1.70 1.64 1.60 1.57

1.78 1.70 1.64 1.60 1.56

1.77 1.69 1.63 1.59 1.56

1.77 1.69 1.63 1.59 1.55

1.77 1.68 1.62 1.58 1.54

1.76 1.68 1.62 1.57 1.53

1.76 1.67 1.61 1.56 1.52

1.75 1.67 1.60 1.56 1.52

1.75 1.66 1.60 1.55 1.51

1.75 1.66 1.59 1.54 1.51

1.74 1.65 1.59 1.54 1.50

1.74 1.65 1.58 1.53 1.49

1.74 1.65 1.58 1.53 1.48

11 12 13 14 15

1.47 1.46 1.45 1.44 1.43

1.58 1.56 1.55 1.53 1.52

1.58 1.56 1.55 1.53 1.52

1.57 1.55 1.53 1.52 1.51

1.56 1.54 1.52 1.51 1.49

1.55 1.53 1.51 1.50 1.48

1.54 1.52 1.50 1.49 1.47

1.53 1.51 1.49 1.48 1.46

1.53 1.51 1.49 1.47 1.46

1.52 1.50 1.48 1.46 1.45

1.51 1.49 1.47 1.45 1.44

1.50 1.48 1.46 1.44 1.43

1.49 1.47 1.45 1.43 1.41

1.49 1.46 1.44 1.42 1.41

1.48 1.45 1.43 1.41 1.40

1.47 1.45 1.42 1.41 1.39

1.47 1.44 1.42 1.40 1.38

1.46 1.43 1.41 1.39 1.37

1.45 1.42 1.40 1.38 1.36

16 17 18 19 20

1.42 1.42 1.41 1.41 1.40

1.51 1.51 1.50 1.49 1.49

1.51 1.50 1.49 1.49 1.48

1.50 1.49 1.48 1.47 1.47

1.48 1.47 1.46 1.46 1.45

1.47 1.46 1.45 1.44 1.44

1.46 1.45 1.44 1.43 1.43

1.45 1.44 1.43 1.42 1.42

1.44 1.43 1.42 1.41 1.41

1.44 1.43 1.42 1.41 1.40

1.43 1.41 1.40 1.40 1.39

1.41 1.40 1.39 1.38 1.37

1.40 1.39 1.38 1.37 1.36

1.39 1.38 1.37 1.36 1.35

1.38 1.37 1.36 1.35 1.34

1.37 1.36 1.35 1.34 1.33

1.36 1.35 1.34 1.33 1.32

1.35 1.34 1.33 1.32 1.31

1.34 1.33 1.32 1.30 1.29

21 22 23 24 25

1.40 1.40 1.39 1.39 1.39

1.48 1.48 1.47 1.47 1.47

1.48 1.47 1.47 1.46 1.46

1.46 1.45 1.45 1.44 1.44

1.44 1.44 1.43 1.43 1.42

1.43 1.42 1.42 1.41 1.41

1.42 1.41 1.41 1.40 1.40

1.41 1.40 1.40 1.39 1.39

1.40 1.39 1.39 1.38 1.38

1.39 1.39 1.38 1.38 1.37

1.38 1.37 1.37 1.36 1.36

1.37 1.36 1.35 1.35 1.34

1.35 1.34 1.34 1.33 1.33

1.34 1.33 1.33 1.32 1.32

1.33 1.32 1.32 1.31 1.31

1.32 1.31 1.31 1.30 1.29

1.31 1.30 1.30 1.29 1.28

1.30 1.29 1.28 1.28 1.27

1.28 1.28 1.27 1.26 1.25

26 27 28 29 30

1.38 1.38 1.38 1.38 1.38

1.46 1.46 1.46 1.45 1.45

1.45 1.45 1.45 1.45 1.44

1.44 1.43 1.43 1.43 1.42

1.42 1.42 1.41 1.41 1.41

1.41 1.40 1.40 1.40 1.39

1.39 1.39 1.39 1.38 1.38

1.38 1.38 1.38 1.37 1.37

1.37 1.37 1.37 1.36 1.36

1.37 1.36 1.36 1.35 1.35

1.35 1.35 1.34 1.34 1.34

1.34 1.33 1.33 1.32 1.32

1.32 1.32 1.31 1.31 1.30

1.31 1.31 1.30 1.30 1.29

1.30 1.30 1.29 1.29 1.28

1.29 1.28 1.28 1.27 1.27

1.28 1.27 1.27 1.26 1.26

1.26 1.26 1.25 1.25 1.24

1.25 1.24 1.24 1.23 1.23

40 60 120 ∞

1.36 1.35 1.34 1.32

1.44 1.42 1.40 1.39

1.42 1.41 1.39 1.37

1.40 1.38 1.37 1.35

1.39 1.37 1.35 1.33

1.37 1.35 1.33 1.31

1.36 1.33 1.31 1.29

1.35 1.32 1.30 1.28

1.34 1.31 1.29 1.27

1.33 1.30 1.28 1.25

1.31 1.29 1.26 1.24

1.30 1.27 1.24 1.22

1.28 1.25 1.22 1.19

1.26 1.24 1.21 1.18

1.25 1.22 1.19 1.16

1.24 1.21 1.18 1.14

1.22 1.19 1.16 1.12

1.21 1.17 1.13 1.08

1.19 1.15 1.10 1.00



Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.10 Grados de

Grados del libertad del numerador (n)

libertad del

291

denominador (m)

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120



1 2 3 4 5

39.86 8.53 5.54 4.54 4.06

49.50 9.00 5.46 4.32 3.78

53.59 9.16 5.39 4.19 3.62

55.83 9.24 5.34 4.11 3.52

57.24 9.29 5.31 4.05 3.45

58.20 9.33 5.28 4.01 3.40

58.91 9.35 5.27 3.98 3.37

59.44 9.37 5.25 3.95 3.34

59.86 9.38 5.24 3.94 3.32

60.19 9.39 5.23 3.92 3.30

60.71 9.41 5.22 3.90 3.27

61.22 9.42 5.20 3.87 3.24

61.74 9.44 5.18 3.84 3.21

62.00 9.45 5.18 3.83 3.19

62.26 9.46 5.17 3.82 3.17

62.53 9.47 5.16 3.80 3.16

62.79 9.47 5.15 3.79 3.14

63.06 9.48 5.14 3.78 3.12

63.33 9.49 5.13 3.76 3.10

6 7 8 9 10

3.78 3.59 3.46 3.36 3.29

3.46 3.26 3.11 3.01 2.92

3.29 3.07 2.92 2.81 2.73

3.18 2.96 2.81 2.69 2.61

3.11 2.88 2.73 2.61 2.52

3.05 2.83 2.67 2.55 2.46

3.01 2.78 2.62 2.51 2.41

2.98 2.75 2.59 2.47 2.38

2.96 2.72 2.56 2.44 2.35

2.94 2.70 2.54 2.42 2.32

2.90 2.67 2.50 2.38 2.28

2.87 2.63 2.46 2.34 2.24

2.84 2.59 2.42 2.30 2.20

2.82 2.58 2.40 2.28 2.18

2.80 2.56 2.38 2.25 2.16

2.78 2.54 2.36 2.23 2.13

2.76 2.51 2.34 2.21 2.11

2.74 2.49 2.32 2.18 2.08

2.72 2.47 2.29 2.16 2.06

11 12 13 14 15

3.23 3.18 3.14 3.10 3.07

2.86 2.81 2.76 2.73 2.70

2.66 2.61 2.56 2.52 2.49

2.54 2.48 2.43 2.39 2.36

2.45 2.39 2.35 2.31 2.27

2.39 2.33 2.28 2.24 2.21

2.34 2.28 2.23 2.19 2.16

2.30 2.24 2.20 2.15 2.12

2.27 2.21 2.16 2.12 2.09

2.25 2.19 2.14 2.10 2.06

2.21 2.15 2.10 2.05 2.02

2.17 2.10 2.05 2.01 1.97

2.12 2.06 2.01 1.96 1.92

2.10 2.04 1.98 1.94 1.90

2.08 2.01 1.96 1.91 1.87

2.05 1.99 1.93 1.89 1.85

2.03 1.96 1.90 1.86 1.82

2.00 1.93 1.88 1.83 1.79

1.97 1.90 1.85 1.80 1.76

16 17 18 19 20

3.05 3.03 3.01 2.99 2.97

2.67 2.64 2.62 2.61 2.59

2.46 2.44 2.42 2.40 2.38

2.33 2.31 2.29 2.27 2.25

2.24 2.22 2.20 2.18 2.16

2.18 2.15 2.13 2.11 2.09

2.13 2.10 2.08 2.06 2.04

2.09 2.06 2.04 2.02 2.00

2.06 2.03 2.00 1.98 1.96

2.03 2.00 1.98 1.96 1.94

1.99 1.96 1.93 1.91 1.89

1.94 1.91 1.89 1.86 1.84

1.89 1.86 1.84 1.81 1.79

1.87 1.84 1.81 1.79 1.77

1.84 1.81 1.78 1.76 1.74

1.81 1.78 1.75 1.73 1.71

1.78 1.75 1.72 1.70 1.68

1.75 1.72 1.69 1.67 1.64

1.72 1.69 1.66 1.63 1.61

21 22 23 24 25

2.96 2.95 2.94 2.93 2.92

2.57 2.56 2.55 2.54 2.53

2.36 2.35 2.34 2.33 2.32

2.23 2.22 2.21 2.19 2.18

2.14 2.13 2.11 2.10 2.09

2.08 2.06 2.05 2.04 2.02

2.02 2.01 1.99 1.98 1.97

1.98 1.97 1.95 1.94 1.93

1.95 1.93 1.92 1.91 1.89

1.92 1.90 1.89 1.88 1.87

1.87 1.86 1.84 1.83 1.82

1.83 1.81 1.80 1.78 1.77

1.78 1.76 1.74 1.73 1.72

1.75 1.73 1.72 1.70 1.69

1.72 1.70 1.69 1.67 1.66

1.69 1.67 1.66 1.64 1.63

1.66 1.64 1.62 1.61 1.59

1.62 1.60 1.59 1.57 1.56

1.59 1.57 1.55 1.53 1.52

26 27 28 29 30

2.91 2.90 2.89 2.89 2.88

2.52 2.51 2.50 2.50 2.49

2.31 2.30 2.29 2.28 2.28

2.17 2.17 2.16 2.15 2.14

2.08 2.07 2.06 2.06 2.05

2.01 2.00 2.00 1.99 1.98

1.96 1.95 1.94 1.93 1.93

1.92 1.91 1.90 1.89 1.88

1.88 1.87 1.87 1.86 1.85

1.86 1.85 1.84 1.83 1.82

1.81 1.80 1.79 1.78 1.77

1.76 1.75 1.74 1.73 1.72

1.71 1.70 1.69 1.68 1.67

1.68 1.67 1.66 1.65 1.64

1.65 1.64 1.63 1.62 1.61

1.61 1.60 1.59 1.58 1.57

1.58 1.57 1.56 1.55 1.54

1.54 1.53 1.52 1.51 1.50

1.50 1.49 1.48 1.47 1.46

40 60 120 ∞

2.84 2.79 2.75 2.71

2.44 2.39 2.35 2.30

2.23 2.18 2.13 2.08

2.09 2.04 1.99 1.94

2.00 1.95 1.90 1.85

1.93 1.87 1.82 1.77

1.87 1.82 1.77 1.72

1.83 1.77 1.72 1.67

1.79 1.74 1.68 1.63

1.76 1.71 1.65 1.60

1.71 1.66 1.60 1.55

1.66 1.60 1.55 1.49

1.61 1.54 1.48 1.42

1.57 1.51 1.45 1.38

1.54 1.48 1.41 1.34

1.51 1.44 1.37 1.30

1.47 1.40 1.32 1.24

1.42 1.35 1.26 1.17

1.38 1.29 1.19 1.00

Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.05 Grados de

Grados del libertad del numerador (n)

libertad del

292

denominador (m)

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120



1 2 3 4 5

161.40 18.51 10.13 7.71 6.61

199.50 19.00 9.55 6.94 5.79

215.70 19.16 9.28 6.59 5.41

224.60 19.25 9.12 6.39 5.19

230.20 19.30 9.01 6.26 5.05

234.00 19.33 8.94 6.16 4.95

236.80 19.35 8.89 6.09 4.88

238.90 19.37 8.85 6.04 4.82

240.50 19.39 8.81 6.00 4.77

241.90 19.40 8.79 5.96 4.74

243.90 19.41 8.75 5.91 4.68

245.90 19.43 8.70 5.86 4.62

248.00 19.45 8.66 5.80 4.56

249.10 19.45 8.64 5.77 4.53

250.10 19.46 8.62 5.75 4.50

251.10 19.47 8.59 5.72 4.46

252.20 19.48 8.57 5.69 4.43

253.30 19.49 8.55 5.66 4.40

254.30 19.50 8.53 5.63 4.36

6 7 8 9 10

5.99 5.59 5.32 5.12 4.96

5.14 4.74 4.46 4.26 4.10

4.76 4.35 4.07 3.86 3.71

4.53 4.12 3.84 3.63 3.48

4.39 3.97 3.69 3.48 3.33

4.28 3.87 3.58 3.37 3.22

4.21 3.79 3.50 3.29 3.14

4.15 3.73 3.44 3.23 3.07

4.10 3.68 3.39 3.18 3.02

4.06 3.64 3.35 3.14 2.98

4.00 3.57 3.28 3.07 2.91

3.94 3.51 3.22 3.01 2.85

3.87 3.44 3.15 2.94 2.77

3.84 3.41 3.12 2.90 2.74

3.81 3.38 3.08 2.86 2.70

3.77 3.34 3.04 2.83 2.66

3.74 3.30 3.01 2.79 2.62

3.70 3.27 2.97 2.75 2.58

3.67 3.23 2.93 2.71 2.54

11 12 13 14 15

4.84 4.75 4.67 4.60 4.54

3.98 3.89 3.81 3.74 3.68

3.59 3.49 3.41 3.34 3.29

3.36 3.26 3.18 3.11 3.06

3.20 3.11 3.03 2.96 2.90

3.09 3.00 2.92 2.85 2.79

3.01 2.91 2.83 2.76 2.71

2.95 2.85 2.77 2.70 2.64

2.90 2.80 2.71 2.65 2.59

2.85 2.75 2.67 2.60 2.54

2.79 2.69 2.60 2.53 2.48

2.72 2.62 2.53 2.46 2.40

2.65 2.54 2.46 2.39 2.33

2.61 2.51 2.42 2.35 2.29

2.57 2.47 2.38 2.31 2.25

2.53 2.43 2.34 2.27 2.20

2.49 2.38 2.30 2.22 2.16

2.45 2.34 2.25 2.18 2.11

2.40 2.30 2.21 2.13 2.07

16 17 18 19 20

4.49 4.45 4.41 4.38 4.35

3.63 3.59 3.55 3.52 3.49

3.24 3.20 3.16 3.13 3.10

3.01 2.96 2.93 2.90 2.87

2.85 2.81 2.77 2.74 2.71

2.74 2.70 2.66 2.63 2.60

2.66 2.61 2.58 2.54 2.51

2.59 2.55 2.51 2.48 2.45

2.54 2.49 2.46 2.42 2.39

2.49 2.45 2.41 2.38 2.35

2.42 2.38 2.34 2.31 2.28

2.35 2.31 2.27 2.23 2.20

2.28 2.23 2.19 2.16 2.12

2.24 2.19 2.15 2.11 2.08

2.19 2.15 2.11 2.07 2.04

2.15 2.10 2.06 2.03 1.99

2.11 2.06 2.02 1.98 1.95

2.06 2.01 1.97 1.93 1.90

2.01 1.96 1.92 1.88 1.84

21 22 23 24 25

4.32 4.30 4.28 4.26 4.24

3.47 3.44 3.42 3.40 3.39

3.07 3.05 3.03 3.01 2.99

2.84 2.82 2.80 2.78 2.76

2.68 2.66 2.64 2.62 2.60

2.57 2.55 2.53 2.51 2.49

2.49 2.46 2.44 2.42 2.40

2.42 2.40 2.37 2.36 2.34

2.37 2.34 2.32 2.30 2.28

2.32 2.30 2.27 2.25 2.24

2.25 2.23 2.20 2.18 2.16

2.18 2.15 2.13 2.11 2.09

2.10 2.07 2.05 2.03 2.01

2.05 2.03 2.01 1.98 1.96

2.01 1.98 1.96 1.94 1.92

1.96 1.94 1.91 1.89 1.87

1.92 1.89 1.86 1.84 1.82

1.87 1.84 1.81 1.79 1.77

1.81 1.78 1.76 1.73 1.71

26 27 28 29 30

4.23 4.21 4.20 4.18 4.17

3.37 3.35 3.34 3.33 3.32

2.98 2.96 2.95 2.93 2.92

2.74 2.73 2.71 2.70 2.69

2.59 2.57 2.56 2.55 2.53

2.47 2.46 2.45 2.43 2.42

2.39 2.37 2.36 2.35 2.33

2.32 2.31 2.29 2.28 2.27

2.27 2.25 2.24 2.22 2.21

2.22 2.20 2.19 2.18 2.16

2.15 2.13 2.12 2.10 2.09

2.07 2.06 2.04 2.03 2.01

1.99 1.97 1.96 1.94 1.93

1.95 1.93 1.91 1.90 1.89

1.90 1.88 1.87 1.85 1.84

1.85 1.84 1.82 1.81 1.79

1.80 1.79 1.77 1.75 1.74

1.75 1.73 1.71 1.70 1.68

1.69 1.67 1.65 1.64 1.62

40 60 120 ∞

4.08 4.00 3.92 3.84

3.23 3.15 3.07 3.00

2.84 2.76 2.68 2.60

2.61 2.53 2.45 2.37

2.45 2.37 2.29 2.21

2.34 2.25 2.17 2.10

2.25 2.17 2.09 2.01

2.18 2.10 2.02 1.94

2.12 2.04 1.96 1.88

2.08 1.99 1.91 1.83

2.00 1.92 1.83 1.75

1.92 1.84 1.75 1.67

1.84 1.75 1.66 1.57

1.79 1.70 1.61 1.52

1.74 1.65 1.55 1.46

1.69 1.59 1.50 1.39

1.64 1.53 1.43 1.32

1.58 1.47 1.35 1.22

1.51 1.39 1.25 1.00

Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.025 Grados de

Grados del libertad del numerador (n)

libertad del

293

denominador (m)

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120

1 2 3 4 5

647.80 38.51 17.44 12.22 10.01

799.50 39.00 16.04 10.65 8.43

864.20 39.17 15.44 9.98 7.76

899.60 39.25 15.10 9.60 7.39

921.80 39.30 14.88 9.36 7.15

937.10 39.33 14.73 9.20 6.98

948.20 39.36 14.62 9.07 6.85

956.70 39.37 14.54 8.98 6.76

963.30 39.39 14.47 8.90 6.68

968.60 39.40 14.42 8.84 6.62

976.70 39.41 14.34 8.75 6.52

984.90 39.43 14.25 8.66 6.43

993.10 39.45 14.17 8.56 6.33

997.20 39.46 14.12 8.51 6.28

1001.00 39.46 14.08 8.46 6.23

1006.00 39.47 14.04 8.41 6.18

1010.00 39.48 13.99 8.36 6.12

1014.00 39.49 13.95 8.31 6.07

1018.00 39.50 13.90 8.26 6.02

6 7 8 9 10

8.81 8.07 7.57 7.21 6.94

7.26 6.54 6.06 5.71 5.46

6.60 5.89 5.42 5.08 4.83

6.23 5.52 5.05 4.72 4.47

5.99 5.29 4.82 4.48 4.24

5.82 5.12 4.65 4.32 4.07

5.70 4.99 4.53 4.20 3.95

5.60 4.90 4.43 4.10 3.85

5.52 4.82 4.36 4.03 3.78

5.46 4.76 4.30 3.96 3.72

5.37 4.67 4.20 3.87 3.62

5.27 4.57 4.10 3.77 3.52

5.17 4.47 4.00 3.67 3.42

5.12 4.41 3.95 3.61 3.37

5.07 4.36 3.89 3.56 3.31

5.01 4.31 3.84 3.51 3.26

4.96 4.25 3.78 3.45 3.20

4.90 4.20 3.73 3.39 3.14

4.85 4.14 3.67 3.33 3.08

11 12 13 14 15

6.72 6.55 6.41 6.30 6.20

5.26 5.10 4.97 4.86 4.77

4.63 4.47 4.35 4.24 4.15

4.28 4.12 4.00 3.89 3.80

4.04 3.89 3.77 3.66 3.58

3.88 3.73 3.60 3.50 3.41

3.76 3.61 3.48 3.38 3.29

3.66 3.51 3.39 3.29 3.20

3.59 3.44 3.31 3.21 3.12

3.53 3.37 3.25 3.15 3.06

3.43 3.28 3.15 3.05 2.96

3.33 3.18 3.05 2.95 2.86

3.23 3.07 2.95 2.84 2.76

3.17 3.02 2.89 2.79 2.70

3.12 2.96 2.84 2.73 2.64

3.06 2.91 2.78 2.67 2.59

3.00 2.85 2.72 2.61 2.52

2.94 2.79 2.66 2.55 2.46

2.88 2.72 2.60 2.49 2.40

16 17 18 19 20

6.12 6.04 5.98 5.92 5.87

4.69 4.62 4.56 4.51 4.46

4.08 4.01 3.95 3.90 3.86

3.73 3.66 3.61 3.56 3.51

3.50 3.44 3.38 3.33 3.29

3.34 3.28 3.22 3.17 3.13

3.22 3.16 3.10 3.05 3.01

3.12 3.06 3.01 2.96 2.91

3.05 2.98 2.93 2.88 2.84

2.99 2.92 2.87 2.82 2.77

2.89 2.82 2.77 2.72 2.68

2.79 2.72 2.67 2.62 2.57

2.68 2.62 2.56 2.51 2.46

2.63 2.56 2.50 2.45 2.41

2.57 2.50 2.44 2.39 2.35

2.51 2.44 2.38 2.33 2.29

2.45 2.38 2.32 2.27 2.22

2.38 2.32 2.26 2.20 2.16

2.32 2.25 2.19 2.13 2.09

21 22 23 24 25

5.83 5.79 5.75 5.72 5.69

4.42 4.38 4.35 4.32 4.29

3.82 3.78 3.75 3.72 3.69

3.48 3.44 3.41 3.38 3.35

3.25 3.22 3.18 3.15 3.13

3.09 3.05 3.02 2.99 2.97

2.97 2.93 2.90 2.87 2.85

2.87 2.84 2.81 2.78 2.75

2.80 2.76 2.73 2.70 2.68

2.73 2.70 2.67 2.64 2.61

2.64 2.60 2.57 2.54 2.51

2.53 2.50 2.47 2.44 2.41

2.42 2.39 2.36 2.33 2.30

2.37 2.33 2.30 2.27 2.24

2.31 2.27 2.24 2.21 2.18

2.25 2.21 2.18 2.15 2.12

2.18 2.14 2.11 2.08 2.05

2.11 2.08 2.04 2.01 1.98

2.04 2.00 1.97 1.94 1.91

26 27 28 29 30

5.66 5.63 5.61 5.59 5.57

4.27 4.24 4.22 4.20 4.18

3.67 3.65 3.63 3.61 3.59

3.33 3.31 3.29 3.27 3.25

3.10 3.08 3.06 3.04 3.03

2.94 2.92 2.90 2.88 2.87

2.82 2.80 2.78 2.76 2.75

2.73 2.71 2.69 2.67 2.65

2.65 2.63 2.61 2.59 2.57

2.59 2.57 2.55 2.53 2.51

2.49 2.47 2.45 2.43 2.41

2.39 2.36 2.34 2.32 2.31

2.28 2.25 2.23 2.21 2.20

2.22 2.19 2.17 2.15 2.14

2.16 2.13 2.11 2.09 2.07

2.09 2.07 2.05 2.03 2.01

2.03 2.00 1.98 1.96 1.94

1.95 1.93 1.91 1.89 1.87

1.88 1.85 1.83 1.81 1.79

40 60 120 ∞

5.42 5.29 5.15 5.02

4.05 3.93 3.80 3.69

3.46 3.34 3.23 3.12

3.13 3.01 2.89 2.79

2.90 2.79 2.67 2.57

2.74 2.63 2.52 2.41

2.62 2.51 2.39 2.29

2.53 2.41 2.30 2.19

2.45 2.33 2.22 2.11

2.39 2.27 2.16 2.05

2.29 2.17 2.05 1.94

2.18 2.06 1.94 1.83

2.07 1.94 1.82 1.71

2.01 1.88 1.76 1.64

1.94 1.82 1.69 1.57

1.88 1.74 1.61 1.48

1.80 1.67 1.53 1.39

1.72 1.58 1.43 1.27

1.64 1.68 1.31 1.00



Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.01 Grados de

Grados del libertad del numerador (n)

libertad del denominador (m)

1 2 3 4 5

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120



294

4052.19 98.50 34.12 21.20 16.26

4999.50 99.00 30.82 18.00 13.27

5403.00 99.17 29.46 16.69 12.06

5625.00 99.25 28.71 15.98 11.39

5764.00 99.30 28.24 15.52 10.97

5859.00 99.33 27.91 15.21 10.67

5928.00 99.36 27.67 14.98 10.46

5982.00 99.37 27.49 14.80 10.29

6022.00 99.39 27.35 14.66 10.16

6056.00 99.40 27.23 14.55 10.05

6106.00 99.42 27.05 14.37 9.89

6157.00 99.43 26.87 14.20 9.72

6209.00 99.45 26.69 14.02 9.55

6235.00 99.46 26.60 13.93 9.47

6261.00 99.47 26.50 13.84 9.38

6287.00 99.47 26.41 13.75 9.29

6313.00 99.48 26.32 13.65 9.20

6399.00 99.49 26.22 13.56 9.11

6366.00 99.00 26.13 13.46 9.02

6 7 8 9 10

13.75 12.25 11.26 10.56 10.04

10.92 9.55 8.65 8.02 7.56

9.78 8.45 7.59 6.99 6.55

9.15 7.85 7.01 6.42 5.99

8.75 7.46 6.63 6.06 5.64

8.47 7.19 6.37 5.80 5.39

8.26 6.99 6.18 5.61 5.20

8.10 6.84 6.03 5.47 5.06

7.98 6.72 5.91 5.35 4.94

7.87 6.62 5.81 5.26 4.85

7.72 6.47 5.67 5.11 4.71

7.56 6.31 5.52 4.96 4.56

7.40 6.16 5.36 4.81 4.41

7.31 6.07 5.28 4.73 4.33

7.23 5.99 5.20 4.65 4.25

7.14 5.91 5.12 4.57 4.17

7.06 5.82 5.03 4.48 4.08

6.97 5.74 4.95 4.40 4.00

6.88 5.65 4.86 4.31 3.91

11 12 13 14 15

9.65 9.33 9.07 8.86 8.68

7.21 6.93 6.70 6.51 6.36

6.22 5.95 5.74 5.56 5.42

5.67 5.41 5.21 5.04 4.89

5.32 5.06 4.86 4.69 4.56

5.07 4.82 4.62 4.46 4.32

4.89 4.64 4.44 4.28 4.14

4.74 4.50 4.30 4.14 4.00

4.63 4.39 4.19 4.03 3.89

4.54 4.30 4.10 3.94 3.80

4.40 4.16 3.96 3.80 3.67

4.25 4.01 3.82 3.66 3.52

4.10 3.86 3.66 3.51 3.37

4.02 3.78 3.59 3.43 3.29

3.94 3.70 3.51 3.35 3.21

3.86 3.62 3.43 3.27 3.13

3.78 3.54 3.34 3.18 3.05

3.69 3.45 3.25 3.09 2.96

3.60 3.36 3.17 3.00 2.87

16 17 18 19 20

8.53 8.40 8.29 8.18 8.10

6.23 6.11 6.01 5.93 5.85

5.29 5.19 5.09 5.01 4.94

4.77 4.67 4.58 4.50 4.43

4.44 4.34 4.25 4.17 4.10

4.20 4.10 4.01 3.94 3.87

4.03 3.93 3.84 3.77 3.70

3.89 3.79 3.71 3.63 3.56

3.78 3.68 3.60 3.52 3.46

3.69 3.59 3.51 3.43 3.37

3.55 3.46 3.37 3.30 3.23

3.41 3.31 3.23 3.15 3.09

3.26 3.16 3.08 3.00 2.94

3.18 3.08 3.00 2.92 2.86

3.10 3.00 2.92 2.84 2.78

3.02 2.92 2.84 2.76 2.69

2.93 2.83 2.75 2.67 2.61

2.84 2.75 2.66 2.58 2.52

2.75 2.65 2.57 2.49 2.42

21 22 23 24 25

8.02 7.95 7.88 7.82 7.77

5.78 5.72 5.66 5.61 5.57

4.87 4.82 4.76 4.72 4.68

4.37 4.31 4.26 4.22 4.18

4.04 3.99 3.94 3.90 3.85

3.81 3.76 3.71 3.67 3.63

3.64 3.59 3.54 3.50 3.46

3.51 3.45 3.41 3.36 3.32

3.40 3.35 3.30 3.26 3.22

3.31 3.26 3.21 3.17 3.13

3.17 3.12 3.07 3.03 2.99

3.03 2.98 2.93 2.89 2.85

2.88 2.83 2.78 2.74 2.70

2.80 2.75 2.70 2.66 2.62

2.72 2.67 2.62 2.58 2.54

2.64 2.58 2.54 2.49 2.45

2.55 2.50 2.45 2.40 2.36

2.46 2.40 2.35 2.31 2.27

2.36 2.31 2.26 2.21 2.17

26 27 28 29 30

7.72 7.68 7.64 7.60 7.56

5.53 5.49 5.45 5.42 5.39

4.64 4.60 4.57 4.54 4.51

4.14 4.11 4.07 4.04 4.02

3.82 3.78 3.75 3.73 3.70

3.59 3.56 3.53 3.50 3.47

3.42 3.39 3.36 3.33 3.30

3.29 3.26 3.23 3.20 3.17

3.18 3.15 3.12 3.09 3.07

3.09 3.06 3.03 3.00 2.98

2.96 2.93 2.90 2.87 2.84

2.81 2.78 2.75 2.73 2.70

2.66 2.63 2.60 2.57 2.55

2.58 2.55 2.52 2.49 2.47

2.50 2.47 2.44 2.41 2.39

2.42 2.38 2.35 2.33 2.30

2.33 2.29 2.26 2.23 2.21

2.23 2.20 2.17 2.14 2.11

2.13 2.10 2.06 2.03 2.01

40 60 120 ∞

7.31 7.08 6.85 6.63

5.18 4.98 4.79 4.61

4.31 4.13 3.95 3.78

3.83 3.65 3.48 3.32

3.51 3.34 3.17 3.02

3.29 3.12 2.96 2.80

3.12 2.95 2.79 2.64

2.99 2.82 2.66 2.51

2.89 2.72 2.56 2.41

2.80 2.63 2.47 2.32

2.66 2.50 2.34 2.18

2.52 2.35 2.19 2.04

2.37 2.20 2.03 1.88

2.29 2.12 1.95 1.79

2.20 2.03 1.86 1.70

2.11 1.94 1.76 1.59

2.02 1.84 1.66 1.47

1.92 1.73 1.53 1.32

1.80 1.60 1.38 1.00

Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.005 Grados de

Grados del libertad del numerador (n)

libertad del denominador (m)

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120



162.11∗ 198.50 55.55 31.33 22.78

200.00∗ 199.00 49.80 26.28 18.31

216.15∗ 199.17 47.47 24.26 16.53

225.00∗ 199.25 46.19 23.15 15.56

230.56∗ 199.30 45.39 22.46 14.94

234.37∗ 199.33 44.84 21.97 14.51

237.15∗ 199.36 44.43 21.62 14.20

239.25∗ 199.37 44.13 21.35 13.96

240.91∗ 199.39 43.88 21.14 13.77

242.24∗ 199.40 43.69 20.97 13.62

244.26∗ 199.42 43.39 20.70 13.38

246.30∗ 199.43 43.08 20.44 13.15

248.36∗ 199.45 42.78 20.17 12.90

249.40∗ 199.46 42.62 20.03 12.78

250.44∗ 199.47 42.47 19.89 12.66

251.48∗ 199.47 42.31 19.75 12.53

252.53∗ 199.48 42.15 19.61 12.40

253.59∗ 199.49 41.99 19.47 12.27

254.65∗ 199.50 41.83 19.32 12.14

6 7 8 9 10

18.63 16.24 14.69 13.61 12.83

14.54 12.40 11.04 10.11 9.43

12.92 10.88 9.60 8.72 8.08

12.03 10.05 8.81 7.96 7.34

11.46 9.52 8.30 7.47 6.87

11.07 9.16 7.95 7.13 6.54

10.79 8.89 7.69 6.88 6.30

10.57 8.68 7.50 6.69 6.12

10.39 8.51 7.34 6.54 5.97

10.25 8.38 7.21 6.42 5.85

10.03 8.18 7.01 6.23 5.66

9.81 7.97 6.81 6.03 5.47

9.59 7.75 6.61 5.83 5.27

9.47 7.64 6.50 5.73 5.17

9.36 7.53 6.40 5.62 5.07

9.24 7.42 6.29 5.52 4.97

9.12 7.31 6.18 5.41 4.86

9.00 7.19 6.06 5.30 4.75

8.88 7.08 5.95 5.19 4.64

11 12 13 14 15

12.23 11.75 11.37 11.06 10.80

8.91 8.51 8.19 7.92 7.70

7.60 7.23 6.93 6.68 6.48

6.88 6.52 6.23 6.00 5.80

6.42 6.07 5.79 5.56 5.37

6.10 5.76 5.48 5.26 5.07

5.86 5.52 5.25 5.03 4.85

5.68 5.35 5.08 4.86 4.67

5.54 5.20 4.94 4.72 4.54

5.42 5.09 4.82 4.60 4.42

5.24 4.91 4.64 4.43 4.25

5.05 4.72 4.46 4.25 4.07

4.86 4.53 4.27 4.06 3.88

4.76 4.43 4.17 3.96 3.79

4.65 4.33 4.07 3.86 3.69

4.55 4.23 3.97 3.76 3.58

4.44 4.12 3.87 3.66 3.48

4.34 4.01 3.76 3.55 3.37

4.23 3.90 3.65 3.44 3.26

16 17 18 19 20

10.58 10.38 10.22 10.07 9.94

7.51 7.35 7.21 7.09 6.99

6.30 6.16 6.03 5.92 5.82

5.64 5.50 5.37 5.27 5.17

5.21 5.07 4.96 4.85 4.76

4.91 4.78 4.66 4.56 4.47

4.69 4.56 4.44 4.34 4.26

4.52 4.39 4.28 4.18 4.09

4.38 4.25 4.14 4.04 3.96

4.27 4.14 4.03 3.93 3.85

4.10 3.97 3.86 3.76 3.68

3.92 3.79 3.68 3.59 3.50

3.73 3.61 3.50 3.40 3.32

3.64 3.51 3.40 3.31 3.22

3.54 3.41 3.30 3.21 3.12

3.44 3.31 3.20 3.11 3.02

3.33 3.21 3.10 3.00 2.92

3.22 3.10 2.99 2.89 2.81

3.11 2.98 2.87 2.78 2.69

21 22 23 24 25

9.83 9.73 9.63 9.55 9.48

6.89 6.81 6.73 6.66 6.60

5.73 5.65 5.58 5.52 5.46

5.09 5.02 4.95 4.89 4.84

4.68 4.61 4.54 4.49 4.43

4.39 4.32 4.26 4.20 4.15

4.18 4.11 4.05 3.99 3.94

4.01 3.94 3.88 3.83 3.78

3.88 3.81 3.75 3.69 3.64

3.77 3.70 3.64 3.59 3.54

3.60 3.54 3.47 3.42 3.37

3.43 3.36 3.30 3.25 3.20

3.24 3.18 3.12 3.06 3.01

3.15 3.08 3.02 2.97 2.92

3.05 2.98 2.92 2.87 2.82

2.95 2.88 2.82 2.77 2.72

2.84 2.77 2.71 2.66 2.61

2.73 2.66 2.60 2.55 2.50

2.61 2.55 2.48 2.43 2.38

26 27 28 29 30

9.41 9.34 9.28 9.23 9.18

6.54 6.49 6.44 6.40 6.35

5.41 5.36 5.32 5.28 5.24

4.79 4.74 4.70 4.66 4.62

4.38 4.34 4.30 4.26 4.23

4.10 4.06 4.02 3.98 3.95

3.89 3.85 3.81 3.77 3.74

3.73 3.69 3.65 3.61 3.58

3.60 3.56 3.52 3.48 3.45

3.49 3.45 3.41 3.38 3.34

3.33 3.28 3.25 3.21 3.18

3.15 3.11 3.07 3.04 3.01

2.97 2.93 2.89 2.86 2.82

2.87 2.83 2.79 2.76 2.73

2.77 2.73 2.69 2.66 2.63

2.67 2.63 2.59 2.56 2.52

2.56 2.52 2.48 2.45 2.42

2.45 2.41 2.37 2.33 2.30

2.33 2.29 2.25 2.21 2.18

40 60 120 ∞

8.83 8.49 8.18 7.88

6.07 5.79 5.54 5.30

4.98 4.73 4.50 4.28

4.37 4.14 3.92 3.72

3.99 3.76 3.55 3.35

3.71 3.49 3.28 3.09

3.51 3.29 3.09 2.90

3.35 3.13 2.93 2.74

3.22 3.01 2.81 2.62

3.12 2.90 2.71 2.52

2.95 2.74 2.54 2.36

2.78 2.57 2.37 2.19

2.60 2.39 2.19 2.00

2.50 2.29 2.09 1.90

2.40 2.19 1.98 1.79

2.30 2.08 1.87 1.67

2.18 1.96 1.75 1.53

2.06 1.83 1.61 1.36

1.93 1.69 1.43 1.00

1 2 3 4 5

295

* Muliplicar por 100

Tabla A.6.1: Distribuci´on Fnm . P (Fnm ≥ a) = 0.001 Grados de

Grados del libertad del numerador (n)

libertad del

296

denominador (m)

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120



1 2 3 4 5

4053∗ 998.50 167.00 74.14 47.18

5000∗ 999.00 148.50 61.25 37.12

5404∗ 999.20 141.10 56.18 33.20

5625∗ 999.20 137.10 53.44 31.09

5764∗ 999.30 134.60 51.71 29.75

5859∗ 999.30 132.80 50.53 28.83

5929∗ 999.40 131.60 49.66 28.16

5981∗ 999.40 130.60 49.00 27.65

6023∗ 999.40 129.90 48.47 27.24

6056∗ 999.40 129.20 48.05 26.92

6107∗ 999.40 128.30 47.41 26.42

6158∗ 999.40 127.40 46.76 25.91

6209∗ 999.40 126.40 46.10 25.39

6235∗ 999.50 125.90 45.77 25.13

6261∗ 999.50 125.40 45.43 24.87

6287∗ 999.50 125.00 45.09 24.60

6313∗ 999.50 124.50 44.75 24.33

6340∗ 999.50 124.00 44.40 24.06

6366∗ 999.50 123.50 44.05 23.79

6 7 8 9 10

35.51 29.25 25.41 22.86 21.04

27.00 21.69 18.49 16.39 14.91

23.70 18.77 15.83 13.90 12.55

21.92 17.20 14.39 12.56 11.28

20.80 16.21 13.48 11.71 10.48

20.03 15.52 12.86 11.13 9.93

19.46 15.02 12.40 10.70 9.52

19.03 14.63 12.05 10.37 9.20

18.69 14.33 11.77 10.11 8.96

18.41 14.08 11.54 9.89 8.75

17.99 13.71 11.19 9.57 8.45

17.56 13.32 10.84 9.24 8.13

17.12 12.93 10.48 8.90 7.80

16.90 12.73 10.30 8.72 7.64

16.67 12.53 10.11 8.55 7.47

16.44 12.33 9.92 8.37 7.30

16.21 12.12 9.73 8.19 7.12

15.98 11.91 9.53 8.00 6.94

15.75 11.70 9.33 7.81 6.76

11 12 13 14 15

19.69 18.64 17.82 17.14 16.59

13.81 12.97 12.31 11.78 11.34

11.56 10.80 10.21 9.73 9.34

10.35 9.63 9.07 8.62 8.25

9.58 8.89 8.35 7.92 7.57

9.05 8.38 7.86 7.44 7.09

8.66 8.00 7.49 7.08 6.74

8.35 7.71 7.21 6.80 6.47

8.12 7.48 6.98 6.58 6.26

7.92 7.29 6.80 6.40 6.08

7.63 7.00 6.52 6.13 5.81

7.32 6.71 6.23 5.85 5.54

7.01 6.40 5.93 5.56 5.25

6.85 6.25 5.78 5.41 5.10

6.68 6.09 5.63 5.25 4.95

6.52 5.93 5.47 5.10 4.80

6.35 5.76 5.30 4.94 4.64

6.17 5.59 5.14 4.77 4.47

6.00 5.42 4.97 4.60 4.31

16 17 18 19 20

16.12 15.72 15.38 15.08 14.82

10.97 10.66 10.39 10.16 9.95

9.01 8.73 8.49 8.28 8.10

7.94 7.68 7.46 7.27 7.10

7.27 7.02 6.81 6.62 6.46

6.80 6.56 6.35 6.18 6.02

6.46 6.22 6.02 5.85 5.69

6.19 5.96 5.76 5.59 5.44

5.98 5.75 5.56 5.39 5.24

5.81 5.58 5.39 5.22 5.08

5.55 5.32 5.13 4.97 4.82

5.27 5.05 4.87 4.70 4.56

4.99 4.78 4.59 4.43 4.29

4.85 4.63 4.45 4.29 4.15

4.70 4.48 4.30 4.14 4.00

4.54 4.33 4.15 3.99 3.86

4.39 4.18 4.00 3.84 3.70

4.23 4.02 3.84 3.68 3.54

4.06 3.85 3.67 3.51 3.38

21 22 23 24 25

14.59 14.38 14.20 14.03 13.88

9.77 9.61 9.47 9.34 9.22

7.94 7.80 7.67 7.55 7.45

6.95 6.81 6.70 6.59 6.49

6.32 6.19 6.08 5.98 5.89

5.88 5.76 5.65 5.55 5.46

5.56 5.44 5.33 5.23 5.15

5.31 5.19 5.09 4.99 4.91

5.11 4.99 4.89 4.80 4.71

4.95 4.83 4.73 4.64 4.56

4.70 4.58 4.48 4.39 4.31

4.44 4.33 4.23 4.14 4.06

4.17 4.06 3.96 3.87 3.79

4.03 3.92 3.82 3.74 3.66

3.88 3.78 3.68 3.59 3.52

3.74 3.63 3.53 3.45 3.37

3.58 3.48 3.38 3.29 3.22

3.42 3.32 3.22 3.14 3.06

3.26 3.15 3.05 2.97 2.89

26 27 28 29 30

13.74 13.61 13.50 13.39 13.29

9.12 9.02 8.93 8.85 8.77

7.36 7.27 7.19 7.12 7.05

6.41 6.33 6.25 6.19 6.12

5.80 5.73 5.66 5.59 5.53

5.38 5.31 5.24 5.18 5.12

5.07 5.00 4.93 4.87 4.82

4.83 4.76 4.69 4.64 4.58

4.64 4.57 4.50 4.45 4.39

4.48 4.41 4.35 4.29 4.24

4.24 4.17 4.11 4.05 4.00

3.99 3.92 3.86 3.80 3.75

3.72 3.66 3.60 3.54 3.49

3.59 3.52 3.46 3.41 3.36

3.44 3.38 3.32 3.27 3.22

3.30 3.23 3.18 3.12 3.07

3.15 3.08 3.02 2.97 2.92

2.99 2.92 2.86 2.81 2.76

2.82 2.75 2.69 2.64 2.59

40 60 120 ∞

12.61 11.97 11.38 10.83

8.25 7.77 7.32 6.91

6.59 6.17 5.78 5.42

5.70 5.31 4.95 4.62

5.13 4.76 4.42 4.10

4.73 4.37 4.04 3.74

4.44 4.09 3.77 3.47

4.21 3.86 3.55 3.27

4.02 3.69 3.38 3.10

3.87 3.54 3.24 2.96

3.64 3.32 3.02 2.74

3.40 3.08 2.78 2.51

3.14 2.83 2.53 2.27

3.01 2.69 2.40 2.13

2.87 2.55 2.26 1.99

2.73 2.41 2.11 1.84

2.57 2.25 1.95 1.66

2.41 2.08 1.76 1.45

2.23 1.89 1.54 1.00

* Muliplicar por 100

Tabla A.7: Distribuci´on del Estad´ıstico ∆n de Kolmogorov-Smirnov. P (∆n > x) = p 0.2

0.1

0.05

0.02

0.01

n 2 3 4 5 6 7 8 9 10

p

0.684 0.565 0.493 0.447 0.410 0.381 0.358 0.339 0.323

0.776 0.636 0.565 0.509 0.468 0.436 0.410 0.387 0.369

0.842 0.708 0.624 0.563 0.519 0.483 0.454 0.430 0.409

0.900 0.785 0.689 0.627 0.577 0.538 0.507 0.480 0.457

0.929 0.829 0.734 0.669 0.617 0.576 0.542 0.513 0.489

11 12 13 14 15 16 17 18 19 20

0.308 0.296 0.285 0.275 0.266 0.258 0.250 0.244 0.237 0.232

0.352 0.338 0.325 0.314 0.304 0.295 0.286 0.279 0.271 0.265

0.391 0.375 0.361 0.349 0.338 0.327 0.318 0.309 0.301 0.294

0.437 0.419 0.404 0.390 0.377 0.366 0.355 0.346 0.337 0.329

0.468 0.449 0.432 0.418 0.404 0.392 0.381 0.371 0.361 0.352

21 22 23 24 25 26 27 28 29 30

0.226 0.221 0.216 0.212 0.208 0.204 0.200 0.197 0.193 0.190

0.259 0.253 0.247 0.242 0.238 0.233 0.229 0.225 0.221 0.218

0.287 0.281 0.275 0.269 0.264 0.259 0.254 0.250 0.246 0.242

0.321 0.314 0.307 0.301 0.295 0.290 0.284 0.279 0.275 0.270

0.344 0.337 0.330 0.323 0.317 0.311 0.305 0.300 0.295 0.290

0.187 0.184 0.182 0.179 0.177 0.174 0.172 0.170 0.168 0.165 √ 1.07/ n

0.214 0.211 0.208 0.205 0.202 0.199 0.196 0.194 0.191 0.189 √ 1.22/ n

0.238 0.234 0.231 0.227 0.224 0.221 0.218 0.215 0.213 0.210 √ 1.36/ n

0.266 0.262 0.258 0.254 0.251 0.247 0.244 0.241 0.238 0.235 √ 1.52/ n

0.285 0.281 0.277 0.273 0.269 0.265 0.262 0.258 0.255 0.252 √ 1.63/ n

31 32 33 34 35 36 37 38 39 40 n > 40

297

Cuadro A.8: Distribuci´on del estad´ıstico de Wilcoxon. P {T + > x} = p

p

0.1

0.05 0.025 0.01

n 3

4

6

6

6

4

9

10

10

10

5

12

14

15

15

6

17

18

20

21

7

22

24

25

27

8

27

30

32

34

9

34

36

39

41

10

40

44

46

49

11

48

52

55

58

12

56

60

64

67

13

64

69

73

78

14

73

79

84

89

15

83

89

94

100

16

93

100

106

112

17 104

111

118

125

18 115

123

130

138

19 127

136

143

152

20 140

149

157

166

298

Cuadro A.9: Distribuci´on del estad´ıstico τ de Kendall. P {|T | > x} = p

p

0.2

0.1

0.05

0.02

n 3

1.0000 1.0000 1.0000 1.0000

4

0.6667 0.6667 1.0000 1.0000

5

0.6000 0.6000 0.8000 0.8000

6

0.4667 0.6000 0.7333 0.7333

7

0.4286 0.5238 0.6190 0.7143

8

0.4128 0.5000 0.5714 0.6429

9

0.3333 0.4444 0.5000 0.6111

10 0.3333 0.4222 0.4667 0.5556

299

Cuadro A.10: Distribuci´on del estad´ıstico de Mann-Whitney. P {V > x} = p m 2 3 4 5 6 7 8 9 10 n

p

2

0.100 0.050 0.025 0.010

3

0.100 0.050 0.025 0.010

4

0.100 0.050 0.025 0.010

5

0.100 0.050 0.025 0.010

6

0.100 0.050 0.025 0.010

7

0.100 0.050 0.025 0.010

8

0.100 0.050 0.025 0.010

9

0.100 0.050 0.025 0.010

10

0.100 0.050 0.025 0.010

4 4 4 4

5 6 6 6

7 8 8 8

8 9 10 10

10 11 12 12

12 13 14 14

13 14 15 16

15 16 17 18

16 18 19 20

7 8 9 9

10 11 11 12

12 13 14 15

14 15 16 18

16 18 19 20

18 20 21 22

21 22 24 25

23 25 26 28

12 14 15 16

15 17 18 19

18 20 21 22

21 23 24 26

24 26 27 29

26 29 31 32

29 32 34 36

19 20 22 23

22 24 26 27

26 28 29 31

29 31 33 35

32 35 37 39

36 38 41 43

26 28 30 32

30 33 35 37

34 37 39 41

38 41 43 46

42 45 48 51

35 37 40 42

39 42 45 48

44 47 50 53

48 52 55 58

44 48 50 54

49 53 56 60

55 59 62 66

55 59 63 66

61 65 69 73 67 72 76 80

300

Cuadro A.11: Distribuci´on del estad´ıstico de Spearman. P {RS > x} = p

p

0.1

0.05

0.025

0.01

0.005

0.001

n 4

0.8000 0.8000

5

0.7000 0.8000 0.9000 0.9000

6

0.6000 0.7714 0.8286 0.8857 0.9429

7

0.5357 0.6786 0.7450 0.8571 0.8929 0.9643

8

0.5000 0.6190 0.7143 0.8095 0.8571 0.9286

9

0.4667 0.5833 0.6833 0.7667 0.8167 0.9000

10

0.4424 0.5515 0.6364 0.7333 0.7818 0.8667

11

0.4182 0.5273 0.6091 0.7000 0.7545 0.8364

12

0.3986 0.4965 0.5804 0.6713 0.7273 0.8182

13

0.3791 0.4780 0.5549 0.6429 0.6978 0.7912

14

0.3626 0.4593 0.5341 0.6220 0.6747 0.7670

15

0.3500 0.4429 0.5179 0.6000 0.6536 0.7464

16

0.3382 0.4264 0.5000 0.5824 0.6324 0.7265

17

0.3260 0.4118 0.4853 0.5637 0.6152 0.7083

18

0.3148 0.3994 0.4716 0.5480 0.5975 0.6904

19

0.3070 0.3895 0.4579 0.5333 0.5825 0.6737

20

0.2977 0.3789 0.4451 0.5203 0.5684 0.6586

21

0.2909 0.3688 0.4351 0.5078 0.5545 0.6455

22

0.2829 0.3597 0.4241 0.4963 0.5426 0.6318

23

0.2767 0.3518 0.4150 0.4852 0.5306 0.6186

24

0.2704 0.3435 0.4061 0.4748 0.5200 0.6070

25

0.2646 0.3362 0.3977 0.4654 0.5100 0.5962

26

0.2588 0.3299 0.3894 0.4564 0.5002 0.5856

27

0.2540 0.3236 0.3822 0.4481 0.4915 0.5757

28

0.2490 0.3175 0.3749 0.4401 0.4828 0.5660

29

0.2443 0.3113 0.3685 0.4320 0.4744 0.5567

30

0.2400 0.3059 0.3620 0.4251 0.4665 0.5479

301

302

B

Resumen de distribuciones

303

Distribuci´on

F. de densidad

F. Caracter´ıstica

Esperanza

Varianza

Bernoulli B(1, p)

px q 1−x x = 0, 1

q + peit

p

pq

(q + peit )n

np

npq

λ

λ



Binomial B(n, p)

304



K x

px q n−x x = 0, 1, . . . , n



N −A n−x   N n





x+r−1 x



eλ(e

it −1)

x = 0, 1, . . . , n

pq x x = 0, 1, . . .

Geom´etrica G(p)

Binomial Negativa BN(r, p)



λx −λ e x = 0, 1, . . . x!

Poisson P(λ)

Hipergeom´etrica H(n, N, A)

n x

pr q x x = 0, 1, . . .

n

A = np N

n(N − n)pq N −1

p 1 − qeit

q p

q p2

pr (1 − qeit )r

q r p

q r p2

Distribuci´on

F. de densidad

F. Caracter´ıstica

Esperanza

Varianza

Uniforme U(a, b)

1 a<x
eibt − eiat i(b − a)t

a+b 2

(b − a)2 12

µ

σ2

1 √ σ 2π

Normal N(µ, σ)

Log-Normal Log-N(µ, σ)

305

1 √

xσ 2π 1

Pearson χ2n

t-Student tn

F-Snedecor Fn,m

2n/2 Γ 

1 2 e



x−µ σ

1 − e 2



Lx − µ σ



2 2

x∈R

1 itµ − t2 σ 2 2 e

1 µ + σ2 2 e

x≥0

 n  xn/2−1 e−x/2 x ≥ 0

(1 − 2it)−n/2

2

(eσ − 1)e2µ+σ

2

n

2n

0 (n > 1)

n (n > 2) n−2

m m−2

2m2 (n + m − 2) n(m − 2)2 (m − 4)

2

 n+1 − n + 1  Γ x2 2 2 n 1 + √ n nπ Γ 2

x∈R

  n+m n+m nn/2 mm/2 Γ − 2 n/2−1 2 n m x≥0 x (m + nx) Γ Γ 2 2

Distribuci´on

F. de densidad

F. Caracter´ıstica

Esperanza

Varianza

Exponencial Exp(λ)

λe−λx x ≥ 0

λ λ − it

1 λ

1 λ2

Erlang Er(n, λ)

λn n−1 −λx x e x≥0 Γ(n)

n λ

n λ2

Gamma G(p, q)

q p p−1 −qx x e x≥0 Γ(p)

p q

p q2

306

Weibull W(r, λ)

Beta B(p, q)

Normal Bidimensional

r λrxr−1 e−λx





λ λ − it q q − it

n

p

λ−1/r Γ

x≥0

1 xp−1 (1 − x)q−1 0 ≤ x ≥ 1 β(p, q)

f (x, y) =

2πσx σy

1 p

(

1 exp − 2 2(1 − ρ2 ) 1−ρ



1 1+ r



λ−2/r

     1 2 2 −Γ 1+ Γ 1+ r r

p p+q "

x − µx σx

2

− 2ρ



x − µx σx

pq (p + q)2 (p + q + 1) 

y − µy σy



+



y − µy σy

2 #)

Related Documents

Estadistica
February 2021 1
Estadistica
March 2021 0
Estadistica
March 2021 0
Estadistica
January 2021 1
Estadistica
January 2021 4
Estadistica
January 2021 3

More Documents from "hercson"

Estadistica
January 2021 3