Estadistica Hildebrand

  • Uploaded by: casimiro cordoba
  • 0
  • 0
  • March 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estadistica Hildebrand as PDF for free.

More details

  • Words: 142,011
  • Pages: 341
Loading documents preview...
CAPÍTULO

3

UN PRIMER VISTAZO A LA PROBABILIDAD

La tcorl:1 t.lc l;i 1>robabilidad es la ha-ic de la inferencia cstat.lfstica y un instrumento cscnci:1I en el análisis de la v:1rh1hilid:uJ . En este capitulo introducirnos los conceptos y principios básicos de la teoría. Para adentramos en los aspectos té<;n1cos de la misma, comenzamos por delinear algunas interpretaciones alternatt\as de los enunciados de la probabiltdad. Posteriormente, introducimos los conceptos de espacio muestra], resultado y evento, los axiomas matemáticos de la teoría de la probabilidad, Jos principios matemáticos básicos en.que se sustentan los cálculos más complejos y la importante idea de independencia estadística. Por último, describimos algunas técnicas que se pueden usar para combinar los principio:. matemáticos básicos en la solución de problcmac; más complicados. Este es un capítulo muy importante; en él se apoya el posterior análisis de Ja inferencia estadística. Las ilustraciones y ejemplos que utilizamos son relativamente simples, demasiado sencillos paro ser realistas. No obstante, til!nen una gran variedad de aplicaciones.

3.1

DISTINTAS INTERPRETACIONES D E LA PROBABILIDAD



La teoría de la probabilidad es la base de la inferencia estadística. Si el 20% de la fuerza de trabajo de una compañia de textiles está sindicalizada y debe despedirse a 8 trabajadores seleccionados al az.ar, entonces la probabilidad de escoger 8 trabajadores afiliados al sindicato es muy pequeila. Si los 8 trabrijadores despedidos de la compai'iía son miembros de algún sindicato, podemos inferir que los despidos estuvieron relacion:idos con la actividad sindical. El primer paso en el estudio de la prob:.ibilidad es entender las posibles interpretaciones de sus enunciados. La teoría matemática de la probabilidad, así como sus primeras inteq>retaciones, surgieron de los juegos de azar. "L:i probabilidad de que al l:inzar una moneda equilibrada el resultado sea una cara es 1/2" y "la prob:ibilidad de que una carta se· leccionada al azar de una baraja de 52 cartas sea un rey es 4/52" son ejemplos típicos de esta clase de enunci:.idos de la probabilidad. Los valores numéricos de la probabilidad surgen de la naturaleza física del experimento. El lanzamiento de una 73

4

l

inl('rprct:.1ción cl:i\ iCll

UN PRIMER VISTAZO A LA PROBABILIDAD

moneda sólo tiene dos resultados posibles: car.i o cruz; por lo tanto, la probabilidad de que aparezca una cara debería ser una de cada dos. En una baraja estándar de 52 4 cartas, 4 son reyes, de modo que la probabilidad de extraer un re:y debt!ria !>er 4 entre 52. Estos cálculos de la probabilidad ~e llasan en la interpretación clásica de Ja probabilidad. En esta interpretación, se llama rcsultu .lo a catO!. resultado:.. En el ejemplo de la extracción de cartas, hay 52 resultados posibles. 4 de los cuales están identificados con el evento "extraer un rey". De acuerdo con la interpretación clásica. la probabilidad de un evento E es el cociente del número NF. de resultados favorables al evento entre el número total .V de resultados posibles. En símbolos, P(evento E) "'

N

N

La utilidad de esta mtcrpn:tac1ón depende por completo de la hipótesis de que todos los resultados son igual ni ente po~ ihl(''I Si la hipótesis es falsa (por ejemplo, si la moneda no está equi librada o la ba1..1jJ e<,tj marcada) la interpretación clásica no se aplica.

EJEMPLO 3.1

Una tachuela ordinaria se lanza sobre una superficie dura. Puede caer con la punta hacia arriba o de lado. ¿Son estos dos resultados igualmente posibles?

Soluci6 n

No hay ninguna razón para suponer que los dos resultados son igualmente posibles .

uc\ trlt'i a leatoria'

ccucncia rclati\ a en el hmil c



L3 interpretación clásica es de alguna utilidad incluso fuera de los juegos de a1ar. Una mu c~ tra aleatoria . por definición, se toma de tal manera que una muestra posible (de un tam:u'lo especifico) tiene la misma probabilidad de ser seleccionad:i que cualquier otra. Por consiguiente. los result:idos (muestr:is posibles) son igualmente posibles, y las probabilidades se pueden encontrar contando los resultados ra, ora bles. En este 1ibro haremos uso extenso de esta idea. Hay situaciones que no admiten de inmediato la interpretación clásica. No obstante, en ocasiones se puede asociar una probabilidad a los eventos según su frecuencia rrlati\ a en el límite Si un experimento se ha repetido un gran número de 'ece~ > "' el 24% de las veces el resultado ha sido un evento particular E. entonces la probabilidad del evento E debería ser 0.24, al meno~ como una buena apro,imac1on. Simbólicamente. 11i un C\pcrimcnto se repite 11 \ ecc'i ~ el C\ cnto F: ~ u cede i:n " ~ de e lla,, la probabilith1d del c\cnto E es apro\imadamente n~ tli\ idido cnt re 11 : P(evento E)

EJEMPLO 3.2

Suponga que en el experimento del ejemplo 3 1, que consiste en lanzar una tachuela. se afinna que la probabilidad de que ésta caiga con Ja punta hacia arriba es 0.70. Dé una interpretación en términos de la frecuencia rela11va en el límite que justificaría esta afirmación • Tnduc1mos ti término n-rnt como rv~io. aunque en algunos paistt de habla h1spa11a s.e traduce como tUt C'fU

(,V «I E.)

).1

Solueton

1nterJ>reladón

!lubj eth a o per,onal

75

La afirmación se justifica en términos de la frecuencia relativa en d limite si una tachuela que se ha lanzado muchas veces ha caído d 70% en el capitulo 8, con un número finito de ensayos es posible aproximar la verdadera probabilidad de un evento y valorar la aproximación. Muy a menudo conviene recurrir a la interprel4lción de la frecuencia relativa. La utili1.amos siempre que ~ca razonable imaginar un gran número de ensayos repetidos blemas gerenciales que parecen ~cr ~ituaciones que "suceden una sola vez", donde es dificil imaginar la repetición económica!> que hacen Jos asesores en inversiones y los economist.is para los a1'os \'eni
6

3

UN PRIMER VISTAZO A LA PROBABILIDAD

EJEMPLO 3.3

Dé una interpretación subjetiva del enunciado "la rrobabilidad de que un::i tachuela caiga con la punta h::icia arriba es 0.5''.

Solución

Si usted es quien enuncia tal proposición, estará diciendo que tomaría cualquier partido en una apuesta de un dólar a favor de que la tachuela caerá con la punta hacia arriba, contrn un dólar a que no lo hará. Como sugerimos en el ejemplo 3.1, nosotros no estaríamos de acuerdo con usted. Creemos que lo más probable es que la tachuela caiga con la punta hacia arriba y preferiríamos ese lado de la apuesta "a cantidades iguales". •

'

Hay muchos argumentos filosóficos acerca de cuál de las interpretaciones de la probabilidad es más adecuada. No obstante, en este libro no necesitamos hacer una dificil y precipitada elección. Las matemáticas de la teoría de la probabilidad son \ álidas independientemente de la interpretación que se elija. Si un rroccdimiento estadístico particular se desarrolla mejor bajo una interpretación particular, nosotros la seguiremos. De lo contrario, estará usted en libertad de escoger aquella interpretación que le parezca más adecuada. La interpretación clásica de la probabilidad nos proporciona un buen camino para pensar en los principios básicos de la probabilidad. Todas las ideas básicas de la prohabilid
TABLA3 . I

Opiniones de los miembros del jurado calificador acerca del sabor: por estado civil Op111 1011

Malo

Estado civil

Regular

Total

Bueno

Excelente

50 ]()

26

1 12

9 4

1()

16

23

104

Viudo

2

8

37 5

9 32 1

1(\

Total

20

44

K4

52

21Xl

Soltero Di.,.orcmdo Casado

5

Suponga 4uc un miembro dd jurndo se selecciona al a1.ar. ¿,Cuál es la prohabilídad de que juzgue quc el alimento es malo'? Al aplicar la interpretación clásica. tenemos :w opiniones de que es malo y 200 posibles resultados; la probabilidad de una mala opinión es de 20 200 = 0.1. Otras probabilidades se pueden encontrar de la misma manera. El primer principio de la probabilidad es la le) aditiu Tiene dos formas, dependiendo de si los eventos son o no mutuamente cxch•)cntc~ Los eventos f.On

Distintas 1nterpretac1ones de la

l.1

probab.hd~d

77

mutuamente excluyentes si no tienen n!sultadCls en común. Al seleccionar un miembro del jurado al :u.ar, los eventos "mala opinión" y "opinión regular" son mutuamente excluyentes; en cambio, los eventos •·opinión mala" y "viudo" no son mutuamente excluyentes. La ley aditiva se aplica cuando se quieren encontrar probabilidades del tipo "o". ¿Cuál es la prob::ibilidad de que un miembro del jur:ido seleccionado al azar tenga una opinión mala o regul;ir? Hay 20 + 44 = 64 miembros de esta clase, así que ?(opinión mala u opinión regular) - 64/200 - 0.32. ?(opinión mala) - 20 :?OO 0.10 y ?(opinión regular)= 441200 = 0 .22. de modo que P(opinión mala u opinión regular)= P(opinión mala)+ ?(opinión regular) .



Ley aditiva para eventos mutuamente excluyentes Si los eventos J\ y B son mutuamente excluyentes, entonces P(A

o B) - P(A) • P(B)

Si IC1s eventos no son mutuamente excluyentes. al añadir las probabilidades se cuentan dos \eces los resultados que penenecen a ambos eventos. Si seleccionamos un miembro del jurado al azar, los e\'entos "opinión mala'· y "viudo" no ~on mutuamente exclu)entes. ha> dos miembros del jurado que cumplen ambas co~as. Para i:ncontrar P(opm1ón mala o viudo) debemos corregir el t!fecto de la doble cuenta. P(opinión mala o viudo)= P(opinión mala) P(\ iudo) - P(opini6n mala y viudo) 20 .2 00 + 16 :!00 - 21200 - 0.1 O + 0.08 - O.O 1 = 0.17. Otra posibilidad consiste en contar el número de jurados 4uc o bien tienen una mala opinión o son viudos. o ambas cosas; hay 5 + 1 + 12 + 2 + 8 + 5 + 1 34 individuos con tales características. De este modo, P(opinión mala o viudo)= 341200 0.17. una vez más.

Ley aditiva general Par.i. cualesquiera dos eventos J\ y B, no nect:sariamente excluyentes, P(A o B) - P(A)

EJE MPLO 3.4

T

P(B) - f>í.A y B)



Un distrihuidor minorista acepta pedidos de tres maneras distintas· por teléfono, :i de una lomla que \a adjunta a su catálogo o rcpitiem.lo las órdenes de compra de sus clientes. l a'> ordene~ de compra están clasificadas como pequeñas (menos de $25.00). medianas (de $25 .00 a S99 <)9). grandes (de SI00.00 a S2tJ9.99) y mayores ($300.00 o más). En la tabla 3.2 mostramos un análisis de las últimas 4000 órdenes
3

TABLA 3.2

UN PRIMER VISTAZO A LA PROBABIUOAO

Orígenes y tamaños de las órdenes

'

Tama;Jo

Pequetla

Repetida Telefónica

1021 86 1497

Total

2604

Catálogo

Mediana 216 )71

Gr.lndc

109 308

Mayor 14 49

230

86

13

814 1826

817

503

76

4000

Total 1360

a. Los pedidos procedentes de las órdenes repetidas y del catálogo pasan por un proceso de entrada. ¿Cuál es la probabilidad de que un dato seleccionado a l azar pertenezca a esta categoría? b. Las órdenes mayores y las órdenes telefónicas se retienen mientras se verifica el crédito. ¿Cuál es la probabilidad de que una orden seleccionada al azar haya sido retenida?

Solución

a. ?(proceso de entrada) = P(de catálogo o repetida)

= P(de catálogo) + ?(repetida) = = .3400 + .2035 = .5435

1360

4000

814

+ -4000

No necesitamos preocupamos por el doble conteo, pues "orden por catálogo" y "repetición" son categorías mutuamente excluyentes. b. Hay órdenes telefónicas que son mayores. Debemo~ utilizar el principio aditivo general. ?(retenida)

= P(mayor o telefónica) = P(mayor) + ?(telefónica)

- P(mayor y telefónica)

1826 13 76 =--+--=-4000 4000 4000

= .01900

+ .45650 - .00325

= .47225



El segundo principio de la probabilidad es la h.•y de lo!I compkm(•ntos. Con frecuencia es más f:icil encontrar la probabilidad de que un evento no ocurrirá. en vez de encontrar la probabilidad de que sí lo hará. Dado de que la probabilidad total debe ser igual a 1, el principio de complcmcntaricdad es muy simple.

Ley de los complementos Si

A es el evento "no A", P(A) = 1 - P(A)



Los resultados del jurado calificador del sabor que ap;:irecen en la tabla 3.1 se pueden utilizar para ilustrar la ley de los complementos. Para encontrar la

79

3.1

probahilidad de que un jurado seleccionado al azar tenga una opinión mala. regular o hucna, podríamos observar que el evento complementario es "excelente". Así />(opinión mala u opinión regular u opinión buena)

1 - />(excelente) 1-

ic?o = .74

Ohviamente, podríamos haber utilizado la ley aditiva y sumar las probabilidades de "opi11ión mala", "opinión regular" y "opinión buena". Frecuentemente. hay muchas manera~ de resolver un problema.

EJEMPLO 3.5

Como una medida de control de la calidad. el distribuidor del c1emplo 3.4 coteja los embarques con las órdenes de compra correspondientes a lo'> pedidos grandes y mayores. asi como con las órdenes de compra de catálogo y repetidas Use la ley de los complementos para encontrar Ja probabilidad de que se coteje un pedido selec· cionado al a7ar.

Solución

Las únicas órdenes que no se cotejan son las órdenes tclefónicac; pequeñas o medianas. - P(orden telefónica pequeña o mediana)

I'( cotejada)

- IP
=

_ ( 1497 + 230 ) 4000 4000

=

56 g, 5 ·- --

Sin la ley de los complementos, habríamos tenido que sumar 1O probabilidades di• ferentes correspondientes a Jos JO tipos de órdenes que se cotejan. E:.I concepto de probabilidad condidon:uh1 e\ importante por derecho propio y es t.'1 cla\e de otro principio de la probabilidad, la ley multiplicativa. Muchos prohlemas de probabilidad incluyen alguna restricción o condición sobre los procesos aleatorios. Por ejemplo, en relación con los resultados del jurado calificador de la tabla 3.1. podríamos preguntar la probabilidad de que un hombre casado, seleccionado al azar, haya valorado el producto como excelente. La condición (que el miembro del jurado esté casado) restringe la selección akatoria a un subgrupo. el de los l 04 homhrcs casados de la población. Dl· este grupo, 32 calificaron el producto como excelente, de modo que tendríamos P(opmión excelente 1 casado) 321104 - 0.308. En la notación P(B 1 A), la condición que se impone al e\ ento se coloca dci.pués de la línea vertical; esta línea se deberla leer como "dado que", de modo que P(opinión excelente 1casado) se debería leer a.si: "la probabilidad de que un miembro del jurado califique al producto como excelente dado que el miembro del jurado es caS
3

UN PRIMER VISTAZO A LA PROBABILIDAD

Probabilidad condicionada P(B 1A)

-

P (BIA) - P(A y B) P(A) De acuerdo con esta definición, P(casado y opinión excelente) P(opinión excelente casado) = - - - -- -- - - - ?(casado)

32 1200

= 104 1200

32 =104

como ya lo habíamos determinado con anterioridad

EJEMPLO 3.6

En el ejemplo 3.4 del distribuidor minorista, ¿cuál es la probabilidad de que una orden enviada por escrito (no telefónica) ~ea una orden repetida'!

Soluc16n

En primer lugar, escamos buscando una probabilidad condicionada, pues s~ponemos que la orden es escrita. Hay 1360 + 814 - 2174 órdenes escritas, de las cuales 814 son repetidas. De este modo, ?(repetida escrita) 81412174 = 0.374. Como alternativa, podemos utilizar la definición de probabilidad condicionada. Obsen e que todas las órdenes repetidas son órdenes escritas. de modo que P(escrita y repetida)= P(rcpetida) = 814/4000. . P(rcpetida escrita) -

P(escrita y repetida) 814

P(escrita) "'7

=- = ·-' 2174

814 4000 = ---2174 4000

.

4 una vez mas.



La ley multiplic:atiu de la probabilidad es '>implemente la reescritura de la delin1c1ón de la prohab1lidad condicionada hta le) ~e utiliza pam evaluar probabilidades "y", del mismo modo que la le) ad1tJ\a c;e utih1..a para C\aluar probabilidade'> "o".

Ley multiplicativa para probabilidades conjuntas Para dos eventos cualesquiera A y B, P(A y 8) - P(A)P(B A) = P(B)P(A 1 B)

En el ejemplo del jurado calificador de la tabla 3.1, podríamos encontrar directamente que P (casado> opinión excelente) 32 200 0.160. Otra po!>ibilidad consiste en utiliar el principio multiplicativo. Ya vimos que P (opinión excelente 1casado) "' 32 104 =O 308. } que P (ca!>ado) = 104 200 - 0.520. Por consiguiente, P (opinión excelente> casado) P (casado) P (opinión .:xcelente 1casado) (O 520) (O 308) = 0.160, un::i vez más.

EJEMPLO 3. 7

Como se muestra en la labia 3.3, l::i tabla 3.2 del ejemplo 3.4 se puede expresar en probabilidades condicionadas y no condicionadas mediante la conversión apropiada.



~-

'• '·

Sección 3.1

E1en:1t1os

81

lU

1 _..

I

:

"t .

TABLA 3.3

Probabllidades condicionadas para el tamaño. dado el tipo de orden y las probabilidades no condicionadas para el tipo de orden

\\ -, \

Taman.J ripo de orden Catálogo Repetida íelefónica

Pe(fuei\a

Mediaru

Grande

M:i)or

total

.751

. 159 456 126

oso

.010

1000

378

060

047

007

'000 1000

.106 .820

\

'

'-

Tipo de orden Prol'iabil1dad no condicionada

Catálogo

Repetida

Telefónica

Total

.3400

.2035

.4565

1.0000

a. ¿Cómo se obtuvieron las probabilidades 0.751 y 0 .3400? b. Utilice la ley multiplicativa para encontrar ?(catálogo y pequei'ta).

Solución

a. La probabilidad 0.751 es P(pequei'ta de catálogo). Se obtuvo dividiendo el número de órdenes de catálogo pequei'tas ( 1021) entre e l número total de órdenes de catálogo ( 1360); 1021 / J360 = 0.751. El número 0.3400 es Ja probabilidad no condicionada de una orden de catálogo. Es el número de órdl!ncs de catálogo dividido entre el número total de órdenes (4000); 136014000 - 0 .3400. b. P(de catálogo y pequei'ta)

P(de catálogo) ?(pequeña 1 de catálogo)

= (.3400) (.751) = .255 Este resultado se puede obtener dividiendo las 102 1 órdenes de catálogo y pequei'tas entre 4000, el número total de órdenes· 1021 4000 = 0.255. • Estos principios básicos: suma, leyes multiplicativa) de complementos. y definición de probabilidad condicionada son la base para todos los cálculos de la probabi lidad. En esta sección hemos considerado un marco especial para la probabilidad : seleccionar aleatoriamente un individuo de una población especifica. En la siguiente sección consideraremos los mismos principios en un contexto más amplio.

SECCIÓN 3.1

_!:JERCICIOS_ _ __ 3.1

En cada una de las situaciones siguiente-;, indique la mterrirctac1ón del enunciado de la probabilidad que parece mis adecuada (E·n mucha.~ 'iituac1oncc; c'ito e<; dior pubhcarc;c un nuevo libro de estadística para gerentes El editor afirma que la probahilidad de que c;e -.cnda el número de copias necesario para no ganar ni perder es de 0.8. b. Uro J'(:quei\a empresa fabnca ciena cla~ de disco~ para equipoc; clcctnco<.. Un componente critico del disco es cierto engrana1c. De acuerdo con los limites de tolerancia, la probabilidad de que un engrana1e en p.lrticul:ir rec;ultc dcfectuo'o es de 0.002. c. Se va a tomar una muestra de 100 empleados de una compa"ta en la que trabajan un t<>W de 13,000 perwna\ Se sabe que el 55° o de los tr.lNJJdores son hombres. Como

~

:.:.· ~

2

3

3.2

3.3

UN PRIMER VISTAZO A LA PROBABILIDAD W\a forma de conirol, se conl.lrá el número de hombres en la muestra. La prohabilidad de que en la muestra haya 42 hombres o menos es de 0.0061. d,,, La probabilidad de que la tasa de inflación en Alemania sea superior al 6% es de 0.3. e. En un hospital, la probabilidad de que en un dia la demanda de camas para aten· der enfermos con problemas coronarios exceda la capacidad normal e~ de 0.004. Asigne una probabilidad subjetiva a cada uno de los siguientes enunciados. Si todos los alumnos de la clase hacen este problema, serfa interesante reg1str:ir en una tabla las dbuntas prohabihdades. a. El ano próximo, Rusia comprara trigo de l~stndos Unidos. b. El s1gu1ente presidente de l:slados Unido" será un demócrata. c. El ai\o próximo. el incremento en las cuotas de inscripción de la principal uni· \ersidad publica será superior al 7%. d . La próxima semana lloverá. Un distribuidor \'ende dos marcas de automóviles nue\OS Una, la C, es de origen primordialmente estadounidense; la 01r.1. la C,, es primordialmente Japonesa El distribuidor hace reparaciones rojo garantfa para amhas marcas> clas1Cica lo'i trabJJOS conforme al problema pnmario que se debe corregir S1 en algún caso hay m:h de un problema. cada uno de ellos se anota en una h~ta por separado. Los registros del ano pasado indican los siguientes numeros para los problemas sei'lalados:

Probl~ma

Marca

J .4

3.5

G

Motor 106 21

Total

127

e

Transmisión Escape 67 211 16 llS

126

Armado/acabados ---133 24

137

83

Otros Total 24 541 6 182 30

723

a. ¿Cuál es la probabilidad de que un problema seleccionado al azar corresponda a la marca C? b. Son serios los problemas que se relacionan con el motor o con la transmisión. ¿Cuál es la probabilidad de que un problema seleccionado al azar sea serio? c. La marca C reembolsa al distribuidor todas las reparaciones bajo garantia que haya atendido; la marca G le reembolsa solamente las reparaciones relacionadas con el motor, la transmisión y Jos problemas de annado/acabados. ¿Cuál es la probabilidad de que los gastos que ocasiona un problema seleccionado al azar no se reembolsen completamente? a. Con los datos sobre el distribuidor de automó\ iles del ejercicio 3.3, ¿clál es la probabilidad de que un problema seleccionado al azar sea un problema de motor, cuando el vehlculo corresponde a la marca C? b. Conslruya una tabla de probabilidades cond1c1onadas de los problemas, dadn la marca. ¿Son similares las distribuciones de probabilidad de las dos marcas? Los datos rel:itivos a las reparaciones en garantfa que hizo el distribuidor del ejerci· cio 3.3 se analizaron de nue"o para considerar los problemas múltiples sobre una reparación en panicular. Nú,,.ero de probklfllU

1

2

3

Total

382 135

54 16

17

G

5

453 156

Total

517

70

22

609

Marca C

83

Secc16n l 1 E1erc1c1ot

a. ¿Cuál es la probabilidad de que una reparación seleccionada :il azar incluya más de un problema? b. ¿Cuál es la probabilidad de que una reparación seleccionada al V.ólr de la marca e incluya más de un problema? Utilice los datos del ejercicio 3.S para construir una tabla de probahilidóldes condi3.6 cionadas del número de problemas, dada la marca. ¿Oiría usted que las probólbilidades condicionadas son similares? 3.7 En los ejercicios 3.3 y 3.5, el número de entradas de la marca Ces mucho ma)or que el número de entradas de la marca G. ¿f.s é'ltducto :ilimenticio (incluyendo lácteos y refrescos, que por cortesía consideraremos alimentos)? 3.9 En el ejercicio 3.8, ¿cuál es la probabilidad de que una venta de alimentos seleccionada al al.ar sea de productos lácteos? 3.1 O Una compañía que realiza investigaciones de mercado reúne grupos de con~um1do· res para probar la cfecthidad de nue\M anunc1M para la tele\1<;1ón Al consumidor se le dice que cc;tá c'raluando un rrograma piloto rara la TV. Después de ver un programa de una hora de duración. mclu) cndo los anuncios. se le hacen muchas preguntas acerca del programa y algunas ocras acerca del anuncio (el verdadero objeto de investigación). Una tabla con Jos resultados de un grupo nos rresenta el número de individuos que recordaron incorrectamente el producto, el número que recordó el producto cornctamente y tenía un opinión favorable, asi como el número que recordó correctamente el producto y tenla una opinión desfavorable.

Incorrectamente

Favorable

Desfavorable

Total

llombrcs

42

38

20

Mujeres

63

S7

30

100 l.SO

105

95

50

250

Total

a. Utilice la ley aditiva para encontrar la probabilidad de que un individuo seleccionado al azar recuerde el anuncio comercial. b. Utilice el principio de la complement.ariedad para encontrar la misma probabilidad. 3. 11 En el ejercicio 3. 1O, ¿cuál es la probabilidad de que un consumidor seleccionado al v.a.r sea. o bien un hombre, o alguien que recuerde el producto fa\orablemcntc? 3. 12 a. Utilice los datos del ejercicio 3. 10 para calcular las probabilidades condicionadas de fos respuestas incorrectas, favorables y desfavorables entre los hombres. llaga lo mismo para las mujeres. b. ¿Hay diferencias entre las respuestas de hombres y mujeres al anuncio?

4

3

3.2

('Xfl crim('n1o

UN PRIMER VISTAZO A LA PROBABILIDAD

CONCEPTOS BÁSICOS Y AXIOMAS DE LA TEORÍA DE LA PROBABILIDAD

-

En la sección anterior analizamos varias interpretaciones de los enunciados de la probabilidad. Ahora vamos a formalizar las definiciones e hipótesis básicas que nos permiten calcular la probabilidad de;: un evento. Las probabilidades se definen para experimentos específicos. La palabra experimento se utiliZ.1 en un sentido mu) amplio para indicar cualquier situación que tiene más de un resultado posible; en este uso de la palabra, los experimentos no se conducen necesariamente bajo condiciones controladas en laboratorio. Un experimento podría ser: 1. registrar el número de horas que cada una de 2200 familias pasa viendo la televisión durante una semana seJ\alada; 2. medir el volumen de ventas de 194 supermercados durante un ai\o; 3. registrar la producción diaria de una planta de montaje de automóviles a lo largo de 240 días laborales.

Un experimento se puede definir estableciendo todos los resultados posibles que podrían ocurrir. Aunque en los experimentos peque~os es posible enumerar todas las posibilidades, en la mayoría de;: Jos casos esto no es factible. por lo que resulta necesario describirlas. Las palabras resultados y ewRto tienen distintos significados técnicos en la teoría de Ja probabilidad; no son sinónimos. Un re~ulLado es lo que sucede específicamente en un experimento (tal como "sacar un rey de corazones"), mientras que un evento puede incluir varias posibilidades (tales como "sacar un rey"). Estos conceptos se pueden definir formalmente en términos de la teoría de los conjuntos.

Espacio muestra! S Un es pacio muestra! S e:. el conjunto de todos Jos resultados posibles de un experimento. Un r c'lultado es un elemento de S. Un evento es cualquier colección de re:.ultados o, en lenguaje matemático, un subconjunto de S.



A los resultados en ocasiones se les llama eventos simples o eventos no divisib/eJ. y a los eventos en ocasiones se les llama eventos compuestos.

EJEMPLO 3 .8

Una moneda va a ser lanZ.lda 3 veces. Defina el espacio muestra! haciendo una lista de todos los resultados en la forma (resultado del lanzamiento No. 1. r!!sultado del lanzamiento No. 2, resultado del lanZ.lmiento No. 3).

Solución

Dado que en cualquier !:mi.amiento de una moneda podemos obtener una cara (H) o una cruz (T), el espacio mui;:stral S consiste en 8 resultados posibles

S

= ((HHH); (HHT); (HTH l; (THH); (H TT); (THT ): (TTH ): (TIT):

Observe que ninguno de Jos resultados se puede descomponer.



32

Conceptos básic:os y aiuomas de la teor~ de la prob&bhdad

85

Este mismo problema se puede enunciar en términos más administrativos como sigue. Suponga que se está llevando a cabo una auditoría de Jos servicios de tres nuc\ os distribuidores de automóviles seleccionados dentro de cierta área geográfica del país. Cada compai\ía auditada se seilala con una "H" si todas las quejas sobre el servicio fueron resueltas en menos de dos meses. y se marca con una "T' en el caso contrario. El espacio muestra! del ejemplo 3.8 describe los resultados posibles.

EJEMPLO 3.9

Solución

Identifique en el experimento del ejemplo 3.8 los siguientes eventos: A, se obtiene exactamente una cara; B. se obtiene un número impar de caras y C, no se obtiene ninguna cara.

A "" {I HTI). (THT). (TTH l} B = {( HTI). (THT). (TIH ). (HHH )j

e ... :rrrn1



Una forma de calcular las probabilidades de los e\entos consiste en asignar primero una probabilidad a cada resultado. En muchos casos se puede suponer que los resultados indt\ 1duales tienen la misma probabilidad; las técntc:}!) que describiremo~ más adelante en este capítulo se pueden utilizar para a!\1gnar probabilidades a los resultados. Uno de los principios básicos de la probabilidad es que la probabilidad de cualquier evento es la suma de las probabilidades de todos sus resultados.

Suma de las probabilidades de los resultados Si un evento A consiste en los resultados R 1,

••• ,

R... entonces

P(A) =P(R 1) + ... + P(R.t)

EJEMPLO 3. 1O Solución



Suponga que cada uno de los resultados del ejemplo 3.8 tiene una probabilidad de 1/8. Encuentre las probabilidades de los eventos A.By C definidos en el ejemplo 3.9.

P(A) = ?(exactamente una cara) P(B)

= P(H'IT) + P(TH"D + P(TIH) = l / 8 + 118 + l / 8 = 3 / 8 = P (número impar de caras) = P(HlT} + P(THT) =

+ P(TIH) + l'(Hl IH) 1/ 8 + 1/ 8 + 1/8 + 1/ 8

P(C) = />(ninguna cara) - P(TfT)

= 4/ 8 =

l/8

Observe que podrlamos h3ber tomado cada probabilidad como número de resultados que incluye el evento

8 Tal interpretación clásica de la probabilidad requiere que los resultados sean igualmente posibles. •

6

,E CCIÓN 3.2

3

UN PRIMER VISTAZO A LA PROBABILIDAD

Esta manera de calcular las probabilidades no siempre es asequible. Cuando hay muchos resultados posibles con probabilidades desiguales, puede ser excesivamente tfüicil asignar un valor a cada uno de ellos. En el resto de este capítulo especi licaremos otros métodos para calcular probabilidades. Independientemente de cómo se asignen a los eventos, éstas deben satisfacer ciertas exigencias matematicas, o axiomas.

Axiomas de la probabilidad J. Para todo evento A, O ~ P(A) ~ 1. 2. P(S) = l 3. Si los eventos A y B no tienen resultados en común, P(sucede A o sucede B) =P(A) + P(B)



Los primeros dos axiomas simplemente indican que las probabilidades se escogen convencionalmente entre O y 1, y que Ja probabilidad 1 se asigna al e\ ento que forma el espacio muestra), el cual, por definición, es seguro que ocurra. el tercer axioma es la generalización de la idea de sumar las probabilidades de los resultados: en la medida en que los eventos A y B no tengan resultados en común, la probabilidad de que uno o el otro sucedan es la suma
EJERCICIOS 3.13

Una corporación consta de tres divisiones. cada una de las cuales está encabezada por un 'iceprcsidcnlc ejccuti.,,o. En cada división hay dos grupos, cac:ja uno de ellos dirigido por un vicepresidente del grupo. La decisión final acerca de las bonificaciones anuales c;e toma en un comílé integrado por un viceprcsulcnte ejecutivo> do~' icepresidentes de grupo. Cada allo los miemhros del comité se determinan mediante un sorteo. Defina un espacio muestra! haciendo una lista de todos los comités posihles. Designe a los vicepresidentes ejecutivos con las letras A, B y C, y a los vicepresidentes de grupo con los dígitos 1, 2, 3, 4, S y 6. 3.14 En el ejercicio 3.13, ¿cuál es la probabilidad de que los tres miembros del comité pcrtene.lcan a una sola división? ¿Y a tres divisiones distintas? 3. 1S Se lleva a cabo una revisión de las cuentas por cobrar en una tienda de departamentos (un gran almacén). Se seleccionan al a7.41r un centenar de cuentas) se examinan. Cada una de ellas se codifica como O (correcta) o 1 (errónea). Describa un resultado tipico del espacio muestra!. ¿Debería considcrar.;e que todos los resultados son igualmente posibles? 3.16 Un espacio muestral consiste en seis resultados con las siguient~s probabilidades: Resultado Probabilidad

1

2

3

4

s

6

.25

.20

.20

.15

.15

.05

Jl

L~

87

de b probablhdad

El evento A esta formado por Jos resuhados 1, 2, 3 y 4, y el evento B por los resul· tados 3, 4 y S. Encuentre />t.A), P(B), ,">(A y 8) y P<.A o B o ambos). 3.17 En el ejercicio 3.16, ¿debería ~r P(A o 8) Pf.A) + P(B)? ¡,Por qué? 3. 18 Un fabricante de computadoras 'ende los modelos del 1 al 9. Los modelos 1-6 tienen una memoria estándar y los modelos 7 9 tienen memoria expandida. Los modelos 1-3 tienen sólo una unidad de disquetes de 5V." y los modelos 4 9 tienen unidades de disquetes de 5 Y.- y 3 W'. l.os modelos I, 4 y 7 tienen un disco duro de 20 mB; los modelos 2. S y 8 tienen un disco duro de 40 mB; por último, los mode· los 3, 6 y 9 tienen un disco duro de 80 mB. Los rorcentajes de venta del ailo pasado fueron los siguientes: Modelo Porcentaje de \Cntas

l 27

2 23

)

4

s

10

13

7

6 4

7 5

R

R

9 J

Se sclcccionari al az..ar una computadora vendida el :iilo pasado a. Defina un esp3Cio muestral de modo que los resultados correspondan a los modelos. ¿Deberían ser igualmente probables los resultados? b. ¿Cuál es la probabilidad de que la computadora tenga memoria est:indar'.' c. ¿Cuál es la probabilidad de que la computadora tengo memoria estindar o ambos tipos de unidad de disquetes? 3. 19 f.n el inciso (e) del ejercicio 3. 18, no es correcto sumar simplemente las prob:ib1lídades de la memoria cst.ándar y de los dos tipo!> de unidad de disquetes. ¿Por qué no'l

3.3

LEYES DE LA PROBABILIDAD



No todos los problemas de la prohabilidad se pueden resolver con el enfoque de un espacio muestra! en el que primero hacemos una lista de resultados, asignamos probabilidades razonables a esos resultados de modo qui! O $ P(R,) ~ 1 y P(S) - 1 y después calculamos la probabilidad de cuak¡uil.!r evento A sumando las probabilidadi::s de los resultados en A. En ocasiones el simple hecho de hacer una lista de los resultados se convierte en una tarea agobiante. Por ejemplo, suponga que un juez ha ordenado que se forme un grupo asesor que escuche las demandas salariales del sindicato de policía y bomberos de una enorme área metropolitana. Un miembro di.!! grupo se seleccionará de una lista de 14 nombres propuesta por el sindicato, otro de una lista de 29 candidatos entre~da por la ciudad y el tercero. de otra lista de 11 personas neutrales. Si suponemos que los candidato~ solamente aparecc:n en una lista, hay un total de 14(29)( 11) - 4466 resultados posibles de 3 asesores, uno de cada lista. En situaciones como ésta, donde no es posible elaborar una lista del conjunto de todos los resultados. debemos apoyamos en las leyes de la probabilidad y en ciertas relaciones entre los eventos a !in de calcular la proha1'ilidad de cada uno de ellos. En la sección 3.1 establecimos los princirios ha.-.icM tk la probabilidnd en el context~ especilico de lns muestras tomadas de una población. Ahora queremos exponi::r i::stos conceptos en un contexto más amplio~ expresarlo-, en el lenguaje de la teoría de los conjuntos, por lo que necesitaremo-, alguna'> dcfinictones preliminares.

88

l

UN PRIMER VISTAZO A LA PROBABILIDAD

(a)

FIGURA 3.1

(b)

Diagramas de Venn que ilustran P(A), P( A). P(A u 8) y P(A n B)

Complemento, unión e intersección El tompJemento de un evento A es el conjunto de todos los resultados en S que no éstán incluidos en A; se denota con A y se lee "no A". La unión de los eventos A y B es d conjunto de todos los resultados que están incluidos en A o en B (o en ambos). Se denota con A V By se lee "A unión B" o "A o B". La intersección de los eventos A y B es el conjunto de todos los resultados que están incluidos tanto en A como en B; se denota con A r. By se lec "A intersección B" o "A y B". • Estas definiciones formalizan las ideas mfu. simples de la lógica. El evento A sucede siempre que no sucede A, A u B ocurre ~iempre que A ocurre o B ocurre. y A n B acontece siempre que A y B acontecen. Con frecuencia decimos simplemente "no", "o" o "y" en lugar de complemento, unión o intersección. Los diagramas de Venn, como los de la figura 3.1, nos proporcionan una imagen de estos conceptos mu) fácil de manejar. Piense que la probabilidad de un evento corresponde a su área; el rectángulo completo, que representa a S, tiene área igual a 1. En Ja figura 3.1 (a), el evento A aparece sombreado; su complemento es todo el conjunto en blanco. En la figura J . l(b), A V Bes toda d área sombreada, mientras que A n B es el área sombreada con un tono más oscuro. Ya hemos utilizado la idea de la unión en el tercer axioma de 13 probabilidad, que dice que si los eventos A y B no tienen resultados en común, la probabilidad de que suceda A o B [es decir, P(A v B}J es P(A) + P(B). L::i condición de que A y B no tengan resultados en común es suficientemente importante como para merecer un nombre.

Eventos mutuamente excluyentes Dos eventos A} B son mutuamente ncluycntu (disjuntos, lógicamente incompatibles) si no tienen resultadoc; en común Para los eventos mutuamente excluyentes, A n B no tiene resultados; el que suceda uno de ellos significa automáticamente que el otro no puede ocurrir. Los eventos A. B, C, D, ... son mutuamente excluyentes sí todas las parejas posibles de ellos son mutuamenLe excluyentes. S1 uno de tales eventos sucede, ninguno de los otros puede ocurrir.



'

3.3

FIGURA3.2 ----

Leyes de la

89

probat>il~

Tres eventos mutuamente excluyentes

El tercer axioma de Ja teoría matemática de la probabilidad se traduce, utili/ando el lenguaje de la teoría de los conjuntos, en una ley básica para el cálculo de probabilidades.

Ley aditiva para eventos mutuamente excluyentes Si los eventos A y B son mutuamente excluyentes,

P(A o Bsucede)

= P(AuB) = P(A)

+ P(B)



Siempre que los eventos se hayan definido como mutuamente excluyentes, el "o" lógico corresponde a la suma de probabilidades. Obviamente, esta idea no se restringe a dos eventos; es aplicable a cualquier número finito o infinito de ellos.• En la figura 3.2 ningún evento se superpone con otro, de modo que los tres son mutuamente excluyentes. El área del e\ ento sombreado, P(A u B u C), es obviamente la suma de las tres áreas por separado, P(A) + P(B) + P(C).

EJEr:1PLO 3.11

Los eventos A, B y C tienen probabilidades 0.2, 0.5 y 0.4, respectivamente. Los eventos A y B son mutuamente excluyentes. pero A ) C no Jo son. al igual que B y C. ¿Cuál de la.s probabilidades P(A v B). P(A v C), /'(B u C)) P(A u B u C) se puede calcular con la infonnación que hemos proporcionado?

Solución

En la figura 3.3 se muestra un diagrama de Venn apropiado. Como A y B no se superponen, P(A V B) = P(A) + P(B)- 0.2 + 0.5 """0.7. Ahora bien, como no tenemos información acerca de las áreas de A ri C y B ri C, no podemos calcular otras probabilidades. Si sumásemos equivocadamente las probabilidades, obtendríamos P(A v B u C) - 0.2 + 0.5 + 0.4 =- 1.1, lo que no es posible.

• Para los puristas matem~tícos: el tercer axíoma se puede: extender, por índuccion, para cubrir ~ualquicr número finito de eventos, pero se debe modificar para cubrir un numero infinito de ellos.

90

l

UN PRJMER VISTAZO A LA PROBA81UDAD

e

FIGURA 3.3



Diagrama de Venn para el ejemplo 3.11

El principio de la adición se puede extender para manejar eventos que no son mutuamente excluyentes. Podemos ilu!>Lrar la extensión con un ejemplo.

EJEMPLO 3 .12

Suponga que, en el ejemplo 3.11, P(A n C) = 0.05 y P(B n C) = 0.18. Encuentre P(A v C) y P(B v C).

Solución

Cuando sumamos P(A) y P(C), contamos dos veces el área P(A n C) de la intersección. Para corregir esto, podemos re!.tar (una vez) el área de la intersección. Así, P(A v C)'"" 0.2 + 0.4 0.05 = 0.55 . Análogamente, P(B u C) • 0.5 + 0.4 -- 0.18 = 0.72. •

La ley aditiva general se obtiene a través de un razonamiento similar a éste. Ley ad it iva general S1 A y B son eventos cualesquiera, P(A o B) = P(AuB)

= P(A)

+ P(B) - P(A í'IB)

Cuando A y B son mutuamente excluyentes, A í'I B no contiene ningún resultado, de modo que P(Aí'I B) - O. En este caso, Ja ley adit1"a general se reduce a la simple adición de probabilidades. bit.a ley se puede extender al caso de muchos C\ entos, pero llevar cuenta de las probabilidade!> que se suman dos veces, tres veces, etc., se convierte en un problema. Por lo general, es una mejor estrategia dividir un e"ento en componentes mutuamente excluyentes, de modo que se puede utilizar la simple adición de probabilidades

EJEMPLO 3. 13

Solución

En el ejemplo 3.12, encuentre P(A eventos A, B o C).

u Ou

C) y P(sucede exactamente uno de los

Con base en la informacil'ln que se da en el ejemplo 3. 12, podemos deducir las probab1l1dades que se muestran en la figura 3.4 . Para P(A u B u C) sumamos todas lal> probabilidades corre~pondientes a la ocurrencia de uno o más de estos eventos:

3l

Leya ele la probab1hdad

.32

e .18

FIGURA 3:4



Diagrama de Venn para el ejemplo 3 .13 P(Av BvC)

= .15 + .05 + .17 + .18 + .32 "".87

Para P(sucede exactami.:nte uno de los c\entos A. B o C), no sumamos las probabilidades de la intersección 0.05 y 0.18, pues ¿sta representa la ocurrencia de dos eventos. Así, P(sucede exactamente uno de los e\ entos A, B o C) = 0.15 + 0.17 + 0.32 = 0.64. Del principio aditivo se deduce directamente una ley de la probabilidad muy útil. Por def!!!ición, un evento A y su complemento A son mutuamente excluyentes. y A u A incluye a la totalidad del espacio muestra! y tiene probabilidad 1. Por consiguiente, P(AvA)

= P(A) + P(A) =

1

Ley de los complementos P(A) = 1 - P(A)

=1-

P(noA)

Con frecuencia es m:ís fácil encontrar la probabilidad de que un evento no suceda. En tal caso, por la ley de los complementos, P(A) es simplemente 1 - P( A).

EJEMPLO 3. 14

Al fabricar sistemas de microcomputación, se ha observado que el 16% de los equipos recién ensamblados presentan exactamente un defecto, el 4% tiene exactamente dos defectos y el 1% tiene exactamente tres o más defectos. ¿Cuál es la probabilidad de que un equipo seleccionado al a7.ar no tenga ningún defecto?

Solución

El e\cnto "O defectos" es el complemento del evento "lo más defectos": P(O defectos)= 1 - P(I o más defectos). A su vez, por el principio de adición de eventos mutuamente excluyentes,

P(I o más defectos)

= P(exactamente 1) +

P(exactamente 2) + P(3 o más)

= .16 + .04 + .01 = .21

Oc este modo. P(O defectos) = 1 - O.:! 1 = 0.79.



92

3

UN PRIMER VISTAZO A LA PROBABILIDAD

Hay otro concepto que es crucial en el desarrollo de las leyes básicas de la probabilid¡d: la probabilidad condicionada de un e\Cnto B dado que ha sucedido otro evento A. Por ejemplo, puede ser que el 10% de los compradores de un automóvil de lujo pidan altavoces de alta eficiencia para el sistema de audio, de modo que ?(altavoces especiales) - 0. 1. Pero si se sabe que el cliente ha pedido el mejor receptor en estéreo para el automóvil, la probabilidad de que pida los altavoces de alta eficiencia es presumiblemente más alu. Es así que una condición, en este caso que el cliente pida un receptor especial, puede cambiar la probahilidad de un evento (que el cliente pida los aluvoces de alta eficiencia). Para dar otro ejemplo, suponga que unos auditores seleccionarán al azar una muestra de una lista de 216 cuentas por cobrar. y que de éstas, 24 tienen algün error. Si no se tiene información acerca de la situación de la primera de ellas, la probabilidad de que la segunda cuenta seleccionada tenga un error es de 24/216. Pero si se sabe que la primera cuenta seleccionada contiene un error, entonces hay sólo 23 cuentas por cobrar erróneas entre las 215 restantes, y la probabilidad de que l::i segunda también lo tenga cambia a 231215. En los siguientes capítulos, con mucha frecuencia utiliiaremos l::i definición de probabilidad condicionada en términos de probabilidades no condicionadas.

D efinición de probabilidad condicionada La probabilidad condicionada de un evento B dado que un evento A sucede, denotada como P(B A), que se lee .. la probabilidad de B dado que A'', es P(B IA) .. P(A n B)

P(A) Análogamente, P{A 1 B) - P(A n B) P(B)

Una probabilidad condicionada se define formalmente en términos de probabilidades no condicionadas. La definición se puede entender en términos de frl!cuencias relativas en el límite. Imagine un número n muy grande de ensayos. Damos por hecho que un ~vento dado A sucede; habrá nA de tales ensayos. La prohabílidad condicionada es aquella fracción de los nA ensayos en los que tanto A como B suceden. Hay n,..u ensayos en los que A y B suceden, de modo que la probabilidad condicionada es

Ahora divida el numerador y el denominador de esta fracción entren, el numero total de ensayos, para obtener

""ª n

P{B A) = -

""n

l.l

Leyei de la probab1hdad

93

Pero el numerador es la probabilidad no condicionada P(A r-t B) y el Jenominador es P(A). Por consiguiente, volvemos a la definición,

P(B 1 A)=

EJEMPLO 3. 15

P(Af"\8) P(A)

Remítase al ejemplo 3.8. Si el evento A es "se obtienen una o más caras en tres bnz;imientos de una moneda" y el evento 8 es "se obtiene exactamente una cara", calcule P(B 1 A) con Ja definición de probabilidad condicionada.

Solución An

A: se compone de todos los resultados en S excepto (m); por consiguiente, P(A) = 7/8 B: se compone de Jos resultados (HTT), (THT) y (TTH) 8: se compone de los resultados (HIT), (THT) y (TTH); P( All B) =3/8

La probabilidad condicionada del evento B dado que el evento A succdc es P(B I AI

P(Ar. B) P(A) 3¡ 8 J =-=7/8 7

Es decir, hay 3 posibilidades en 7 de que el evento B suceda dado que ha ocurrido el evento A. •

EJEMPLO 3. 16

Solución

En el ejemplo de las cuentas por cobrar que se dio en la página anterior, suponga que 16 cJ.e las 80 cuentas grandes (más de 10,000 dólares) tienen algún error y que se elige una única cuenta al azar. ¿Cuál es la probabilidad de que la cuenta seleccionada tenga un error, si se trata de una cuenta grande? La respuesta debería ser 16/80 = 0.2. De acuerdo con la definición P(error 1 gran de)

P(errorngrande)

= -----'--P(grande)

Hay 216 cuentas, 80 Je las cuales son grandes y 16 de las cuales son grandes y tienen errores. Por consiguiente, P(error 1grande) como debería ser.

=

16 /2 16 80 /2 16

= 16

80



La definición de probabilidad condicionada nos conduce directamente a la ley multiplicativa de las probabilidades.

94

3

UN PRIMER VISTAZO A lA PROBABILIDAD

ley multiplicativa Si A y B 50n dos eventos cualesquiera,

P(AyB) = P(AnB>= P(A)P{ B IA> Notn: Si intercambiamos Jos papeles de A y B, P(AnB)

probabilidad conjunta probabilidad marginal

EJEMPLO 3. 17

So/uc16n

P(B)P(J\ 8).



La única diferencia cntr-.: la ley multiplicativa y la definición de probabilidad condicion:ula r:idica en cuáles probabilidades se suponen ) cuáles han de calcularse. Cuando '>t: supone que !>C conocen las llamada!> probabilidad conjuntll P(A n B) y rrohabilidad mar2inal P(A), la probabilidad condicionada P(B 1 A) se puede calcular por medio de la definición. Cuando P(A)): P(B 1A) se suponen conocidas, P(A B) !.e puede calcular con la ley mult1phcati\a s~

vo a seleccionar un equipo de e\ aluación de dos personas a partir de un grupo formado por 1O hombres >6 mujeres. Si cada grupo de dos personas tiene la misma probabilidad de ser seleccionado, encuentre la probabilidad de que el equipo de evaluación esté integrado por dos mujeres.

Sea A e l C\ ento "Ja primera persona seleccionada es una mujer" y !.ea B el e"ento "la segunda persona seleccionada es mujer". Lo que queremos calcular es P(A

r. B ). Por la ley multiplicativa, P(A l"'I B)

= P(A)PCB 1A )

Debería ser c laro que P(J\) = 6116 y P(B 1A)=5/15. Sustituyendo. obtenemos P(Af"'.

jun~

a1

-(i )(i55) = 6 6



.12s

La ley multiplicati\a se puede extender para tratar con la probabilidad conde tres o más eventos:

= P(A)P(B / A)P(C 1A f"'. 8) P(A f"'. B l"'I C" 0) = P{A)P(B 1A)P(C1 A f"'. B)P(D /A l"'I B " P(A l"'I B l"'I C)

C)

y así sucesi\'amente.

EJEMPLO 3. 18

Suponga que en el ejemplo 3.17 se tienen que seleccionar tres personas. ¿Cuál es la probabilidad de que las tres sean mujeres?

Solución

Defina A corno "la primera persona seleccionada es mujer", B como "la segunda per!.ona seleccionada es mujer" y C como "la tercera persona seleccionada es mujer". P(C 1 t\ l'"'1 B) debe ser 4/ 14, de modo que P(A "B f"'. Cl = P(A)P(B 1A)P(C1 A n BI

=

(i66)(.5s)C:) .036 =



Sección 3 )

SECCION 3.3

95

e,.rc1c1os

EJERCICIOS 3.20

Una fábrica cuenta con dos generadores de emergencia, cada uno de los cuales puede proporcionar suficiente energfo eléctrica para las opcrt1ciones básicas. Ambos ge· neradores están expuestos a fallas . Sea A el evento " el generador 1 funciona adecuadamente" y Bel C\ento "el generador 2 funciona adecuadt1mente". De-.cnh.1 \Crbalmente cada uno de los siguientes eventos: A; A V u: Ar'\ u; A r'\ ¿Cuál es el complemento de A u O? Supon&a en d ejercicio 3.20 que P{/\) O 96. pt B) O 94 y /'( A r B) O 93 . fracc un diagrama de Venn. Encuentre !'( /\ n B ). PI Ar ll ) > P{ /\ r B ). Use las probahilidades del e1ercicio 3 21 para encontrar P(B 1A), P( H A). P(B A) )' P( ti A ). Enuncie 'erbalmente cada una de estas prob:ih1htlatles (.Es P(B A)+ Pl,B A) l?¿f.:.sP(B A)+P{B A) I? ¿Son mutuamente cxclu)cntes los e\ento'I A y U de los ejercicios 3.20 y J .21? En· cuentre P(A o B). ...1 director de una agencia federal responsable de otorgar viviendas a pequellas comunidades. encontró que el 14.2% de las solicitudes eran extemporáneas (fuera de plazo). el 8.7% estaban incompletas y el IS .9% eran inelegibles. l)elina A como "extemporánea", B como "incompleta" y C como "inelegible". ¿Qué parejas de eventos, si es que las hay, son mutuamente excluyentes? Dé una interpretación del e\.ento A r'\ o r. e. l:;n el ejercicio 3.24, suponga que P( Ar. B) 0.046. /'(A r.C) = 0.092, P( RnC) = 0.035 y P( Ar. BnC) - 0.016. Construya un diagram.:i de Venn y dedwca las probabilidades de los eventos mutu.:imentc excluyentes. Por ejemplo, en vista de que P( A n B) = 0.046 y que P( A r. On C) - 0.016, debe ser cierto que P( A n Bf"\ C ) 0.030. Utilice el d1.:igrama de Venn que construyó en el ejercicio 3.25 para encontrJr Pt A ri B rP( A V B V e ) y P( A'"' R). Exprese \.erhalmc:nte estos eventos. l-n cierto proceso de fabricación es necesario perforar un bloque de metal con apc· go a especificaciones mu) precisas Un defecto en el orilicio puede c ~tropcar el hlo· que. lo que sólo se puede descubrir al final del montaje. La experiencia md1ca que el 90% de las perforaciones se hacen dentro de las especificaciones. Un mo;pector examina cada perforación. Si el orificio no está hecho dentro de lac; ec;pecificac10· nes, hay una probabilidad del 90% de que el inspector descubra el defecto. a. ¿Cuál es la probahilidad de que un bloque esté perforado defectuosamente y que el inspector lo descubra'? b. ¿Cuál es la probabilidad de que un bloque esté perforado dclectuosamente y de que el inspector no lo descubra'! SupongJ. en el ejercicio 3 27. que, con una red1c;tr1huc16n del trabajo, la tasa de per· foraciones dentro de las especílicac1one~ c;e puede ele\ ar al 99%. lamhién ~uponga que con esta estrategia se cuenta con meno., tiempo para la 111'pecc1ón. de modo que un inspector sólo detecta los bloques defectuosos en el 80° o de los casos. a. ¿Cuál es la probabilidad de que un bloque tenga una perforación defectuosa y el inspector no descubra el defecto? b. Compare la respuesta del inciso (a) con la que obtuvo para el inciso (b) del cjcr· c1cio 3.27 ¿En qué caso es menor la prohabilidad de que un defecto no se descubra? ¿Seria relevante para su respuesta el que lt1 tasa de detección de defecto., fuese sólo del 400. en \eZ del 8~9'> Nos referimos nue\amente al ejercicio 3.27. Suponga que los defectos de perforación que no son descubiertos por un inspector se detectan durante el montaje, con una probahilidad de 0.80. ¿Cuál es la prohahilidad de que un bloque seleccionado al

e.

3 21 3.22

3.23 3.24

3.2S

3.26 3.27

3.28

3.29

e).

96

l

UN PRIHER VISTAZO A LA PROBABILIDAD

azar esté perforado defectuosamente y que el defecto no sea descubierto ni por el inspector ni durante el montaje?

'

3.4

INDEPENDENCIA ESTADÍSTICA



Un concepto básico de la lt!oria de la probabilidad, de panicular importancia por sus aplicaciones a la estadística, es el de independencia. Suponga que en el ejemplo de las cuentas por cobrar de la sección anterior. 36 de las 216 cuentas son "con el extranjero"> 4 de las 36 cuentas con el extranjero tienen un error. ¿,Es diferente la probabilidad de error dado que la cuenta es con el extranjero a la probabilidad global (no condicionada) de error? Recuerde que había 24 cuentas erróneas en el grupo de 216, de modo que ?(errónea)- 24/216 - 1/9. la probab1lldac.1 condicionada de error dado que la cuenta es con el extranjero es P(errónea 1 extranjero) - ?(extranjero y errónea} ?(extranjero) (4 2 l 6H36 216) - 4136 = 1/9, lo mismo que la anterior. Como la probabilidad condicionada de un error es exactamente la misma que la probabilidad no condicionada. se dice que los eventos "seleccionar una cuenta con el extranjero" y "seleccionar una cuenta con un error" son estadísticamente ind epe ndientei.

e!>tadblicamen lc independientes.

La idea de independencia estadística es que la ocurrencia del evento A no cambia la probabilidad de que el evento B suceda. En otras palabras, la probabilidad conc.licion:id:i P(B 1 A) es la misma que la probabilidad no condicionada P(B).

Definición de eventos independientes los e\entos A y B son estadísticamente independientes si)' sólo si P(B A) - P(B). De no ser así, son dependientes. Nota: Si A y B son independientes, entonces P(A 1 B) =P(A).

De aquí en addante simplemente diremos palabra estadísticamente.

e~'entos

independientes y omitiremos la

EJEMPLO 3. 19

Rcmita~e al ejemplo de las cuentas por cobrar de la sección anterior. Determine si los eventos "primera cuent.a errónea" y "segunda cuenta errónea" son independientes.

So/uc16n

Dado que el muestreo de las cuentas por cobrar se hace i.in reemplazo, el hc:cho de que se elija una cuenta errónea en la primera selección reduce (ligeramente) la probabilidad de que se presente una cuenta errónea en la segunda. Por consiguiente, los e\Cntos no son independientes. Sabemos que />(la segunda es errónea la primera C\ errónea) = 23/215 = 0.107 y que la probabilidad no condicionada P(la segunda es errónea) = 24 216 = 0.111. La diferencia numérica entre las prob:ibalidades es muy pequei\a, de modo que los e\.entos son casi independientes. pero no del todo. •

34

97

Independencia eir:.ad1suc:a

EJEMPLO 3.20

Suponga que en el centro de cálculo de una universidad, 192 de 960 trabajos son de alta prioridad; de éstos, 128 son propuestos por estudiantes y 64 por el cuerpo docente. Del total, 640 trabajos son de los e~tudiantcs ) 320 de docentes. Si se selecciona un trabajo al azM, ¿son los eventos, ..trabajos
Solución

Sea A el evento "el trabajo es propuesto por un estudiante" y Bel evento "el trabajo es de alta prioridad". Para que los eventos A y B sean independientes debemos demosU"ar que P(A j 8)

= P(A)

PCB I A)

= P(B)

o

En este caso podemos calcular P(B 1 A) util izando la definición de probabilidad condicion:ida: P(B 1A) =

P(AnB) P(A)

= 128

96~

= 128 = .200

640 960

640

Así mismo, P(B) = 1921960 = 0.200. de modo que los eventos A y 13 son independientes. • La definición de ley multiplicativa.

C\ entos

independientes nos lleva o un caso especial de la

ley multiplicativa para eventos independientes Si los eventos A y B son independientes. P(A n ll)

= P(A)P(B}

Este resultado es una definición alternativa del concepto de independencia.

EJEMPLO 3.21

Utilice la ley multiplicativa para eventos independientes para verificar que los dos eventos del ejemplo 3.20 son independientes.

Solución

Pre\ iamcntc demostramos que P( A 1\ B) = 128 960 = 0.133. Análogamente, P(A)P(B) =(640 960) x ( 192 960) = 0.133. Como P( A í'I B) - P(A)P(B ), los eventos A y B son independientes. • La definición de independencia sugiere que para determinar si dos eventos son independientes, deberíamos encontrar .P( A í'I B ). P(.A) y .P(B), y después comprobar

98

3

UN PRIMER VISTAZO A LA PROBABILIDAD

la independencia. En ocasiones éste es, de hecho, el procedimiento. No obstante, con frecuencia Ja independencia es una hipótesis natural. Por ejemplo, cuando el muestreo se hace con reemplaz.amiento, es natural que se suponga la independencia. En tales casos el pnnc1pio multiplicativo se utili.ai pam calcular probabilidades conjuntas tales como P<..A r. B).

EJEMPLO 3.22

Suponga que, en una evaluación, el 70% del profesorado de un distrito escolar alcanza calificación satisfactoria, que el 59% tiene 40 ai\os o más, y que la edad y la evaluación son inJepcndicntcs. ¿Cuál C!> la probabilidad de que un profesor seleccionado al azar (a) se;i C\aluado satisfactoriamente) tenga más de ~O ;iños; (b) no sea evaluado satisfactonamcnte y no tenga más Je 40 años; (e) no sea e\aluado satisfactoriamente dado que tiene menos de ~O años?

Solución

a. Puesto que los eventos "evaluado satisfactoriamente" y "más de 40 ai'los de edad" se consideran independientes, se sigue que P(satisfactorio n más de 40) = P(satisfactorio)P(más de 40)

=

poX.59)

= .413

b. Puesto que los eventos "evaluado satisfactoriamente" y "más de 40 años de edad" son independientes, sus complementos ("evaluado insatisfactoriamcnte" y "no tiene más de 40 años") también son independientes. Por consiguiente, P(insatisfactorior. no más Je 40)

= (1 -

.70) (1 - .59)

= .123

P(insatisfactorio n no más de 40) c. I'(insatisfactorio 1 no más de 40) "" - - ' - - - - - - - - - - - - - - ' P(no más de 40) =

.123 .41

Ésta es exacwncntc la probabilidad del evento "no evaluado satisfactoriamente". • La ley multiplicativa se puede extender a más de dos eventos independientes, pero para hacerlo necesitamos la idea de procesos independientes. Los procesos (esencialmente, espacios muestrales separados) son independientes si cualquier evento de un proceso es independiente de los eventos de todos los demás procesos. Si, por ejemplo, hay 4 procesos y eventos independientes A, B, C y D, entonces la probabilidad
EJEMPLO 3.23

= P(AIP(B)P(C)P(D)

Suponga que la probabilidad de que el comprador de un automóvil nuevo pida que el aire acondicionado venga instalado de fábric:t es de 0.6, y que las diferentes decisiones de los compradores son procesos independientes. ¿Cuál es la probabilidad de que los próximos cinco compradores pidan que el aire acondicionado venga instalado de fábrica?

99

Solución

Sean A 1• A~. Al' A4 y A 5 los ~vcntos de que los compradores 1, 2, 3, 4 y 5 piden que el aire acondicionado venga instalado de fábrica. En tal caso.

P (los cinco piden aire acondicionado de fábrica)

= P(A 1 n

A 2 n A 3 n A 4 n A~)

= P(A ¡)P(A 2 )P(AJ )P(A 4 )P(Ad

= (.6)(.6)(.6)(.6)(.6) = .07776 SECCIÓN 3.4



EJERCICIOS 3.30

3.3 1

3 .J:!

3.3 3 3 .34

3.35 3.3 6

El director de personal de una empresa que emplea vendedores a tiempo parcial ensaya un3 prueba de aptitudes para las ventas con cientos de aspir3ntes. Como la prueba es nueva, los resultado'> no se utilizan para dar el empleo. El 40% de los aspirantes muestran gran aptitud segun la prueba, y el 12% de los contratados mue~­ tran un3 gran aptitud y alcanzan buenas cuotas de ventas. La experiencia de la empresa indica que el 30% del personal de \entas consigue buenos nivele'> en !:is ventas. Sea A el evento "muestra una gran aptitud" y Bel evento "logra buenas venta.""· a. 1-ncuentre P(A). P( A11B) y P(B 1A). b. ¿Son independientes A y R? c. ¿Es ütil la prueba para predecir buenos niveles en las ventas'> ¡,Qué tanto'? Construya un diagrama de Venn para el ejercicio 3.30. a. Encuentre P(A 11 i'i ) y />( A A). h. ¡,Son independientes A y B ? tin estudio acerca de los trabajadores de dos plantas de una empresa manufacturera incluye la pregunta: "¿Cuán efectiva es la gerencia para responder a la.'> legítimas quejas de los trabajadores?" En la planta 1, 48 de 192 trabajadores contestaron "poco efectiva", una respuesta desfavorable; en la planta 2, 80 de 248 trabajadores respondieron "poco efectiva". Se va a seleccionar aleatoriamente a un empicado de la empresa manufacturera. Sea ¡\ el evento "el trabajador procede de la planta I" y Bel evento "la respuesta es desfavorable". a. Fncuentre P(A), P(B) y P( Ar. B ). b. ¿Son independientes los eventos A y B? c. Encuentre P(B 1A) y P(B A). ¿Son iguales? Demuestre ~e si A y B son independientes, entonces P
100

3

UN PRIMER VISTAZO A LA PROBABILIDAD

b. Encuentre la probabilidad de que una comrutadora tenga memoria estándar. dado que ésta tiene ambos tipos de unidades de disquetes. e~ ¿Son independientes los eventos "memoria estándar" y "ambos tiros de unidades de disquetes"? 3.37 Además de las probabilidades que se dieron en el c:jc:rcicío 3 36, las figuras del ejercicio 3. 18 indican que Ja probabilidad de: que una computadora tenga un disco duro de 20 mO es de 0.45. La probabilidad de que una computadora tenga ambos tipos de unidades de disquetes y un disco duro de: 20 mO es de 0. 18 . "Son independientes lns eventos "ambos tipos de unidades de disquete"} "disco duro de 20 mB"? 3.38 Una aerolínea sigue con atención los problemas a lo~ que <;e enfrenta 5u personal en el aeropuenn l la encontrado que el 40% de los problema<; tiene que \'er con conexiones perdidas y un 10% tiene que: \ er con equip;ije<; C:\tra\'iados. ¿Es plausible suponer que el 4% de los problemas comprenden ambos tipos de dificultad., 3.39 lln vendedor minorista encuentra que el 40% de los pedido' se hacen por teléfono (y el resto por correo). En el 10% de sus 'entas se presenta una dc\oluc1ón parcial o completa. ¿Es razonable suponer que el 4~~ de los pedidos que llegan por teléfono corresponden a otros tantos casos de devolución de mercancías'!

3.5

TABLAS Y ÁRBOLES DE PROBABILIDAD



En muchos problemas de probabilidad es necesario utilizar en forma consecutiva varios principios básicos para obtener una solución. Estos problemas se pueden resolver algebraicamente, pero es muy util contar con algún artificio que permita mantener el pensamiento lógico.

EJEMPLO 3.24

Una compaí'ia encuentra que el 46% de sus jóvenes directores está casado con un(a) profesional, el 37% no está casado con un(a) profesional y el 17% son solteros La compa"ia considera que el 40% de los directores casados con profesionales rehusarían !>er transferidos a otra oficinn. al igual que el 10º~ de los solteros) el 15% de Jo., qu\! no cMán casados con profesionall!s Si 3 un director seleccionado al :v.ir se le pmpone ~er transforido. ¿cuál L~ la probabilidad de que rechace la oferta'?

Solución

En primer lugar. el C\ento "rechazada" se puede pensar como "(rechazada f"'I dos profesionales) v (rechazada (')un solo profesional) v (rechazada r-. soltero)". L;is tres posibilidades son mutuamente cxclu)entes. de modo que por la ley aditiva tenemos que /'(rechazada) - P(rechazada f"'I dos prolesionales ) + P(rechazada f"'I un solo profesional) + /'(rechazada

l'"'I

soltero)

En segundo lugar, cada una de las tres probabilidades se puede valorar por medio de )3 ley multiplicativa. Por ejemplo, ?(rechazada

f"'I

dos profesionales)= P(dos profesionales) P(rechazada 1 dos prolesionales) (0.46)(0.40)

de la reunión de estas dos ideas tenemos que ?(rechazada)= P(dos profesionales)P(rechazada dos prolcsionales) + P(un solo profesional)P(rechazada 1 un solo profesional)

~

~ ~· ,. ~

3.5

Tablu y úboles, cH prob&bJidad

u

~- l'tH:.i:'rt:C

+ P(soltero)P(recha2.ílda 1 soltero) = (0.46 )(0.40) + (0.3 7)(0.15) + (0.17)(0.1 O)

EJEMPLO 3. 25

Solución

101

,,

0 .2565

~ •

Se hacen dos inversiones de 100 dólares en dos proyectos. Se supone que el proyecto A 'a a producir un rendimiento neto de 8, 1O o 12 dólares, con probabilidades respectivas de 0.2, 0.6 y 0.2. Se supone que el pro)ecto B va a producir una ganancia neta de 8, 10 o 12 dólares, con probabilidades rcspccti\as de 0.3, 0.4 y 0.3. Además se supone que las ganancias de ambas inversiones son independientes entre sí. ¿Cuál es la probabilidad de que la ganancia total ~a de ~O dólares cxacmmente? Oe acuerdo con la ley aditiva, P(total

=$20)

P(A produce $8" B produce $12} P(J\ produce S10f"'I B produce $10) +P(A produce $12fl B produce $8)

La ley multiplicativa para eventos independientes se puede aplicar a cada probabilidad conjunta para obtener P(total · $20) = P(A produce $8)P(B produce $12) + P(A produce SIO)P(O produce $10) +P{A produce $12)P(l3 produce $8) =(0.2)(0.3) + (0.6)(0.4) + (0.2)(0.3) = 0.36



No hay ninguna idea nueva en la solución de estos problemas, pero en ocasiones cs dificil encontrar el orden correcto en el que se deben aplicar los principios básicos. En los problemas de ma)'Or envergadura la dificultad es mayor. por lo que ha sido necesario crear diversos métodos para clarificar el razonamiento en que se basa su solución . Una propuesta muy útil es la de construir una tabla de probabilidades conjuntas. En ocasiones, la respuesta que se busca puede encontrarse sumilndo los registros apropiados de la tabla.

EJEMPLO 3.26

Con los datos del ejemplo 3.24, construya una tabla de probabilidades conjuntas comparando la condición matrimonial con la actitud ante un:i e\ entual translcrencia a otra oficina. Utilícela para encontrar P(rcchazada).

Soluc16n

En primer lugar, ponga todas las prob¡¡bilid:ides marginales conocidas en los extremos apropiados d~ la tabla. Dos profesionales

Un profesional

Soltero

.46

.37

.17

Rech:i1:ida Aceptada

Ahora se puede llenar el cuadro u1ili1.ando la ley multiplicativ¡¡. Las probabilidades margin11les que faltan se pueden encontrar por adición.

102

)

UN PRIMER VISTAZO A lA PROBABILIDAD

Oos profesionales Rccha1.¡da Aceptada

1 46)( 40)

lk40

146)( 60)

2760

.

Un profesional

Soltero

1.37>(.15)-.. 0555 C.37M 85) • 3145

{.17H.101 c 0170 1 17)(.90)"" 1530

.2565 7435

.37

P(rechazada) aparece en el margen derecho y es igual a 0.2565, como en el ejemplo 3.24. •

EJEMPLO 3.27

Solución



Con los datos del ejemplo 3.25, construya unn tabla de probabilidades conjuntas y encuentre ?(ganancia total :: $20). En este caso. se especifican amhos conjuntos de probabilidades marginales Ganancia en A

Sk

SIO

Sl2

Ganancia en

SI< S 1O

.)

B

Sl2

.3

4

.2

.6

.2

Paro llc!nar la tabla se puede utiliz.ar la ley multiplicativa para eventos independientes. Ganancia en A • Ganancia en B

SK

SIO .IR .24•

Sli

06

SIO

()!!

SI:!

()6•

.2

Sl2 ()6•

.)

18

08 .06

.3

.6

.2

4

Las entradas 4ue corresponden a una ganancia total de 20 dólares están marcadas con un asterisco. La ley aditi\ a nos da P(ganancia total • S20) = 0.06 + 0.24 + 0.06 '"' 0.36.

como en el ejemplo 3.25.

:irbol de 1>rohnbi lid11d



Las tnhlas de probabilidad constituyen una forma breve y conveniente de resolver muchos problemas. Con frecuencia también proporcionan la solución de algunos problemas relacionados. Por ejemplo. usted no debería tener ninguna dificultad para encontrar en el ejemplo J.27 P(gananc1a total =- S22) o P(ganancia total= $16). Ahora bien, en aquellos problema!> ~ue comprenden más de dos categorías de eventos, las tablas de probabilidad son, en el mejor de los casos, di· ficiles de manejar. Si en el ejemplo 3.25 hubic!>e hah1do un proyecto C, habría sido necesario utilizar una especie de tabla tridimensional Otro artificio que se usa con frecuencia es el •irhol t.lc p robabilílhu.I Este método es dilic1I de describir pero muy fácil de ejcmplific:ir.

) S

EJEMPLO 3.28

Soluc..ión

103

Tablu y M'boles de probab1hdad

Ulilice un árbol de probabilidad para resolver el ejemplo 3.24. Primero, construya ramas para un conjunto de eventos con probabilidades marginales conocidas: Dos profestonates

.46

Un profesional

37

Soltero

.17

Despu~s. en la punta de cada una de estns romas lc\'ante nuc\ a'l ramas para otro conjunto de eventos, utilizando probabilidades condicionadas (dada la primera rama apropiada):

Dos profesionales

Un profesional

Sollero

Rechazada

.40

Aceptada

60

Rechazada

15

Aceptada

85

Rechazada



Aceptada

90

(.46)( 40) • . 1840'

46 (.46)(.60) • .2760

(.37)(.15)

~

osss·

.37

(.37)(.85) • .3145

(.17)(.10) - .0110·

17

(, 17)(.90) .

1530

104

3

UN PRIMER VISTAZO A LA PROBABILIDAD

(Si hubiese habido otro conjunto de eventos relevantes, habríamos ai\adido otro conjunto de ramas.) Como se ve, la probabilidad de cada tra)ectoria específica (sucesión de ramas) se encuentra multiplicando las probabilidades a lo largo de ella. la probabilidad de un C\.cnto se puede encontrar 'iumando las probabilidades de todas las trayectorias que lo satisfacen. Los trayecto!> corre:.pondientc~ a "rechazada" están marcados con un asterisco: ?(rechazada) = 0. 18..iO + 0.0555 + O.O 170 = 0.2565, una vez más. •

EJEMPLO 3.29 Solución

Resuelva el ejemplo 3.25 utilizando un árbol de probabilidad. Se han especificado probabilidades marginales para ambos proyectos A y 8, de modo que podemos utilit..ar las ganancias de cada proyecto como el primer conjunto de ramas. Comenzamos indistintamente la ramificación con el pro)ecto 13.

Ganancias en B

$8

SIO

S12

Ganancias en A

3

4

3

se

.2

S.10

6

$12

.2

SS

2

$10

6

$12

2

$8

2

S10

6

$12

2

.06

.18

.06'

.08

.24º

.08

.06'

.18

.06

3.5

Tablas y árboles de probabilidad

105

Como hemos supuesto que los eventos son independientes, no es necesario considerar las probabilidades condicionadas de las ganancias en A para cada ganancia particular en B. Las ramas correspondientes a las probabilidades para una ganancia total de 20 dólares están marcadas con un asterisco: ?(ganancia touil =$20) - 0.06 + 0.24 + 0.06 = 0.36. • Para que un árbol de probabilidad dé respuestas correcuis se debe construir de acuerdo con las siguientes reglas:

Reglas para construir un árbol de probabilidad 1. Los e'<entos que forman el primer conjunto de ranrns deben ser mutuamente excluyentes, sus probabilidades marginales ban de ser conocidas y deben agotar todas las posibilidades (de modo que las sumas de las probabilidades de las ramas sea igual a 1). 2. Los eventos que integran el segundo conjunto de ramas se deben poner en la punUl de cada uno de Jos primeros mmalcs. En cada ramificací6n inicial relevante hay que asentar las probabilidades condicionadas, a menos que una supuesta independencia permita hacer uso de las probabilidades no condicionad:is. Nuevamente, las ramas deberán ser mutuamente excluyentes y exhaustivas (de modo que la suma de las probabilidades de cualquier rama que parta de una punta sea igual a 1). 3. Si aún quedan conjuntos de ramas, las probabilidades deber.in ser condicionadas para todos los eventos precedentes. Como siempre, las ramas habrán de ser mutuamente excluyentes y exhaustivas. 4. La suma de las probabilidades de las trayectorias se debe efectuar sobre todos los trayectos que estén incluidos en el e\ento relevante.



Con un poco de práctica se descubre que los árboles de prohabilidad son muy fáciles de usar. Árboles y tablas son dos herramientas muy útiles para clarificar la lógica de una solución. En e fecto, con ambos métodos se construyen espacios muestrales adecuados; un resultado panicular corresponde a una trayectoria en el árbol de probabilidad o a un registro en una tabla de probabilidad. Los árboles se pueden utilitar en una mayor variedad de situaciones. Su único inconveniente es que en los problemas muy grandes y complicados dejan de ser pr;ícticos por su tamaño. Si se está dispuesto a utilizar una gran cantidad de papel, es posible resolver algunos problemas basuinte desagradables con una velocidad sorprendente.

EJEMPLO 3.30

En un programa de concursos de la tele'< isión hay un valioso premio oculto detrás de una de tres puertas. Usted, el concursante, debe escoger una de ellas. Una vez escogida y antes de abrirla, el presentador descubre una de las puertas no seleccionadas para que usted vea que el premio no esuí ahí. Después, le ofrece la oportunidad de escoger la puena rcsiante. ¿Debería usted aceptar el cambio, o éste no le representa ninguna ventaja?

106

3

So/uc1on

UN PRIMER VISTAZO A LA PR08ABILJOAO

Hagamos un árbol. Llame A a la puerta que usteJ ha escogido, y B ~ C a las otras dos. Suponiendo que ti premio está d1stnbuiJo ale<1toriamentc entre las puertas, la probabilidad de que esté Jctrás de cada una de ellas es de 1/3. Si el premio no está en la puerta A , el presentador no tiene elección: si Be~ d~mde e!.ta el premio, él debe abrir Ja puerta C, si Ces donde se encuentra el premio, él debe descubrir la puerta A. Pero si usted escogió correctamente y el premio está en la puerta A. el presentador tiene que hacer una elección: supongamos que rlige aleatoriamente entre B o C. cada una rnn una probabilidad de 1 2 en esta situación. PoJemos construir el siguiente arbol:

Puerta en que está el premio

A

Probabilidad de la trayectoria

Elección del presentador

13

1 '2

e

12

1/6

1 13

13

1 13

e

1/3

1/6

e

1/3

B 1/3

Supongamos que el presentador ha escogido la puerta B (y que usted inicialmente eligiú la puerta A). ¿Cuál es la probabilidad de que el premio esté detrás de la puerta C"

P(detnís de C 1escogió B )

= =

P( detrás de C y escogió B P(escogió B

l/3 1/6 + 1/ 3

1/3

= -1/2

)

)

2 =3

así, P(detrás de A escogió 13) = 1 - 2/3 = 1/3 . ¡La posibilidad de que usted gane es mayor si acepta el cambio y escoge la puerta C! •

l .S

107

Tablas y arbolei de probabfkdad

EJEMPLO 3.3 1

Suponga que el 4~o de los m~icamentos teóricamente aceptables son biológicamente activos)' que de estos últimos el 7(J% muestra serios efectos secundarios. Oc los medicamentos que se sabe que no son activos. el 20% se pueden reformular para que lo sean y. enlre estos medicamentos refonnulados. el 800/o tienen serios efectos secundarios. Todos los medicamentos que se van a comercializar deben ser aprobados por el gobierno. La probabiliJad de que un medicamento sea aprobado, supon1enc.lo que es biológicamente activo y no tiene efectos secundarios. es de 0.90. De lo!> medicamentos qUc! son biológicamente acti"os ) tienen cfoctos secundarios. solo el Sº o scr:í aprobado. Si el medicamento no es b1ológ1camentc acl1\o, no será aprobado. a. ¿Cuál es la probabilidad de que se apruebe un nue\O medicamento? b. ¿Cuál es la probabilidad de que un nue\o medicamento tenga efectos secundarios? c. Si un mcJicamento es aprobado, ¿cuál es la probabilidad de que tenga efectos secundarios'?

Soluci6n

Se puede construir un árbol de probabilidad. En este caso, como a menudo acontece, las ramas se suceden en orden cronológico. La primera rama revela si el medicamento es o no activo. Después se con-.ídcran los segmentos correspondientes a sí el mcJicamento se puede rcformular, si tiene efectos '>Ccundarios y si será aprobado, en este orden.

51



SI

.05

No

.95

$1

90

No

10

S1

05

No

.95

sr

90

No

10

No

1.00

.0140

.70 2660

40

No



sr

No

¿Aprobado?

¿Efectos secundarios?

¿ Reformulado?

¿Activo?

0120

0048

.80 .0912

.20

No

60

No

.1080

.30

80

.0216

20

0024

4800

108

3

UN PRIMER VISTAZO A LA PROBABILIDAD

a. Para encontrar la probabilidad de que un medicamento se apruebe, simplemente sume las probabilidades de todas las trayectorias que correspondan a "sí'' en la pregtlnta correspondiente a "aprobado":

/>(aprobado)

= .0140

+ .1080 + .OO-t8 + .02 16 = .1484

b. Nuevamente debemos sumar las probabilidades en las trayectorias apropiadas. Las trayectorias correspondientes a la existencia de efectos secundarios son la primera, segunda, quinta y sexta:

P(efectos secundarios)

= .0140 + .2660

+ .00-18 + .0912

= .3760

Otra alternati\a es dibujar el árbol sin las ramac; de "aprob;ido" y obtener una

'e' más P(efectos secundarios)

= .40(.70)

+ .60(.20)(.80) - .280 + .096 - .376

c. Para encontrar una probabilidad condicionada como ésta, recurrimos din:ctamcntc a la definición:

P(efectos secundarios 1aprobado) =

P( efectos secundarios n aprobado) P( aprobado)

En el inciso (a) encontramos que P(aprobado) 0.1484. Observl! que la primera y la quinta rama, con probabilidades respectivas de 0.0140 y 0.0048, son las únicas que corresponden a "efectos secundarios r. aprobado''. Asi, P{efectos secundarios 1 aprobado)

SECCIÓ N 3.5

= (.0140

+ .0048) 1 (. 1484)



EJERCICIO S J.40

La experienc13 de una emrrcsa dedicada al procesamiento de d3tos muestra que al prob
Primera prueba

Importante Menor Ninguno

Menor

Ninguno

.)

.s

.1

.3

.2 .6

.2

.H

o

a Con'>truya una tabla con las probabilidades conjuntas de todas las combinaciones posibles de resultados de la primera y la segunda prueba b. Encuentre la probabilidad de descubrir un error importante durante la segunda prueba.

Se
3 41 3.42

3..t3

3.44

3 45

3.46

109

c. Encuentre la probabilidad de los errores menores en la segunda prueba y de que no se descubra ningún error menor en la 'le~unda prueba. Construya un árbol de probabilidad para responder al e.1erc1cio 3.40. En l:i comp:ii\ia de procesamiento de datos del e1ercic10 3AO. los programas que aún tienen errores (importantes o menores) después de 13 segunda prueba. se: someten a una tercera ronda de correcciones. Los programa<. que tu\·ieron un error imrmrtante en la segunda prueba tienen una prohabihdad de 0.1 de presentar errores imrortantcs en la tercera prueba (independientemente del resultado que hayan tenido en la prueb3 inicial) y una probabilidad de O.:? de presentar fallos menores ,\qucllo-; que mostraron sólo defectos mcoores en Ja segunda prueba. no tienen po~1b1ltdadc<. de mostrar errores importantes en la tercera prueba, pero un:i prtlbahihdad de O 1 de presentar errores menores (de nue\O, 1ndepcnd1entemente del resultado de la pri· mera prueba). Se supone que los programas que no presentan fallo<; en la <;egunda prueba no se someten :i una tercera ronda de correcciones. a. Construya un árbol de probabilidad para esta situación. b. Encuentre la probabilidad de que un programa presente errore~ importantes en los tres pruebas. c. Encuentre la probabilidad de que un programa tenga errores importantes en la tercera prueba. ¿Por qué es diferente esta respuesta a Ja del inciso (b)? d. Encuentre la probabilidad de que un programa esté libre de errores (ya sea des· pués de la segunda o de la tercera prueba) La unidad de compras de un goh1emo ec;tatal h:i visto que de las licitaciones públicas de contratos para la limpie1a de suc; olicina<;, un 60~~ las han ganado postores regu13res: un 30%, postores ocasionales, y 10%. nue\ os postorec;. Después de un ai\o de trabajo, los servicios proporcionados por el ganador de una ltc1tac1ón se cla· c;ilican como s:itisfactorios o no satisfactorios. l.a experiencia indica que el trahajo de los postores regulares es satisfactorio el qo% de las veces: el de los postores ocasionales, el 80% de las veces. y el de los postores nuevos. el 60º'º de las veces. a. ¿Cuál es lo probabilidad de que un trabajo sea hecho por un postor nue\o y sea satisfactorio? b. ¿Cuál es la probabilidad de que un trabaJO sea satisfactorio? c. Dado que un trabajo es satisfactorio. ¿cuál es la probabilidad 1k que haya sido hecho por un postor nuevo? Un fabricante de galletas presenta muchos productos nuevos cada ailo, de: los cuales cerca del 60o/o fracasan, 300/e tienen un éxito moderado y un 1Oo/o tienen gran éxito. Para mejorar sus posibilidades. el fabric:inte somete a prueba sus nuc\01; productos ante un grupo de clientes. que actúa como jurado calificador. De los fracasos, 50% se califican como malos, 30% como regulares y 20% como buenos. P:ira los que tu· vieron un éxito moderado, la calilkación es mala pora un :!0%. regular para un 40º;, y buena par:i otro 40%. Para los que tuvieron gran éxito. los porcentajes son: malos 10%. regulares 30% y buenos 60%. <>. Encuentre la probabilidad conjunta de que un producto sea nuevo y reciba una m:ila calificación. b. Construya una tabla de probabilidad con todas las probabilidades conjuntas de los nuC\oS productos y las calificaciones del jurado. c. Si un nue\O producto tiene una buen<> c:>lif1cación. ¿cu:il es la probabilidad de que el producto fracase? Construya un árbol de probabilidad util11.ando las probabilidades del ejercicio 3.44. Utilice el árbol para encontrar la probabilidad de que un nUC\O producto tenga éxi· to. dado que éste obtu\'o una mala cahficac1ón tJna compallía de transportes especiali7ada en carga pesada tiene dos tipos de clien· tes: por contrato y ocasionale~ La politica de la compailia indica que las solicitudes

110

)

3.47

UN PRIHER VISTAZO A LA PR08A81LIOAD

de los clientes por contrato tienen prioridad; el 40% de l:is solicitudes son por contrato. Las primeras cuatro llamadas de cada dla se asignan de inmediato a los camio· '1'S. Si al menos tres de ellas son de clientes por contrato, el despachador detie rehus:ir cualquier llamada posterior de cliente!> ocasionales durante ese di3. a. Construya un :irbol de probabilidad para las primeras cuatro llamadas. La primera rJma deberá ser para clientes por contrato u ocasionales en Ja primera llamadJ b. ¡.Cu~I es la probabilidad de que el despach01dor rechace cualquier otra llamad01 de clientes ocasionales? Suponga que, en el ejercicio J.46, el despachador debe recha1ar las llamadas posteriores de cualquier cliente ocasional. ¿Cuál es la probab1hdad de que las primeras cuatro llamac:Lls fuerJn hechas por clientes por contrato'!

TEOREMA DE BAYES. PROBABILIDADES

3.6

A PRIORI Y A POSTERJORJ



l la} un extenso grupo <.le problemas de probab1li<.lad que se resuelve rápidamente con una tabla o un árbol <.le probabilidad > que <,uceden con tanta frecuencia que se les ha dado un nombre. lntroducimo:-. en estn sección e l teorema de Bayes, que indica cómo se dehen revisar las probabilidades a la lu.1 de n ue' a información. Este teon!ma no es un nue\O concepto. e~ simplemente una combinación comemente <.le u.ka\ que >a conocemos Supongn que en cicrtn población. una décima parte del 1% de los indi\ iduos están infectado., por d \'Írus lllV que ocasiona el S IDA. Las pruebas para \erificar la presencia del 'rrus o;on imperfectas: suponga que el 95o/o de quienes estan infectados dan un resultado positivo; y que el 2% <.le aqu¿IJos que en realidad no están infectados tamhicn Jan un resultado positivo. Si un inlJi\ iduo seleccionado al a:1ar tiene un prueba positiva, ¿cuál es la probabilidad de que esa persona en realidad tenga Sll>A'! Como se muestra en la figura 3.S, podemos desarrollar un cálculo de la probabilidad con un árbl•I.

SIDA

Sin SIDA

FIGURA 3.5

Positivo

.95

00095

Negabvo

.05

00005

Positivo

02

01998

Negativo

.98

97902

.001

999

Árbol de probabilidad para el e¡emplo del SIDA

3.6

Teorema de Bayes.

Pro~1l1dades

a

pt'•On

y a post•non

Podemos ver que P(SJDA 1 positivo) =

P(SIDA y positivo)

?(positivo) .00095

= - ----.00095 + .01998 ProbabiJíd;1cks a priori

po.,ibilidadcs o vc ro:,imilitudcs 11ro babilitladcs a polltcriori

= .045

Este ejemplo tiene todos los elementos del teorema de Bayes. Comenzamos con las p robabilidades a priori e.le un evento o "estado natural". En este caso, las probabilidades a priori (es decir, antes de que obtengamos nueva información) se aplican independientemente de que la persona seleccionada tenga SIDA o no. La información (en nuestro caso. lús resultados de Ja prueba) es una indicación imperfecta del estado 'erdadero. A las probabilidades de los distintos resultados que nos da la información. tales como un diagnóstico positivo o negativo, se les llama pos ih ilidadcs o veros im ilitudes. Estas probabilidades se combinan para producir p robabilitlatlcs :i polltcriori (es decir, después de obtenida la información) de los distinto\ estad os naturales.

Teorema de Bayes Sí A1, ... , Ak son estados naturales mutuamente excluyentes y si 8 1, eventos observables posiblemente excluyentes entre sí, entonces

P(B;\A 1 )P(A 1 )

+

P(B¡I A,)P(A,J P(B,jA 2 }P(A 2 J

... ,

.t ... + P(B,IA JPCA 1

B,,, son m

1)

P(B, I A,)P(A.}

L P(B, I A,)P(A,} 1

El teorema de Ba)eS sintetiza cálculos de tres tipos. En el ejemplo del SIDA, los estados naturales son A 1 ="tiene SIDA" y A. 2 ="no tiene SIDA"; los eventos ol'lser\ ablcs son 0 1 ="positivo" y B~ = "negativo•·. El numerndor del teorema de Bayes es P(A, y 8 ) y se encuentra multiplicando las probabilidades a lo largo de una 1 trayectori:i p::irtícular en el árbol; por ejemplo. P(SIDA y positivo) "" P(A 1 y 8 1) = 0.001(0.95) 0.00095. El denominador se encuentra !turnando las probabilidades de todas las trayectorias correspondientes a B ; por ejemplo, P( posith o) P(B 1) = 1 0 .00095 +O.O 1998. Cuando es aplicable, el teorema de Bayes es un procedimiento abreviado para el cálculo de un árbol. En ocasiones los resultados son sorprendentes. En d ejemplo del SIDA la probabilidad a posteriorí de tener SIDA suponiendo que la prueba resultó positiva es de sólo 0.045. Por consiguiente, de todas las personas que obtu\ieron un resultado positivo (y se afligieron con esui terrible noticia) sólo el 4.5° o tenían en realidad la enfermedad. El resultado positivo sí incrementa Ja posibilidad de tener el SIDA, pero la probabilidad a priori era tan baja que aun la probabilidad incrementada es muy peque'°'º· l:.n ocasiones se proponen programns masivos de detección de enfonnedadcs

112

3

UN PRIMER VISTAZO A LA PR08A81LIDAD

como el SIDA; además de su alto costo, el fenómeno del "falso positivo" que hemos ilu.~t.rado con nuestro ejemplo es un fuene argumento en contra de dichos proyectos.

EJEMPLO 3.32

'

Un club de libros clasifica a sus miembros como compradores grandes, medianos o peque"os y prepara por separado la correspondencia para cada uno de estos grupos. Aproximadamente el 200/o de sus clientes son grandes compradores, el 30%, medianos y el 50%, peque"os. No se clssilica a un miembro dentro de ningún grupo hasta que transcurren 18 meses de su ingreso al club, aunque se realiza una prueba para ver si es factible clasificar a los miembros con las compras de los primeros 3 meses. Los siguientes porcentajes se obtuvieron de los registros correspondientes a miembros ya clasificados como comprJdores grandes, medianos o ¡xque"os.

Compras durante los primeros 3 meses

o 1 2 3+

G"'po Grande 5~ .. IOuu 30%

55~n

Mediano 15º u 30º·o 40º o l 5u0

Peque"º 60~0 20~~ 15~~

5uIn•

a. ldentilique los estados naturales y los eventos observables. b. ¿Cuál es la probabilidad a priori de que un comprador sea pe4ueño? c. Responda sin hacer cálculos: si un miembro no compra libros, ¿cómo debería cambiar a la probabilidad de que el miembro sea un comprador P'!queño'? d. Utilice el teorema de Baycs para calcular esta probabilidad. e. Utilice un :irbol de probabilidad para calcular esta probabilidad.

Solución

a. Por lo que al club de libros concierne, hay tres posibles estodos naturales: A 1 =grande, A 2 .- mediano y A,= peque"º· Los e\entos observables son las compras en los tres primeros meses: B 1 - O, 8 2 = 1, 8 1 2 y 8 4 - 3+. b. Anll..~ de reunir cualquier información :icerca de la..'> compras en los ll\!S pnmeros meses, la probabilidad de ser un comprador pequeño 'I! e~pcc.:1fica como 0.50. c. No comprar ningún libro md1ca que lo más probable es que el miembro sea un comprador peque"º· Relativamente pocos compradores medianos o ~randcs no compran libros durante los primeros tres meses. La probabilidad a postcnori de "peque"o", dado que no hiL.o ninguna compra, debc!ria .,er !>uperior a 0.50. d. Se puede utilizar el teorem:i de Bayes para 1.:alcl1lar la probabilidad a posteriori de "peque"º· dado O" (es decir, que adquirió O libros). :i.

P( peque"º 1 O)

=

P(O 1 pequeil.o)P(pequei\o) P(O 1 peque"o)P(pequei'lo) + P(O 1 mediano)P(mediano) + P(O 1 grande)P(grande) (.60)(.50)

(.60)(.50) + (.15)(.30) + (.05)(.20)

= .845

36

113

Teorema de Bayes Probab1hdades a pnon y a pouenon

Grupo

Compras durante los primeros tres meses

o Grande

05

.010

.20

----------· o Mediano

15

045

.30

---------· -

o

.60

.300

.so

Peauel\o

----------FIGURA 3.6

Árbol de probabilidad para el ejemplo 3.32

e. En la figura .3.6 se muestra una p:ute de un árbol de probabilidad. Sólo se necesitan las rama<; correspondientes a O compras. P(pequeño 1 O) =

=

= EJEMPLO 3.33

P(pequeño y O)

P(O) .300

.300 + .045 + .010



.845

Los anuncios para la televisión varían en su efectividad. Una agencia de publicidad produjo un anuncio para TV de un producto )a conocido (neumáticos radiales para automóvil). El gerente de marca estima subjetivnmente que el anuncio tiene un 20% de posibilidades de ser efectivo (la participación en el mercado aumentar:í después de su exhibición), un 70% de posibilidades de ser adecuado (la participa· ción en el mercado no cambiará) y un 10% de posibilidades de ser desastroso (la panicipación en el mercado se reducirá). El anuncio se puede poner a prueba con un grupo de consumidores. Experiencias anteriores con tales grupos indican que son moderadamente fiables para predecir la efectividad. El director de la marca estima la verosimilitud de las reacciones positivas, neutrales y negativas dd grupo (dado el resultado eventual) como sigue: Res u hado del anuncio Efectivo Adecuado Desastroso

Reacción del grupo Positiva

Neutral

Negativa

.60

.30 .30

.10 .30

JO

.60

.40 .10

lo

::rv !;

-

_,ca

100·4

11 4

3

UN PRIMER VISTAZO A LA PROBABILIDAD

¿Cómo debería cambiar la probabilidad de que el anuncio será efectivo con una reacción neutral del grupo'? Verifique su respuesta con el teorema de Bayes.

Solución

'

El e-.ento observable "reacción neutral" ce; estadísticamente independiente de los estados naturales "resultado del anuncio''. La probabilidad (condicionada) de una reacción neutral es la misma para todos los resultados Por consiguiente, la probabilidad de un anuncio publicitario dectiYO no debería cambiar con una reacción neutral. Utili1ando el teorema de Bayes, P(efectivo 1neutral} =

P( neutral 1efectivo )I'(efectivo) P( neutral 1efectivo)P(efectivo) + P( neutral j adecuado )P(adccuado) +

Ji neutral 1desastroso )P( desastroso)

= (.20)(.30)

(.20)(.30)

= .20

+ (.70)(.30) + (.10)(.30)

La probabilidad a posteriori es la misma que la probabilidad a priori. como dehc cuando el evento observable es estadísticamente independiente del verdadero estado natural. • ~er

SECCIO N 3.6

EJERCICIOS El lo/e de los préstamos que hace cierta empresa financiera no ~n sal~dos (es decir, la cantidad presuda no le es dc\'uelta en su totalidad). La compa"ia efectua un estudio rutinario de las posibilidades cn:diticias de los solicitantes. Encuentra que el JO~o de los préstamos no saldados se hicieron ;a clientes el restante 30% a clientes de bajo riesgo. De los prestamos que fueron saldados. el 10% se hicieron a clientes de alto riesgo, el 40'/o a clientes de riesgo moderado y el 50°0 a clientes de bajo nesgo. a. Utilice un árbol de probabilidad para calcular la probabilidad de que un préstamo de alto riesgo no sea saldado. b. Utilice el teorema de Ba) es para calcular la misma probahilid.i<.I. 3 49 Remitase al ejercicio 3.48. Muestre que la probab1hdad a po'>tcrion
3.48

Sección 3.6

115

E¡ercicioi

estufas del tipo 1, el 3°/o de las del tipo 2. el 2% de las del lipo 3 y el 4% de las de otro tipo han ocasionado incendios. Si en una casa en panicular se presenta un incendio, ¡,cuál es la probabilidad de que haya una estufa de tipo 1 en esa casa? 3.52 Un crítico de libros de tc>.to tiene un curioso "historial".

Calif¡caciún del critico Libro

Bueno

Regular

Malo

5º1

2on ...

15·:~

40º ... 30º n

75? ... 45°.,

.

De gran éxito De éxito regular De poco éxito

SO" ..

20~ ..

lJn editor estima los siguientes porcentajes para los libros de gr.in éxito, éxito regular y poco éxito: Alrededor del 10% de los libros tiene gran éxito. el 500/o tienen un bito regular y el 40% restante tiene poco éxito. Si este crítico califica un lit'iro como bueno. calcule la probabilidad a postcrio· ri de que el libro tenga poco éxito. Compare el resultado con la probahilidad a priori de 0.40. 3.53 Las probabilidades condicionadas pueden ser útile~ par;i diagnosticar enfermedades. Suponga que el 25%, el 15% y el 12% de la pohlaeión padece tres enfermedades diferentes, estrechamente relacionadas entre sí (A 1• A:) A,). AcJem:is, supon¡a que con cada una de cst¡¡s cnfennedades se pueden asoc1:ir cualquiera de tres estados sintomáticos mutuamente excluyentes: B 1• B~ y o, 1 .i C'-JlCricncia mue~tra que la probabilidad /'(li A) de mo~trar un tipo de sintomJ\ cu.indo ~e padece la cnfenne· dad es la siguiente:

Estado sintomático B1

B,

J::nfermeúoú A1

A1 .011

/\2 .17

B~

IK

B,

06

.12 .07

61!

64

e.

(sin síntomas)

/\l .10 .14

011 .68

Encuentre la probabilidad de la enfermedad A2 dado 4u1: se presentan los ~intoma'I 8 1• li2 • U1 y Ji~, respectivamente. 3.54 Un corredor de bienes r:iíces e'itima subjetivamente las probabilidades p:i.ra el mcr· cado de casas en el próximo :illo como: ílojo, 0.4; normal. 0.5 y bueno, 0.1. Las venias al inicio de la prima,·era son un cierto indicador del mercado durante el resto del allo. En los al\os malos, la-; rc'irceti'as prob.ib1hdadé<; de tener \entac;, regulare-;> huc· ros al comienzo de la prima, ero ~ln O 5. O l) 0.2. En los allos nonnales, la<; prob:ab1h· dades 'iOn 0.2, 0.6} 0.2. en los allos buenos. las probahilidades son 0.1. OJ > O(, a. ¿Qu~ probabilid.idcs '>e deberían considerar como probabilidades a priori y cu(l les como verosimilitudes? b. Si las ventas al comien10 de la primavera son buenas. l:i probahilidnd de que el año sea ílojo. ¿se debe incrementar o disminuir? No realice ningún eáh;ulo r•mt responder a esLa pregunta; use el razon;imicnlO.

116

l

UN PRIMER VISTAZO A LA PROBABILIDAD

c. Utilice el teorcma de Baycs para calcular la probabilidad de un a1'o flojo. dado que las vcnt:is al comienzo de la prima\ era son buenas. ¿Cambió la probabilidad ' tal como u~ted lo predijo en el inciso (b)? 3.55 a. Construya un árbol de probahilidad utilizando la información del ejercicio 3 .54. Utillcelo para encontrar las probabilidades de anos flojos. normales y buenos, su· poniendo que las ventas al principio de la primavera han sido buenas. b. Si las \Cnt:is tempranas han sido buenas. ¿el resultado más probable es que el mercado sea bueno durante el 3.56 El contrato de los profesores en un distrito escolar sindicali7..ado e<;tá por ll~ar a su vencimiento. El superintendente estima que hay alrededor de un :?0% de posib1lida· des de que se inicie una huelga en septiembre. La experiencia en las negoci3cioncs con la escuela indica que la demanda salarial inicial está relacionada con hudgas eventuales. En las negociaciones que desembocan en una huelga. la demanda s;ila· ria! inicial es por "la homologación" (al nivel de los m(jores salario~ en el arca metropolitana) en un 70% de los casos; "alcanzar un mCJOr salarro" en el 20°1, de los cuos. y "recuperar el poder adquisitivo" en el 10% de los casos rest:intcs. De las negociaciones que no desembocan en una huelga, sólo el 401/o de las demandas ini· e1ales son por "homologación salarial", 50% son "tener una mejora salarial" y 10% son ·•recuperar el poder adquisitivo". a. S1 la demanda inicial en este distrito es por "homologación salarial". ;.deheria el su· pcrintendente incrementar o disminuir la probahilidad de una huelga? ¿Por qué'? b. Utilice el teorema de Bayes para calcular la r>robabilidad de que haya huelga, suponiendo que la demanda inicial es por "homologación salarral". c. Construya un árbol para encontrar esta probabilidad. 3.57 Suponga. en el ejercicio J.56, que la demanda contractual inicial es por "mantener el poder adquisitivo". La probabilidad inicial de 0.20 de que ha) a una huelga, ¿se dchc incrementar o disminuir? ¿Por qué?

ª"º?

Resumen

• Los conceptos de probabilidad que se analizan en este capítulo ~on base y fundamento de los métodos de predicción e inferencia que desarrollaremos m:is addan· te. La probabilidad es el lenguaje básico de lo incertidumbre y la aleatoriedad, conceplOl> clave en el pensamiento esuidíst1co 1 os enunc1ado5 de la probabilidad se pueden interpretar de distintas manera\. En la interpretación clásica se les considera como el cociente de los resultados favorables entre el total de resultados (cuondo se supone que todos los resultados son igualmente posibles). Otra interpretación es como frecuencias relativas en el límite y otra más como las expresiones subjetivas de una opinión personal. La interpretación clásico y la idea de tomar muestras aleatorias de uno población proporcionan un m:irco adecuado para entender las definiciones básicas y los principios de la probabilidad. Las mismas definiciones y leyes se pueden establecer de un modo general en términos de las nociones de la teoría de los conjuntos y de los conceptos de espacio muestra!, resultado. evento, unión, intersección y complemento. Las definiciones básicas incluyen eventos netamente exclusivos (la ocurrencio de uno de ellos hace que los otros sean impo), evi:ntos indep(ndit:ntes (la ocurrencia de uno de ellos no cambia la probahilida
117

Resumen

u otro evento, más fácil de calcular cuando los e\entos son mutuamente excluyentes), la ley de Jos complementos (para encontrar la probabilidad de que un evento no suceda} y Ja ley multiplicativa (para encontrar la probabilidad conjunta de que varios eventos sucedan). Hay algunos anificios muy útiles para entender el razonamiento en Jos problemas de probabilidad. Para clarificar una situación en que interviene la probabilidod se pueden desarrollar diagramas de Venn, Labias y árboles de probabilidad. Uno fónnula particular, el teorema de Ba) es, sintcti.t.a los cálculos que hay que realizar cuando se trata con probabilidades a priori, y la posibilidac.I (\erosimilitud) de los datos parJ detennmar probabilidades a postenori relativas a los estados naturales dada una infonnación adicional; esta fórmula simplifica el trabajo que también se puede hacer utilizando árboles de probabilidad.

TEMAS Y FÓRMULAS PRINCIPALES: Un primer vastazo a la probabilidad

1. Interpretaciones de la probabilidad N

a. Interpretación clásica: P(evento E)= :

b.' frecuencia relativa en el limite: ?(evento E)=

,,

nf.

c. Probabilidad subjetiva o personal 2. Conceptos básicos a. Experimento: cualquier situación que tiene más de un resultado posible b. Espacio muestra!, S: conjunto de todos los resultados posibles de un experimento c. Resultado: un elemento del espacio muestra~ d . Evento: una colección de resultados

3. Axiomas básicos de la probobilidad para cualquier evento A a. OS P(A) S 1 b. P(S) = 1 c. Si dos eventos A y B no tienen resultados en común, !'(.A o B)- P(A)

+ P(B). 4. Relaciones entre los eventos y las leyes de la probabilidad a. Complemento de un evento A: el conjunto de todos los resultados de S que no están en A b. Unión, A u 8: el conjunto de todos los resultados que pertenecen a A. a Boa ambos c . Intersección, Ali B: el conjunto de todos los resultados que pertenecen tanto a A como a B d. Eventos mutuamente excluyentes: A y B son mutuamente excluyentes si Ali B no tiene elementos. e. Ley aditiva: P(A u B) = P(A) + P{B) - P(A l'"'I O)

118

l

UN PRIMER VISTAZO A LA PROBABILIDAD

f. Ley del complemento: P(A) = 1

P( A)

g. Ley multiplicativo: P(A n B) = P(A)P(B I A) -

~. 5.

CAPÍTULO 3

/>(O)P(A 1 R)

Independencia estadística: A y B son independientes si P(A 1 B) = P(A). o en fonna equivalente, si P(B 1A) = P(B) o P(A r'I B) = P(,A) P(R).

Teort!ma

de Bayes:

,,¡ ) \A, 1B,



P(B, A, )P(A, )

= I r{B

A

)P(A )

EJERCICIOS

- ----

3.58 Con frecuencia l:is aerolíneas aceplan billetes (bolclos) compradM en otras lineas aéreas con el mismo destino. Suponga que cada año se rcal11a un recuento > se li· quidan dichos billetes, } que cada mes se realizan p;1gos aproximados sobre la base de una muestra aleatoria de lo-; billetes acumulados durante el mes. La aemlmea A toma una muestra mensual de 60 billetes, que pueden corresponder a las ;icrolinea~ B. C o D. Indique cómo scrfa un resull.ido típico de este experimento. ¿Se debe considerar que todos los resultados son igualmente probables? 3.59 Suponga que en l:i indu~lria ue los cereales envasados, el 290/e de los vicepresidentes poseen el lltulo de maestro en administración de emprec;ac;, el 24% de ellos han reali1.ado estudios en una escuela comercial y el 8% tiene ambas coc;as. Se \a a seleccionar un v1ceprcs1dcn1e al a1ar. a. Construya un d1agram:i. de Vcnn para esta situación b . ¿Cuál es la prob:i.b1hdau de que el vicepresidente tenga o hien el título de maestro en adm1n1stracmn de empres:is o haya realizado estudios en una escuela comercial (o ambas cosas)? c . ¿Cuál es la probabilidad de que el vicepresidente no teng3 ninguno de los títulos anteriores? 3.60 En el ejercicio J .59, ¿cuál es la probabilidad de que el viccpresideote tenga un titulo o el otro, pero no ambos? 3.61 Suponga que los registros de un fabricante de automóviles muestran que para cierto modelo de automóvil comp;icto, el 50% de los clientes lo piden con aire acondicionado, el 49% con dirección hidráulica y el 26% con ambas coc;as Se selecciona un pedido al a1ar. a. Trace un d1agram3 de Venn para esta situación. b. ¿Cuál es la prob3bilidau de que pidan :11rc acondic1onado. ~ no dirección hidr.íulica·? c. ¿Cuál es la probabilidad de que el cliente no solicite nmguna de estas opciones? J .62 Fn el ejercicio 3.61, suponga que el 68% de los clientes solidtan transmisii'>n auto· mática, el 19% transmisión automático y dirección hidráulica sin aire acondiciona· do, el 13% transmisión automática y aire acondicionado sin dirección hidráulica. y el 21 % las tres opciones. a. Construya un diagrama de Venn para esta situación. b. ¿Cuál es la probabilidad de que se solicite al menos una de las opciones? c. ¿Cuál es la probabilidad de que se solicite exactamente una de las opcionc:!-'? 3.63 Utilice los datos de los ejercicios 3.61 y 3.62 11ara encontrar P(transmisión automá· tica n aire acondicionado). ¿Son independientes estos eventos? J .64 Los defeosorcs de la teoría del recorrido aleatorio de los precios de las acciones sostienen que las predicciones sobre si una acción particular se comportara bien o mal en el mercado en el cono plazo (digamos, en un periodo de un mes) no son mejores

119

E¡erc1c1os

que las predicciones que se obtendrían al lanzar una moneda al :iire. Suponga que un analista de valores selecciona 8 acc;oncs que se piensa superarán al mcrcad<1 en el mes siguiente. a. Suponiendo que la teoría del recorrido aleatorio es válida, ¿cuál es la probabili· dad de que las ocho acciones sobrepasen al mercado? b. Exprese las hipótesis que hizo al contestar el inciso (a). 3.65 En relación con el ejercicio J.64, suponga que la teoría del recorrido aleatorio del precio de las acciones es válida y que 100 analistas distintos seleccionan ocho acciones por separado. a. ¿Cuál es la probabilidad de que ninguno de ellos escoja ocho ganadoras? b. ¿Cuál es la probabilidad de que al menos un analista seleccione ocho ganadoras? 3.66 Un \cndedor de libros de bolsillo estima las siguientes probabilidades para las ven· tas semanales de una aventura romántica de carácter histórico:

Ventas : Probabilidad:

3.67 3 .68

3.69

3 .70

3.71

10

20

30

40

.40

.JO

.20

.JO

Suponga que las vent.as de una semana a otra son independientes entre sí. a. Construya una t.abla de probabilidad para las probabilidades conjuntas de los distintos niveles de venta en las semanas 1 y 2. b. Encuentre la probabilidad de que el nivel de ventas medio por semana (en un periodo de dos semanas) sea de 25. ¿Cree usted que la hipótesis de independencia que se hizo en el ejercicio 3.66 es razonable? Un depanamento de compras encuentra que el 75% de sus pedidos especiales se reciben a tiempo. De los pedidos que se reciben a tiempo, el 80% cumple totalmente las especificaciones; de los pedidos que llegan con retraso, el 60% cumple con las especificaciones. a. Encuentre la probabilidad de que un pedido llegue a tiempo y cumpla con las especificaciones. b. Construya una tabla o un árbol de probabilidad para esta situación. c. Encuentre la probabilidad de que un pedido cumpla con las especificaciones. Para la situación descrita en el ejercicio 3.68, suponga que se han recibido cuatro pedidos. a. Encuentre la probabilidad de que los cuatro pedidos cumplan con las especi· licaciones. b. Se~ale qué hipótesis hizo usted al responder el inciso (a). Una compai'lfa de tarjetas de crédito encuentra que cada mes el SO% de quienes poseen la tarjeta cubren totalmente sus dcudJs. a . Suponga que se seleccionan dos usuarios al azar. ¿,Cuál es la probabilidad de que ambos paguen totalmente su deuda ese mes? (El número de personas que poseen la tarjda es tan grande que usted no necesita preocuparse de que la selección se haga Clln reemplazo o sin él } b. Suponga que se selecciona al a/.ar un usuario de la tarjeta. ¿,Cuál es la probabilidad de que dicha pero;ona pague totalmente su~ deudas en do<> meses consecutivos? c. ¿,En qué hipótesis se apoyó al responder a los incisos (a) y (b)? ¿,En algunos de los casos le parecen irra.wnables las hipótesis en las que se apoyó? Un examen más detallado de los registros de la compai'lía de tarjetas de crédito del ejercicio 3. 70 muestra que el 90% de los clientes que pagan totalmente una cuenta mensual también lo hacen al mes siguiente, y que sólo el 10% de los clientes que no pagan totalmente en un mes cubren totalmente su deuda al mes siguiente. a. Encuentre la probabilidad de que un cliente seleccionado al azar pague totalmente dos cuentas mensuales consecuthas.

120

l

3.72

3.73

3.74 3.75

J. 76

UN PRIMER VISTAZO A LA PROBABILIDAD

b. Encuentre la probabilidad de que un cliente ~leccionado al J1ar no p.1¡;ue 101almentc ninguna de las dos cuentas mensuales consecutivas. c. ¡.ncucntre la probabilidad de que un cliente seleccionado al azar pague tot:ilmente sólo wta de las dos cuent.as mensuales consecutivas. En el ejercicio 3.71, si un cliente seleccionado al azar paga totalmente la segunda cuenta mensual, ¿cuál es la probabilidad de que ese cliente también haya pagado totalmente la primera de las cuentas mensuales? Los registros de una tienda de ropa para c:iballeros muestran que el 40% de los trajes que venden requieren que se haga algún ajuste eo los sacos. 31 igual que en el 30% de los pantalones. En el 22% de las compras, tanto el saco como el pantalón requieren de :iju~le. a. Encuentre 13 probabilidad de que no se necesite hacer ningun ajuste .l un 1ra1e seleccionado al a.z:ir. Qui1_á usted quiera tr:v.ar un d13grama de \'enn b. Encuentre 13 probab1hdad de que se requier:i hacer algun aJusle 3) saco o al pantalón, pero no a ambos. En el ejercicio 3.73, ¿son independientes los C\'entos "ajustar el saco" y "ajustar el pantalón"? Suponga que en el ejercicio 3.73 un cliente compro dos trajes hechos por fahricantes distintos. a. ¿Cuál es la probabilidad de que los sacos de los dos trajes requieran ajuste? b. ¿Qut supuso usted al responder el inciso (a)? ¿Es razonable su hipótesis? Un proveedor de computadoras seleccionó un grupo de 10,000 discos e intentó darles formato para una máquina en particular. Encontró que h3bia 8847 discos en perfecto estado, 1128 discos que eran utili.t:ibles, pero tenían sectores dañ.tJo~ y 25 discos que no se podian utilizar. a. ¿Cl.aál es la probabilidad de que un disco elegido al az.ar no esté en perfecto estado? b. Si el disco no está en perfecto estado, ¿cuAI es la probabilidad de que no se pueda util it.:ir?

ESTUDIO DE CASO:

Principios de la probabilidad

El presidente de una empresa que hace estudios del mercado tiene un problema con los datos de una encuesta que realizó para un banco. La instjtución bancaria pretende cambiar los estados de cuenta de los clientes que tienen cuentas de crédito (especialmente tarjetas de crédito y préstamos de interés variable). El cambio afectaría principalmente a los clientes que tienen varias cuentas en el banco, de modo que la opinión de estas personas es la que más le interesa conocer. la institución bancaria proporcionó a la empresa algunas muestras aleatorias de tama~o casi igual tomadas de tres listas de clientes. la lista "rosa" (entregada en tarjetas color de rosa) fue una muestra tomada entre 190,878 clientes que aparentemente no tenían cuentas crediticias; la lista "amarilla", una mue~tra tomada entre 48,328 clientes que supuestamente sólo tenían un cuenta crediticia; y la lista "azul", una muestra tomada entre 21,539 clientes que en apariencia tenían dos o más cuentas crediticias. Los investigadores de mercado entrevistaron telefónicamente a todos los clientes. A cada uno de ellos se le pidió su opinión respecto de los cambios propuestos en los estados de cuenta y se les preguntó acerca del núme· ro de cuentas que tenían en el banco. La tabla de respuestas mostró qui: los di: la encuesta acerca del número de cuentas no concordaban con los del banco.

I ¡

121

Estudio d• a.so· Pronc1p1os de la probllb1hdad

Número n!portado ••

de t:"Ul'/l/,H

o Ro~a

Muestra

Amarilla Azul lota)

2+

Total

66 24 46

56 90

2!1 36

16

89

150 1.51

136

16:-?

153

451

t

'\__

150

Al cotejar la información con la del banco descubrieron que las listas tenian varios meses de antigüedad, de modo que en el lapso transcurrido algunos clientes cambiaron el número de cuentas que tenían en el banco. Los investigadores también hicieron un cuadro sinóptico con las opiniones expresadas acerca del procedimiento para elaborar los estados de cuenta. Muesa-a rosa

Número reportado de <.·uentas

o Opinión

1-J\illrahle Neutral Des fa\ ora ble

Mu~a-a

J1 :?O 15

2+

32 IK 6

ló !I 4

amarilla

Numero !l!portado de cuentas

o Opinión

2+

Favorable Neutral

9

JI

7

JO

9

Dcsfo,orable

!I

19

!I

19

Muestra azul --~

Número reportado de ,·ucnta.,

o fa,orable

Opinión

Neutral Dei.fa\ ora ble

18 21 7

2+ 6

JJ

5 5

25

w

El presidente de la empresa le ha pedido a usted que le ayude a estimar para cada grupo de clientes la proporción de per.;onas que tienen cada opinión. Por ejemplo, ¿qué proporción de aquéllos que tienen dos o m3s cuentas están n favor del cambio? El presidente entiende que los datos están sujetos a la variación de la

122

3

UN PRIMER VISTAZO A LA PROBABILIDAD

muestra, pero lo que él quiere es obtener una estimación lógica de estas proporciones. Además, está interesado en saber. en cada caso, en qué medida dependen estas estimaciones del número de clientes de los que se extrajo la lista. Todo el mundo desconfiaba de la precisión de estos números. Prepare un informe · la justificación de su respuesta será una parte importante del informe que la empresa entregará al banco, de modo que usted deberá explicar su razonamiento con la mayor claridad posible.

Ejercicios de repaso para los capítulos 2 y 3



Los siguientes ejercicios tienen como propósito ayudarle a examinar qué ha aprendido realmente de los temas tratados en estos capítulos. Los problemas no i.1gucn ningún orden particular, de modo que su ubicación no le dirá cómo puede rcsol\crlo~.

R1

Se prueban cuatro muestras de otros tantos proveedores de cerraduras para puertas de automóvil a fin de precisar el número de 'eccs que se r>ucdc uttlíLar Ja cerradu· ra antes de que falle. Los datos, en miles. son

Operaciones antes de rallar

Proveedor

A B

e

D

R2

RJ

R-l

24.7 26.8 15.3 31.4

198 25.7 35.7 21.2

22.0 39 7 18 2 24 5

37.6 25 8 15.3

no

21.R 280 21 o 26.7

:?5 4 524 199 610

:?O 6 2'll 4 42.6

22.6

48 7 31.1 21 1 23.5

23.9 26.0 18 9 250

22 6 2X .i 19.7

:!:!.6

a. Sintetice los datos de cada r>rovcedor por separado. Asegúrese de ;inalizar el promedio, la variabílidad y las asimetrías. h. ;,l>ebemos esperar que la regla empírica sea útíl par;i analizar estos d3tos? ¿Por qué si o por qué no? E.ncucntrc la medía ) la varianza de los datos combinados del ejercicio k 1. En el ejercicio R 1. ¿se puede detenninar la media directamente a panir de las medias por proveedor? ¿Se puede determinar la vanan1u dircctarnente a partir de las v;inanta'>'? En un supennercado, los precios marcados en los carteles que se colocan en la es· tantería no siempre corresponden al precio actual de Ja mercancía. pues pueden producirse errores al anotar los c;imbios de precios. Suponga que con el tiempo el 60% de los cambios de precios son aumentos y el 40% reducciones. Suponga también que el 93% de los incrementos de precio están marcados correctamente. al igual que el 980/o de las reducciones. Si un precio no está marcado correctamente, ¿cuál es la probabilidad de que el cambio sea una reducción? l In estudio de pequeflas sociedades de ahorro y r>ristamo aportó la siguiente información financiera :

Eíerc1c1os de repaso pNa los capítulos 2 y 3

123 Cuentas

incobrahks Depósitos Capital Reservas (porcentaje 12 (S000,000) ($000,000) ($000,000) de carterJ) 11

R5

R6 R7

·1ipo de banco l • Banco de Ahorros. Sociedad de ahorro y presumo A] Socie
3.68

1.14

0.97

1.62

11 .64 31.62 2.62 1.97 15.21

403 10.63 0.85 0.61

0.97 :? 00

:? 1 3

397

:?

0.75 1.11 1.77

)

3.88

0.65

3.28 9.2:? 0.53 () 79 'J.77 1.10

5.01

1.00

1.15

0.32

7.53 3 67

116

3.02 0.92

4.)l

0.89

S.21

1

2

3 :?

1.12

a. Calcule las medias y desviaciones estándar de todas l.ls -..ariables relevantes. b. ¿llay 'alores atípico~ paról alguna de las variables? lJn generador eléctrico que consume carbón, en ocasiones no recibe la carga ade· cuada, lo que pro, oca una combustión deficiente y una inaceptable emisión de ga· ses. A la larga, este problema ocurre el 1% del tiempo de operación del generador. Cada hora se toma una muestra del aire y se anali1.a. El ólnálisis no es un indicador perfecto de la emisión de gases. Una prueba de calihración indica que cuando el generador está emitiendo niveles aceptables de gases. el análisis señala emisiones excesivas el 4°~ de las veces; niveles en el límite, el 5% de ellas, y niveles admisibles, el 91% restante. En cambio, cuando el generador está emitiendo cantidades excesivas de gases, el análisis indica emisiones excesivas el 92% de las veces; en el fími· te, el 5% de ellas. y aceptables, el 3% restante. Si fa prueba indica emisiones excesivas, ¿cuál es la probabilidad de que el generador en realidad esté emitiendo cantidades inaceptables de gases? En el ejercicio R5, muestre que "emisiones en el limite según fa prueba" y "emisio· nes excesivas del generador" son eventos independientes. Una cadena de supermercados realiza un estudio de la efectividad de sus cupones para inducir compras adicionales en su depanamento de carnes. Los datos de un e s· tudio piloto preliminar fueron ----~

x, Centavos de descuento

X2 Precio normal (centavos)

29 19 50

379 109

25

199 209 379 109 229 199

59 100 20 40

79 50 29 30 50

399

2()9

109 379 229

X1 Tipo de carne

1 2 1

s

4 1

2 3

4 2 1 3

X~

Xs

Ventas normales

Ventas en fa semana de cupones

37.000

42.000

67,200

79.900 32,SOO 12.900 22.800 51.300 1!3. 100 13.200 36,000 20.100 83.900 40.900 14.100

21 .200 11,600 18.800 37,000

67.200 l:?.000 21.200 18,800 67,200 37.000 12,000

124

l

UN PRIMER VISTAZO A LA PROBABILIDAD

R8

R9 R 1O

R 11 R 12

R 13

a. Calcule la media y la desviación estándar de X 3• b. ¿Cuál es la interpretación de los números calculados en el inciso (a)? ijn el ejercicio R7, calcule en cada caso la media. mediana y desviación estándar de X4 , Xs e Y - Xs - X4• ¿Hay alguna relación simple entre las medi:is? ;,Se cumple el mismo tipo de relación para las medianas? ¿Y para las des\ iaciones estándar? Calcule el valor de asimetría de Y definida en el ejercicio R8. ¿Confirma este número su impresión "isual de la asimetria de Y? La experiencia indica que alrededor del 1O'Yo de los nuevos espectáculos para la televisión se sitúan durante el primer afto en el tercio superior de las preferenc1a.s del público, cerc:i del 40% lo hace en c:I tercio de en medio y alrededor del 50% en el tercio inferior. Entre los nuevos espectkulos que se ubican en el tercio superior, sólo el 2% de ellos son suspendidos. al igual que el 40% de lo<> e<>pcctáculos que se ubican en el tercio de en medio y el 85% de los que se ubican en el tercio inferior. a. l~ncucntre la probabilidad de que un nuevo espectáculo sea <>uspendido. ¿Cuál es la probabilidad de que no sea suspendido? b Colculc la probabilidad de que un espectáculo suspendido sea de los uhic:idos en el tercio inferior. En el ejercicio R 1O, ¿se supone que situación y suspensión son independientes? ¿Qu~ significaría "independencia" en este contexto? En una compa"'ía, los jefes clasi lican a los gerentes '>ubaltcrnos segun su rcndunien· to y capacidad directiva. Las evaluaciones correspondientes al rcml11n1cnto son 18% excelente, 71% satisfactorio y 11% insatisfactorio, mientras que las evaluaciones com:c;pondientes a la capacidad directiva son 24% clara, 40% posible )' 36% improbable. a. F.ncuentre la probabilidad de que a un gerente sub:1ltemo seleccionado al azar le hayan otorgado la calificación de "excelente" en la escala del rendimiento y la de "clara" en la escala de la capacidad directiva. b. ¿Qué hipótesis hit.o usted al responder al inciso (a)? ¿Son ra7onables sus hipóte~is? Si no lo son, ¿es más factible que la probabilidad que usted calculó sea muy alta o muy baja? Una muestra de los registros de empleados de una compa"'ía 1nd1ca la siguiente dis· tribución de las deducciones que se exigen en las formas W-4 para retención de impuestos. Deducciones: Frecuencia:

o 7 201 28

1 8 287 11

2

3

6

10 332

4 11 151

5

9 364

12 97

52

5

2

o

3

a. F.ncuentre la media del número de deducciones. b. Encuentre la desviación estándar. ¿llabrá mucha diferencia si los d:itos se consideran como una muestra en vez de una población? c. ¿Da buen resultado Ja regla empírica con los datos que se encuentran a una desviación estándar de Ja media? RI~ En el ejercicio RIJ se ha seleccionado al a1ar una form3 W-4. a. ¿Cuál es la probabilidad de que en ella se pida al menoi; una deducción? b. Si en la forma se pide al menos una deducción, ¿cuál es la probabilidad de que en ella se exijan como máximo tres? K15 Se han reunido datos acerca de las remuncrociones (s:ilario m:is bonos) de una muestra de gerentes subaltemos, tanto hombres como mujeres, en una compailía. Los datos (en miles de dólares por aoo) son

E1erc1cios de repaso para los capítulos 2 y )

llombres: Mujeres:

R 16 R 17

R 18

R 19

39.6 31.6 34.2 22.5

28 9 34.7 31.8 30.0

35.4 33.8 32.7

34.3

125

36 K 33 7 36 2 34.9 27.6 33.0 31.0 .n.s

35. 1 40.2 33.0

36.7 J6.5 31.5

38 4 37.4 29.8

35.7 35.2 31.1(

.U.I 36.<1 44 7

a. A. simple vista, (.dcberian ser similares las remuneraciones media y mediana de los hombres'? Calcülclas. b. Muestre que el grupo más pequel'lo tiene un rango más grande que el otro. Explique qué es lo que ocasiona este fenómeno. En el ejercicio R 15 construya diagramas de caja para ambos conjuntos de datos. In· cluya alguna manera de verificar valores atlpicos. Para la muestra combinada de los gerentes del ejercicio RI S, calcule la remuneración media y mediana. ¿Cómo se relacionan estos valores con las medias y medianas de los dos grupos por separado'? Los datos de un fabricante de automóviles indican que, de todos Jos coches reparados bajo garantía, el 57% necesita reparaciones en el motor, el 4 7% reparaciones en el interior y el 30% en Ja carrocería. También, el 23% necesita reparaciones tanto en el motor como en el interior; el 7%, tanto en el motor como en la carrocería. y el 13%, tanto en el interior como en la carrocería, mientras que el 5% requiere de los tres tipos de reparaciones. llay algunos automóviles que necesitan otro tipo de repar.icioncs. a. Encuentre la probabilidad de que un automóvil reparado bajo garantía requiera de reparaciones en el motor, pero no en el interior o en la carrocería. b. Encuentre la probabilidad de que un automóvil requiera exactamente uno de Jos tres tipos de reparaciones. c. ¿Son independientes los c,·cntos "reparaciones en el motor" y "reparaciones en el interior"? Un fabricante de cereales reúne muestras del tiempo que los trabajadores tardan en limpiar la linea de producción al cambiar de un cereal a otro. Los datos, expresados en horas de trabajo, son

1larina anterior

Mai1 Avena Trigo

R:?O

l:!.8 35 7 38 1

Tiempo

IOO 11.5 13.5 12.5 28 o 30.5 31 o

11.0 13.0 11.0 17.0 31.0 32.0 33.5

11.5 9.5 10.0 11.0 33.0 31.5 35.0

9.5 16.5 11.5 13.5 350 40 5 33.5

10.0 14.5 12.0 12.0 30.0 31.0 30.0

12 5 11.0 10.5 11 o 2K.5

no

36.5

8.5 10.5 11.0 13.5 27.5 30.5 39 5

9.0 10.0 16.5 15.0 26.5 33.0 29.0

100 11.0 13.0

105 15.0 190

32.0 28.S 30.5

240 47.5

a. Trace diagramas apropiados para los tres grupos de tiempos. ¿Cual es la distribución general de los datos? b. Calcule las medias y las medianas para los tres grupos de tiempos. <.Confirma Ja relación entre las medias y las medianas calcul
CAP Í T U L O

4

VARIABLES ALEATORIAS ' , Y DISTRIBUCION DE PROBABILIDAD ES

Las leyes e ideas de la probabilidad que desarrollamos en el capítulo 3 se 3plican a cualquier clase de experimento, produzca éste resul1.ados cualiLativos o cuantitativos. Nosotros utilizaremos estas ideas de Ja probabilidad básicamente con datos numéricos cuantitativos y consideraremos ideas como la de "promediar" que sólo se aplican a resultado!> cuantitati\ O!>. Para establecer una conexión entre los conceptos de la probabilidad)' las ideas de media} dcs\iación ec;tandar del capítulo 2, necesitamos algunos conceptos ad1c1onales de la probab1hdad. Entre éstos destac:m los de variable ale3toria (c;ccción 4.1) y distribución de probabilidades (secciones 4.2 y 4.3). Una vez conocidos estos conceptos podremos, en las subsiguientes secciones, relacionar ideas de la probabilidad tales como la de independencia con otras como las de media y desviación estándar. Por último, en un apéndice, dcriv3mos algunos resultados matemáticos de importancia.

4.1

'aria ble alealoria

VARIABLE ALEATORIA: IDEAS BÁSICAS

-----·

Muchas cuestiones de la probabilidad, de suma importancia para los gerentes, comprenden resultados numéricos aleatorios. Por ejemplo, el número de pasajeros que no hacen uso de una reservación en una línea aérea (pcn.onas que habiendo hecho la reservación no toman el vuelo) es de importancia critica al fijor las políticas de la empresa en esta materia. El número de pasajeros que no se presentan es aleatorio; varia, tanto de un vuelo a otro, como de un día a otro en el mismo vuelo. Ciertamente. el número de pasajeros 4ue no toman el vuelo es una variable numérica, y hablar del número medio de pasnjeros que no se presentaron tiene un sentido muy claro. El concepto de \anabh: aleatorm es la idea central para entender los resultados numéncos aleatorios Infonnalmente, una variable aleatoria es un resultado cuantitativo (numérico) de un experimento aleatorio. Por ejemplo, considere el experimento de seleccionar al

126

1.1

Variable ateatona

1de~

127

bhtcas

a1ar un gerente de nivel medio de una fábrica de automóviles. Defina la variable aleatoria Y como el número de o.ños de escolaridad que tiene el gerente. En primer lugar. Y es numérica; el resultado será un número como 12 o 16. no unn categoría como "escuela privada''. En segundo lugar. Y está sujeta a variación aleatoria. Si el experimento se repite con una nueva selección aleatoria, lo más probable es que el resultado cambie. Estas dos co.racteristicas (resultado numérico, sujeto al azar) son los ;c,pcctos clave para la definición de una variable aleatoria. Para especificar una variable aleatoria es necesario conocer sus valores posibles y MI!> probabilidades respcct1\as. Para el ejemplo de los años de escolaridad, los "ªlores posibles podrían ser O. 1, 2, ...• hasta algún número máximo. quizá 20. Las probabilidades se podrían obtener de los archivos Je la sección de personal de la compañía. Por ejemplo, si 284 de Jos 500 gerentes han tenninado exactamente 4 años de universidad (después de 4 años de educación secundaria). la probabilidad de que Y = 16 sería 284/500 "" 0.568. Las probabilidades para los otros valores se podría?' encontrar de manera semejante.

Variable aleatoria: de finición informal Una variable aleatoria es cualquier resultado de un experimento que está sujeto a variabilidad aleatoria. Se le determina al especificar sus valores posibles y la probabilidad asociada con cada uno de ellos. •

La probabilidad asociada a cada valor de una variable aleatoria se encuentra sumando las probabilidades de todos los resultado!> a los que se asigna este valor Si Y= número de cara:> en tres lanzamientos de una moneda halanceada, tenemos el siguiente espacio muestra!:

Resultado Probabilidad

Valor asignado por Y

HHH

HHT

HTH

THH

HIT

THT

rTH

TrT

1/ 8

1/8

1/8

1¡ 8

2

2

2

18 1

18 1

18 1

l, 8

3

o

Por ejemplo, P(Y

.

1

1

l

3

= 2) = P(H HT) + P(HTH ) + P(l H Hl = S+ g + S = 8

rara establecer un vínculo con los principios de la probabilidad del capítulo 3, necesitamos una definición más precisa del concepto de variabh: aleatoria. La definición se puede entender si se con~idera lo que hicimos en el ejemplo del lanz.amiento de la moneda en el párrafo anterior: hicimos una lista de todos los resultados en un espacio muestral. Después. la naturale1a de Ja variable aleatoria nos dio una regla par~ asignar un resultado numérico a cuda resultado. En seguida, podemos utilizar el espacio muestra! para especificar valores posibles y asignar probabilidades.

128

4

VAAIABLESALEATOIUAS Y DISTRIBUCIÓN DE PROBABILIDADES

Variable aleatoria: definición formal Dado up espacio muestra! S, una variable aleatoria es una regla (función) que asigna un 'alor numérico a cada res ultado de S.



En la práctica no es necesario seguir la definición formal con mucho apego. Cuando se fijan los valores y las probabilidades de una variahle aleotoría, implícitamente se define un espacio muestra!: los valores mismos. Por ejemplo, un espacio muestra! perfectamente 'álido pora el lonz.imiento de la moneda es S - {O. 1. 2, 3}, l.uponiendo las mismas probabilidades 118. 3/8, 3/8 y 118. No existe la necesidad lógica de hacer algo más que especificar los valores posibles y sus probabilidades. a menos que convenga primero hacer una lista de todos los resultados. Se acostumbra representar las variables aleatorias con letras mayúsculas del final del alfabeto. 01! este modo, podemos definir X - número de caras observadas en tres lanL.amientos de una moneda e Y~ número de individuos inscritos en la asociación de teatro, en una muestra aleatoria de 200 personas. Los valores posihles de una variable aleatoria se denotan usualmente con la letra minúscula com:spondiente; digamos que .t puede ser O, 1, 2 o 3 e y puede ser O. 1, 2, ... , 200. La sutil distinción entre Y, la variable aleatoria en sí, e y, uno de sus valores posibles, se hnce clara con la práctica.

EJEMPLO 4. 1

Suponga que se va a seleccionar una muestra aleatoria de dos perl.onas de una población muy grande formada por un 30% de individuos inscritos en la asociación de teatro y un 70% de no inscritos. a. Hagn uno lista de los resultados que integran el espacio muestra!. b. Asigne probabilidades. c. Defino la variable aleatoria cuantitativa Y como el número
Soluetón

a. Si S designa a un individuo inscrito y Na uno no inscrito, Jos resultados posibles paro las dos personas de la muestra son

S = ((S, S); (S, N); (N, S) y (N. N)} b. Del enunciodo del problema sabemos que P(S) = 0.3 y P(N) - 0.7. Bajo la h1¡x)tes11. de que los resultadoc; paro las dos personas de la muestra son independientes, tenemos lal. '>Íguientcs probabilidodes a1.ociadas a los cuatro resultados: P(S, S) = (.))l = P(S, N) = (.3)(.7) = P(N.S) = (.7)(.3) = P(N. NI= (.7) 2 =

.09 .2 1

.2 1

.49

1.00

4. 1

Vanable aleatona· ideas basteas

129

c. Si la variable aleatoria Y es el número de inscritos en una muestra de dos personas tomada de la población de interés, entonces los valores posibles para r son O, 1 y 2. Las probabilidades asociadas con estos valores pueden determinarse a partir de l:is probabilidades de los resultados que constituyen cada evento numérico.

Resultado

'ari
-t.2 tli">trihución d e probabilidades

Probabilidad

49

IN.NI (N.S) IS.NI

.21

(S.SI

.09

.21

,.

P(y)

o

49

:)

2

.42 .09



1lasta ahora sólo hemos considerado variables aleatorias di.,er ctas: sus posibles valores son distintos y separados, como Oo 1 o 2 o 3. En ocasiones, es más útil pensar que las variables aleatorias son continuas : sus valores posibles forman un intervalo (un continuo numérico). Por ejemplo, el rendimiento anual por cada dólar invertido en una acción ordinaria puede variar desde cero hasta un valor bastante grande. En la práctica, virtualmente todas las variables aleatorias adoptnn un conjunto discreto de valores; el rendimiento por cada dólar en una inversión de un millón de dólares en acciones ordinarias podría ser 1.06219423 o 1.06219424 o l .062 l 9.i25 o .... Ahora bien, cuando hay muchos valores posibles para una variable aleatoria, suele ser muy útil. desde un punto de vista matemático, tratarla como si fuese continua. De hecho, una de las especificaciones teóricas más imponantes de la probabilidad, la distribución normal con fonna de campana, en rigor sólo se aplica a variahles aleatorias continuas. En la sección 4.2 definimos pane del lenguaje y de la notación para las variables aleatorias discretas. En la sección 4.3, extendemos estas ideos a las variables aleatorias continuas.

DISTRIBUCIÓN DE PROBABILIDADES DE VARIABLES ALEATORIAS ~~~~~~~~~~~~~~~~~~~~~~~ DISCRETAS · 1 a tfotrihuei6n de probabilidades de una variable aleatoria discreta Y es una función P1l\•) que asigna una probabilidad a cada valor y de la variable aleatoria Y. La distribuciím de probabilidades de Y se puede c '< prcsar como una fórmula. una gráfica o una tabla. A continuación enumeramos las propiedades de la distribución de probabilidades de una variable aleatoria discreta.

Propiedades de la distribución de probabilidades de una variable aleatoria discreta Y 1. La probabilidad P y(y) asociada con cada valor de Y debe estar situada en el intervalo

130

~

VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE PROBABILIDADES

2. L!i suma de las probabilidades para todos los \atores de Y es igual a l. } Pr(}') - 1 l~l>

'

3. Como los distintos valores de Y son eventos mutuamente excluyentes, sus probabilidades son aditivas. Es decir.

PCY ==a o Y= b)

= Pr(a) + Pr(b)

Para la \'aria ble aleatoria Y= número de caras en tres lanzamientos de una moneda balanceada, podemos definir Py(y) con una tabla, como sigue: y

o

P,fy)

1/ 8

3/8

2

3

3/8

1/ 8

o rodemos usar la fórmula Pr(Y) -

.r'(/~ y)! G)

donde en general k! =k(k-1 )(k- 2) .. . ( 1) y, por convención, O! = 1 Sustituyendo y= O, 1, 2 y 3 en la fórmula obtendremos las mismas probabilidades que aparecen en la tabla anterior:

o

y

1

1

3. 2. 1 1

( 1)(3 . 2 . 1) 8

8

(J)U-li 8 = 8

3. 2. 1 Pr(J')

2

3

3

3·2·1 1

3

(2. 1)(1) 8 = 8

1

1

(3 . 2 . 1)(1) 8

3. 2. 1

8

3/8

1

1/8

o FIGURA4.I

.

y

2

Gráfica de Py (y) para el experimento de lanzar una moneda

3

'4 2

h~tograma

función de 1fütribución

D1nnb~IÓll de probab1hdades de vanables alea.ton;u dtscreta.1

.

~<

~~ •. " ,

'#

~31 . • •

En la figura 4.1 se muestra una gráfica de esta distribución de probabi\idades lla: ,, . mada histograma. La variable aleatoria discreta Y es el número de caras en tres lanzamientos de una moneda balanceada. lla> una función, llamada funci ón de distribución. que es particularmente apropiada para calcular probabilidades) CU)O campo de aplicación son los méto
·· · + P,(y)

Esto se puede ilustrar con el ejemplo del lanzamiento de la moneda previamente analizado: y

o

P,(y)

1/8 1/8

F,(y)

3/8 4/8

2

3

3/8 7/8

8/8

1/8

Como su nombre sugiere y estos datos ilustran. la función de di!.tribución en un valor particular y es la suma de todas las probabilidades para Y S y. Por ejemplo, F,(2)

= P( Y ~ 2) = 8-l + 8-3 + 83 =

F,(3)

= P(Y~ 3) = l

y

7

8

La función de distribución (abreviada fd) se ut1li7.a a menudo para construir tablas de probabilidad que eviLan al usuario de la tabla sumar muchos valores para encontrar una cierta probabilidad. Aclaremos estns ideas con un ejemplo. Suponga que un hospital tiene datos sobre el número de casos agudos de obstrucción coronaria Y que llegan al hospital en un día dado. La siguiente tabla compendia la fd: y

o

F,(y)

001

y F.(y)

2

3

4

.003

.006

.011

024

9

10

11

12

.5 10

.672

.782

.870

6

7

8

061

.139

.224

.336

13

14

15

16

17

.925

964

.988

.997

1()(Xl

Suponga que al comenzar un dia el hospital tiene disponibles 14 camas para el cuidado de enfennos coronarios. La probabilidad de que el número de casos nuevos Y sea menor o igual a 14 se puede leer directamente de la tnbla como 0.964. Encontrar la probabilidad de que Y sea mayor o igual que 15 es también bastante sencillo: P( r ~ 15) .,. 1 - P( Y s 14) = 1 - O. 964 = 0.036. Si la tabla se hubiese elaborado en ténnmos de probabilidades individuales P(y), habría sido necesario sumar muchas entradas para encontrar estas probabilidades. El uso general de las tablas para Ja fd es mu} fácil si usted traza un histograma. En la figura 4.2 se muestra uno de ellos para el ejemplo del cuidado de enfennos

132

4

VARIABLES ALEATORIAS Y OISTRJBUCION DE PROBABILIDADES

p f (y)

15

10

o FIGURA 4.2

1 2

a

4

s

6

1

e g 10 11 12 13 14 1s 16 11

Histograma para el e1emplo del cuidado de enfermos coronarios

coronarios; la probabilidad P y(v) de cada valor particular y está indicada por la altura del rectángulo que se halla por encama del valor y. Por ejemplo, suponga que queremos saber el valor de P(7 $Y$ 12). Buscamos la suma de las ár~as de los rectángulos por encima de y= 7, 8, 9, 1O, 11 y 12, la región sombreada en la figura 4.2. F 1{ 12) es el área de todos los rectángulos por encima de y= O, 1, ... , 12. Para encontrar P(7 ~ Y~ 12) debemos sustraer el área de los rectángulos por encima de y= O, 1, 2, 3. 4, 5 y 6, es decir, restar F t<6) de F r< 12): P(7 S: Y S: 12)

= Fr(12) -

fr(6) ,;,, .870 - .139

= .731

En general, siempre que usted quiera utili?.ar tablas para calcular probabilidades. es útil trazar un histograma.

EJEMPLO 4.2

Suponga que una compai'lía de cosméticos planea elaborar un nuevo perfume. El gerente de producto ha estimado las siguientes probabilidades subjetivas para las ventas del primer ai\o (denor.adas con X) en millones de botellas: X

0

F,r(X)

.05

.20

2

J

4

5

6

7

8

.40

60

.75

85

.90

.95

1.00

Encuentre las siguientes probabilidades, según lo establecido por el gerente de producto : v

a. P(X ~ 5) b. P(2 S: X S: 4)

c. P(X S:

1)



Secciones '4 1 y 4.2

Solucíón

133

E1erc1c1os

En la figura 4.3 se muestra un histograma para este ejemplo. Las áreas relevantes para cada problema están indicadas con a, by c. a. P(X

~

5)

=1-

P(X ~ 4)

= 1.00 -

.75

= .25

El área. total es l.00 (es decir, el área de todos los rectángulos). Debemos restar la.s áreas de los rectángulos desde el principio hasta x =4. b. Para obtener P(2 S X$ 4 ), sustraiga las áreas correspondientes ax = O, 1 de las áreas correspondientes ax = O. l, 2, 3 y 4;

P(2

~X~

4) = F.r(4) - F.r(I) = .75 - .20

= .55

c. Por definición, P(X S 1) = FJ..1) = 0.20; no es necesaria. ninguna sustracción. •

SECCIONES 4.1 Y 4.2 4.1

·\ 4.2

4.3 4.4

EJERCICIOS El departamento de personal de una compal'lia ha contratado a cinco hombres y tres mujeres para que vistten universidades y recluten estudiantes jóvenes. Cuando una universidad es muy grande, se envía un equipo de dos personas. Suponga que se seleccionan al azar dos de los ocho agentes. Sea Y= número de mujeres seleccionadas. a. Construya el espacio muestra!; llame a los agentes A, 8, ..., H. b. Encuentre el valor de Y para cada resultado en el espacio muestra!. En el ejercicio 4.1, encuentre P i{v) contando directamente. Construya un histograma. Encuentre la fd de Y en el ejercicio 4.1. Construya una gráfica de Fy(}') contra y. Una tienda de aparatos eléctricos tiene las siguientes probabilidades para Y= número de aparatos grandes que se venden en un cierto día: y: P,(y):

o .100

1 .150

2

3

.250

.140

5 .080

4 .090

6

7

.060

.050

.20

-

.15

b

b

b

,_

.10

.05

e

o FIGURA 4.3

e 2

3

Histograma para el ejemplo 4.2

4

a

a

a

a

5

6

7

e

8 040

9 .o25

10 .015

134

'4

4.5

VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE PROBA81LIDADES

a. Constru)a un histograma. b. l:.ncuentre P(Y S 2). c, Encuentre P( r ~ 7). d. Encuentre P( 1 ~ r $ 5). En el ejercicio 4.4. calcule la fd correspondiente a P y()•). Use esta fd para encontrar P(YS 2), P(Y ~7) y P(I ~Y!> 5).

4 .6

4.1

4.3

La demanda semanal X de copias de un procesador de textos en una tiend:i de software tiene la siguiente distribución de probabilidades· x:

o

PJ'(T):

.06

.14

2

3

4

.16

.14

.12

5 .10

6

1

11

9

08

.07

06

04

10 .oJ

a. ¡,Cuál es la prohabilidad de que en una ~mana particular se pidan 3 o mas copias del procesador? b. ¿Cuál es la probahilidad de que la solicitud sea por lo mMos de 2 pero no de más de 6 copias? c. La política de la compallía es tener 8 copias del programa al inicio de cada semana. ¿Cuál es la probabilidad de que, en una semana particular. la demand:i supere a la oferta? a. Encuentre la función de distribución (fd) F_r(x) para la distribución de probabili· dadcs que se muestra en el ejercicio 4.6. b. Utilice la fd para calcular de nue\O las prohahilidades que se piden en el ejercicio 4.6.

DISTRIBUCIÓN DE PROBABILIDADES DE VARIABLES ALEATORIAS CONTINUAS ( a. J)



En la sección 4.2 se hízo la distinción entre variables aleatoriilS discretas, que sólo pueden tomar valores distintos y separados, y variables aleatorias continuas. que pueden tomar (por razones prácticas) un rango completo de valores a lo largo de un intervalo. En esta sección desarrollamos los conceptos y la notación básica aplicables a las variables aleatorias continuas. Para dar un ejemplo, suponga que se va a elegir al a.lar un ciudadano de Jos Estados Unidos de acuerdo con su número de seguridad social de 9 dígitos. Defina Y= número de seguridad social selcccion:ido. En un sentido estricto, Y es una variahle aleatoria discreta que puede tomar uno entre mil millones de valores posibles, desde 000--00 0000 hasta 999 99-'1999. Como no nos entusiasma especificar mil millones de probabilidades distintas, por razone~ prácticas consideramos a Y como una variable aleatoria continua que puede tomar todos los valores posibles entre O y mil millones. Parece ra1onable suponer que las probabilidades de Y son uniforna•., ningún valor es más probable que otro. Suponga que construimos un histograma. Para comenzar, consideramos sólo el primer dígito del número de seguridad social seleccionado. Con base en la hipótesis de la probabilidad uniforme. el histograma deberá asignar probabilidades iguales a todos los rectángulos, como en Ja figura 4.4. Si hubiésemos considerado los primeros dos dígitos, tcndriamos un histograma con 100 rectángulos, como se indica en Ja figura 4 .5.

O.stnbua6n de Pf"Ob~b~1dade.s de van.tila aleatonu con(lnuu ( J.

4.3

J)

135

Py (y) 1

TO'

o FIGURA"4."4

2

3

4

5

6

7

8

9

Probabilidades untfonnes: Pnmer dígito

1 10(f

o' FIGURA 4.5

02 03 04 05 . . .

96 97 98 99

Probab11tdades uniformes. Primeros dos d1g1tos A medida que refinamos este proceso: considerando los primeros tres d1gitos, dcspu¿s los cuatro primeros,) así succsi\amcnte, obtcndn:mo~ rectángulo!> cada \C7 más delgados. Muy pronto (matemáticamente. en el limite) los rectángulos desapa· recen y se fonna una mancha continua.

EJEMPLO 4.3

Suponga que el gerente de personal de un supennercado mide el tiempo real Y de tra· bajo semanal de los empleados. Consuuya histogramas que indiquen la distribución de probabilidades de Y cuando las medidas se redondean a a. la hora más cercana; b. los 1O minutos más cercanos; c. el segundo más cercano.

Solución

a. Suponga una semana laboral nominal de .io horas, con tiempos extra práctica· mente nulos. El histograma correspondiente a la hora más cercana puede tener un as· pecto como el de la figura 4.6a. b. El histograma correspondiente a los 1O minutos más próximos puede tener el aspecto de la figura 4.6b. c. Por razones prácticas, el histograma correspondiente ni segundo más cercano tendría el aspecto de la figura 4.6c. •

136

4

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

Py (y)

y 36

37

38

39

40

41

42

43

44

45

46

47

(a)

Py (y)

(b)

Py (y)

y (e)

FIGURA 4.6

funci ón
Histogramas para el tiempo de trabajo semanal

En la sección 4.2 hicimos la presentación de los histogramas cuando se definió la función de distribución F (fd). El concepto de función de distribución se puede extender a variables aleatorias continuas. Para una variable aleatoria continua Y, la función de d istribución se define como antes: Fr( y) = P( Y :e; y)

Para cualquier ejemplo de variable aleatoria continua, es casi inevitable que la fd se defina con una fónnula. Por ejemplo, suponga que un programa de transmisión de archivos para la computadora envía las lineas de un programa a través de un dispositivo que presenta interferencias. Una variable importante es X - proporción de líne:is transmitidas correctamente. Suponga que, como modelo, se asume que la fd es

Fx(:c)

= 2tx 10 -

20x 21 ,

para O< x < 1

En este caso, la probabilidad de que la proporción de líneas correctamente transmitidas sea menor que 0.9 es

X.

/

o '}

FxC.9)

= 21(.9) 2º -

20(.9) 21

= .3647

Distribución de probabilidades de variables ale1noriu continuas ( iJ,

'4 3

J)

137

y la probabilidad de que la proporción sea mayor que 0.9 es 1 - Fx(.9)

=1-

.3647

= .6353

Además, la probabilidad de que la proporción de que X se encuentre entre 0.7 y 0.9 es Fx(.9) - Fx(.7)

= .3647 -

.0056 = .3591

Si recuerda los cálculos que hicimos para las variables aleatorias discretas, es posible que usted c~pcre que en el cálculo de P(O. 7 s; X S 0.9) sustraigamo!> F\{0.6) o tal vez F_~0.69) en vez de F_i,0.7). Pero la probabilidad de que la variable aleatoria continua X sea exactamente igual a O. 7000 ... es insignificante y, como una idealiz.ación matemática, podemos considerar que la probabilidad es cero. Así, en el caso continuo, podemos ignorar la probabilidad de que la variable aleatoria esté "justo en la frontera".

EJEMPLO 4.4

Suponga que el gerente del departamento de reservaciones de una linea aérea supone que el tiempo T (medido en minutos) entre dos llamadas telefónicas consecutivas al centro de reservaciones es una variable aleatoria continua con fü f'.,(t) - J - e-. 2 •,

para t ~ O

donde e = 2. 7183, la base de los logaritmos naturales Encuentre

a. P(T?: 5) b. P(2 ~ T~ 4) c. P(T ~ 1)

Solución

Las tres partes de este ejemplo parecen idénticas a las del ejemplo 4.2. No obstante, en virtud de que Tes continua, el procedimiento de solución es distinto al del ejemplo 4.2.

a. P(T ~ 5) = 1 - P(T < 5) Ahora bien, como Tes una variable aleatoria continua, P(T - 5.000000 ... ) se presu· pone igual a cero y P(T< 5) = P(T-5. 5). P(T ~

5)= 1- P(T$ 5)= 1- FT(5) = 1 - (1 - e- 2<5>) = .0000454 (Los valores de ti pueden calcularse con la mayoría de las calculadoras u obtenerse en tablas elaboradas para tal fin.) b. P(2 :s; T ~ 4 )

= P(T s:. 4) -

P(T < 2)

El evento T = 2.000 ... tiene probabilidad cero, de modo que P(2 :s;

T~

4)

= P(T ~ 4) - P(T ~ 2) = FT(4) - Fr(2) = (J _ e-21•1) _ (I _ e - 2121) = .0180

138

4

VARIABLES ALEATORIAS Y DISTRtBUCION DE PROBABILIDADES

c. P(T S 1) = F r(l ). por definición, = 1 - e- 2l•> = .865



~

La función de distribución F tiene el mismo significado para las\ ariables aleatorias continuas y discretas. Para cualquier variable aleatoria Y, F>(.r) = P( Y$ y). Para las variables aleatorias continuas hay otra función, la función de densidad, que es ampliamente utilizada. Para una variable aleatoria Y. la función de densidad se denota con f >ü ). Grosso modo es el análogo de la distribución de probabilidades !\~')definida para las' ariables aleatorias discretas, en el sentido de que mide cómo M! cncucnlra dispersa (distribuida) la probabilidad en el rango de valores posibles de la variable aleatoria. No obstante, para una variable aleatoria continua Y, la probabilidad de que r sea exactamente igual a un número particular es cero. La función de densidad no proporciona probabilidades directamente. En vez de ello. esta función define una curva lisa y la probabilidad se calcula como el área bajo la curva, utili1..ando el cálculo integral. Si se conocen tanto la fd, F>{l"), como la función de densidad />(.r), podemos calcular de dos manerai. la probabilidad de que Y se encuentre entre los números a y h. l'{tl $

Y S h) = Fr(h) - Fr(ut

o P(a S }' $ b)

=

f'

fr(y)dy

En el ejemplo en que X= proporción de líneas correctamente transmitidas. es posible demostrar que ÍA ('<)

= 21(20):< 19(1

o< X<

- .'<).

1

La proliabilidad de que X sea mayor que 0.9 puede calcul::irse integrando la función de densidad sobre la región 0.9 S .r S 1, pues X no puede ser ma)or que 1 P(.9 <X)=

=

J:

1

21(20)x "(1 - x)d.'<

L

21(20)(x

19

-

x 2º)dx

= (21x 20x )1.~ = 1 - .3647 = .6353 20

-

21

como ya habíamos encontrado.

EJEMPLO 4.5

Se puede demostrar que la función de densidad de la variable aleatoria T del ejemplo 4.4 es

f r(t)

- 2e

2

'.

t

~O

Calcule la probabilidad de que T se encuentre entre 2 y 4 utilizando esta función de densidad.

Solucion

Para resolver este problema. habremos de recurrir a un resultado del c::ílculo elemental que establece que la integral ind
'4 3

Oisrrit>uoón de pt'Obabdidadel de variables &lutonu cOl\tlnuu ( f/, J )

,

FIGURA 4.7

2

3

4

139

5

Área (probabilidad) encontrada en el ejemplo 4.5

P(2

~ T ~ 4) -=

f:

= -e- 2 '1~

2

2e- 'dt

= - .000335 -

(- .018316) ... 0180

como en el ejemplo 4.4. En la figura 4.7 se muestra el área calculada.



La función de densidad de probabilidadfrú') de una variable aleatoria continua Y se puede especificar directamente o derivarla de la fd, Fr(J•). En vista de que la operación de integración es la opuesta de Ja operación de diferenciación, se deduce que fr(Y)

d

= dy Fr(Y)

Por ejemplo, en un principio especificamos la fd de X= proporción de lineas transmitidas correctamente como

O<x
~(21x 2 º -

dx

20x 21 )

= 21(20)x 19 (1 -

= 21(20)x 19 -

21(20)x

20

x)

como hemos indicado previamente. El proceso de encontrar la función de densidad a partir de la fd se puede invertir. Al igual que en el caso discreto, donde fx(X) ""' ~ Px(x') "SJC

en el caso continuo

140

4

VARIABLES ALEATORIAS Y OISTRIBUCION DE PROBABILIDADES

J\I efectuar la integración. hay que tener la precaución de excluir aquellas regiones en donde la variable aleatoria no puede ocurrir y por consiguiente la función de densidad.ies igual a cero. Si por definición una variable aleatoria X es no negativa. la probabilidad de que sea menor que cero (es decir. J0 -f~x)dx), es cero.

EJEMPLO 4.6

Demuestre que la función de densidad que se dio en el ejemplo .i.s proporciona la fd del ejemplo 4.4.

Solucion

Observ:imos en primer lugar que T, al ser una medida del tiempo transcurrido, no puede ser negativa. Por consiguiente, la función de densidad de T debe ser cero para todos los valores t O. Por consiguiente, F7 (t)

f = =

'2e

ll"d.

t -

-e -21·1,0

=

-e - 21 - ( - 1)

0

l -

e-21

como se determinó en el ejemplo 4.4.



En términos generales, todo cálculo con una \ariable aleatoria discreta, que comprende una suma. tiene un cálculo análogo con una variable aleatoria continua, que comprende una integral. La dificultad técnica de realizar una sum:i o un:i inte· gral panicular no debería oscurecer el hecho de que las operaciones de suma e integración son una el análogo de la otra.

SECCIÓN 4.3

EJERCICIOS 4.8

Ciena sociedad de beneficencia est.á planeando una campai\a direcl:i por correo. Se considera que la fracción r de quienes no re$ponden es una variable ale:itoria continua con la sisuiente fd:

o !>; y s; 1

4.9

a. Calcule Ft{v) para distintos valores de y entre O y 1. Represente graficamente la función Ftü'). b. Utilice la grálic:i de F1~y) para calcular P( )'SO 8). /'(}'>O 6) > P(0.5 ~ r~ 0.9). llna compai\ia de procesamiento de datos tiene una macrocomputadora, a la cual se accede a través de un gran número de terminales remot:is. lln modelo razonable de probabilidad para el tiempo Y (en minutos) tr:inscurrido entre: cnvios sucesivos de los trabajos a la computadora supone que F,(y)

1-

,-.s,,

Os;y
:i. Calcule los .,.:ilores numéricos de Ft(>') para y 1.0, 2.0, ...• hasta que F ~y) exceda de 0.98 aproximadamente. Trace una gráfica de F 1ü•) con respecto a v b. Utilice la gr.ífica de F .,(r) para encontrar PO s O. 75). Pf. Y "2: 4 0) y P(2.0 ~ Y~ 3.S).

I 4 'I

J. o

Valor esperado. var1111za y desv1ac16n en6ndar o tip1a. vv1ables aleatornu discretas

14 1

4.1 O a. Demuestre que la función de dcnsid:id de Y en el ejercicio 4.8 es /,(y)= 20(y' - y 4 },

4.11

OSySI

b. Utilice esla densidad para calcular P(O.'.! s; Y$ O. 7). P( Y :S 0.6) y P( Y~ O. · ). c. Utilice la fd F.,.(y) para encontrar las probabilidades que se indican en el inciso (b). Un analista de valores sintetiza con la siguiente función de densidad continua algunas estimaciones de probabilidades subjetivas del beneficio por acción. después de impuestos. de una acción especifica:

a. Calcule ¡.¡,y) para varios valores de y (tales como O. 0.25. 0.50, ... ) y trace una gráfica de/1.(J•) con respecto ay. b. Encuentre P( Y~ 1.50). Pf. Y 2' 2.00) y P( l $ Y$ 2.50). c. Encuentre F 1(v) y represéntela gráficamente. 4. I'.! Una casa de corretaje tiene una macrocomputadora en la que proces:i todas sus transacciones. El tiempo de máquina sobrante se vende a otras compai\ios. Para determinar qué cantidad de tiempo se puede \<ender, la compañia estudió la distrihución de Y= tiempo de computadora (en minutos) necesario cada día para procesar sus propias transacciones. Una buena aproximación de l:i densidad de Y es /,(y)= .0009375[40 - .l(y - 100) 2 ] , = O. fuera de 80 < _.. < 120

para 80
Si la empresa guarda en reserva 11 S minutos cada di:i, ¿cuál es la probahilidad de que el tiempo real requerido llegue a ser mayor? 4.1 3 Calcule la fd Ft
f

4.4

para 1 < y <'X

/:;)Encuentre la probabilidad de que un articulo requiera entre 2 y 4 horasthombre para ser armado. ¿Qué importancia tiene el que las horas 2.00 y 4.00 se incluyan c t n el intervalo o se cxcluvan? o.yncucntrc la probabilidad de que un an1culo requiera entre 0.5 y 1.5 horas 1hombrc. (Piense antes de integrar.) 4.15 a. Encuentre la lo F 1.(y) correspondiente a la densidad del ejercicio 4.14. b. Encuentre el q9 percentil de los tiempos; es decir, resuelva = 0.99.

r»ü»

VALOR ESPERADO. VARIANZA Y DESVIACIÓN ESTÁNDAR O TÍPICA: VARIABLES ALEATORIAS DISCRETAS

.~-------

En las secciones 4.2 y 4.3 introdujimos el lenguaje de las variables aleatorias. distinguiendo las variables aleatorias continuas de las discretas. Ahora procedemos a caracteri1.nr Ja distribución de probabilidades de una variable aleatoria en términos

'

142

4

\alor l''ipcrado de una 'ariahle aleatoria di'icrcta

de su media (o valor esperado) y su varíanz.(v) <.:'>el promedio ponderado con las probabilidades de sus valores posibles. El ',1lnr e'>p1.•rado se denota con E(}') o µr-

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

de E(Y)

Definición

Para una variable aleatorin discreta Y con distribución de probabilidades P 1{y), el 'alor esperado de Yes E(Y)

= ~ yP,(y) teda.,

Para encontrar E( Y), tome cada valor posible de y, multiplique lo (péselo, pondérelo) por la probabilidad ~uc le corresponde P1~y) y sume los resultados.

EJEMPLO 4 . 7

Una cmprc'>a con-.1derados 1mersiones posibles Como apro"mac1on inicinl. asigna probabilidades (subjeti\ as) n cada uno de los siguientes eventos: ~rder un 20% por cada dólar imcrlldo, p
-.20

z:

- .20 .01

P¿(:):

1

- .10

o

+.10

.2

.4

.2

o

+.10

-. 10 ~

. 10

.50

+.20 .1 +.20 .35

Calcule los rendimientos esperndos por cadn dólnr invertido en cadn proyecto. ¿Cuál proyecto le parece a usted que rcprcsentn l::i inversión más atractiva?

Solución

El proyecto Y. de acuerdo con cualquier estándar razonable. parece meno-. atractivo. Resulta igualmente posible perder un 20% que ganarlo, o gan::ir un 10% que perderlo. El proyecto Z ofrece mayores posibilidndes de gnn:ir un 1O o un 20% y relat1vnmentc poca.e; de perder. Cálculos: y

P,(y)

yP,(y)

z

Pz(Z)

zP1 {z)

- .20 - .10

.1 .2

- .02 - .02

- .20

.01

- 002

-.10

04 . 10

o

35

+ 050 + 070

o

.4

+.10

.2

+ 20

.1

o

o

+.02 +.02

E(Y)

+.10 + .20

o

so

004

EIZI

.11.a

El rendimiento esperado de Y es (como hemos anticipado) menor que el rendimiento esperado de Z.



Valor npendo,vam11\u y desviXl6n estAndar o típoa: vanabln aleator1u discretas

'4 4

intcrprctacionc~

d e E(})

14)

El valor esperado (media) de una variable aleatoria }'se puede interpretar de distintas manera'>. Fn primer Jugar. es simplemente un promedio pondcrudo t·on probabilidades. unu cifra que resume y toma en Con: con probabilidad 12138 y nada con probabilidad 26/38. Si Y - ganancia tk una jugada, E( 3( 12/38) t 0(26/38)- 36/38, es decir, alrededor de 0.947. En un juego imparcial, el casino debería pedir al jugador qu.:: su apuesta fuese de 36138 dólares, es decir alrededor de 94 .7 centu\ os por jugad:i. (Los seguidores de la modalidad norteamericana del juego de la ruleta reconocerán la n:ituraleu del juego, el hecho de que la apuesla real es de un dólar y que el efecto en el límite de 2/38 incrementa el beneficio del casino.) Por último, el v:ilor esperado de r repre!ienla una generalización dd i.:oncepto de media de una población, µ. Si Y es una variable akatoria discreta correspondiente a un valor tomado al a¿ar en una población de valores discretos, entonces E( Y) =µ, la media poblacional.

n-

EJEMPLO 4 8

Suponga que una población consiste en los siguientes valores y frecuencias asociadas: Valor· Frecuencia·

1000

80

:?000 60

3000 40

4000 :!O

(N ... 2001

La media poblacional es 20-00. Sea Y un valor de Ja población ~eleccionado al azar. Encuentre P.-M y E(Y).

Solución

Los valores posibles y sus probabilidades son y:

P,(y).

1()()()

!10 200

.4

:?(X)(}

3000

60 200 = 3

40 :!00 • 2

4000 :!O :!00 • . 1

El valor esperado es

+ 2000(.3) + 3000(.2) + 4000()) 400 + 600 + 600 + 400 = 2000

E(Y) = 1000(.4)

-

E( Y) es exactamente igual a la media poblacional.



Hasta ahora hemos analtU1do las distintas interpretaciones asociadas con el valor esperado de una variable aleatoria discreta. Otra\ cnraclcri,tica\ igualmente 1mportunlc\ de una \aria ble alealoria tfücrcla ~o n Ja urianu )' la dC!I\ i:1ri(111 • Esta inlcrpttt.x ion ignora c:l factor riesgo.

144

4

'arian1a d e una 'ariahlc :ale:uoria
C\tandar, que miden la tJi'\pcr,ii>n de las prohahilidadc' o uriabilidatJ de una \itriahlc aleatoria. La varianza de una 'anahh.· ah:aloria), \'M( ~).e' el promedio pondorado con probabilidades de las dl!sviaeiones cuadráticas con respecto a la media (valor esperado).

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

Definición de Var(Y) y

ay

Si Y es una variable aleatoria discreta

a: = Var(

Y)

= L (y -µ,) 2P,(y).

donde

µ1

= f( Y)

toda)"

La desviación estándar de Y, denotada conº»·· es (al igual que las otras desviaciones estándar) la raíz cuadrada positiva de la varianza ~

rsy

"Var( Y)

Para calcular Var( Y}, tome cada valor J' sustraiga el valor esperado µ r =E( Y), eleve al cuadrado el resultado, multiplique por P¡(v) y ~ume .

EJEMPLO 4 .9 SoluCIÓn

En el ejemplo 4.7, encuentre la varianza y la dcsviaci<~n c~tándar de Y y Z. En dicho ejemplo tenemos que µr= E(Y) =O y µL- E(Z) = 0.11'1. Un par de tablas nos muestran los c:llculos requeridos.

(y - µ,)lP,()')

y

P,(y)

(y - Jlr)

-.20 -.10

.1

.2

-.20 -.IO

.04 .01

.4

o

o

o

.2

. IO .20

.01 04

002 004

o

10 20

.)

(y -

µ,)'

roa 00::?

a:• 012

ªr _.

:

P¿(z)

(z - µz)

lz - µz) 2

-.20 -. 10

.01 04 .10

-.314

098596 045796 012996 000196 007396

o .10 20

.50 .35

.21 4 -.1 14

-.014 086

JM = .110



µ,¡lpz(:}

00098596 00183184 00129960 000091\00 002581160

ai



006110400

Oz "' 082

""

Valol" etperado,vananza y desv1<1c1ón esdndar o típtc;a: vanable5 aleaconu discretas

145

La distribución de r tiene una mayor variabilidad. El grueso de la distribución de Z se concentra en los valores O. 1O y 0.20, mientras que las probabilidadi:s de Y están de algún modo dispersas entre todos los valores posibles. Con frecuencia se toma a la varianza del rendimiento como una medida del riesgo, siendo éste mayor cuanto mayor es la varianza. En este ejemplo, la inversión Z tiene un rendimiento más alto y un riesgo menor. • El cálculo de la varianza puede ser engorroso, ya que comprende una multitud de númi:ros con varios dígitos, como en el caso de Var(Zl en el ejemplo 4.9. Hay una fórmula abreviada para el cálculo de la varianza que puede ser de utilidad.

Método abreviado para calcular Var(Y) Si Yes una \ariahlc alcaloria di!>crcta . Var(Y)

=[

y 2Pr(Y) -

µ:.

donde µy = E( Y)

lodo y

Podemos elevar al cuadrado los valores originales, ponderar con l\O') y sumar. Al final de dicha operación sustraemos el cuadrado de la media (valor esperado) para obtener la varianza.

EJEMPLO 4.1 O Solución

Use la tOrmula abreviada para repetir el cálculo de las varian7.as del ejemplo 4 .9. Para Y el cálculo es el mismo, pues µy= E( Y) = O. No tiene ninguna importancia si sustrae~os O o 0 2• Para Z. conµ/. - E(Z) = 0.114,

:

Pz(z)

-.20 -.10

.01 04 . 10 .50 .35

o .JO .20

:l

z 2Pz(Z)

,(,}.1

0004

.01

(X)(}.i

o

o

.01 .04

0050 0140

.0198

De modo que Var(Z) = .O 198 - (.114)2 = .00680-t. como en el ejemplo 4.9.



La desigualdad de Chebyshev y la regla empírica, introducidas en el cap:tulo 2 para muestras y poblaciones. también se aplican a las variables aleatorias .



La desigualdad de C hebyshev y la regla empírica para variables aleato rias Si una variable aleatoria Y tiene una media y una varianza finitas, P(Y esté a menos de cO'y de su mediaµ,.) ~I

l/c 2

146

4

VARIABLES ALEATORIAS Y DISTRIBUCION OE PROBABILIDADES

S1 Y tiene más o menos un histograma con forma de campana. ~ P( Y esté a menos de a,. de su media µy) = .68, y P( Y esté a menos de dos veces ay de su media µy) "' .9S



Para la variable aleatoria Y de los ejemplos 4.7 y 4.9, E( Y) = O y ay =- 0.1 1O. Las verdaderas probabilidades son P(Yestéamenosdeaydcsumedia) = P(-.110.$ Y~ . 110) • PCY = -.10) + P(Y = 0) +PO' = .10)

y

= .80

P(Yesté a menos de dos \'eces C1y de su media)= P( .220 :!> Y 5 .220) = I .00 La desigualdad de Chebyshev indica que estas probabilidades deben ser al meno~ 1 - 1/( 1)1 '"' O y l 1/(2)1 = 0.75. respectivamente. Como de costumbre. las desigualdades son ciertas con un margen mu) grande. En este caso la aproximación que nos da la regla empírica es muy mediocre. en parte porque Y toma un número muy pcquei\o de valores. Si la empresa hubiese estimado probabilidades subjetivas para los rendimiento<; de, digamos, O 25, O.::!O, -0.15, ... , +0.1 S, +0.20, +0.25, lo más prohabk e<; que la regla empírica hub1c~e ~ido una mejor aproximación, aunque la distribución no tenga una forma de campana A~i como la media de una \ariablc aleatoria es una generaliLación de la idea de la media poblac1onal. de igual modo la urianza d e una 'ariahlc ¡ilcatoria res una generalitación d~ la urianza poblacional S1 Yes una variable aleatoria discreta que corrc<;pondc a un 'alor .:,dcccionado al azar de una población, a~= a~.

4.5

VALOR ESPERADO, VARIANZA Y DESVIACIÓN ESTÁNDAR: VARIABLES AL~TORIAS CONTINUAS (

f)

llerno5 definido el \alor esperado, la \arianza y la desviación estándar para variables aleatorias discretas. Las dcfinicioncc, matem:iticas de !>U"> contrapanes continuas comprenden necesariamente los conceptos del cálculo. La definición
Valor esperado para una variable aleato ria continua

Tome cada valor y, multiplique (pondere) por Ja función de dcnsid:id /.,.(y), e integre (en vez de sumar). Las cuestiones técnicas no deberían oscurecer el hecho de

4S

Valor csperado,vwianza y desviac16n esúndar: vr1ables aleatori• contmuat ( /)

147

que E( Y) es un promedio ponderado d e probabilidades, con las mismas interpreta· ciones de promedio en el límite} justo valor de una apuesta.

EJEMPLO 4 . 11

Encuentre E(1). donde Tes el 1icmpo entre llamadas del ejemplo 4.4 y f .,(t) = le-21, 12 O. ¿Cuál es la interpretación de e~te valor?

Solución

Implícitamente, f ¡{t) - O para /
Jo

re- <1 dt = l

1

e

De lo anterior se sigue que

J_"'~ tfrhl de

Et T)

= 2

(pues /.,<1)

=

Iz.

re

2'dt

O para t < O y /.,(t)

le-~')

2(.:._) =1 2 2 2

Como Tes el tiempo que transcurre entre dos llamadas consecutivas, E( T) - 112 significa que, en el límite, M! recibe una llamada telefónica cada medio minuto. • La definición y la fónnul:i abreviada para Var( Y) sólo se dieron para vnriables aleatorias discretas. Cuando se trata con variables aleatorias continuas utilizamos la función de densidad en vez de la distribución de probabilidades discreta y la integración en vez de la suma.



Definición de Var(Y) . para variables aleatorias continuas S i Y es una variahlr ;ilcatoria conlinua

y una fórmula abreviada es

148

4

EJEMPLO 4.1 2 Solución

VARIABLES ALEATORIAS Y OISTRIBUCION OE PROBABILIOAOES

Encuentre Var(n donde Tes la variable definida en los ejemplos 4.4 y 4.11. Se sabe que / 0 t 2 e •' dt =2 / c 1 •

"

lltilice la fürmula abreviada y observe que se puede integrar de O a para f < O. En el ejemplo 4.11 encontramos que µr -- E(1) - 1/2.

t.

Var(T)

t 2fr(t)dt -

4

11

-

::::

puesf¡{I) =O

µ}

= 2f.., t 2 r - 2'dt 4

oo,

1

1

2

4

4

• SECCIONES 4.4 Y 4.5 4 16

EJE RCICIOS En una fabrica de pinturas se h3 pedido al laboratorio de investigación de nuc\ os productos que el3bore una pinlura modificada para automóviles. El direclor del lahoratorio estim3 las siguienles probabilidades p3ra el tiempo que requiere la investigación (en meses):

y: Py()•) :

2 20

3

4

30

.15

5 .10

6 OH

1

K

9

10

.06

04

.03

.02

11 .01

12 .01

a. Construya un histograma. b. C:;ilcule el 'alor e~pcrado de Y. c . Marque E(>) en el histograma. ¿Cómo afecla la form;i del histograma a E()")? 4.17 Remítase al ejercicio 4. 16. ;i. Calcule la des\ iación estánd3r de Y. Use la definición b. lJc;e el mttodo abre .. iado para c3Jcul;ir CJ,4. 18 Remrtase al ejercicio 4.16. ¿Cuál es la probabilid;id real de que }' difiera de Jl 1 en menos de una desviación estándar? ¿Por qué difiere esta probabilidad de la estimación que no-; d3 la regla empírica? 4 . 19 l na ~icdad de inversiones está tratando de decidir cuál de dos edilicios de apartamentos comprar. cada uno con un valor de $200,000 dólares. Un asesor estima 13s sii;urentcs prohahilid:ides par3 el rendimiento neto en 5 ar'ios (en m1lec; de dólares): Rendimiento: - 50 l'robahilidad del edilicio 1: .o:! Probabrlid¡¡d del edilicio 2: . 15

O .03 . 10

50 .20 10

IOO

150

50 . 10

.20 .30

200 .03 .20

250 .02 05

Calcule el rendimiento neto esperado para el edilicio 1 y para el edilicio 2. b. Calcule las varí;in1Ds respectivas y las desviaciones ec;t~ndar. 4.20 Remítase al ejercicio 4.19. a. ¿F.s alguna de las inversiones mejor que la otm en términos tanto de rcnd11niento neto esperado como de riesgo? :l.

Secciones 4.4 y '4.5

-1 .21

h. Si usted tuviese un excedente de 200.000 dólares para invertir, ¿que inversión preferiría? En el ejercicio -1.6 consideramos la distribución de probabilidades

o .06

f

. 14

f

2

3

4

.16

.14

.12

5 .10

7 .01

8

06

9 04

IO ()~

a. Encuentre la media de X. b. Utilice 13 delinición para calcular Ja varianza de X. c. Utilice el método abreviado y vuelva a calcular la varianza de X. -1.22 En el ejercicio 4.21. cakule la probabilidad de que X se encuentre a menos de dos desviaciones estándar de su media. ¿,Cómo se compara esta probabilidad con los va~res teóricos que nos dan la regla empfrica >- la desigualdad de Chcbyshev':' 0 - n el ejercicio 4.14 definimos fr(J) = 3}'

f

149

E1erc1c1os

4.

para l
a. Calcule 13 media. ¿,Cuál es la interpretación del numero calculado? b. Calcule la varian1:a y la dcs,·iación estándar. El método abreviado quizá resulte más simple. 4 .24 a. En el ejercicio 4.23, calcule los valores de Ja densidad p:ira y= 1.0, l .S, 2.0, 2.S y 3.0. Represente gráficamente la densidad b. ¿Debería trabajar bien la regla empírica para esta densidad? Encuentre la probabilidad de que r se encuentre a menos de una des\ 1ación estándar de su media. Recuerde que r no puede ser menor que 1. 4.::! S Las especilicaciones de una línea de montaje exigen que ciertas varillas de mc:tal utili1.adas en ella tengan un diámetro de l O cm. Se insr>eccionan las varillas, y las que tienen un diámetro menor que 9.90 cm o mayor que 10.1 O cm se descartan. Una medición cuidadosa indica que la densidad de .l' - el diámetro de una varilla seleccionada al azar (después de ser inspeccionada) es /,(y)

IOOtr - 9.9) = 100(10.I - )')

4.::?6

4 .27

si 9.9 < >' < 10 si IO < )' < I0. 1

La densidad es O para los demás valores de .1'. a. ¿A qué dehe ser igual el valor esperado de Y? b. Encuentre la desviación estándar de Y. lln fabricante de controladoras de disco somete cada unidad a una prueha muy rigurosa. De las controladoras recién ensambladas, e l 84% pasa la prueba sin ninguna modificación. Las que fallan en la prueba inicial son reclaboradas: de estas, el 75% r>asa una segunda prueba. Aquellas controladoras que fallan en la segunda prueba se rehacen por segunda ocasión y se vuel\en a probar; 9~o de ellas pasan la prueba y el resto se desarman. Defina )'como el número de veces que debe reprocesarse una controladora seleccionada al azar. a . Esr>ecifique los posibles valores de y. b. Calcule Ja distribución de probabilidad de Y. Quiiá un pequeño árbol de probabilidad sea de utilidad. a. En el ejercicio 4.26, encuentre el valor esperado de Y ¿Cómo se interpreta este numero? b. Encuentre la varianza y la desviación estándar de l'.

150

-4

VARIABLES ALEATOl\JAS Y DISTIU8UCION DE Pll.OBABIUDAOES

4.'.!8

4.'.!9

4.30 4.31

/

4.32

El fabricante del ejercicio 4.26 podría re<>rganiiar sus recursos de modo que el 9'.!º~ de las controladoras pasasen la primera prueba sin tener que ser reelahoradac; Sin .tmbargo, de a4uellas rech;vadas en Ja primera prueh:i. st'>lo d <10° o la pasaría dcsrués de rehacerlas una vez. De aquellas controladoras que follac;en después de ser rcelaboradas una ver.. sólo el 80% pasaría la prueha después de ser reproce~adas una segunda vez (y el resto serian desmontadas). a. ¡,Cómo alteran estos cambios la distribución de probabilidades del ejercicio 4.26? b . .,Cómo cambia la probabilidad de que una máquina seoi desmontada'.' c. i.lncrcmcnl4ln estos cambios el valor esperado de Y que se encontró en el c.1crcicio 4 '.!7. o lo reducen'! Vuelva a calcular el valor esperado para verificar su respuesta. Una compal\ía que vende articulos de oficina detenta el JOºó del mercado de ahastt:ci micnto de oficinas de gobierno suburbana.e;. Esu participación en el mercado ha sido bastante estable y no hay ninguna ra7Ón para pensar que h.ibrj de cambiar La comp:i· ilía tiene tres importantes licit.iciones en puena, preparadas de acuerdo con su procedimiento estándar. Sea r el nümcro de alertas de la eompa"ía que sun aceptadas. a Encuentre la distribución de probabilidad de Y. b. ¿Qué h1pótes1s hizo usted al responder al inciso (a)? ¿Es alguna de ellas clara· mente irrazonahle? En el ejercicio 4.29, encuentre el valor esperado y la \arian/a de Y. Si la compailia del ejercicio 4.'.!9 pierde en l:i primera liciL'.!.ción. se puede SU!'<mcr que esto es sella) de que un competidor está reduciendo sus precios y que lo más pruh:ible es que también pierda las otras ofertas. Análogamente. si la compa1'ía ganil en la primera licit;:ición, esto seria una sc"al de que los competidores ec;t:in tr:>tando de mejorar sus márgenes de ganancia y que lo mác; probable es que tambicn gane lm; otros concursos. Si los argumentos son correctos ~ ambos c:isos balancean al JOº o la participación de la compal\fa en el mercado, ¡,se incrcment.in o reducen el valor esrcrado y la varianz.a de Y comparados con los valores calculados en el ejercicio 4 ..lO'! Una compailia se dedica a rcnO\ ar edificios históricos cnnvirtiéndolos en apartamentos de lujo. La compañía invita a inversionistas particul:ires a que comprc:n acciones de un edificio particular; los accionistas pueden revender sus acciones a la compaMa después de dos años. El precio de una acción al lcrmino de do~ a11os depende de di\crsos factores, destacando entre ellos el monto de las t:is:i~ de interés y l:i demanda de apartamentos. La compal\ia estima que fa distribución de probabilidades de X. el rendimiento neto por acción después de dos años. es

a . Encuentre la probabilidad de que un accionista cerminc por perder dinero. es decir, que el rendimiento neto sea ncgati\O. l'or el cálculo difcrcnc1al e inlegral, sabemos que una antidcrivada de f,(x) es

b. l loy en día. un in\ crsiomsta podría adquirir un pagaré dd tesoro que le daria un rend1m1ento neto de 0.176 al término de dos años Si la in\ crsion en los .ipartamentos ha de ser atractiva. la probabilidad de alcan1:1r un rendimiento ma) or que 0. 176 deber:i ser grande. Con la distrihución de rrobabilidadcs e st imada. ¿lo es realmente?

/

4.33 a. Encuentre el valor esperado de X en el ejercicio 4.32. ¿Cu:il es el s ignilicado económico de este

número~

La parte motcm:it1ca puede simpli licarse si usted

'I

1

' considera Y - X+ J ~ recuerda que la integral de: OJ tntinllo de ,>t.'

<•

e~ k'

I St

e'·•': f..J

"alor c~pc:r.i.do de X se puede detcm1inar a partir del de Y. b. Encuentre la \arian1..a de X en el ejercicio 4.32. Quizá usted quiera trabajar con y X+ l. c. Suponga que un inversionista tiene otra inversión, digamos W, que tiene un valor esperado (en el mismo periodo de tiempo) de 0.24 y una variani'a de O 30. ¿Según su npinión. que in\ersión es más probable que escoja el inversionista'!

4.6

d b tribución de probabilidad e\

conjuntu

EJEMPLO 4. 13

DISTRIBUCIÓ N DE PROBABILIDADES CO NJU N TA E INDEPENDEN CIA ESTADÍSTICA



En las s1:cciones 4.2 y 4.3 desarrollamos el lenguaje básico para tratar con una variable aleatoria. En esta sección extendemos dicho lenguajt! para tratar con distribuciont!S de probabilidades conjuntas de dos variables aleatorias X t! Y. Ddinimos todos los conceptos en términos dt! dos variables aleatorias discretas. Quicnes teng:m conocimientos de cálculo deberían ser capaces dt! deducir los análogos para vari<1bles aleatorias continuas. Cuando 1ra1amos con dos variables aleatorias X e Y, es conveniente trabajar con probabilidades conjuntas. En el capitulo 3 la p ro hi& hilid ad conjunta de los eventos A y B era la probabilidad dt! la mtcrsccc1on />(A /J). Sc.i A el evento X - x y 13 el c\ento Y"'" y. Defina la distribución de probab ilida d c!I conjunta Pn ( \, 1 ). como una función que proporciona la prohahilldn
P..,(x, }') =

+

J)(y

84

+ 2)



.~

= º· l. 2; }' = º· l. 2. )

Calcule una tabla numérica dt! probabilidades conjuntas.

Solución

Simplemente sustituya los valores deseados x e y para obtener las probabilidades conjuntas: Pn(O, )) - P(X= O e Y = 3) = (0 1 1)(3 + 2)184 = 5/84, y asi sucesivamente. A continuación mostramos una tabla de la distribución de probabilidades conjuntas PS)(:c, y): y

o o

2 84

3 84

4 84

6 84 9 84

6 84

2

3

4 84 8 84 12 84

5 ll4 10 84 IS 84

·¿

152

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

'4

prob:t bilidadcs marginales

Toda vez que se especifica una distribución de probabilidades conjunta se pueden calcular las probabilidades m:.trginalco¡ haciendo una suma. l:.n el capitulo 3 cutindo tratamos con probabilidades conjuntas como P(A r'I B), P(/\ r. B ). etc., el término probabilidad margmal se refería a la probabilidad de un evento aislado, corno P(A). Las probabilidades marginales las calculábamos con la ley aditiva. Como esta sección sólo difiere del capítulo 3 en la notación. aquí se pueden utiliwr los mismos principios.

EJEMP LO 4. 14

Encuentrl.! la distribución de probabilidades marginal de X y la distribución de probabilidades marginal de Y en el ejemplo 4.13.

Solución

Sume a lo largo de las lilas para obtener las probabilidades de X. y a lo largo de las columnas para obtener las probabilidades de Y. y

o

o

2/84

1

4184

3/84 6/84

2

6184

9 84

2 4/84 8/ 84 12/84

Pr< y)

12 84

18 84

24 84

X

)

5¡84 10 84

15 84 30 84

Px(X)

14/84 28 184 42 84

Esta idea se puede expresar con una fónnula. Para encontrar la probabilidad

P_/..x), sume las probabilidades conjuntas para ese valor de x y para cada valor posible de y:

=

Px(x)

L Pxr(x. }')

lod•

~

En este ejemplo,

P(X

= 1) = L

Pxr(l.y)

= Pxr(l,0) + P.rr(l , I) + PxrO. 2) + Pxr(I. 3) 4

6

8

10

28

= 84 + 84 + 84 + 84 = 84 De la misma manera, las probabilidades marginales de Y se pueden calcular como sigue P1 ( y)

=L

Pxr(x, }')

IOda r

En este ejemplo. P(Y

= 1) = L

Pxr(x, I)

coda r

- PxrCO. 1)

J

6

+ Pn( l. 1) + Pxr(2, 1) 9

18

= 84 + 84 + 84 = 84


153

01stnbuc1on de probab1hdade5 coníunta e 1ndependenc1<1 esudí5t1ca

La idea consiste simplemente en tr:msportar el principio de adición.*



Podemos extender la notación básica de l::i probabilidad a las probabilidades condicionadas. Así como definimos la probabilidad condicionada de B dado A como P(BIA) =

distribución coudídonad:t

P~" B) P(A)

Podcmo~ definir la dhtribución condicio11ada de

Y dado que X - x como

Prr.r(Ylx)

Así, para cualquier valor de Y P(X P(Y""' YIX = x) =

=X ri

P(X

Y= y)

= .x)

Pxr(x,y)

=--P,r(x)

La necesidad de esta notación surge de la idea de independencia. Recuerde que teníamos dos definiciones equivalentes de independencia para Jos eventos A y

B: P(B 1A) = P(B} P(A ri B)

1.kliniciun es cc¡uivalcnks de i11dependcncia est:I dística

= P(A)J>(B)

También para las variables aleatorias X e }'tenemos dos definiciones equivalentes tic independencia c~ tildís tica : Pn.r(yf .x) = lj(y). para toda.r. y toda y Pxr(x, y) 1>.r(x) P1 ( y). para toda x y toda y

=

Por comodidad. en este libro utilizamos generalmente la segunda fonna de la definición de independencia.

EJEMPLO

4.1 S

Solución

En Jos ejemplos 4.13 y 4. J4, demuestre que X e Y son independientes. En el ejemplo 4. 14 calcuiamos P.\~:r:) y P .).y). Cuando multiplicamos los valores apropiados de P.\~x) y Pt(l·), obtenemos la siguiente tabla: y JC

o 1

2

o

2

3

( 12/ 84J(14/84) ( 12/ 84)(28 184) ( 12/ 84 )(42/84)

( 18/ 84)( 14/ 84) ( 18 / 841(28/ 841 ( l 8 / 84)(42/ 84)

(24/ 84)( 14/ 84) (24/ 84)(28/ 84) (24/ 84 )(42/ 84)

(30/ 84)( 14/ 84) 130/ 84)(28/ 84) (30/ 84)(42/ 84)

12/84

18/ 84

24/ 84

30/84

14/ 84 28/ 84 42/ 84

• Ahora podemos ellplicar por qué utilizamos la notación aparentemente redundante PJ..x), Py(JI). Si sólo cscribíéKmos .P(x) o .P(v), no sabrfamo$$i P( 1) significa P(X; 1); PJ..1) o P( Y"' 1) - P,( 1).

154

'4

VARIABLES ALEATORIAS Y OISTRIBUCION DE PROBABILIDADES

Dcspués de reducir las fracciones en esta tabla. encontramos que cada valor en ella es igual al valor de Pn{x, y) del ejemplo 4. 13. Por lo tanto, l\""x. y)= ,~' )/> 1{yl par.s totb :e e y; es decir, X e Y son independientes. •

r

l:.n la forma matemática de esta P n{r, 1·) particular !>e hace valer la hipótesis de independencia. En la práctica, a menudo suponemos que X e Y son indcpendien· les; una vc1. c~pccificados l\{l) y P,.(y). Tal hipótesis nos permite calcular />.11~x. _\')como el producto !\{.\ J/'¡(r). El ejemplo 4.1 J es una situación en la cual la hipótesis de independencia parece raLonable. El número de casos de coronaria~ que llegan a la sala de emergencias no tiene ninguna relevancia para predecir el número de casos de traumas En la sección 3.6 discutimos cómo las prohabilidades a priori de \arios esta· dos naturales se pueden modificar con las probab1l1Jades de e' entos observables utiliz.:indo el teorema de B:t)es. Algunas \Cccs los estados naturales y los eventos observables son de naturale1.a numérica, de modo que las ideas de promedio y 'ariahilidad tienen sentido. En tales casos, es útil escribir t:l teorcma de Uayes en la notación e en experiencias pasadas y en las tendencias recientes de la industria de Jos lihros de bolsillo, el agente considera que la c:inudad podría ser de S 100,000, S 150,000, $200,000 o S::!5U.OOO, con probabilidades respectivas de 0.4, 0.3, 0.2 y 0.1. armximadamente El agente se mantiene mfonnado de las comprns de una cadena de librcrias cuyo gerente de adquisiciones suele predecir con mucha certe/..a los éxitos comerciales. Las compras de la cadena de librerías son compras de 10.000, 20,000 o 30,000 ejemplares; el agente piensa que las probabilidades de cada una de estas compras. dado el eventual precio por los derechos, de~rian ser más o meno~ las siguientes: Cantidad pcdid:i SI00.000 SI S0.000 S200.000 S250.000

Numi:m tle

ttjemplarr:.~

10.001 .60

e omprados

20.000

J0,000

.30

. 10

.so

.30

20

JO 20

.fü

.30 40

AO

Con base en estas probabilidades a priori , el valor esperado del precio por derechos de edición es S100,000(0.4) + $ 150,000(0.3) • $200,000(0.2) -+ $250,000(0.1) S 150,000. Suponga ahora que la cadena de librerías pide 30,000 copias; esta nota de optimismo lleva al agente a revisar las probabilidades a priori. De acuerdo con el teorema de Baycs (o, lo que es lo mismo, con el cálculo de un á~bol de probabilidad)

PISIOO.OOO JO.OOO)

= POO.OOOISIOO.OOO)P{SJ00,0001 P( 30,000 1 S 100.000J PIS 100,000J

+ P00.0001S150.000JPIS 150,0001 P00.0001 S200.000)P(S200.000J

+ P(J0.000 1S250,000)P(S250.000l

Sección

46

15 5

E1ercicios

(.10)(.4)

=-(.10)(.4) ------------+ (.20)(.3) + (.30)(.2) + (.40)(.1) = .20 Cálculos similares nos muestran que P(S 150,000130,000) =OJO, ~$200 ,000 l 30,000) = 0.30y?($250,000 130,000) - 0.20. Utilizando estas probabilidades a postcriori, el \ alor esperado del precio es ahora $100,000(0.20) ~ S 150.000(0.30) 1 $200,000(0.30) ' $250,000(0.20) = S 175,000. Como consecuencia de una orden de compra tan optimista, el valor esperado de los derechos se ha incrementado.

Teorema de Bayes con variables aleatorias Para variables aleatorias discretas E> e Y,

I

Pe1r(8 y) =

P8 (0)Py18(}' 10)

I., P9(8)Pr1eh' l 8)

Para variables aleatorias continuas 0 e Y

Éste es sólo un cambio de notación, que no incluye ninguna idea nueva.

SECCIÓN 4.6

EJERCICIOS 4.34

Un fabricante de televisores tiene a Ja venta dos modelos. Defina X ventas del modelo A el próximo mes de diciembre (en cientos de miles) e } \entas del modelo B el próximo mes de diciembre. El consejo de administración estima que las probabilidades conjuntas P_n(x, y) son

y

"1 2 3 4

.030 055 .070 .075

2

3

4

.055 .070

.070 .075 .070 .055

.075 .070

.075 .070

a. l~ncuentrc P(X = 1, Y = 2). b. Encuentre P(X $ 2, Y$ 2). c. Encuentre P_,{x) y P>{y). d. ¿Son independientes X e Y?

.oss .030

156

'4

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

4.35

Demuestre que la fórmula ~,(x.y)

= .005( -

10 + IOX'

+

10}' - x 2

y2

-

2.'()'l

proporciona la tabla de probabilidades conjuntas del ejercicio 4.34. ¿ Puede usted encontrar una fónnula para P t< t}? 4.36 El propietario de una tienda de e<¡uipos de sonido establece las siguientes prob:ihilidadcs para X • número de ampli licadorc~ vendidos en un día entre semana e Y - número de micrófonos \endido'> durante el mismo di:i;

o

1

2

3

4

P,.(.x):

. 10

40

.25

.20

05

y: P,(y):

o

1

4

.)0

2 .25

3

.10

.20

.10

x:

5 .05

a. Suponiendo que X e Y son independientes, calcule la di stribución de probabilidades conjunta P.nf.x, y). b. Verifique sus cálculos encontr.i.ndo las probabilidades marginales /'_./..x) y Pi-{y). 4.3 7 ¿Cree usted que la independencia es una hipótesis ro1.onable en el ejercicio 4.36? 4.38 Una compaf\la de asesorías en administración de empresas presenta s us ofertas por escrito y oralmente en un esfuerzo para obtener nuevos contratos. Los archivos indican que la distribución de probabilidades P.n<x. y ) de X - número de ofertas orale5 en una semana e Y - número de ofertas por escrito en esa semana, está dada por la siguiente tabla:

y X

o 2

3 4

4.39

4 40

4.7

o 010 020 .030 040 050

2

3

4

oso

.015 030

030

075

045

060

040

045

100

060

045

045 030

030 020

075

030

015

010

a. Encuentre la probabilidad de que en una -;emana ha) a dos ofertas orales y dos por escrito b. Encuentre la probabilidad de que haya exactamente dos ofertas orales y dos o me· nos ofertas por escrito. c. Encuentre la probabilidad de que haya dos o menos ofertas orales y dos o menos ofertas por escrito en una 5emana a. Utilice la distribución de probabilidades del ejercicio 4.38 para calcular las distribuciones marginales de X e Y. b. Asumiendo estas probabilidades. ¿son X e Y indcpend1cnte<;·l Con la distribución de probabilidades del CJerc1c1n 4 18. calcule la distribución condicionada de )'para cada \.alor posible de X ¿Indican estas distribuciones condicio· nadas que X e r son independiente~"

COVARIANZA Y CORRELACIÓN DE VARIABLES ALEATORIAS



En la sección 4.6 definimos la independencia de dos variables aleatorias. Ahora consideramos los distintos tipos de dependencia que puede haber entre ellas y cómo

IS7

4.7 Covar1an1a y correlac16n de vanables aleaconas

se pueden medir. Son muchos los tipos de dependencia que pueden tener dos variables y muchas las medidas que podemos uti lizar. Dos de ellas, la covarianza y la correlación. son particularmente imponantes porque están íntimamente relacionadas con el concepto de \ arianza de una variable aleatoria. Comenzamos nuevamente con un ejemplo. Un funcionario del departamento de crédito de un banco supone las siguientes probabilidades conjuntas (subjetivas) del rendimiento porcentual (interés más cambio en el mercado de valores) de dos bonos públicos. Llamemos X e Y a los rendimientos.

y X

8

9

10

11

12

P.r(:t)

8

.oJ .04

.04

.03 .06

.00

.00 .00

.20

.08 .04

12

.02 00 .00

Pr(Y)

09

9 10

11

.06

.20

04 .08

.00

.06 .03

06 04

.02 .04 03

.22

.38

.22

.09

.JO .40

.20 . JO

Entrl.? X e Y existe una relación. Por ejemplo, dado x = 8, las probabilidades de Y están concentradas en los valores más pequellos y - 8, 9 y 1O. En el otro extremo, dado .~ - 12, las probabilidades de Y se concentran en los valores y= 1O, 11 y 12. En general, Jos resultados X e Y tienden a variar juntos.

Covarianza de variables aleatorias X e Y Si X e Yson variables aleatorias discretas con valores esperados µ x yµ» respectivamente y con una distribución de probabilidades conjunta P.n~x.y}, la cova ria nza de X e Y. denotada por Cov(X. Y), se define como Cov(X, Y)=

L L,(x s

µx)(y - µy)Pxr(x.y)

,

Una fonna abreviada de calcular la covarian1.a es

EJEMPLO 4. 16

Calcule Cov(X, Y) para la distribución conjunta de los rendimil!ntos
Solución

Obtenemos los valores esperados basándonos en las probabilidades marginales, Pix)yP.,.{y):

158

'4

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

Jlx

= 8(.10) + 9{.20) + 10(.40) + 11(.20) + 12(.10) = 10

µy¡= 8(.09)

+ 9(.22) +

10(.38)

+ 11(.22) +

12(.09)- 10

La covarianza se puede calcular utilizando la definición como sigue:

L L(X - µ.r)(y -

Cov(X, Y)

s

= (8 +

µy)P.rr(x,y)

'

+ (8

10)(9 10)(.04) (8 - 10)(10 - 10)(.03) + ... + (12 - 10)( 12 - 10)(.03) 10)(8 - 10)(.03)

= .60 De la misma manera, ut1lii:mdo el método abreviado, Cov(X. Y) -

L L xyP.rr(X,}') -

,.. 8(8)(.03)

= 100.60 -

+

µxµr

8(9)(.04)

+ 8(10)(.03) + ... +

12(12)(.03) - 10110)

100 = .60



La covarianza de dos variables aleatorias está íntimamente relacionada con su correlación.

Correlación de variables aleatorias X e Y Si X e r son variables aleatorias discretas con desviaciones estándar ~r y <1r respectivamente, su correlación Pxr se define como Pxr

=

Cov(X, Y) <1.r<1r

Se sigue que Cov(X, Y)

Pu<1x<1r

EJEMPLO 4.17

Encuentre P.n para la distríbución del rendimiento de los bonos analizada anteriormente.

Soluc1on

En el ejemplo 4.16 encontramos que Cov(X, }') = 0.60. Para obtener P.n· necesitamos las desviaciones estándar de X e Y, que podemos calcular a partir de las respectivas probabilidades marginales. Para calcular cr; y se pueden utilizar las fónnulas de las secciones 4.4 y 4.5.

a;

ni -

Ls ."< 1Px(x) - µi

= 8 2 (.10) + 9 2 (.20) + 10 2 (.40) + 11 2 ( 20) + = 101.20 100 = 1.20

12 1 (.10)-(10) 2

159

Covar1anu y correlac16n de variables aleatorias

'4. 7

por consiguiente, O:r = JI.20

= 1.095.

Análogamente, tenemos que t1:

=

L >·lP,(y) -

µ: - 1.16

)'

y

t1y

= J1.i6 -

1.077.

Sustituyendo en la fórmula correspondiente a P.rr· tenemos 4ue Cov(X. Y) Prr -

.60 :=

t1rt1t

__ .



509

l.095(1.077)

La covorianza y la correlación son ideas ~umamente importantes en la admi· nistración de carteras de inversiones. La correlación entre X e Y varia entre 1.00 y+ 1.00. Un valor de - 1.00 o + 1.00 indica que en la población la predicción es perfectamente lineal. mientras que un valor de cero indica que las variables no se pueden predecir linealmente. Si las variables aleatorias X e Y son independientes. no debería haber ningu· na relación (lineal o de cualquier otro tipo) entre ellas. Es r.u.onablc suponer <.¡uc cuando X e Y son independientes Co\ (X. Y) =- Oy, por consiguiente. Pw también ~s cero. Este hecho puede comprobarse utilizando el método abreviado para la covarianza. Recuerde que las variables aleatorias discretas X e Y son independientes si P.n~"<. y) - Pi:r)P r(v) para todos los x e y posibles. En ese caso. Cov(X. Y)= [xyPrr(x,y) - 11 1 µr

"·'

= ~ xPx(x{~ }'Py(y)]- µ 1Jlr = µzµr EJEMPLO 4. 18

- µxµr

=O

Una cadena de montaje se puede detener temporalmente para ajustar partes que se encuentran mal alineadas o corregir soldaduras defectuos:is. Los archivos de producción indican la siguiente distribución de probabilidades conjunta para X - número de su.spcnsiones en un turno de producción por mal nline:imiento e Y= número de suspensiones en un tumo de producción por soldaduras defectuosas. y X

o

o

.03

J 2

04 03 .JO

2

3

4

06 08 06

.12

.06 08

.30 40

06

.03 04 .03

.20

40

20

.JO

100

.16 .12

.30

160

1

VARIABLES ALEATORIAS Y D ISTRIBUCION DE PROBABILIDADES

a. ¿A qué debería ser igual Cov(X, Y) para esw probabilidades? b1 Compruebe su respuesta numéricamente.

Solución

En cada caso PH~x. y)= Px(x)Py(y). Por ejemplo, P.n.<.2, 4) = 0.03 y Pxf,.2)x P>.(.4) (0.30)(0.10) 0.03. Por consiguienle, X e Y son independientes y Cov(X, Y) debería St!r igual a cero. b. Al examinar las probabilidades m3rginalcs de X e Y se puede ver que µ:r = 1 y µy = 2. [)e este modo Cov(X, Y) = (0(0)(.03) + 0(1)(.06) - 2.00 - 2

+ · .. + 2(4)(.03)]

- 1(2)

=o



como debería ser.

Matcmátic3mcnte es posible que Cov(X, Y) - O aun cuando X e Y sean depen· dientes. La razón es que la covarianza y la correlación miden sólo el grado de la re· lación lineal. Si hay una relación entre X e Y pero ésta no se puede 3proximar por medio de una relación lineal, la covarianza puede ser cero.

EJEMPLO 4. 19

Suponga que en el ejemplo 4.18 se obtuvieron l:is siguientes prob3bilidades:

y X

o

o

.01 .03

2

2

3

4

.18 .14 08

.OS .10 .05

.01 .03

.06

.05 .10 .05

.06

.30 40 '.30

.10

20

.40

.20

. 10

100

¿Son independientes X e

Soluc i ón

r

¿Cuál es Ja covarianza entre X e

No, hay una dependencia. Por ejemplo, Px.J.O, 0) (0. 10)(0.30) =0.03. No obstante, Cov(X, Y)ª (0(0)(.01)

r

= 0.01,

+ 0(1)(.05) + ... + 2(4)(.06)]

pero PiO)P>.(0)

=

1(2)

= 2.00- 2 - o (Observe que µ;r = 1 y µy= 2, como en el ejemplo 4 .18.) La razón por la cual Ja e~ \arianza es cero e<\ que no hay una reJ3ción lineal. Observe que cuando y no es ni O ni 4, el \alor más probable de\ es 2; cuando' C!. 1 o 3, el valor más probable de x es J; y cuando 1• es 2, el valor más probable de t e!. 2. El cálculo de los valores espera· dos de X para cada \ alor de y también nos muestra un patrón que no es lineal. •

t:~j ,. 'I 8

4.8

'¡u 161

Func.6n de deiuid:ad conjunta i-a variables alutoriu continuas ( f)

FUNCIÓN DE DENSIDAD CONJUNTA PARA VARIABLES ALEATORIAS CONTINUAS ( f)

_.

Nuestro análisis de las probabilidades conjuntas se ha centrado, hasta ahora, en las variables aleatorias discretas. Dirigimos ahora nuestra atención a las variables aleatorias continuas. Como veremos. cada sumatoria discreta tiene un análogo directo en una integral continua. En esta sección requeriremos de algunos detalles técnicos del cálculo, pero ello no deberá oscurecer la reiterada analogía entre la integración continua y las sumatorias discretas. C uando analizamos variables aleatorias discretas, consideramos probabilidades conjuntas P.n{x, y) =P(X - x e Y= y). Las probabilidades para X o Y o ambas se obtuvieron efectuando las sumas adecuadas. Al cambiar a variables aleatorias continuas X e Y, consideramos funcioni:s de densidad conjunta fn.(x, y). En el caso continuo, las probabilidades se obtienen integrando (en vez de sumando) la función de densidad conjunta. Por ejemplo. suponga que un estudio del tiempo T que se requiere para preparar una licitación en días/hombre y el monto U de Ja oferta en millones de dólares indica que la función de densidad conjunta es

f ru(t, u)

.02(t

+ l }(t + 2)( 1O -

t)u'( 1 - u),

o< l <

10. o < u < l

En este caso, tanto T como U son variables aleatorias continuas, como lo indica el hecho de que varían sobre intervalos continuos O < t < 1O y O < u < 1. Así, en v~z de encontrar la probabilidad de que T y U se encuentren en un intervalo específico sumando probabilidades, ésta se encuentra integrando densidades.

Probabilidades conjuntas para variables aleatorias continuas Si X e Y son variables a leatorias continuas con una función de densidad conjunta h_..j.,x, y), entonces las probabilidades para X e Y se calculan como sigue:

(Parn quienes no están familiariudos con las integrales dobles: La integral se calcula "de adentro hacia afuera". Asi, en la expresión anterior, la primera integral se efectúa con respecto a y, considerando ax como una constante. Una vez que se ha integrado con respecto a la variable y, se lleva a cabo la integral con respecto a la variable .\.) Por ejemplo, suponga que las variables aleatorias continuas X e Y tienen den· sidad conjunta

fxr(x,y) = (6 17)(4 - (x + y) 2 ].

O<x
Encuentre la probabilidad de que tanto X como Y sean menores que 0.5.

162

'4

VAAIABLES ALEATORIAS Y DISTRJBUCION DE PROBABILIDADES

Debemos observar en primer lugar que ni X ni Y pueden ser negativas, de modo que lo que queremos encontrar es P(O <X< 0.5 y O < Y< 0.5). Asf. P(O: X< .S y O< Y< .5) = (6¡ 17) = (6/ 17)

= (6

Ls ts

tl ts

17)

~ y)

4y - (x

3

J1:::

dx

{[2 - (x +3.5)l] + x33}dx

(6/17)[2.x - (x + .Si• + .x•J1· •.s 12 12 .. o

=

1

= (6/17) [ = .3272 EJEMPLO 4.20

+ y) 2 ]dydx

(4 - (.x

(.5)

4

1.0 - ( 12 -12

)

(.5)

4

+ 12

]

Los histogramas de los datos registrados respecto de X .;;;. tiempo requerido para cortar rollos de tela con un molde e Y= tiempo requerido para confeccionar uniformes militares con los trozos de tela (ambos medidos en horas/hombre) indican que /xr(x,y)

= 72.x 2 (1

- x)y(I

para O <:e < 1 y O< y < 1

y),

Encuentre la probabilidad de que Y sea menor que X, y que X se encuentre entre

o y 0.5. Solución

Este problema presenta algunas dificultades técnicas en el sentido de que los limi· tes de integración para Y dependen del valor específico de x . Debemos tener y< x y O<' x < 0.5. De esle modo, la región de integración de /xr(x. y) es O < x < 0.5, O
=

f. . i1ª" s

.c•O

72.x;i(l - .x)y(I - y)dydx

1s:O

= 36f •-.s x 4 (1 ""º =

f ••.s x ..

5 (1

- x)d:c

o

x6)1ª .s - 24(x6 - .x .,)Iª. s

36(.xs 5 6

= 36[<·¿

- x)dx - 24

5 -

ª

6

J:•O

(.¿

6 ]

-

24('·¿

7

6 -

.r•O

(.~),]

= 0.0955, después de realizar algunos cálculos aritméticos •

48

Función de de~ coojunta ~ ...anables alHton;u continu;u !f)

163

En la sección 4.6 mostramo~ que la distribución de probabilidades marginal de X se puede encontrar haciendo una suma sobre ven la distribución de probabilidades conjunta Pufr, y). No deberá sorprenderle que, cuando se trata de variables aleatorias continuas. sustituyamos la ~urna sohre y con una integral. En el caso continuo. fx(x)

=

f.

fxr(X.}')d.v

IOd• 1

Para T tiempo requerido para preparar una licitación y U = monto
+

fn:(l,u) - .02(1 fr(I)

=

1)(1

f_.

+ 2)(10

1)u1(1 -

u).

O< l < 10. O< u< t

1

.02(t

+ 1)(1 + 2)(10

t)u'(I - 11)du

0

= 0.2(1 + 1)(1 + 2>( 1O -

1)[(1

1

11 ;

) - (lu; 1

~)][: :

1 1 ""' .02(1 + 1)(1+2)(10-11(,--) - -,- - ] t +l , + 2)

EJEMPLO 4.21

= .02(10 -

1)

En el ejemplo 4.20 encuentre la función de dens1datl marginal de X. 1

Solución

fx(:c)

= J,f'-_o72x 1 (1

- :c)y(I - }')dy

• Podemos extender la definición de distribución d.: probabilidad condicionada a la idea de densidad condicionada de Y dada X Así como la distribución de probabilidad condicionada se define en el caso discreto como la razón de la probabilidad conjunta P.n.(."<, y) a la probabilidad marginal Pix), podemos definir la densidad condicionada como (

1

Jrtx(}' x)

f xr(X, }') fx(."<)

En panicular, podemos e>.1ender la definición de independencia diciendo que una variable aleatona continua }'es independiente de otra variable aleatoria continua X si fr1xlYI "<) = /,.(}')

o. lo que es lo mismo, si /n.(x, y) =f,.(x)f.,{v) para cada x e y. Si /n,(l, u)

= .02(t + l)(t + 2)( 10

t)u'(I - u).

o< , <

º· o<

1

11

< 1

-4

164

VARIABLES ALEATORIAS Y OISTRIBUCION DE PROBABILIDADES

hemos visto que/,(t) = 0.02( 10 - 1). de modo que

r

' I _ /n,(1. u) _ .02(r + 1)(t + 2)( 10 -

Jt•ir(u r) -

/r(r)

l)u'( 1 - u)

.02(10 - r)

= (r

+ l)(r + 2)u'(I

- u)

Como J::i densidad condicionada de U dado que T =tes una función de / y de "· U no es independiente de T.

EJEMPLO 4.22 Soluc1ó n

Rcmitasc al ejemplo 4.20. ¿Son X e Y independientes en ese caso? üeCinimos

f xr(x. }') ""'

72:< 2 ( 1

0 <X< l, 0 < }' < J

x)y( l - }'),

En el ejemplo 4.21 mostramos que

f x(.""<) = 12.'( 2(1

.""<)

de modo que fu( y. x) ~

72x 2(1 - .'t) )'( 1 - )') 12x2(l - x)

= 6y( 1 -

y)

sólo es una función de y. (Cabe sei\alar que el rango de ddinición de la fórmula para y es independiente de x, como lo es aquí.) Así que X e Yson independientes. Una alternativa es calcular la densidad marginal de Y como/y(}')= 6y(l - f), par:i O
= 12x 2(1 = fxr(x,y)

x)6y(t

y),

O< x < l. O< y< 1



y nuevamente X e Y son independientes.

SECCIONES 4 .7 Y 4.8 4 .41

EJERCICIOS

- --

l:n el ejercicio 4.38 consideramos la siguiente distribución conjunta P

xt.x..v> de

X número de ofertas orales en una semana e Y ... número e.le ofertas por escrito en una ~emana. e.le acuerdo con la siguiente tabla: )'

x

o

O

4

oso

.015 030 045 060 075

Total

ISO

.225

1 2 3

.010 020

2

1))0

040

3

4

MO

180

195

Total

030 045 100 045 030

.075 060 045 030 .015

040 030 020

.250 .195

OJO

.180

.250

.22~

150

a. ¡,Cu~les son las medias de X e Y? (Piense. no calcule.) b Calcule las dewiaciones estándar de X e Y.

Secciones '4. 7 y '4 8

E1crcic101

165

.t.4 2 a. Encuentre, en el ejercicio..$ A 1. la covari::ina de X e Y. h. En el ejercicio .t..t l. encucntn: la corrcltlción de X e Y. ¡,Qué nos indic::i ést::i ::icerca de la rel::ición entre X e t'~ En panicular, ¿podrían ser inderendientes X e >'? -lA3 l:ncuentre la esperanza comhcionada de r dado que X .t para la distrihuciún de prohabilid:ides del ejercicio 4.41 . ¡,Cambia la esperan1a condicionada junto con X! ..i..t..i l~lina T =X+ r Cl'mo el número totill de ofcnas hechas en una ~emana ror la emrresa descrit::i en los cjercicws 4 38 y 4.4 l a. Calcuk la d1strihución de probah1lidades de T. b. Calcule el \'alor esperado y la var1a11la de T dirc<:tamcnte de la distrihui.:iún de probabilidades. c. Utilice Jos resultados en el apcndicc de este capitulo para calcular de nuern la media ) la varian73 de T. .tA5 En los ejercicios J .27 y 3.29 consideramos un proceso de fahncación en el que se reali1~n perforaciones en bloques de metal. La probabilidad de que una pcrforaciún sea defectuosa es de 0.1 O. Sea X número de de lec tos en una mucstril de dos blo· ques (sólo h::iy una perforación por bloque). a. Encuentre la distribución de probabilidades de.\'. Qu11á le convenga trazar un ár· hol de prohahilidad. b. Encuentre el valor esperado y l::i 'arian1a de X. c. ¡,Qué supuso usted al responder a los inc1.,os (3) y (b)? ¿ Ba¡o que circunstancias podrian ser irrazonables tales hipótesis'> ..$A6 En el ejercicio 3.29 asumimos que la probabilidad de que un inspector no detecte un defecto es de 0.1 O. lmplicitamen1e supusimos que el inspector no ..detec1aba.. defectos cuando de hecho no los hahia Sea Y número de defectos dctectildos. lJtilicc un árhol de probabilidad p::ira derivar la úistribuciiin conjunta de X <del ejercicio 4A5) e Y. Observe que Y no puede ser mayor que X . .t A 7 a. En el ejercicio .t.46. encuentre la media y la desviación estándar de Y. h. ll1ilice la distnbucíón conjunta de X e >: que encontró en el ejercicio 4A6. para determinar la correlación de X e Y e. Explique por qué Ja correlación debería ser positl\·a. 4 .tR lln dis1ribuidor de automóviles nuevos ofrece tres paquetes de equipo adicion:il para un modelo particular. Hay un paquete de tr::insmisión automática con una ganancia de 200 d61arcs para el distribuidor. un pa4uc1e de aire acondic1onado con una gan:incia tic 150 dólares y un paquete de decorado intaior con una ganancia de 100 dólares. Los datos indican que el 80º'41 de los clientes <;Olieila el raquetc dc transmisión automática. y que de estos, el 60ºó también pide el ::iire acondtcionado. Entre los que no piden el paquete de transmisión automática, solo el 50ª10 solicita el 3ire aC()ndicion:ido. Oe los que solicitan amhos paquetes. el 40ºó pide el decorado inte· rior, al igual que el 30% de los que solicitan exactamente uno de los paquetes de aire acondicionado o transmisión ilUtom:itica y el :?O~o de los que no solicitan ninguno de estos paquelcs. Sea r =número de paquetes solicit:id°' en la compra de un aulomó' il sclccc10nado aleatoriamente. a. Encuentre la distribución de prohah1lidad de Y. b. Encuentre la prohahilidad de I'( r ~ :?). c. Encuentre la función de dis1ribucion de }'; con ella\ ucl\a a calcular/'( Y~ 2). -l -19 1-.ncuentre la media y la des' iación estándar de r en el ejercicio 4 .48. -l 50 En el e.1erc1c10 .tA8. sea X= ganancia por ventas de paquetes opcionales. Observe que X no es dircctamcn1e una funciún de f. pue" la ganancia no sólo depen· de de cu:into<;
166

4

f

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDAD ES

a l:ncucntre la distribución de probahilídadcs de X. h. Encuentre: la media y la des\ iación estándar de X. 4.S 1 R.cmitac;e al ejercicio 4.50. Sea Tcl total de las ganancias por ventas <'e paquetes opcionales a 18 clientes seleccionados al v.ar. a Utilice los resultados del apéndice de este c:iriltulu ~ra encontrar el valor esperado y la variann de T. b. ¿Qué suriuso U.'ited al responder al inciso (a)? e.Le parece que alguna de las supo<;iciones es claramente irr.uonablc'? 4 52 Un diario ('lO'iee un archi\'o sobre la longitud en pulg:adas de las columnas de anunciM cl:is11icados publicados de lunes :a viernes. l.:is ediciones del sábado) el domingo tienen una estructura distinta de ¡¡nuncios > no se les toma en cucnt:i. L:as prohabilidades de ) número de pulgadac; de columnas (en miles) de un dia selccc1onado al a7.ar est:ín dadas rior la función de densidad

Ir< y)

f

4.53

I

4.54

30y4 C1 - y),

O
Ohc;erve que / 1{.y) O para l ' fuera del intervalo O <.Y< 1. a . Calcule lo densidad para l ' O. l. 0.2 .... , 0.9 y represente la gráficamente. b. Encuentre la probabilidad de que~ empleen entre 700 y 900 pulgadas de columnas (es decir, que 0.7 < r · 0.9) en un día seleccionado al a/ar c. Encuentre la rrobab1lidad de que Y> 0.8. En el ejercicio 4 .52, encuentre la media y la des,•iación estándar del número de pulg:1dac; dt columnas que se utili~n. de acuerdo con la función dc den<;1dad H diario dcl e_jercicio 4.52 tambicn conserva un archivo de X - longitud en pulgadas dc las columna.e; de anuncios comerciales (en miles). La di<1trihución de X rian:ce ser

/.r(x) "' (6tl 2S)x(S - x),

~ . SS

f

4.S6

O<x<S

y cero para los dem:is \alores de .t. a . l:ncucntre la fd de X. b. Encuenlre la probabilidad de que X sea al meno~ 3. c. l:ncuentre la media )' la desviación estándar de X. L:is variables aleatorias X e Y de los ejercicios 4.54 ) 4 52 parecen ser (de acuerdo con los archi\•os del diario) independientes una de la otra <;i suponemos esto, ¡,cuál es la correlación de X e Y? Una compa~ía que ofrece servicios telefónicos transoceanicos cree que los factores cla\e del costo variable de una llamada son X número de segundos quc tarda la computadora en colocar la llamada e Y= número de minutos que tarda una operado· ro en colocar la llamada. La estructura dc las prob:ibilidadcs puede representarse por medio de la siguiente densidad conjunta: fx:r( .'C, y) = (.062S)xe '' ' 11 ,

0<:<<7-,0
J0

f J

:i. Encuentre { 1(yJ. Del calculo, sabemos que xe....u = 1/le 2 • b . 1-ncucntre la densidad condicionada de .\', dado que r =y. c. En la prá<:tica, ¿deberían ser independientes X e >:¿Lo son en esta densidad con· junta? 4.S1 Para la densidad que sc da en el ejercicio 4 .56, encuentre cl 'alor condicionado cs· pcradn de X dado que Y= y . 4.58 Para la dcnsid:id del ejercicio 4.56, encuentre la co,:inan1a de X e Y.

Secciones 4.7 y 4.8

167

E1ercic1os

TEMAS Y FÓRMULAS PRINCIPALES: variables aleatorias y distribución de probabilidades 1. Propiedades de la distribución de probabilidades P y(v) de una variable aleatoria discreta Y a. OS P(y) S 1 para toda y

b.

LPr(Y)

=1

toda"

c. Como los valores de Y son eventos mutuamente excluyentes, las probabilidades son aditivas. 2. La distribución de probabilidad P.l.y) de una variable aleatoria discret.n Y se puede representar en una tabla, fórmula o gráfica (llamada histograma). J 3. La función de densidad />·(.V) de una variable aleatoria continua Y permite encontrar las probabilidades por integración: P(a ~ Y ~ b) = J!fr(y)dy

4. Valor esperado, varianza y desviación estándar de una variable aleatoria discreta•

µy = E(Y) =

L yPy(y) toda y

a~= Var(Y) = _L(y- µ 1 ) 2 Pr(Y) lod> V

ar= Jvar(Y)

5. Distribución de probabilidades conjunta, P.d..x, y) a. Distribuciones marginales, P,r(x) y P.,(J•) b. Distribución condicionada. Pr ..1-Y 1x) 6. Función de distribución (fd) F 1.(y) = P( Y S y), definida para variables aleatorias Y discretas y continuas. 7. La covarianza de variables aleatorias X e Y Cov(X, Y)=

L L(x - µx)(Y- µ ..

y



y

= L L 9 •Pxr(X..}) -

1

)Pxr(x,y)

µxµr ·

(Para variables aleatorias continuas, reemplace la sumatoria por una integral.) 8. La correlación de X e Y Corr(X, Y)

Cov(X, Y)

= f1xr = - - - ªxªr

9. X e Y son independientes si para toda x y toda y, Pxr<x. y) =P;.,{x)P,.(y) (Para las variables aleatori:is continuas, reemplace P con/) Sí X e Y son independientes, P.YY = O. • Par.a variables akatorias continuas, los signos de sumatoria ~e reemplazan por signos de integración Y la función de dcnsidild ft'cmplau a P .J._v).

168

4

VARIABLES ALEATORIAS Y OISTRIBUCION DE PR.OBABILIOAOES

Resumen



'

Este capitulo contiene los conceptos necesarios rara extender las ideas de la prohahilidad a los resultados numéricos. La idea centrnl es la de variable aleatoria. es decir, cualquier cantidad numérica que esté sujeta a una variación alc::itoria. lJ na variable akatoria se identifica por su distribución de probabilidades. que es una lista de sus valores posibles y las probabilidades asociadas con ellos. Las variables aleatorias pueden ser discretas (las que toman valores distintos y separados) o continuas (las que toman \alores a lo largo de un inter\'alo numérico). Ha} resultados paralelos para las \ariablcs aleatorias discretas y continuas. cualquier cálculo que contenga una suma para vanahles aleatorias dio;crctas imrlica una operación analoga para \ariables aleatorias continuas que comprende una integrnl. Como las 'ar1ables aleatorias son cuantitativas (numéricas). podemos extender la idea de la media a la de valor esperado (promedio en el limite) de una vana ble aleatoria. También la idea de desviación estándar se: puede extender a variables aleatorias como una medida de la variación aleatoria que presenta la variable. También consideramos la distribución de probabilidades conjunta para
CAPÍTULO 4

EJERCICIOS 4.59 El personal de ventas de una compai'lia consta de 4 ingenieros (tre~ de lo~ cuales tienen más de 40 ai'los de edad) y 6 representantes de \Cntas (dus de los cuales tienen m:is de 40 ai\os de edad). Se selecciona. supuestamente al azar. a un ingeniero y a dos representantes de ventas para recibir un adiestramiento especial. a. Construya el espacio mue~tral de es1e experimento. l'umerc: a los ing.enieros 1, ... , 4 y a los representantes de \enta<; S•. .. , 10 b. Sea Y = número de personas seleccion::idas que tienen m3s de 40 ai'los de cd::id. Por conteo, encuentre P r(.i•) y F 1{l·). 4 .60 F.n el eJerc1cio 4.59 encuentre E(Y) y <1r 4 .6 1 Una oficina estatal de salud investiga las denuncias sobre prácticas insalubres en los restaurantes. tiendas de alimentos y similares. El número de caso~ varia de una semana a la otra. Los datos indican lo siguiente: Numero de casos'semana: Probabilidad:

f

o

1

02

.IJ

2

3

20

30

4 .19

5

(,

.15

.01

a. Encuentre F 1ü •) para t - número de casM en una semana especifica. b. Encuentre 1::( Y) Y u1, c. Encuentre P(µ, - c 1. $ Y$µ,+ 0'1 ). Compare este resultado con la aproximación que nos da la regla empírica. 4 .62 Considere la función de densidadfiy) = 20(vl - /). O $y$ 1: a. Encuentre t·(Y) y u.,. Utilice la fónnula abreviada

o:- f

ylfy{y)dy-µ;

J1odt •.

169

b. Determine el ar~ bajo la curva/1',y) para encontrar P(¡1 1

4 .63

-

2a, S Y

S µ1

+ 2a7 )

La fracción Y de la longitud en pulgadas de las columnas de cierto periódico destinacJas a la publicación de anuncios un martes cualquiera se puede considerar como una variable aleatoria continua con IO O < y$1

r).

f

a. Trace unól gráfica de Ft{.v). b. Encuentre /'(Y$ 0.5). /'(0.4 $Y$ 0.6) y /'(Y ~0.7). 4 .64 a. Muestre que Ja función de densidad en el ejercicio 4.63 es /,(}·) = 30)' 2

-

60y) + 30y 3

b. Represente gráficamente / 1{.r). c. Encuentre H( Y) y Var( Y). d. Encuentre Pf.µr - Or $ Y$ µy+ <1r). Compare con la aproximación que proporciona la regla empírica. 4.65 Los registros de un pequeño taller para reparación de carrocerías de automó\•il indican las siguientes frecuencias relativas para el número de clientes atendidos diariamente: Nümcro de clientes: Frecuencia relativa:

o

1

2

3

4

5

6

.2 1

.38

20

.11

06

.03

01

Sea Y= número de clientes atendidos en un día. a. Calcule F1(.~·). b. Encuentre E( Y) y a..4 .66 En el ejercicio 4.65 suponga que los números de clientes en días consecutivos son independientes entre sí. Sean Y1 e Y2 los números de clientes correspondientes a dos dias consecutivos. a. Construya una tahla para Pr,t; (y1y 2 ).

f

b. Defina S = Y1 + Y2, como el número total de clientes en dos dias. Encuentre 1\1,s). c. Calcule E(S) y a5 . 4 .67 Los usuarios de una base de datos de computadora h:in encontr:ido que X= número 1k líneas de código (en miles) e Y= tiempo en minutos que se requiere para correr el programa, tienen la densidad conjunta f.o(X,J")

f f f

(3 3::!0)()6 - 4'1" 2

}" 1

+ 4'1".i').

o < '(

< 2. () < .\' < 4

a. Encuentre la probabilidad de que lanlo X como Y sean menores que O.S. b. Encuentre la probabilidad de que l' sea ma)'or que l. (X puede tomar cualquier valor.) 4.68 a. Para la densidad conjunta del ejercicio 4.67, calcule la denc;idad marginal de X. h. Encuentre fn./.Y 1x). 4 .69 !Ornando en cuenta su naturaleza, ¿se deben considerar l:is v:iriahles aleatorias X e r del ejercicio 4.67 como independientes? ¿Lo son de :icucrdo con el ejercicio 4.68? 4. 70 Una compañia de seguros recibe informes semestrales de agentes independientes. Con base en los datos pasados, un modelo para la dcnsid:id conjunta de X= proporción de informes que requieren de un estudio de acluali:ración e Y= proporción de informes que requieren de un cambio de dirección es

fxrl·'"· y) = .:?4(h:J( 1

x) 2 ( 1 -

>·».

para O <

.'I"

< l. O < )' < t

170

'4

I (}. I

VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE PROBABILIDADES

a. Encuentre la rrobubilidad de que X e Y sean ma~ores que O.S. h. F.ocuentre la probahilidad de que r se encueotrc entre 0.1 y 0.3. 4. 71 a' En el ejerc1e10 4.70, encuentre l:is densidades marginales de X e Y. b. ¿A qué es igual la covarianza de X e Y? 4.7:? Como parte del proceso de producción de unidades de reproducción de discos comp:ictos (DC). se le hace una prueba inic1:il a la unidatJ de lectura (un sistein:i láser que recibe seilales di¡,ütales del disco). Cualquier unidad que folla al leer un disco de prueba, por lo general debido a una mala alineación. debe ser arre¡J.lad:i :i un eos · to muy clev:ido. Se conserv:i un reg15tm de l:i proporción de unidades que pasan diariamente la prueha inicial. Si Y es la proporción de unitJadcs aprohadas c::n un dia seleccionado :il azar, la función de densidad tendría la forma

O
I

f

a Calcule los \'alares
x)is.

par:i 0 <

'C

< 1

3. ¡,Pensarla usted que con frecuencia.\' es una proporc1on mu~ grande, como 0.8" S1 eso sucediese, ¿qué significaría en rel:ición con la bolsa de valores'? Calcule algunos valores def1{x). ¿Para qué valores de x es rel:itivamentc alta la densid:id~ h. Encuentre 13 probabilidad de que X sea menor que 0.1 O. (Al integrar se dará cuenta que es conveniente sustituir w = 1 - x, de modo que dw - dt.) 4. 75 a. En el ejercicio 4. 74. encuentre el v3Jor esperado de .\'. Por el c:ilculo diferencial e integral s3bcmos que la integral de O a 1 de r"(I xt es a!h! I (o+ b + I~ b. Interprete el número que calculó en el inciso (a). En particular. ¿es éste el valor más probable para la rroporción de ventas de 3CCioncs a la ba,t3. _\.., c. Encuentre la varian1.<1 y la dcsvi:ieión estándar de.\'. ¿Qué le dice el ,·alor numérico de la desviación estándar acerca de un rango r:11onable para los \'al ores de X? 4.76 El analista del ejercicio 4.74 t:imhién consideró la \3riahle r - rroporc1ón de \entas diarias a individuos (inversionistas que no son inst1tuc1ones) 1.a s<1hiduría popular (b:istante cinica) es que los inversionistas indl\'lduales tienden a comprar en Jo-. peores momentos, justo :intes de las caídas en el mercado de \'alores. de mudo que

l\U'

,o 171

E1erc1ctos

un alto ni\ el de compras mdi-.idualcs es un signo para vender acciones a la baja. El analista modeló la densidad condicior.ada
frix<>·lx>

(.x

+ R)(.'C + 7) .. ·(x)y

6

1

(1 - y) 8 ,

para O< y< 1

¿Est~ suponiendo el analista que X e Y son estadísticamente independientes'! ¿En qué basa usted su opinión? b. Se puede demostrar que el valor esperado de Y dado que X - x es una función cn~cíente de x. ¿Es compatible este hecho con la indepen
a.

4. 77

F,(y)

a,/ f

para y 2: 7

a. Al empleado que hace las entregas se le deben retribuir horas extra si el recorrido requiere más de 8 horas. ¿Cu~I es la probabilidad de que se ¡iagucn horas extra? b. Si el recorrido requiere más de 9 horas. algunos restaurantes se quedan sin sufi· ciente producto. ¿Cuál es la probabilidad de 4ue el recorrido requiera del pago de horas extra sin ocasionar desabasto en los restaurantes? 4.78 a. En el ejercicio 4.77, encuentre la función de densidad del tiempo en el recorrido aleatorio Y. b. Use la densidad anterior para encontrar la prob;ibilidad de que un recorrido se realice entre 7 y 7 horas y media. 4.79 Un comerciante que reali1.a ventas por teléfono registra la fracción de llamadas que han sido contestadas antes de que el aparato suene tres veces. Se tiene como objetivo que al menos el 80% de las llamadas (una proporción de 0.80) se contesten rápidamente. La proporción
fx(x)

I

1 -(y - 6)-•,

30(x 4

-

x5~

para O < x < 1

a. ¿Cuál es la probabilidad de que se alcance el objetivo? b. Un "día desastroso" es aquel en que menos de la mitad de las llamadas se responden rápidamente. ¿Cuál es la probabilidad de que suceda tal desastre? 4.80 Nos referimos nuevamente a X, la proporción de llamadas en el ejercicio 4.79 que son respondidas rápidamente. Suponiendo que se alcanza el objetivo, ¿cuál es la probabilidad de que X sea menor que 0.9? 4.81 El comerciante del ejercicio 4.79 también tiene registradas las cantidades en dólares de las órdenes de compra que recibe por teléfono. El tama~o Y de la orden (en cientos de dólares) de un cliente seleccionado al a1.ar puede considerarse como un:i. va· riable aleatoria continua con una función de distribución. Fr(}') = 1 - e · 1•

-

2ye· 11 •

para y> O

a. Encuentre la probabilidad de que un cliente seleccionado al azar haga un pedido por una cantidad total entre 200 y 400 dólares. b. Para las órdenes de más de 1000 dólares se utiliza un servicio de entrega especial. ¿Cuál es la probabilidad de que la siguiente llamada requiera de una entrega especial?

172

'4

-t .8:.!

f

·UD

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

a.

l·.n el ejercicio 4.81. encuentre la función de dens1dad/1<.r> para un:i venia r. h. 1-. ncuentrc la moda de Y, es decir, el valor .l' en el que la densidad akan1.:i su máximo. En~I ejercicio 4.77 consideramos Y, el licmpo requerido para completar una ruta de entregas a los restaurantes. Y es un:i 'ariahle aleatoria continua con den~idad

fr(J'I .. 4(y

f

4 .84

6)- '. para J > 7

a. Calcule la densidad para y - 7, 7.5, 8 y &.5. ¿Parece ser simétrica o :isirnétrica la densidad? b. Dibuje aproximadamente la densidad. Utilice esta densidad para <;uponer cuál debería ser la media. e. Calcuk la media ( ,·alor esperado) y la desvillción e"tándar. d c.Debcriamos esperar un huen funcionamiento de l:i regla empírica con esta densidad'? Calcule Ja probahilidad de que r se c:ncucnire :i meno<; de un:i des\ i:ición cst:indar de la media. 1 a proporcióo X de llamadas respondidas con prontitud c:n el ejercicio 4 . 79 tiene una función de densidad f.r(\'.)

30(\'.' - \'.').

para O<.\'. < 1

a . t:ncucntre el valor esper;ido. ¿Cómo se interpreta este número»

h L't1licc el método ¡¡brcvi3do para encontrar la varianu y la desviación estándar. 4 .85 Demuestre que: la variahle aleatoria X del ejercicio 4.84 no puede estar a m:is de dos

f

des\ iaeiones est:indar por encima de Ja medi:i. ¿Qué sugiere este hecho acerca de la form¡¡ de 13 distribución? .¡ .K6 Un almacén otorga una c'11ificación a cada producto alimenticio que recihc. Aquellos que alcan1..:m una calHkación de "excepcion:il" recihc:n una honiticaciún adicional. l.as proporciones de tomates y lechugas clasificados como exccpcion:iles v:.irian cnorrnemcnlc de un Jiu a otro. Si X= proporciún de tomates con una calíricación e:
fnh . .rl

f

f

= 3-c{ 1 -

.\'. l'}.

para O < .\'. < 1 y O < 1

< 1

a. 1-'ncuentre la proh:ihilidad de que menos de la mitad de los tomates. pero m:is de la mitad de: las Jechu¡,tas, recihan una calificación excepcional h rncucntre l:is funciones de densidades m:uginales de X~ de r e. fncuentre la probahilid;id de que X sea menor que 0.5 . Encuentre la proh;.ihilid:id de que Y sea mayor que 0.5. d ¡,Son X e Y independientes? 4 87 t-1 gerente del almacén del ejercicio 4.86 sospechó que )05 inspectores compensaban l¡¡, haJ3S calificaciones de un alimento con alta" calificaciones para el otro. ~i la ma~or parte de los tomate~ no recihi:in Ja más alta calificación, una propnrción de lc1:hugas <;uperror al promedio recihia Ja m5<. alta cahticación ~ vi\:cversa a. C\i la sospecha dd gerente es correcta, ¿cuál seria el \igno de l:i covarian1a (y de la correlación) entre X e >"? h. C:ileule I¡¡ covariani-a de X e Y ¿Tiene el signo que usted predijo en el inciso (a)'! e. l·.ncuentre las desviaciones estándar de X) de Y. y la correlación entre X e Y. (,Es fuerte la correlación? ,,Cuánto v:ilc? 4.88 Un mayorista reali1..a operaciones comerciales con ferreterías independientes y anota el tiempo medio entre dos pedidos consecutivos y la distrihución del tiempo transcurrido entre los mismos. Si X= tiempo medio entre dos pedidos <:orrespondicntl! a un:.i tienda ~clcccionada aleatoriamente e ) tiempo para que: esa tienda \ uelva a hacer un pedido, l:i densidad conjunta de X e Y es

Ettud10 de caio

Oistribuoón de probabi1dades

fu(x,y)

f

4.89

f

4.90

= t2x(I

- x)c- 11•,

173

para O< x < 1 y O< y

a. Encuentre Ja densidad de X de manera aislada. ¿Cuál es la probabilidad de que X sea mayor que 0.5? b . Encuentre la densidad condicionada de Y. dado que X .r. Si X = 0.5, ¿cuál es la probabilidad de que Y sea mayor que 1? a . Utilice la densidad condicionada que se calculó en el inciso (c) del ejercicio 4.88 para encontrar el \'alor condicionado esperado de Y. dado que X"' x. En el contexto de ese ejercicio. ¿tiene algún sentido este resultado? b. ¿Cómo cambia el valor condicionado esperado de Y. dado que X - x. a medida que el valor de ..r cambia? ¿Qué indica este patrón acerca del signo de la correlación y la covarianza entre X e Y? En el ejercicio 4.88, calcule la covarianza entre X e Y para la densidad conjunta. Se sabe que los valores esperados de X e Y son ambos iguales a 0.6. ¿Coincide el sig· no de la covariani'.a con el que usted esperaba en el inciso (b) del ejercicio 4.89?

Distribución de probabi lidades Un banco local está interesado en nue\os productos y servicios para extender la base de sus clientes. Un producto sugerido es una "tarjeta de débito". Ésta funciona igual que una tarjeta de crédito en el sentido de que el beneficiario la presenta en los comercios para hacer sus pagos. La diforenc1a es que el dueño de la tarjeta en vez de tomar el dinero prestado del banco (tal como sucede con las tarjetas de ~rédito) tiene una cuenta de la que se deducen los pagos. El poseedor de la tarjeta no paga intereses por un préstamo cuando utiliza una tarjeta de débito, pero debe tener suficientes fondos en el banco para poder utHiz.arla. El banco por lo general no cobra comisión por el uso de Ja tarjeta. Sus ganancias las obtiene de la diferencia entre Jos intereses ganados con los fondos del poseedor de Ja tarjeta y el costo del servicio de la cuenta. Un director de servicios del banco llevó a cabo una encuesta con 2150 clientes. Le han pedido a usted que realice un análisis detallado de los tres temas de la entrevista: El número de tarjetas en activo del cliente, el número de clientes que por lo general tienen algún saldo pendiente después de un pago, ) el número de tarjetas de débito ~ue al cliente le gustaría tener. Si llamamos a estos ítems X. Y y Z. respectivamente, los datos de la encuesta arrojan las siguientes frecuencias:

z:

o o o

Free.:

98

x: y:

:e:

y:

2 2

..

o

Free.:

43

o o o o 1 45

2 10

2 2 2 2 1 2 160 SI

1

o

o 125 3

o o 11

1

1

o o 110

2 28

3

J

1

o o 1 2 15 10

1 l

o 171 3 1

o 37

1

1

1

1

2

2

o o o 1

1 2 20J J8 96 87 J 1 l

J

2

2 1

' º2

o

18

ISO

3

3

3

3

2

2

2

)

2 o 1 2 78 29 13 51 22

o 10

2 1 1

2 t

3 J

3

2 228 66

3 1 2 23 34

El director de servicios tenía el presentimiento de que a los clientes con pocas tarjetas en activo y a los clientes que tienen pocas tarjetas con balances no

174

1

VAAJ~LES

ALEATORIAS Y OISTRJBUCION DE PROBABIUOAOES

pagados les gustaría tener m:is larjetas de débito que a aquéllos con muchas tarjetas o con muchos saldos pendientes. Utilice los resultados de la encuesta como si represe~t.asen a la perfección al total de la población de los clientes habituales del banco (ignorando por consiguiente toda \'ariación que deri"e de la muestra) para investigar tal presentimiento. Escriha un breve informe dirigido al director de ser-· vicios e"
_.

APÉNDICE 4.A

Propiedades de los valores esperad~y las varianzas

_____ __.

En esta sección presentamos algunos resultados matemáticos simples acerca de los valores esperados y las varianzas. Los resultados se expresan en el lenguaje de las variables aleatorias. Dado que las nociones de valor esperado y varianza de una variable aleatoria son generalizaciones de los conceptos poblacionales correspondientes, los mismos resultados se aplican a las poblaciones. Los primeros resultados tienen que ver con el erecto de sumar o restar una constante. Al analizar el probable rendimiento de una inversión, hay una estrecha relación entre el rendimiento bruto (que no considera la inversión inicial) y el rendimiento neto (que sustrae la inversión inicial).

Efecto de añadir una constante Si u es una constante e Y una variable aleatoria, E(Y +o)= E(Y) +o Var( Y + a) Var( Y),

=

"r •• • ºr

Si Y es el rendimiento bruto y I es la inversión inicial, entonces el rendimiento neto esperado E(Y {)es, razonablemente, el rendimiento hruto esperado menos la inversión, E(Y) l . Las varianzas de los rendimientos bruto y neto son iguales, y por lo tanto, las dcsviacione~ estándar también son iguales. El eíecto de sustraer I es el de desplazar todo el hi!.tograma I unid;;ides hacia la izquierda. Como este desplazamiento no altera la fonna del histograma, la varianza es la misma. Estos dos resultados son muy fáciles de demostrar: E( Y +a) =

L (y+ o)Prü) todo.

= L yPr(}') + lodo y

L aPr(}') toda y

Propiedades <W los

Apéndice '4.A

:::: F.( Yl

+a,

v~es

pues

esperad°' y las vananzas

175

L Prl .\') = 1 lnd> ,.

Varf Y + a)

= L [(y+ a) -

E( Y +a)] 2Pr(J)

leda.

= LHY + a)-(E(Y) + u)] 1 Py(y) toda V

Inda V

= Var(Y)

Otro conjunto de resultados trata con la multiplicación por o la división entre una wnstante. Esta operación matemática es simplemente un cambio en la escala de medida. Por ejemplo. multiplicar una cantidad en dólare:. por 100 equivale a cambiar las unidades a centavos.

Efecto de multiplicar por una constante Si e es una constante e Y una variable aleatoria, E(cY) = cE(Y)

Var(cY}

= c 2 Var(Y).

o,r = lclor

Si e - 100 e Y es el costo en dólares, entonce~ e Y es el costo en centavos. El costo esperado en ct:ntavos E( e Y) es 100 veces el costo esperado en dólares, cE( Y). La \.arianza se multiplica por 10,000 = ( 100)~. pues la varianza es el error promedio al cuadrndo; una vez que extraemo:. las raíces cuadradas. la desviación estándar del costo en centavos, o; r• es 100 wces la desviación estándar de 1 costo en dólart!s, cay-• La demostración es cosa de escribir las definiciones de valor esperado y varianza. y foctori1..ar e y c1 respectivamente.

EJEMPLO 4.23

Una empresa estadouniden~c tiene la oportunidad de invertir en Francia. La inversión inicial es de 5,000,000 de francos. La empresa estima que el rendimiento bruto r tiene un valor esperado de 6,200,000 francos y una desviación estándar de 500.000 francos. Encuentre el valor esperado y la desviación estándar del rendimi1mto neto en dólares. suponiendo un tipo de cambio de 5 francos por dólar.

• FI 'alor 3bsoluto en la fónnula para la dt'sviación esthdar toma t'n consideración la posibilidmd <W multiplicar por un número nc¡p.llvo. Observe que J(-s}1 es ... S.

176

4

SoluCJon

VAAIABt.ES AlEATOIUAS Y OISTRIBUCION DE PROBABlt.IDADES

Una manera de proceder es traba.1ar primero con d rendimiento neto en francos y comertírlo después en dólares. El rendimiento neto es Y- S,000.000. de modo que el \'alor esperado es E(}) - S,000,000 o 1,200,000 francos. y la des\'íacíón estándar de 50c1.ooo fmncos no cambia. Par.i convertirlo en dólares, divida el \'alor esperado y la des\ iación estándar de r entre 5. El rendimiento neto esperado es 2~0.000 dólares y la desviación estándar es de 100,000 llólares. • Los últimos resultados matemáticos que presentaremos comprenden la adición de dM variables aleatorias. Esta operación surge en una gran variedad de situaciones : d rendimiento total de dos mversiones diferentes. el número totnl de casos c.irdíacos y traumáticos en una sala de emergencia~.. la producción total por día de dos líneas de montaje de automó\'iles. Es obvio que no hay nada mágico en sumar dos variables aleatorias; los resultados se extienden de inmediato a cualquier número lle estas variables

Media y varianza de la suma de variables aleatorias Si X e

Sí X e

r son variables aleatorias. entonces E(X +Y)= E(X) + E(Y) r son independientes, entonces

Var!X

+

Y)= Var(X)

+ Var(Y).

LJ <.lemostrac1ón de estos resultados es un poco m:ís dificil que las anteriores. f(X

+

Y)=

L L (X + }'JP.n(X,y)

tocb

t

'""~'

= ¿ L .'(P,rr(X, y) + ¿ } .rP.rr(X. J') CNb '

toda '

toda

t

i:Mf.. '

En In primera sumatoria doble, piense que se suma primero con respecto a y :

L xPxrCx,y) = x L P.n(x,y) = xPx( '() h1'd3..

lO&b'

por <.letimción de la distribución marginal de P.\~x). De esta manera. la primera sumatoria doble se reduce a ¿,,..i.. , .\P \{ \) =- E(X ). Un argumento similar nos muestrn 4uc la ~cgunda sumntona <.loble es E( Y). lo que demuestra el resultado sobre el \ alor c..,rcrado. l· I resuha<.lo acerca de la varianza supone la independencia, Pxrf...T, y) P.\~x)P 1 (y), y procede por expansión del binomio al cuadrado. Recuerde que (a~ h) 2 = + 'Zah + b1 .

cr

Var(X +Y)=

L

}.:ex+}' - µ.r+r) 2Px(.'()P,(>•)

lodo • IO
=

L L (x -

•nd• • lt>
µx +.Y - Jtr1 2P,r(X)Py(y)

.Aptnd1ce 4 8

Breve repuo del dlculo

d1ferenc1~

177

e íntea.-..J

pues acabamos de demoslrar que µx+Y = µx + µr- Ahora desarrolle el cuadrado con a= X - µX y b

=y-µy:

Var(X + Y) = )

) (x - µx) 2Px(x)Pr(Y) i~toá&y

+2L toda

+

T

L (x toda

L L (y -

!Oda• toda

µ,r)(y - µy)Px(x)Py()')

>

2

µy} Px(x)Pr(Y)

v

La primera sumatoria doble es

L (x -

toda

t

2

.U.r} P.r(x)[) Pr(Y)J

1;t. y

=

L (x -

µ.r) 2Px(x)[l]

toda •

= Var(X)

El mismo procedimiento nos muestra que la tercera sumatoria doble es Var{ >')y, por la definición de covarianza que vimos en la sección 4.7, la segunda de ellas es 2Cov(X, Y). Por consiguiente, en general Var(X +Y)= Var(X)

+ 2Cov(X, Y)+ Var(Y)

En la sección 4. 7 demostramos que Cov(X, Y) =O cuando X e Y son independientes (al igual que en algunos otros casos). Por lo tanto, si X e Y son independientes, el término de covarianza en Var(X + Y) desaparece, y tenemos que Var(X + Y) =Var(X) + Var( Y).

APÉNDICE 4 .B

Breve repaso del cálculo diferencial e integral Los métodos del cálculo diferencial e integral no son decisivos para entender las ideas esenciales de este texto, pero hay ocasiones en que es conveniente utilizar algunas ideas básicas del mismo. Este apéndice contiene un breve repaso de los métodos básicos del cálculo, mas no fue escrito como una introducción a este tema. El primer concepto de importancia es el de función . Informalmente, una función asigna un número "de salida", digamos i,, a un número "de entrada", digamos '·de acuerdo con una regla específica. Como queremos reservar las letras/y F para otros usos, utilizamos g y G para indicar funciones; escribimos w = g( r). La derivada de una función gen un punto x = a se define informalmente como la pendiente de g cuando x =a. Podemos pensar en una línea tangente a la curva w"' g(x) en x =a, como en la figura 4.8. La derivada es la pendiente de la tangente. La derivada se denota con d dx g(.x)

o g'(.x). No tenemos necesidad de enfatizar el valor particular x ción. En la tabla 4.1 presentamos una breve lista de derivadas.

=a bajo considera-

178

~

VARIABLES ALEATORIAS Y DISTRIBUCION DE PROBABILIDADES

Tangente - , /

a FIGURA'4.8

TABLA 4. 1

Línea tangente en x

=o

Derivadas elementales

d ;¡;g(x)

g(x)

e, una tonsuntc

o

;x"

e•

log,(l)

;x

En ocasiones utilizamos la regla de Ja cadena pam las funciones compuestas: funciones que se definen por etapas. En otras palabras, podemos pensar que algunas funciones toman una entrada x, la transforman a un valor intermedio w - g 1(x), y luego transforman w a un valor final v:: g 2(w). Una función de este tipo definida en dos eta11as Ja escribimos como l"

= !11[g,(:c)]

Por ejemplo,

se puede pensar como una funci ón definida en dos etapas. Transforme x en w = después convierta w en

x2;

v =e.,,= e" 1 Otra alternativa es escribir w = g 1(x) = x2 y v = g 2(w) =e", de modo que v g 1(g2(x)j. Para tales funciones ..escalonadas'' la derivada también se calcula en pasos sucesivos. Primero, encuentre la derivada de g~(w), evaluada en w =g 1(x),

Apendice 4 B Breve repuo del cáJc:uto ddw.nc:ial • 1n1-.ra1 w

FIGURA "4.9

179

= g(X)

La derivada es cero en los mínimos y en los max1mos

pués multiplique por la derivada de g 1(.r). Al poner juntas todas la pie2llS, la regla de In cadena afinna que

:."I: 9z[g,(x)]

...

L~. 92[w = g (x)] }[ddx g (x)J 1

Para g(xJ = r'. tome w = g 1(x) = d g(x) d e '"'][dx d :e d.'t - [dw

r

1

y v = g 2(w) =e". En tal caso,

2]

= [e•[2x] = 2xti' a partir de las derivadas elementales. lino de los usos más importantes de las derivadas es el de encontrar máximos y mínimos relativos. En la figura ~ .9, obi.e!'e que. tanto en las cumbres como en los valles de la función g(x), la pendiente (derivada) de g(\) es O De este modo, para localizar un máximo o un mínimo de~('), debemos resolver la ecuación (di'" )g(.\) =O para x. En los problemas que nos ocupan . por lo general es obvio cuándo una solución particular es un máximo o un mínimo, y no necesitamos realizar un análisis más complicado (lal como la prueba de la segunda derivada). Las ideas que acabamos de analizar se pueden extender a funciones de varias variables, tales como \\ = n(x¡.:
xft 3·'1 + log,.(x3)

Podcmo., tomar deril adas parciales con respecto a cada variable tratando (tempor:llmente) las otras variables como constantes. Por ejemplo, la notación para la variable parcial es

En este ejemplo, x 1 (y por consiguiente xf) y x 3 [y por consiguiente logix3)) deberían t:onsiderarse como constantes, digamos. c 1 y el. De esta manera

180

'4

VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE PROBABILIDADES ~

iJ cx 2

( e l....., 3 .1i +e ) ) =e 1 -(el.r') +e J ~ :\

vx 2

' donde hemos aplicado Ja regla de Ja cadena para obtener -

a e 3"• = (e 3.. ')-(3x a ) = (e 3"')(3) 2 OX2

OX2

Para encontrar un máximo o un mínimo de una función de varias variables, debemos igualar todas las derivadas parciales a cero y del sistema de ecuaciones que así se obtiene, calcular todas las variables. En los problemas que aquí nos ocupan, es obvio cuando una solución es un máximo o un mínimo. Para encontrar un mínimo o un máximo de w

= g{.x 1 .x 2 ) = (x,

- 4)

2

+ (2x 1 + .x 2 -

4)

2

debemos resolver las dos ecuaciones

o

-[(x 1

-

4) 2

+ (2x 1 + x 2

-

4) 2 ] = 2(x 1

-

4)

+ 24(2x 1 + x 2

-

4t =O

OX1

y

y obtener -A 1 = 4 "f x 2 = - 4. Obsen:,amos que g( '"I' x 2 ) nunca es negativa y que g(4, -4) - (4 4)- + [2(4) + (- 4) - 4J• = O. Por consiguiente, hemos encontrado claramente el único mínimo de g; como la solución que hemos encontrado es única, no hay un máximo finito de g. Al igual que del cálculo diferencial, necesitamos hacer uso del cálculo integral. En general, necesitamos evaluar integrales definidas de la fom1a

w = g(x)

8

FIGURA'4.IO

La integral como área

b

Apéndice '4. 8

TABLA 4.2

~~.

Breve repaso de 1cálculo d1ferenc1al e 1ntegr.al

Ant1denvadas para la 1ntegrac1ón

·:~

181

l•

~\ .,;..

runción. g(x) {x + «}•. n

~

Anliderívada. G(.r)

(:e+ c)". 1;(n + 1) log,(xJ e"/c .w" le - e" /c 2 <"1G1(x) + r2G2(xl c.x"· 1/{n + 1) +c.

- l

x-1

t" ·'°e<.1

c,g 1("<1 + c 1 g 1 h:) c.x" + ,.• i·"·-1 + ... +<'o

'

1

x"/n + ··· + c0 x

r

g(x)dx

Recordemos que una integral definida es el área bajo la curva determinada por g(x) entre los puntos a y h. tal como se muestra en Ja figura 4.10. La forma hahitual de evaluar integrales definidas es recurriendo al Teorema Fundamental del Cálculo. De acuerdo con este teorema, deberíamos: 1. Encontrar una función G(x) que tenga derivadas g(x): lb mncb antidcrivad:1 de g(x). 2. Evaluar g(x)d.t G(x)I~ = G(b) - G(a).

J:

=

En la tabla 4.2 mostramos algunas de las antiderivadas más útiles. Por ejemplo. para evaluar 2e 21 dt. encontramo~ la antiderivada de 2 g(x) = e-2.'. que es G(x) =e '/(-2) y observamos que la antiderivada de 2e 2.• es 2e-2.'/( -2) = -e-lr. Se deduce que

J:

En ocasiones. necesitamos evaluar integrales con extremos infinitos. tales corno

f.

y(x)Jx = lím

O

H;x.

f

111 y(x)Jx O

suponiendo que el límite existe. Por lo gener.11 el cálculo del límite es claro. pero en algunas ocasiones requiere de algún truco. Considere la integral (véase la tabla 4.2)

f:

xe "dx

= L"' w•

º"Jx

= (xe-'/(-1) -

'I ;;-.

e-x.¡(-1) 2 JI;

El prohlcma consiste en evaluar - xe Cuando x -+ oo, e .. -+ O y x-+ oo, de modo que e 1 límite de xe • (cuando x ~ oo) es ..O · oo". Debemos aplicar un teorema del dkulo llnmado regla de L'Hópital que indica que como e '~O más rapido que X-+ oo,

181

4

VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE PR08A81LIOAOES

Así,

f: .

.;e

A

dx "" (0 - O)

[O - (- 1))

=t

Por úhimo. necesitamos evaluar integrales dol'lles J! J:K(X1,Xz )>..dr1 dx2 • BaJO ciertas condicione') técnica' (que !>tcmprc ~e cumplen en nue~.tra situación) las integrales d01'1lc5 5C pueden calcular en e.los etapas. Primero, con5idcre \, como una constante C2 y calcule la íntegrdl con respecto a X, . Después integre el resultado con respecto a x 2• Puede invertirse el orden e integrar primero respecto a .t2 y después respecto a .r 1• Por ejemplo, podemos recurrir al hecho de que la antiderivada de (.r +e)" es (.r +e)"• 1/(n + 1) para evaluar

laml'lién se puede integrar primero con respecto a .t2, y después con rcspecto a .t 1, ot-teníéndosc el mismo resultac.lo: <>.3333.

,, 1.

CASOS ESPECIALES DE DISTRIBUCIÓN DE PROBABILIDADES

'

Las ideas, notaciones y resultados del capítulo anterior se pueden aplicar a tod:io; las ·;:iriables aleatorias y a todas las distribuciones de probabilidades. Vamos ahora a identificar algunas distribuciones)' fórmulas c~pecíficas que se presentan con frecuencia en la práctica. En particular, queremos describir las situacionc~ >las hipótesis más importantes que ju!>tifican el uso de coda distribución.

5.1



RECUENTO DE LOS RESULTADOS POSIBLES

Este capítulo contiene un análisis de las distribuciones de probabilidades que explican o modelan situaciones que ocurren a menudo. Una de ellas es la de tomar una muestra aleatoria. En ILls secciones 5.2 y 5.3 se anoliUln las distribuciones de probabilidades que se usan en las situaciones más simples del muestreo estadístico. Tal como lo sugerimos al analizar la interpretación clásica de la probabilidad, haremos un uso extensivo de la idea de que número de resultados a favor del evento P(evento) =- - - - - - - - - - - número total de resultados

Para llevar esta idea a Ja práctica, necesitamos un m¿todo que nos permita contar los resultados posibles sin tener que enumerarlos. Esta sección contiene un breve análisis de las fórmulas de recuento. Estas fórmulas son fundamentales en el desa· rrollo de las distribuciones de probabilidad en las dos siguientes secciones. Ellas surgen como respuesta a las siguientes preguntas: suces iones y subconj untos

.

1. ¿Cuántas succ,io ncs de k elementos se pueden formar a partir de un conJUnto de r elementos distintos, utiliusndo cada elemento una sola vez? 2. ¿Cuántos rmdo cadn elemento unn sola 'et'? 183

184

s

TABLA 5.1 - -----

Subcon¡untos

CASOS ESPECIALES DE DISTRJBUCION DE PROBABILIDADES

y sucesiones de las S letras A. B, C, O y E Sucesionu

Subcon1untos

AEB ADC AEC AED BDC

BAC BAO BAE CA() CAE OAE

CAB DAB lAO DAC EAC EAD

C"BO

DIK

(A,B.C} :A.e.o: (A.B.E} IA.C.Dl (A,C. E}

ABC

ACB

ABO

ADB

ABE ACD ACE

:A.O.El :e.C.Dl

ADE

:e.e.e: IB.D.El !C. O.E}

BCD BCE

BEC

CBl:

E:BC

BDF

lll:.D

DBF

CDE

CEO

DCF

1-80 FCD

DCA BDA Bl-.A

CBA

COA

DCA ECA EOA DC"B

CEA Dl::A CDS Cl::B

DBA l:BA

OFB

ECB f·OB

OH'

EDC

La única diferencia enlre una sucesión y un subconjunto es que el orden es imponante para las sucesiones, pero no para los subconjuntos. La sucesión /\ BC no es la misma que la sucesión C/\B, pero el subconjunto {A, B. C} es el mismo subconjunto que IC. /\, B} . Por ejemplo, considere las sucesiones y los subconjuntos que se pueden formar con 3 de las primeras 5 letras del alfabeto Hay 60 sucesiones y tan sólo 1O subconjuntos (tabla 5.1 ). Vamos a derivar una fórmula paro el número de sucesiones. En el ejemplo anterior. pudimos escoger pam Ja primera posición cualquiera de l:is 5 letras y después cualquiera de las 4 leuas restantes para fonnar 5 x 4 o 20 sucesiones de 2 letras. Podemos combinar cada una de éstas con cualquiera de las J lelraS restantes para formar (5 x 4) (3) .:. 60 sucesiones de 3 letras. En general, tenemos r alternativas para el primer elemento, r - 1 para el segundo, y así sucesivamente. Cuando tenemos 4ue seleccionar el k-ésimo y último elemento. ya hemos utilizado k 1 elementos y quedan r - (k- 1) =r-k + 1 elementos para escoger uno entre ellos. Por consiguiente, número de sucesiones =r(r - 1) ... (r - le+ 1)

\:&riaciom•11

de k elementos tomados entre r elementos distintos. Esta fórmula parece un factorial (r!) salvo que está truncado en r - k + 1 en 'cz de continuar hasta 1. El número de suce~iones se suele llamar número de variaciones de r elementos tomados de k en k y se denota con kP, o rA .• Este número se puede expresar por medio de factoriales como sigue:

lP, =

r! (r - k)!

=r(r-l)···(r-k+I)

Los factoresr-k, r-k - 1, ... , 3, 2, 1 en el denominador se cancelan con los factores correspondientes en el numerador, dejando sólo los factores r, r - 1, ... , r - k + l .

M"""'ª"º"·

No obstante, la vo7 ~rmuta­ cton se ~K~ en la lcnsua espailola para el caso en que k es igual a r, n decir, ~D l:is vanacione~ de 11 elementos tomados de" en 11. (N. del T.)

• En inglis. 11 palabra 41\K se utiliza para las vuiacionH n

S. I

185

Recuento de los resuh.ados posibles

El número de subconjuntos se llama número de combinaciones de r elemeno (t). L3 tabla 5. 1 sugiere una forma intos tomados de k en k ) se denota con d i n:cta de encontrnr Ü). Cada tila de la tabla de sucesiones corresponde a un subconjunto panicular. Las seis columnas corresponden a todas las variaciones posibles del conjunto de 3 letras considerado. En general. para k elementos hay le (k - l ) . .. 3 · 2 · l =k! columnas, pues cualquiera de los le dementas puede ser et primero. cualquiera de los k 1 elementos restantes el segundo, y así sucesivamente. Como se utilizan los le dementas, el factorial no se trunca. Por consiguiente, númcw de sucesiones (número
,,e,

r! (r _ k)! = (número de subconjuntos)k!

J\horJ, al despejar

(í}, el número de subconjuntos. obtenemos

') r! ( k = k!(r - k)! 1:.1 símbolo (í) se Ice "k de r'', sugiriendo la elección de un subconjunto de k objetos tomado de un conjunto de r objetos. la fórmula para lai. combinaciones ec; particularmente útil en el muestreo aleatorio, pue'> seleccionar una mue<;tra de tamaño k. sin reemplazamiento de una poblacion de tamaño r. es exactamc!nte lo mismo que escoger un subconjunto de le objetos de un conjunto de r objetos. Por lo general, es irrele\antc el orden de los objetos o elementos durante el muestreo, de modo que la fórmula para las ... ariaciones es. de alguna manera, menos importante.

EJEMPLO 5. 1

Solución

Al auditar las 87 cuenus por pagar de una compañia, se inspecciona una muestra de 1O cuenta.s.• ¿Cuántas muestras posibles ha;(? Suponiendo que 13 de las cuentas contienen un error, ¿cuántas muestras contienen exactamente dos cuentas incorrectas? No hay necesidad de considerar el orden (\ ariacionell) en el que las 1O cuentas se seleccionan, pues todas serán inspeccionadas. Por consiguiente. podemos contar el número de combinaciones. Hay {rJ}- 87! 10!77/ ""4,000,000.000.000 muestras posibles. Pnra obtener todas las muestras con dos cuentas incorrectas. podemos combinar cualquiera de las ( 1!} selecciones de dos tomadas de las 13 cuentas incorrectas, con cualquiera de las ( elecciones de ocho, tomadas de las 74 cuentas correctas. Como cada selección de dos cuentas incorrectas se puede acompa~ar con cualquier elección de ocho correctas, hay ( ~') = 1,200.000.000.000 mue-.tras con dos cuentas erróneas y ocho correctas. •

7t)

('a')

EJEMPLO 5.2

En un certamen de ventas entre 6 12 vendedores. los 10 primeros lugares reciben premios. que \an desde unas vacaciones con gastos pagados para el primer lugar hasi.l 50 dólares para el décimo lugar. ¿Cuánta.s listas con los nombres de los diez ganadores se pueden formar?

186

S

Solución

En este caso el orden sí es relevante, de modo que lo correcto es aplicar Ja fórmula pa· ralas variaciones. Hay 10 Pi. 1 ~ = 612!/602! =6,800,000.ooo.ooo.ooo.ooo.ooo.ooo.ooo posihifoiades. •

5.1

5.1

5.3

54

5.2

CASOS ESPECIALES DE OISTRIBUCION DE PR08A81LIDAOES

En cier10 es1ado una corle de apelaciones csla formada por 7 jueces. Para un caso rutinario, tres de ellos se eligen al :i?.:ir como jurado rara escuchar el ca~n y emitir un dictamen. ¿Cuántos jurados distintos se pueden formar? Suponga. en el ejercicio 5.1. que a 5 de lo:; 7 jueces de la corte de apelac1on~s se les consider:i potcnci:ilmcnte rroch,es a cierto arg,umcn10 legal ¿Cuantos jurados se pueden formar en que figuren exac1amen1e 2 jueces proclives? ¡,Cuantos jurados tienen al menos 2 de tales jueces'! Una tienda de comestiMes de~a proh:ir una behida de col:i de m:irca propia /\ un catador c;e le dan Rvasos sin etiqueta. 4 con la hehida de cola de marca propb ~ 4 con una hehida de cola de marc:i conocida. /\1 catador se le: pide que idcnlllil¡uc los 4 vasos que contienen la bebida de marca propia. ¡,Cuantas elecciones distintas de: 4 \'a· sos puede hacer el catador'? En el ejercicio .S.3, 1.cuán1as elecciones inclu)cn 3 \'asos correclos y uno incorrec10.,

ENSAYOS DE BERNOULLI Y LA DISTRIBUCION BINOMIAL



El procedimiento más simple de recolección de datos consiste en contar el número de veces que un cierto e\ ento sucede. Cuando se toma una muestra uleatoria de electores (votantes) registmdos, podemos contar el número de ellos que prefieren al titular del cargo que ;i su opositor. Cuando se toman muestras de p1stone" par::t el montaje del motor de automóviles. podemos contar el número de ellos que ll(l cumplen con las medidas de tolerancia. Cuando examinamos las prácticas di: contratación de personal de una compai'\ia, podemos. contar el número de trabajadores contratados que pertenecen a una minoría. Cuando examinamos políticas credit1c1as. podemos contar el número de deudores morosos. Podemos reducir una 'ane· dad casi ilimitada de sitwciones a este simple proceso de recuento. Estos ejemplos, al igual que muchos otros, tienen ciertos ra<;gos en común En primer lugar, el proceso global se puede pensar como una serie de en'-•)º' (pruchas), cada uno de los cuales proporciona uno entre dos posibles resultados. l·n la muestra de los electores cada persona constituye un ensayo. Se acepta o se rechaza al titular del cargo. En la muestra de los pistones, cada ensa} o proporciona un pistón deícctuoso o uno dentro de los márgenes de tolerancia. l'ada persona contratada es o no miembro de una minoría, y cada cuenta de crédito corresponde o no a un di:udor moroso. En el lenguaje comente se acostumbr.i llamar "éxito" o "suceso fo. vorable" a uno de Jos resultados)' "fracaso" o "suceso desfavorahlc" al otro. Cmíl de ellos se considere éxito no tiene ninguna imponancia. Una cuenta dc crédito de un deudor moroso se puede llamar "éxito" o "suceso favorable" . En segundo lugar. en cada una de estas situaciones, es r;11onable suponer que la probabilidad de éxito, lí. es la misma para todos los ensayos. La prohobilidod de encontrar a un elector que íavorece al titular del cargo no camliia durante un muestreo (a meno' que la muestra comprenda un amplio periodo de tiempo), al igual

S.2

Ensayos de Bernoulli y la distribución binomial

187

que la probabilidad de un pistón defectuoso o la probabilidad de un deudor moroso. Si la ta!>a de desempleo y las prJ.cticas cie contratación de la compólñía no cambian, la probabilidad de que un nuevo trabajador sea miembro de unól minoría no cambia. Finalmente, en cada situólción, se puede suponer que los resullóldos de los distintos ensayos son independientes. La preferencia de un elector por el titular del cólrgo no afecta la preferencia de otro elector; por lo menos esto no debería suceder en un estudio discñndo cuidadosamente. Si un deudor resulta ser moroso. este hecho no debería cambiar la posibilidad de que Ja siguiente cuenta seleccionada corresponda a un buen cliente. Estas tres hipótesis (cada ~yo resulta en un éxito o en un fracaso, la probabilidad a de éxito es constante y los ensaym son independientes) definen una serie de cn'iayo.; d e Bcrnoulli. Las hipótesis no son más que suposíc10nes; no todo proceso de recuento se puede modelar como un ensayo de Bcrnoulli. Que estas hipótesis sean razonables depende de la situación. Los ensayos éxito/ fracaso no son siempre independientes e idénticos. No obstante, en muchos caso~ csrns hipótesis son en buena medida acertadas, lo que hace de los ensayos de Bcrnoulli un modelo muy útil.

EJEMPLO 5.3

Analice si una serie de ensayos de Bemoulli proporciona un modelo razonable para cada una de las siguientes situaciones. a. Cada 15 minutos, de las 5:30 P.M. a las 10:00 P.~ .• un investigador hace llamadas teleíónicas a cierto número de hogares seleccionados al a1ar. A la persona que contesta le pregunta si está viendo el programa de televisión de la cadena ABC. Un ensayo consiste en llamar a un hogar y determinar si alguien en la casa está viendo el programa de la ABC. b. Un ejecutivo de un consorcio examina una muestra de listas de acciones de la bolsa de valores de Nueva York para determinar si cada una de las acciones ha subido de valor durante Ja semana pasada. Aquí un ensayo consiste en seleccionar una acción y detenninar si el precio ha subido o no durante la semana pasada. c. Al término de un programa de capacitación, cada uno de los 50 gerentes recién contratados recibe una calificación de sobresaliente, aceptable o insatisfactorio. Un ensayo consiste en determinar la calificación para un gerente recién contratado.

Solución

a. La hipótesis de una prob:ibilidad constante de un ensayo al otro no es plausible en esta encuesta pues el nivel de audiencia es en general m:is bajo a media tarde. Por lo tanto, la probabilidad de encontrar a alguien viendo el programa de la cadena ABC puede variar dcp.!ndiendo del momento en que se haga la llamada. b. La hipótesis de independencia es muy dudosa. En cualquier periodo de tiempo ha) una tendencia moderadamente íuertc de los precios de las acciones a subir o bajar de manera conjunta, a causa del cambio en las tasas de interés, las noticias políticas y el instinto de grupo de los inversionistas. Así, para las acciones que aparecen en las listas de la muestra, el resultado de cualquier ensayo depende fuertemente del cambio de precios de las otras acciones. c. En C\te problema, hay 1 resultados posible'> en cada ensayo, no 2. Sin embar go, si definimos "éxito'' como tener una calificación de sobresaliente y "fracaso" como el complemento (no calificado como sobresaliente), los ensayos de Bcrnou lli pueden ser un buen modelo. Lo más importante es establecer si los resultado' de los ensayos son independientes. Si hay un límite o cuota efectiva para el número

188

S

CASOS ESPECIALES DE OISTRIBUCION DE PROBABILIDADES

(o proporción) de calificaciones sobresalientes (por ejemplo, la rc~tricción de que el ~upen 1sor no pueda calí ficar :l mfu. del 1O~o del grupo como sobre~aliente) entonces la h1pot1sis de independencia no se cumple Pero si a cada estudiante se le cali lica de acuerdo con sus propios méritos, con un criterio razonablemente objetivo, la independencia de los ensayos (calificaciones) deberla ser una hipótesis ruonable. •

C\pcrimcnto hinomial

Hay todavia un rasgo común a todas las situaciones del ejemplo 5.3. Estamos contando el número de éxitos que suceden en un número fijo n de ensayos, sin tomar en consideración el orden panicular en el que suceden los éxitos y los fracasos. Esto no seria cieno si, por ejemplo, el entrevistador telefónico llamase a los hogares al azar hasta alcanzar 24 hogares en los que se estuviese viendo la televisión. En esta situación, n no es fijo y el orden de los éxitos y fracasos si es relevante; está gar.inti1.ado que el último ensayo (llamada) será un éxito. Una colección con un número fijo /1 de ensayos de Bemoulli, en la que el in· \C'>tigador está interesado en el número total de éxitos, define un experimento hi· nomial. A continuación enumeramos las propiedades de un experimento binomial.

Propiedades de un experim ento binomial 1. Hay n ensa} os de Demoulli; cada uno de ellos resulta en un éxito (E) o en un fracaso {F). 2. La probabilidad 1f- P(E) de un éxito, permanece con.!ttante en todos los ensa) os [P(F) = 1 - n-]. 3. Los ensayos son independientes. (Las hipótesis l -3 definen los ensayos de Bemoulli.) 4. La variable aleatoria de interés es Y, el número de ¿xitos en n ensayos. El orden de los éxitos es irrelevante. • 'aria ble aleatoria hinorn i:t l di, trib udón d e probabilicl:1tk!I binomi:tl

La variahk aleatoria Y en un experimento binomial se llama 'ariabl(' aleatoria hinomial Se trata de una variable aleatoria discreta que puede tomar cualquiera de los valores O, 1, 2, ... , n. La di\lril>ución d t prohabilidades b inomial P (~'). que asigna probabilidades a cada valor de Y, se entiende mejor al conside1 rar un ejemplo sencillo. Suponga que tomJmos una muestra aleatoria de 3 individuos de una pobla· ción con una proporción n de éxitos. La figura 5.1 mue~tra un árbol de probabilidad para calcular la distribución de Y. Sumando las probabilidades de las trayectorias pertinentes, podemos encontrar la distribución de probabilidades bi· nomial para n - 3. Por ejemplo. las trayectorias segunda, tercera y quinta (contando de arriba hacia ahajo) dan l ' 2; cada una de esas trayectorias tiene probabilidad irl(l - ir). Para obtener la probahilidad P(f-' 2) sumamos las probabilidades de las trayectorias, Py(2) = Ji(I n-) + ir( 1 1f) + ,r( 1- 1f) 3tr2(1- n-). La distribución de probabilidades cornpkta es y:

P1 ( y):

o (1 -



Ensayos de Bernoulh y

52

Ensayo 1

I~

189

d1$tnbuc1ón b.nom1al

Ensayo 2

Ensayo 3

Valor y

E E

E

Probablhdad

3

lt

F

1 . :t

E

n

F

1 • 1l

E

ll

F

1 • 11

E

lt

2

lt

2

1 • lt

F

E

11(1 · 1t) 2

2

ll lt( 1-

lt) 2

1 • lt

F

r:

1•

F

FIGURA 5.1

EJEMPLO 5.4 So /uci6n

1t{1· 11) 2

1 • lt lt

o

{1 • 11) 3

Árbol de probabilidades para una d1str1buc1ón binomial con n = 3

Encuentre la distribución binomial parJ

/1 -

4.

Para economizar espacio, hemos hecho una lista con las tray~ctorias en vez <.le dibujar el árbol. Quizá usted quiera construir el árbol de probabilidad correspondiente. Trayectoria número Sucesión de la trayectoria

1

2

)'

Probabilidad

EEEE

4

11

HH

3 3

1lJ(I - Jt)

2 3 2 2 1 3 2 2

1t2(1 _ n)l

FEFf ~ fl:.I:. FFF.F Fffl:.

1 2

n(I - 1t)3

1

1t2(l -1tJ2 3 lt( 1 - Jt) n( 1 - n:) 3

IHF

o

(1 -

3

l.l:H:

.a 5

!:HF

6 7 K 9 10 11 12 13 14 IS 16

l:.HJ

LI 1:.1:.

1 1-11· l:HF 111:.1:. H:FF fFFF.

nJ(l - n) 11 3(1

- x)

lt 2(1

- ll)2

xl(I - n)2 11( 1

- n) 3

1l) nz(I _ 1t)2

11)(1 -

x2(l - n}2

71)

4

190

5

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

Todas las trayectorias correspondientes a un valor particular l ' ticnc.:n la misma probabilidad. Por ejemplo, cada una de las 6 trayectorias que dan r - l tiene probabi· lidad ,r( 1'- 1r) 2. Así. sumar las prohabilidadc'> de la trayectoria para un valor particular y. equivale a multiplicar el número de trayectorias por la probabilidad apropiada.

o

y:

Prfyl:

11 -

1 4itll -

4

J1C)

2 JIC))

b

1

(1 - .,~

)

41f Jtl

4

-

lf)

1' ..



Necesitamos una fórmula para evitar la tarea de cont.3r trayectorias. Podemos utiliZ'1r los m¿todos de la sección 5.1 . Una forma de especificar una trayectoria en un experimento binomial consiste en determinar los ensayos en que 11ucede un éxi· to. Por ejemplo, si n = 5. los éxitos sólo ocurren en los ensayos 1 y 4: en breve, E en ( 1. 4). Esto especifica la trayectoria EFFEF. El orden de los números de ensayos es irrelevante; E en (4, 1) también especifica la trayectoria EFFEF. Por consiguiente, en n ensayos el número de trayectorias que contienen y éxitos es el mismo que el número de subconjuntos de tamaño y que se pueden formar con los primeros n entero~. De la sección 5.1 sabemos que este número es

(n)y =

(n!) y!(n - y)!

Utiliz.-indo esta expresión para el número relevante de trayectorias en un árbol de probabilidad binomial, obtenemos una expresión general para la distribución de probabilidades binomial.

D istribución de probabilidades binomial

Pr(J)

n!

= y.'(n -

y)!

x'(I -

.irr-

1



para y= O. l, . . . ,n

La tabla 1 en el apéndice al final del libro contiene valores numéricos de las probabilidades binomiales. Cada valor de n determina un bloque de probabilidades. Para los valores de 1t por debajo de 0.5. sus valores se leen en la parte superior del bloque y los de y a la izquierda. Para los valores de 11' por encima de 0.5, sus valo· res se leen en la parte inferior. y los valores de y a la derecha.

EJEMPLO 5.5

[n la tabla 1 de probabilidades binomiales del apéndice. encuentre la distribución de probabilidades de una variable aleatoria binomial para n = S y (a) 1'C - 0.2, (b) TC - 0.5 y (C) 1'C= 0.7.

Soluct0n

En la tabla del apéndice 1 buscamos en el bloqul! correspondiente a n-" S. Para 0.2 leemos deha10 de la columna correspondiente a O20. para 1'C - 0.5 utilizamo~ la columna TC - O 50. para 1'C = O. 7 leemos orrrba de la columna 1'C - O.70. La distribución resultante es TC -



52

Ensayos de 8ernoun1 y la distnbuaón bmomial

o

)

P.,{y) para 1r .20 P.,{y) para 1r = .SO P.¡.y) para 1r 70 P.

EJEMPLO 5.6



3277 0313

0024

4096 .1563 0284

2

3

4

2048 312S .1323

.0512 .3l2S

0064 1563 3602

3087

,,.·'

.0003 .0313 .1681

• A la larga, el 200/o de los gerentes que reciben capacit.ición ohticncn la calificación de sobresaliente, el 500 o la de aceptable > el 30º o la de insatisfactorio. En una mucstr.s de 20 gerentes seleccionados al a.t.ar, encuentre las siguientes probabilidades:

a. Exactamente 4 gerentes son calificados con sobresaliente. b. Al menos 4 gerentes son calificados con sobresaliente. c. ~x:.ictamente 15 gerentes son calificados con sobresaliente o aceptable. d. Al menos 15 gerentes son calificados con sobresaliente o aceptable. Supon~a

Solución

que se trata dc un conjunto de ensayos de Bemoulli.

a. Encucntrc el valor correspondiente a n = 20, Tr- 0.20 (en la parte superior del bloque) e y =4 (a la izquierda). La probabilidad es O.2 182. b. Sume los valores correspondientes a n - 20. 1C - 0.20 e y - 4, 5, 6, ... , 20 para obtener 0.5886. c. La probabilidad de que una calificación sea sobrcsalknte o aceptable es O 20 + 0.50 = 0.70. Encuentre el valor corre'ipon<.liente a n - 29, rr - 0.70 (en la parte inferior del bloque) e y= 15 (a la derecha)· 0.1789. Otra alternativa es la siguiente: esta probabilidad es igual a Ja probabilidad de tener exactamente 5 calificaciones insatisfactorias, ~rala que 1C = 0.30 e y= 5. Este razonamiento proporciona el mismo valor en la tabla: 0.1789. d. Sume los \atores correspondientes a n = 20, Tr- 0.70 e y- 15. 16, ... , 20 para obtener 0.4163. Alternativamente, sume los valores correspondientes a n - 20, rr - 0.30 e y =5, 4, ... , O para obtener la probabilidad equivalente de 5 o menos cali ticaciones de insatisfactorio. • El 'alor esperado y la varianza de una \'ariable aleatoria binomial Y dependen, por supuesto, de los valores de n y rr. Media y varianza de una variable aleatoria binomial E( Y)

e:: r!7!

Var(Y) = nn(l - 11:),

ªr::::

Jn.,,.(l - 7t)

El valor esperado que se ha obtenido para la variable aleatoria binomial parece intuitivamente ra1onable. Si. en promedio, 30~o de los gcrenks capacitados son calificados como sobresalientes, en una muestra de 20 gerentes capacitados deberíamos esperar que 20(0.3) = 6 reciban dicha calificación.

192

SECCIÓN 5.2

S

CASOS ESPECIALES DE OISTRJBUCION DE PROBABILIDADES

EJERCICIOS 5.5

5.6

S. 7

~.l >'una variable aleatoria binomial. Calcule Pr(V) en cada una de las siguientes situaciones.

a. n .. 10, ir= .2. y 3 b. n -- 4, n - .4. y == 2 c. n= 16,ir,,..7,y• 12 Sea runa variable que tiene una d1strihución de probab1l1dades binomial con 11 • 6 y Ir = 0.25. a. Calcule a m:mo P r (l') para y= 1, 2 y J. Compare sus result:idos con los que aparecen en la tabla 1 del apéndice. b. Trace un histograma de P r (i·). c. Encuentre la media y la desviación estándar de Y. Sea Y = número de éxitos en 20 ensa}os independientes. donde la probabilidad de éxito en cualquier ensayo es 0.4. 1-. ncuentrc

a. P(Y ~ 4) b. PI Y> 41 c. P(Y e;; 101 d. P(Y > 16) Sea Y un:i variable aleatoria hinom1al con n "" 20 y Tr = 0.6. En~uentre /'(Y S 16) y P( }' • 16 ). Compare estas probabilidades con las que encontró en los incisos (a) y (b) del ejercicio 5.7. 5.9 Una cadena de moteles ha adoptado la política de hacer un descuento del J~o a los clientes que p:iguen en cfcctl\o en vez de hacerlo con tarjeu de crédito Su ex,.ieriencia indica que el 30% de los chentcs aceptan el descuento. Sea Y• número de persona.~ que aceptan el descuento entre los próximos 20 clientes. a. ¿Cree usted que las hipótesis binomiales son razonables en esta situación? b. Suponiendo que las probabilidades binomiales sean aplicables. encuentre Ja prohabilidad de que e\actamente 5 entre los próximos :!O clientes acepten el descuento c. Encuentre P(5 o menos clientes aceptan el descuento). d. ¿Cuál es el numero más probable de personas que aceptarán el descuento entre los próximos 20 clientes? 5.1 O En el ejercicio 5.9, encuentre el valor esperado y la des\ iación estándar del número de personas que aceptan el descuento. 5. 11 1-.n el ejercicio 5.9, utilice la regla empírica para aproximar la probabilidad de que )'esté a menos de una des\ iac1ón e"tándar del valor esperado. Utilice las tahlas binomiales para encontrar la probabilidad exacta. ¿1-.s buena la aproximación de la regla empirica? ¿Qué tanto? 5. 12 Una comp:u'lia pequeib utiliza un servicio de paqueteri:i para enviar los pedidos de quesos especiales que son para obsequios. l.a compallia ha encontrado que el 90% de los paquetes se entregan a tiempo. Se en\ia un embarque de 100 poquetes. Sea Y= numero de paquetes entregados a tiempo. a. ¿P:irccen ra1onables las hipótesis binomiales en esta situación'? b. Suponiendo que l:is prohabilidades binomiales se aplican, encuentre P( Y 2 85). 5.13 Suponiendo probabilidades binomiales. encuentre E( Y)) º>en el ejercic io 5.12. S 14 Un fohrtc.3nte de medicamentos :ilirma que sólo el 1O'Yo de las mcdu:inas que re· sultan efecti,as en las pruebas con animales pasan el resto de las que se exigen para su comerciali1.ación. Actualmente. el fabricante tiene 8 nuc,os medicamentos de probada efectividad en experimentos con animales y que espcr::n pasar en las siguientes pruebas. 5.8

193

a. Encuentre la r>robabilidad de que ninguno de los 8 medicamentos sea comerciali7.ado. b. Encuentre la r>robabilidad de que al menos 2 de ellos sean comercialitados. c. Encuentre el número esperado de medicamentos comerci.ili1.ados entre los 8. 5.15 Trace el histograma de Py(.V) para el ejercicio 5.14.

5.3 di trihudón de probabilidades hipcrgcométrica

DISTRIBUCIÓN HIPERGEOMÉTRICA



Las fórmulas de recuento de la sección 5. 1 se pueden utilízar para definir la distribución de ¡lrohabilidadcs hipergcométrica . En esta sección establecemos una fórmula para esta dístribución y la relacionamos con la distribución binomíal. Es fácil descríbir la sítuación que nos lleva a la distribucíón hipergeométríca. Debe haber una población que contenga cierto número N1:. de éxitos y un cierto número NF de fracasos. El tamai'\o total de la población es N - Nr + Nr- • Se toma de la poblacíón una muestra de tamaño n, sin hacer reemplazos. La variable aleatoria relevante es Y= número de éxitos observados en la muestra. El ejemplo 5.1 ilustra tal situación: hay 13 éxitos (cuentas erróneas) y 74 fracasos en la población, y el tama1'o de la muestra es n =- 1O. Este ejemplo introduce el principio básico de la distríbución hípergeométrica. que no es otro que la interpretación clásica de la probabílidad:

.. P(evento)

=

número de resultados a favor del evento número total de resultados

En este contexto, "resultado" significa "muestra". Hay (~) muestras posibles de tamaño n que se pueden tomar de una población de !Jlmal\o N. Las que favorecen al evento son aquellas que tienen exactamente y éxítos y n - y fracasos. Como se ind ica en el ejemplo S. 1, hay ( 'f! X,/!.~) muestras con tales características, lo que nos lleva a la siguiente dístribución hipergeométrica:

Distribución de probabilidades hipergeométrica

Y"' número de éxitos en una muestra aleatoria de tamal\o n (tomada sin reemplazamiento) de una población que consiste en NE éxitos y Nr fracasos.

y= O, l .... ,n

• AW1quc por lo general utilizamos letras mayüsculu para denotar variables aleacoriu, esw lctnu "N" no son vanablet aleatorias sino cons11ntes.

194

5

EJEMPLO 5.7

Solueton

CASOS ESPECIALES DE DISTRJBUCION DE PROBABILIDADES

En el ejemplo 5.1 consideramos tomar una muestr.i de 10 de las ~7 cuentas de una compal'lía. De las 87, 13 tenían errores Encuentre P(2 cuentas incorrectas en la muestrl ). Tenemos N= 87, n = 10. NF. = 13 y. por lo tanto, N>'- 74; i.¡ueremos P(Y

2).

7

P,(ll _

(~)Co J i),. 1.115.600.000.000 _ .294 (~~)

4.000.800,000.000



Aunque podríamos citar muchos otros ejemplos de situaciones "hipergcomé· tricas", preferimos acentuar la estrecha relación entre las probabilidades binomial e h1pergeoml!trica. ~¡ el tamaño \ de la poblaciún e' grandr (en rl'l:u:iún con l'I l::11nalio 11 de l:t muc\ lra ). l;e di1,tinción l'ntrc la' di,tríbuciunl'' hínomial e hipergeométrica es despreciable. S1 una muestra aleatoria de t
EJEMPLO 5.8

Encuentre P(2 cuentas incorrectas) en el ejemplo 5. 7 utilizando una distribución de probabilidades binomial.

Solucion

Tomamos n - 10 y n = IJ/87 ""O. 149. Así. P(2 cuentas incorrectas) -(':)o.149) (0.851}8 "'0.275. Esta probabilidad la hemos calculado utilizando la distribución binomial. Es aproximadamente igual a 0.30. la probabilidad de 2 cuentas erróneas i.¡uc habíamos calculado con la distribución de probabilidades hipcrgeométrica. A medida que N aumenta, dichas probabilidades se hacen mas próximas entre sí. •

1

La t.."Strecha rdación entre las probabilidades binomial e hipcrgeométrica se extiende a los valores esperados y las varianzas. Aunque no lo demostraremos, la media y la varianza de una distribución de probabilidades hipergcométrica son:

Valor esperado y varianza de una variable aJcacoria hipergeomecrica Y E(Y)

N

= "~

NE( N

NF)N-n N

Var( Y) = n- 1 - - - N- 1

El cociente N1/N es exactamente lí, la probabilidad de éxito en un solo ensayo. En el ejemplo 5.8 tomamos re=- 13/87. Por consiguiente. el valor esperado de la variable hipergeométrica Y es E( Y) = n1C, igual que la binomial. Sustituyendo 1r N1/N, la

01stnbuc1ones geom~tr1ca y bonom.al ne¡at1va

r1u•tor d e corrl'C\ 11111 cfr puhl:tcion l·~ finita \

SECCIÓN 5.3

vnrian:za de la variable hipergeométrica se reduce a nn( 1 - 1r)[(N - n)/(N - 1)j, en compar.icil>n con la varianza binomial nn( 1 - n). l la) un factor adicional (N - n)f(N - 1) llamado factor de corrección de pobl:tcionc<1 finitas. Este factor es exactamente ig ual a 1 cuando n = 1; de lo contrario. ce; mcnor que 1. Para la mayoría de las sit unc i one<., prácticas en las que la muestra es una fracción muy pequeña de la pohlaciún (ne\ mucho más riequcr~o que NI. el factor(N - n)/(N - 1) es :iproximada· mente igual a 1. Por ejemplo, sin 100 y N - 100,000.000. entonces (N - n)l(N 1)"'0.999999. J-c; por ello que en Ja mayoría de las situaciones no nos preocupamos por la distinción entre las distribuciones de probabilidades binomial e hipergeométrica, pues sólo consiste en una pequeña diferencia numérica.

EJERCICIOS 5. 16

5.17 5.18

5.19

5.20

5.21

5.22 5.23

5.4

195

Sea Y una variable aleatoria hiriergeométrica con Nr:. - 3, NF "" 4 y 11 3. a. Calcule p y(I') rara 1. 2. 3. b. l"race una gnHica de esta distribución de prohahilidades. En el ejercicio 5.16, encuentre la media y la desviación estándar de la variable alca1oria Y. Calcule /' r (2) para una "ariahle aleatoria hipcrgeométrica r en cada una de las siguientes situaciones: a. NE= 2, N,. 3. n J b. Nr:. = 4, Nr = 4, n = S c. Nr = 5, N¡; = 1. n .. 3 1-.n cada una de las situaciones siguientes, calcule la prohabilídad de que Y= O: a. Y es una binomial con 11 = 5 y 1r -= 0.40. b. )'es hipcrgeométrica con Ne = 2, Nr - 3 y n = S. Remítase a los ejercicios 5.3 y 5.4. a. Encuentre la prohabilidad de que d catador seleccione los 4 vasos correctos. suponiendo que Ja selección es aleatoria. b. Encuentre P tÜ') donde r numero de elecciones correctas. Surionga que de 2500 cuentas comerciales de un banco. 125 han sido alteradas fraudulentamente. Las alteraciones son lo hastante sutiles como para que sólo una auditoria mu)> detallada las pueda descubrir. Se eligen al a1.ar 50 cuentas comerciales para una revisión detallada. ¿Cu:il es la probahilidad de que se descuhra al menos una de las cuenta~ alteradas'.' Encuentre el valor esperado y la \'arian1.a del numero de cuentas alteradas descubiertas en la auditoria del ejercicio 5.21. Utilice la aproximación binomial para responder a los ejercicios 5.21 y 5.22. ¿Cuán· to se aproximan entre sí las respuestas numéricas':'

y"" º·

DISTRIBUCIONES GEOMÉTRICA Y BINOMIAL NEGATIVA los ensayos de Bcmoulli, analizados en la sección 5.2. se caracterizan por producir en cada e xperimento un éxito o un fracaso con prob:ibilidades con!-tantes y por ser independientes entre si. En el primer contacto que tuvimos con ellos sólo nos. interesó el caso en que el número de ensayos es fijo y el número de éxitos aleatorio.

196

S

CASOS ESPECIALES DE DISTRJBUCION DE PR08ABIUDADES

1la> ocasiones en que la <>ituación es la opue<>ta: el número de éxitos es fijo y el de en-

"ª) OS. aleatorio. En e<,t:i sección tratamos con este tipo de situaciones. las cuales nos

lle' arla las distribuciones de probabilidades geométrica y binomial negativa. Muchos bancos suplementan sus servicios de pago tradicionales con cajeros automáticos, máquinas que funcionan con tarjetas. Existe el riesgo de que la máquina sea operada con tarjetas bancarias no autorizadas. Suponga que uno de cada mil intentos de transacción en el cajero autom3tico implica el uso no permitido de una tarjeta bancaria. S1 consideramos cada transacción como un en'\a)o (e ignoramos la pos1b1lidad de operaciones repetidas utilizando la mi<>ma tarjeta). podemos suponer que se trata de una serie de ensayos de Remoulli. La distribución binomial de la sección 5.2 permite encontrar probabilidades tales como que haya más de 20 usos no autorizados dentro de las próximas 10,000 transacciones. En tal situación, el número de ensayos (transacciones) sería fijo y el número de éxitos (usos no autorizados), aleatorio. Alternativamente, podemos preguntar el número de transacciones que tienen lugar antes del siguiente uso no autorizado, o antes del décimo. Esto nos lleva a las 1.fütribuc1ones de probabilidades geométrica ) binomial negativa. La distribución geométrica se presenta cuando consideramos Y número de ensa) os requeridos para obtener el siguiente éxito. FI árbol de probabilidad paro una \anablc aleatoria geométrica es mu) l>imple. Pedir y cnc;ayos para alcanzar un éxito es Jo mismo que requerir que haya y- 1 fracaso<> consecuti\ os c;eguidos por un éxito.

Dist ribución de probabilidades geométrica En una serie de ensayos de Bernoulli, defina Y= número de ensayos requeridos para alcanzar un éxito. En tal caso

y= '· 2. 3, .. . donde

JC es

la probabilidad de éxito en c ualquier ensayo.



Estas probabilidades forman una serie geométrica. Si Ir= 0.2, las probabilidades son 0.2, 0.2(0.8). 0.2(0.8) 2,.. •• ·

EJEMPLO S.9

Solución

Las etiquetas en los frascos de Jos medicamentos se examinan con un lector óptico para comprobar que están debidamente adheridas a las botellas. Suponga que la probabilidad de descubrir una etiqueta mal adherida es 1f - 0.0001. Calcule la probabilidad de que el proceso detecte una etiqueta con tales características en el primer ensayo. También calcule la probabilidad de que el proceso descubra por primera vez una etiqueta mal adherida en la diezm:~~.,1ma botella. El evento "etiqueta mal adherida en el ensayo 1" es lo mismo que el evento

"Y"" I". donde Y= número de ensayos para encontrar la primera etiqueta mal adherida. Dando por sentado que los ensayos son d~ Rernoulli. con P(éxito) 1f == 0.000 l. cmrleamos una distribución geométrica. P( Y = 1) P y ( 1) = (0.0001 )(0.9999) 1 1 = 0.0001. El evento "primera etiqueta mal adherida en la botella 10,000" es lo mismo que el evento "Y 10,000" y tiene probabilidad

S.1

197

01smbuc1ones ceométnca y b1nom1al ne¡auva

Py ( 10.000)"" (0.000 l )(0.9999)'°·º00 -

1

= 0.0000368. Observe que, aun cuando esper3mos una etiqueta mal adherida en cada 10,000 botellas, Ja probabilidad de! que en la siguiente botella se encuentre una de ellas es m:ís alta que Ja probabilidad de que se encuentre después de 10,000 botellas. •

La media {valor esperado) y la varianza de una variable aleatoria geométnca se pueden calcular por medio de una fórmula abreviada:

Media y varianza de una variable aleatoria geométrica •

1 n

l:.(Y) =-

1-

lt

Var(Y) - - 1-

"



donde rr es la probabilidad de éxito en cualquier ensayo.

EJEMPLO 5 . 1O

Solución

Utilizando las hipótesis del ejercicio 5.9, encuentre el valor esperado y la varianza del número de etiquetas examinadas hasta que se encuentra una etiqueta mal ..idhcridu. Tenemos que rr =0.0001, de modo que E( n ~ 1 (0.0001) - 10,000. Es ra¿onable pensar que si una de cada 10,000 etiquetas está mal adherida, tendremos que esperar un promedio de 10,000 botellas para encontrar una botella con tales características . La varianza es (1 - 0.0001)/(0.0001) 2 99,990,000; por lo tanto. la • desviación estándar de Yes J99,990.000 = 9999.S. La idea de contar el número de ensayos hasta alcanzar el siguiente éxito se puede extender a contar el número de ensa) os para alcanz.ar el k-ésimo éxito. Por ejemplo, una empresa que realiza c:.tudios de mercado necesita encontrar k = 100 mujeres que tengan un trabajo a tiempo completo y vean cieno programa de noticias en una estación de televisión local. Para encontrarlas, deberá entre\ istar un número aleatorio de candidatas potenciales. Cada entrevista es un ensayo, la variable aleatoria más relevante es Y= número de entrevistas necesarias para obtener 100 mujeres que cumplan los requisitos. Si las hipótesis de tos ensayos de Bcrnoulli se cumplen (ensayos que se traducen en éxito o en fracaso, probabilidad de ~xito constante, independencia), la distrihución de probabilidades de Y= número de ensayos necesarios para obtener Je éxitos, es una hinomial negativa.

Distribución binomial negativa Si Y= numero de ensayos para obtener k éxitos, o

•) -

,->(} - (k -

(y - l)!

l)!(y - k)!

•tt - )' •

lf '

lf

entonce~

y=

•. k 1t,

1

+ , ...

198

S

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

La razón por Ja cual y - 1 y le 1 aparecen en la expresión para la distribuc16n binomial negativa es que debe haber le - 1 cxitos en los primeros y- 1 ensayos. scguid9s por un éxito (en el ensayo y).

EJEMPLO 5. 11

Solución

En el ejemplo 5.9 supusimos que la probabilidad de una etiqueta mal adherida era de 0.0001 . Suponga que se n«esitan 50 etiquetas mal adheridas para estudiar por qué r:t76n ec;tán mol pegadas. Escriba una expresión para la probabilidad de que se requieran 100,000 o más botellas hasta alcanzar la cifra de 50 etiquetas mal adheridas. Podemos considerar el número de éxitos (etiquetas mal adheridas) como fijo, y encontrar la prohabilidad de que Y = número requerido de botellas sea al menos 100,000:

1

"'

(y - l)!

P( Y~ 100.000J = ~ (SO_ l)!(y _ SO)! (.0001)~ (.9999)' 0

~



Dado que la distribución binomial negativa es simplemente la extensión de la distribución geométrica a le .> 1 éxitos. no nos sorprende que las expresiones para la media y la \ arian1.a de la distribución binomial negativa 'iean extensiones de las expresiones correspondientes parc1 la distribución geométrica.

Media y varianza de la distribución binomial negativa Si Y= número de ensayos requeridos para obtener le éxitos.

k F.( YJ .. -

7[

Var(Y)

EJEMPLO 5. 12

Solución

= lc(l !T-2 rr)

Encuentre el valor esperado y la desviación estándar del número de hotellas reque· rido para encontrar 50 etiquetas mal adheridas. suponiendo que la prohabtlidad de una etiqueta mal adherida es de 0.0001 .

E(Y) - S0/0 .0001

= 500,000. Var(

desviación cstándar es

= 50(0.9999)/(0.0001) 2

4.999,500,000 =70,707.

=4,999,500,000. La •

No todas las situaciones relativas a los ensayos de Bcmoulli se pucden resol· \er con las distribuciones binomial o binomial negati\a. Si Y= número de ensayos requeridos para 31canzar dos éxitos consecutivos, entonci:s ni el numero de ensa· yos ni el número de éxitos es fijo, de modo que ninguna de las prob:ibilidades binomial o binomial negativa es aplicable. En tal caso es necesario volver a los principios básicos paro encontrar las probabilidades relevantes.

S.S

5.5

dis tribució n d e proh:tbílidad es de l'oisson

D1Suibuct6n de Po1sson

DISTRIBUCIÓN DE POISSON

-

199

- - -- ---- - -

Cuando una sucesíón de eventos parece suceder al aL;.1r a lo largo del tiempo se presenta una clase diferente de 5ituaciones probabilísticas. Una planta de electricidad afronta ocasionalmente tormentas eléctricas que provocan la caída de las líneas de transpone de energía o dai'lan los transformadores. Aunque la probabilidad en el límite de que ocurran tales tormentas se puede determinar con bastante precisión, el momento en que! se presentará la siguiente tormenta es más bien impredecible. Una compai'lía que asegura barcos petroleros no puede predecir el momento en que ocurrirá el siguiente naufragio. El director del centro de cálculo de una universidad se enfrenta a la variación aleatoria del ritmo en que le envían los trabajos. Es muy importante saber cómo protegerse en tales situaciones contra la probable v:Jriación. La d h lribució n de probabilidades de Poi~so n* es el modelo más simple y utilitado de aquello~ eventos que ocurren aleatoriamente a lo largo del tiempo. Esta distribución es el resultado matemático de cienas hipótesis. Si en una situación particular estas hipótesis no son correctas, al menos aproximadamente, la distribución de Poísson puede ser un mal modelo. Las dos hipótesis cruciales se pueden traducir como sigue (sin preocup•irse demasiado por las exquisiteces matemáticas): 1. l.:2s eventos suceden uno cada vez. No hay dos o más eventos que ocurran precisamente en el mismo instante. 2. La ocurrencia del evento de interés en un periodo dado C'> independiente de su ocurrencia en otro periodo con el qui: no se c;uperpong:J.; es Jccir, la ocurrencia (o no ocurrencia) de un evento durante un periodo no cambia la probabilidad de que el evento ocurra l!n algún periodo de tiempo posterior. En muchos casos se ai'lade una tercera hipótesis: el número esperado de eventos en un periodo de longitud especifica permanece constante, de modo que el número esperado de C\cntos en un periodo es el mismo que en cualquier otro. Esta tercera hipótesis hace las cosas más fáciles, pero se ha probado que es esencialmente irrelevante. En la medida en que las dos primeras hipótesis se cumplen, el resultado es una distribución de Poisson. Hay do:. manera-; de analizar si una distribución de Poisson es o no un modelo adecuado para una situación dada. Una consiste en ver sí las hipótesis son razonables en un contexto dado; Ja otra, en ver si el histogram:i de los datos existente:. tiene el aspecto de un histograma de Poisson. Por supuesto, lo ideal es tener ambas cosas.

EJEMPLO 5. 13

E.n las tres situaciones descritas al comienzo de esta sección, ¿se cumplen las hipótesis de Poisson?

Solución

Esperaríamos que en el caso de la planta de electricidad la hipótesis de independencia fuese dudosa. Nos parece que si en una tormenta el~ctrica un rayo alcanza algún equipo, es muy probable que otro ra)O de la misma tormenta o de otra vecina alcance a otro equipo. En el ejemplo del barco petrolero, podríamos argumentar que,

• Llamada llJI rn honor a Simron Poisson. rl matemático que la derivó por primera vez.

200

S

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

puesto que un barco grande puede chocar con otro, hundiéndose ambos, la hipótesis de que los eventos suceden uno cada vez no se cumple. Aunque esto es realmente posib~e. podemos suponer que tales accidentes son lo bnstnnte raro!> como para que la distribución de Poisson sea un modelo acepuible de la probabilidad de que un ba~co petrolero se hundoisson no~ parecen correctas. ¡Nos gustaría ver algunos dato~! •

Distribución de probabilidades de Poisson

y= o. 1, 2,. .. donde µ es el número esperado de evento:-. que suceden en un periodo y

(' -:: 2. 71828 ... Una variable aleatoria de Poisson Y es el número de eventos aleatorios 4ue suceden en un periodo fijo; en principio, no hay un límite superior para los valores de y, aunque en la práctica los valores muy grandes de r son poco comune~. En la tabla 2 del apéndice mm.tramos las probabilidades para la distribución de probabihdadcs de Poisson. Para encontrarµ, a menudo es necesario multiplicar la tasa esperada por unidad de tiempo (i.e., una hora) por el número de unidades de tiempo que h3)' en cada periodo (i.e., horas por tumo).

EJEMPLO 5.14

Los sábados por la mañana. los dientes entran a una pequeña tiemla de un centro comercial suburbano a una tasa esperada de 0.50 por minuto. Sea Y= número de clientes que entran en un intervalo específico de 10 minutos Encuentre las siguientes prnhabiltdades: a . P( Y = 3) b. P( Y S 3) c. P(Y ~ 4) d. P(4 $ Y $ 10)

Solución

Las hipótesis de Pois!>on parecen ser ra.wnablcs en este contexto. üamo~ por sentado que los clientes no llegan en grupos (o podemos contar al grupo entero <.:orno un solo cliente) y que la entrada de un cliente no aumenta ni disminuye la probabilidad de que llegue otro. Para obtenerµ, observamos que a una tasa media de 0 .50 por minuto durante un periodo de 1O minutos, podremos esperarµ (0.50)( 1O) 5.0 entradas. Para encontrar las probabilidades, consultamos la tabla 2 del apéndice .

SS

Oostnbuoón de Po.non

,.,

a. P(Y- 3) se lee directamente de Ja tabla 2 del apéndice, conµ,., 5 e y o J· P(Y-3)-01403

b. P( Y <:, 3) = PO' - O) + P( Y = 1) + P( Y =2) + P( Y - 3) =O.0067 + O. 03 37 + 0.0843 + 0.1403 =0.2650. c. P(Y~4)= l - P(Y$3) - I 0.2650 0.7350 d. P(4 S Y .s; 10) ""'"P(Y= 4) + P(Y= 5) + ... + P(Y- 10) 0. 1755 + 0.1755 + ... + 0.0181 = 0.7213 • Como se indicó en la definición de la distribución de probabilidades de Poisson. el valor esperado es E( Y) = µ. La varianza de una variable aleatoria de Poisson también es µ.

Media y varianza de una variable aleatoria de Poisson Si Y tiene una distribución de Poisson. entonces E(l')=µ Var(Y) µ

=

EJEMPLO S. 1S Solución

En el ejemplo 5.14, encuentre la desviación estándar de Y. En el ejemplo 5.14 encontramos que µ

"r = J var(Y) = N = 2.24

= 5.0. Así,



:1pr o,imaciún ele Poi''º" a la' d i\I ribucion<'' hi 110 m ial<' ~

La distribución de Poisson nos da una buena aproximación a la distribución tk probabilidades binomial cuando 1res peque~a. n es grande y ntres menor que 5.

EJEMPLO 5.16

En un ensayo clínico, una muestra de 1000 pacientes están siendo tratados con un nuc\ o medicamento. Si suponemos que 1í = 0.001, calcule la probabilidad de que ninguno de los pacientes experimente efectos colaterales (náuseas, por ejemplo).

Solución

La media de la distribución binomial esµ = nlí - 1000(0.001) l. Sustituyendo en la distribución de probabilidades de Poisson. conµ= 1, tenemos que

En tal caso. el valor esperado de Poisson µse iguala con el valor esperodo de la variahle binomial mr.

(t)0 e- 1

Pr(O)

=-

-!-

0

=t

_

1

= .3679

La probabilidad corres[)9ndiente calculada con la distribución de probabilidades 0 1000 (0.999) .. 03677. •

bi~omial es

('c:'Xo.001)

202

5

SECCIÓN 5.5

CASOS ESPECIALES DE DISTRJBUCION DE PROBA81LIDADES

EJERCICIOS 5.:!4

" Sea Y una variable aleatoria con una distribución de Poisson . Utilice la tabl:i 2 del apéndice para calcular

a. Py(l)paraµ

0.4,µ=0.7yµ=4.8; b. P(YS3)paraµ = l.6yµ = 7.0; c. P(YS 10) pm µ = 2.1yµ ,.. 10.0.

5.25 Calcule la distribución de probabilidades de Poisson para µ 5.26

5.27 5.2&

5.29

O S y rcprcséntcla gráficamente. ¿Es m:is o menos simétrica esta distrihución'? IJna compa"ia que asegura casas contra incendios asume que las reclamaciones por indemni1ación se solicitan de acuerdo con una distribución de 1•oisson a ratón de 2.25 por semana. Sea Y el número de reclamaciones que aparecen en un periodo de 4 o;emanas. Encuentre (a) P( Y$ 10). (b) PC Y~ 7) y (e) f'( 7 < Y$ 11 ). l~n el CJerc1c10 5.26 encuentre el valor esperado y la desviación e\tándar de Y. En el ejercicio S.26, ¿puede usted pensar en algunas situac1onec; que hari:in 1rr:izonablc la hipótesis de Poisson? Los camiones para el transporte de troncos tienen problemas con loe; neum;íticos debido a pinchaduras y cortes. Estos 'ehiculos se conducen a gr:in \clocidad sohre caminos de tierra sinuosos. Suponga que tales ~sperfeetos suceden conforme a una d1stnhución de Poisson, a una tasa media de 4.0 por cada 10.000 mill:is.

a. Si un camión recorre 1000 millas en una semana, ¿cuál es la probab1l id ad de que sus neumáticos no sufran ningún daño'? b. ¿Cuál es la prohahilid:id de que sufra al meno<. dos 3\erias?

5.JO

5.31

5.6

En el ejercicio S.29. ¿cu:il es el valor esperado > la des\ iación ec;tándar del número de dal\os en los neumáticos por cada 1000 millas de recorrido,, l.:i distrihución de Poisson tambicn se aplica a e\entos que ocurren aleatoriamente sohrc una superficie o un volumen. Los pedacitos de chocolate di<;persos en una )'la'lt3 de galleta bien me1.clada tienden a seguir una distribución de Poisson IJna panaderi:i produce galletas con un promedio de 8 pedacitos por galleta. a. ¿Cuál es la probabilidad de que una galleta no tenga pedacitos de chocolate ( i horror!)? b. Se considera que una galleta es aceptahle si tiene al meno<; 5 pedacitos. ¿Qué fracción de las galletas son :iceptables?

LA DISTRIBUCIÓN UNIFORME



La distribución continu3 más simple es la distribución unifonnc. S1 }'tiene una distribución uniforme, su densidad se distribuye por igual entre dos valores cualesquiera a y b. En Ja figura 5.2 se muestra Ja densidad uniforme. Esta densidad surge de un modo natural en la selección aleatoria de números. Si Y - número seleccionado aleatonamente entre O y 1, entonces la densidad de probnb1Jidad de Y es plana sobre el intcrv:ilo O a 1: ningún número tiene una probabilidad (densid:id) más :ilta que otro. Las fórmulas hásicas para un v:iri:ible aleatoria uniforme (función de densidad. valor esperado y varianza) son muy simples.

S6

203

La distribución uorforme

_1_

b-a

y b

8

FIGURAS.2

Densidad uniforme

Función de densidad, media y varianza de una variable aleatoria uniforme 1 si a< y< b fr(Y) - b - a' { O,

en otro caso

a+b E(Y) = 2V (Y)=(b-a)2

12

ar

Las probabilidades para las \.ariables aleatorias uniformes se pueden encon-

trar geométricamente. Por ejemplo. suponga que Y está distribuida uní formcmente entre O y 50. ¿Cuál es la probabilidad de que Y se encuentre entre 1O y 40? La fi. gura 5.3 retrata la situación. La probabilidad que se busca es el área del rectángulo: la base por la altura. Por consiguiente, P( 1O < Y < 40) = 30( 1 50) - 0.6. También podemos encontrar probabilidades uniformes utilizando el cálculo e lemental. Si Y está distribuida uniformemente entre O y 50,

P(IO <

y<

40)

= J'°(~)dy = 10

=

so

(40 - 10)

so

Ll.o so 10

= .ó

1

50

o FIGURAS .3

10

40

Probab1hdades de una distribución uniforme

50

204

5

EJEMPLO 5.17

Solución

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

Una compaiHa que vende por correo programas de software para microcomputadoras. ha encontrado que entre el 5% y el 15% de los pedidos diarios requieren un envío e9Pecial. Suponga que, como una primera aproximación. consideramos que la distribución de Y= porcentaje de pedidos en un dia seleccionado al amr es uniforme sobre el intervalo que va de 5 a 15. Encuentre la media y la desviación estándar de Y y la probabilidad de que Y se encuentre entre 9 y 12. Tenemos que a= 5 y b f(}')

= 15. Por consiguiente.

= (5 + 15) = 10 2

=(IS~ 5) = 8.3333 2

Var(Y) <1y

= ' 8.3333

= 2.89

La prohabilidad de 1.JUC Y se encuentre entre 9 y 12 es el área del rectángulo base 12 - 9 .s 3 y altura 1/(15 - 5) =O. 1. Por lo tanto. P(9

SECCIÓN S.6

< Y<

12)

= 3(.1) = .3

CM



EJERCICIOS 5.32 Suponga que Y es una variable aleatoria d1strtbu1d:i uniformemente en el intervalo 10
r se encuentre en el intervalo 60
5.33 En el eJercic10 5.32. encuentre el \alor esperado y la des' 1ación estandar de Y. 5.34 Calcule las siguientes probabilidades para una urtable aleatoria uniforme sobre el intervalo O 50) c. P( Y S 120) 5.35 Una maquina que marca nümeros telefónicos al aLar selecciona aleatoriamente los últimos cuatro digitos entre 0000 y 9999 (incluidos ambos). Trate a Ja Hriable Y número seleccionado como si fuese continua (aun cuando sólo hay 10,000 posi· bilid::ides discretas) y uniformemente d1s1nhuidt1. a Encuentre P(0300 < Y S 1300). b. l::.ncuentre la varianza de Y. 5.36 rn loi; dlas del verano, Y • tiempo de retraso de un tren de enlace suburbano se p~­ de modelar como distribuida uniformemente entre O)' 20 minutos a. Encuent~ la probabilidad de que el tren llegue por lo menos con 8 minutos de retraso. b. Encuentre Ja desviación estándar del tiempo de retraso del tren.

5.7

DISTRIBUCIÓN EX PONENCIAL (

J)

~~~~~..:..-..;.....~~~~~~~~~~~~~~

La distribución de Po1sson analiz.ada en la sección 5.5 se aplica a eventos que suceden aleatoriamente a lo largo del tiempo. Específicamente. se aplica a Y - número de eventos que suceden en un periodo fijo. Si los eventos no suceden aleatoriamente

5. 7

205

Oinnbucíón exponencill (Í)

en el tiempo, también nos podemos preguntar acerca de W - tiempo de espera hasta que suceda el siguiente e\ento. Bajo hipótesis adecuadas, la distribución de probabilidades de W sigue una distribución exponencial. A diferencia de la variable ale&1toria discreta de Poisson, la variable aleatoria exponencial es continua. Recuerde que las hipótesis para una distribución de Poisson son que los eventos sucedan separadamente y que la ocurrencia de un evento en un periodo no cambie su probabilidad de ocurrencia en otro periodo. En un problema de tiempos de espera, debemos asumir también que la\tasa esperada de ocurrencia es constante a lo largo del periodo. Así, si hay una situación de horas de afluencia-horas de escasez en la que los eventos suceden primero con mucha frecuencia y después muy espaciados, la distribución exponencial no se puede aplicar. Uno de los muchos usos de la distribución exponencial es en los problemas de fiabilidad. Si un componente de un !>istema folla sólo n causa de fenómenos aleatorios (en contraste con las fallas por desgaste), es razonable suponer que el buen funcionamiento en períodos previos no cambia la probabilidad de una falla en el si· guiente período y que Ja tasa de fallas es constante a lo largo del tiempo. Es obvio que no puede haber una aglomeración de fallas en un solo componente y en un solo periodo. Dadas estas hipótesis, la densidad W - tiempo para el siguiente evento, es exponencial.

Densidad exponencial Suponga que los eventos suceden aleatoriamente a lo largo del tiempo, con un tiempo esperado entre eventos µ. Si W - tiempo para el siguiente evento. entonces fw(w)

=

G-)e-•

1 •,

E(W) = µ Var(W)'"" µ 2

A la densidad exponencial se le llama con frecuencí&1 di'>tribución de "tiempo de espera" porque a menudo se le utiliza como un modelo dd tiempo que hay que esperar para que suceda el siguiente evento. Las probabilidades relacionadas con la densidad exponencial se pueden encontrar utilizando el cálculo integral elemental. No es dificil demostrar que

f (;)e-w 1

"dw =

e-•

1 " -

e-"~

La mayoría de las calculadoras y muchos programas de computadora e"·alúan auto· mat1c;imcnte el numero e'.

( JEMPLO 5.18

El tiempo medio entre dos solicitudes de trabajo a una mncrocomputadora durante un día de trabajo es de 2.5 minutos. Suponga que los trnbajos llegan aleatoriamente a lo largo del tiempo a una tasa esperada consrnnte.

206

S

CASOS ESPECIALES DE DISTRJBUCIÓN DE PROBABILIDADES

a ,

Solución

¿Cuál es la probabilidad de que el tiempo de espera se encuentre entre 2 ) 5 minutos? b. Encuentre la media y la desviación estándar de los tiempos de espera entre trabajos.

a. Se ha especificado queµ= 2.5 minutos,

P(2

< W < 5) =

fs(-1-)~- ..¡isdw 2

2..S

= .4493 - .1353 = .3140 b. La media de W se especificó como 2.5. La \ arianza esµ"= (2.5 }2 -== 6.25. La desviación estándar es. como siempre, la raíz cuadrada de la varianza. J6.2S =2.S. Curiosamente, en esta distribución la desviación estándar es igual a la media. • La densidad exponencial es sólo un modelo. El uso adecuado de éste requiere que las hipótesis subyacentes ~ean válidas. La hipótesis de independencia a lo largo del tiempo es especialmente importante para la aplicación de la densidad exponencial, al igual que la hipótesis de la tasa media es~rada constante. EJEMPLO 5.19

En el ejemplo S.18 supusimos que los trabajos se envían a la computadora a intervalos de 2.5 minutos. Suponga que a. La solicitud de un trabajo tiende a llevar tras de si la ~olicitud inmediata de otro trabajo relacionado; b. Los trabajos tienden a recibirse "en cierta hora", cuando los empleados llegan o se van a una reunión. ¿Qué hipótesis se ponen en tela de juicio con cada tendencia?

Soluc1ón

a Aquí t!Xiste una dependencia. Si un trabajo se solicita en un periodo, hay mayor probabilidad de que otro trabajo se solicite casi de inmediato. b. Aquí la tasa media de ocurrencias no es constante. La tasa es más alta "en cierta hora". •

~

J 7 Utilice una calculador-J que evalúe e' para encontrar el valor de Ja función de den-

sidad cxponencial/rM paraµ 2.5 y y= O. 0 .5, 1 O, 1.5 y 2.0. Bosqueje la función de densidad. S 38 Calcule las siguientes probabilidades para una vari3hle aleatoria uponenc1al con

µ. 2.

Sección S 7

Ercrc1c1os

207

a. P( Y> 21

> 1) c. Ptl < Y < 2) d. P(I :S Y :S 2)

b. P(Y

5.39

5.40

5.41

5.42

5.43

5.44

5.45

5.46 5.47

(Sugerencia: En el inciso (d}, utilice la lógica, no la calculadora.) En un centro rural para la atención de emergencias el tiemrio entre llegadas sigue una distribución e\ponencial con un tiempo medio entre llegadas de 1.25 horas. Encuentre la probabilidad de que el tiempo entre llegadas sea ma~or que 1 hora. Encuentre la probabilidad de que el tiempo entre llegadas sea mayor que 2 horas. En el ejercicio S.39. en vel de ocuparse del tiempo entre llcgad:is al centro de atención de emergencias, concéntrese en las llegadas en un lapso de tiempo dadt... Oh· serve que las hipótesis par:i las distribuciones exponencial y de Poisson ~on idénticas; observe también que un tiempo medio entre llegadas de 1.25 horas indi· ca un promedio de 1t 1.25 • 0.80 llegadas por hora. a. Utíli1.ando las probabilidades de Poisson, encuentre la probabilidad de que no haya llegadas en un:i hora. b. Encuentre Ja probabilidad de que no haya llegadas en 2 horas. c. Compare sus respuestas en este ejercicio con las del ejercicio 5.39. ¡,Cuál es la e..:plicaci6n? En un:i aerolínea, el ticmrio para atender a los pas:ijeros sin billete en el mostrador del acroriucrto sigue una distribución c..:ponencial con un:i media de S minutos. a. Encuentre la probabilidad de un tiempo de atención menor que 2.5 minutos. b. Encuentre la probabilidad de un tiempo de atención mayor que 1O minutos. Considere la situación de atención a los pasajeros del ejercicio 5.41 . a. ;.Cuál es el número esperado de pasajeros atendidos por minuto? I'>. Encuentre la probabilidad de que al meno'> un pasajero sea atendido en menos de 2.5 minutos. c. Encuentre la probabilidad de que ningún pasajero sea alendido en mc:nos de 1O minutos. En una cen1ral nuclear ocurren aleatoriamente a lo lilrgo del 1iempo "c\entos poco comunes" (problemas menores de oricración). El tiempo medio entre dos eventos es de 40 días. a. ¿Cuál es la probahilidad de que el tiempo para el siguiente "evenlo poco común" <;e encuentre entre 20 y 60 días? b. Encuentre l;i desviación estándar del tiempo para el ~iguientc: "e' cnln poco comun". Un análisis de los archivos de la central nuclear del ejercicio 5.43 muestra que los "eventos poco comunes" suceden con mayor frecuenc ia los fines de semana. ¿Qué hipótesis subyacente a sus respuestas en el ejercicio 5.43 se pone en duda? Un equipo de béisbol de la liga ma)Or (Estados Unidos) vende boletos (billetes) en una oficina del ccn1ro de la ciudad durante las horas de trabajo. 1.os aficionados lle· gan a la olicin¡i uno a uno y en fonna aleatoria. a un:i tasa media de 12 por hora; dicha tas:i permanece esencialmente constante duranle el día. a. Encuentre la probabilidad de que hay:i m:is de 5 llegadas en un rc:riodo de 1O minutos ( 1/6 horas). b. Encuentre la probabilidad <.le que el siguiente aficionado llegue en !()S próximos) mi nulos. Observe que el tiempo medio entre llegadas es de 1 12 horas. o 5 minulO!. En el ejercicio 5.45, encuentre un número k tal que la rrohahilidad de Ir o más lle· gadas en un cuarto de hora sea cercana a 0.10. El tiempo entre "fallas del sistema" de cierta macrocomriutadora parece seguir llll.I distribución exponencial. El tiempo medio es de 5 días.

208

5

~

5.48

5.8

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

a. ¿Cuál es la probabilidad de que d tiempo para la s1guienl~ falla sea al menos de una semana (7 días)? b. ¿Cu~I es la probabilidad de que h:iya un periodo de dos semanas sin ninguna falla? 1-n el ejercicio 5.47, ¿cuál es la probabilidad de que haya 4 o más fallas del sistema c:n una semana específica?

DISTRIBUCIÓ N NORMAL

--------~-----·

Pasamos :ihor.i :il estudio de la distribución más importante en la teoría estadística. la distribución norm:il. Mucho~ procedimientos estadisticos qu~ analizaremos en capítulos posteriores tienen como b:ise la hipótesis de que la población subyacente tiene una distribución normal. Muchos métodos que se utilizan en economía. finanz.as y anólisis del rnerc:ido tienen como base la suposición de que la pobl:ición es normal. La importancia de esta sección reside en que ck ella depende la comprensión de muchas ~ccciones posteriores del texto. Una 'aria ble aleatoria con una distribución normal es continua. Por lo tanto, tiene una función de densidad como la que se muestra a continuación.

Densidad normal

cun a normal

En el caso de la función de densidad normal, los valoresµ y a son de hecho la media y la d~sviación est:lndar de Y (aunque aquí no lo demostraremos). Tal como se muestra en L.1 figura 5.4, un histograma para una \ariable aleatoria normal, llamado l'un a normal, ti~ne forma de campana y es simétrico en tomo a la mediaµ.

di,tribu ciún norrn:1I C\lancl:iri1ad<1

Las tabl.1'> p..1ra las áreas de las cul"\as normales (probab1hdadc~) siempre se dan para la di'llribución normal c\ tamlariLat.la (o tipificada). que tiene media O y des' i:ición estándar igual a l. La tabla 3 del apéndice nos da las áreas entre O y

y

FIGURA 5:4

01stnbuc16n normal

S8

209

O.Stnbuc16n normal P(O S Z S 1 ) = .3413 µ z= O (J

z"' 1

z

-2

FIGURA S.S

-1

o

2

D1str1buci6n normal estandarizada un número positivo z. Por ejemplo, el valor correspondiente a z = 1.00 es 0 .3413; si Z es la 'anable aleatoria normal estandarizada. entonces P(O S Z S 1.00) = 0.3413, como en la figura 5.5.

1JEMPLO 5.20

Sea Z una variable aleatoria normal estandarizada. Encuentre ~ Z S 1.96) b. P(Z > 1.96) c. P(- 1.96 ~ Z S 1.96) d. PC- 1.00 S Z S 1.96)

a. P(O

Solución

Una ilustración como la de la figura 5.5 facilita el uso de las tablas normales. El valor para z - 1.96 (que se localiza en la fila 1.9 y la columna 0.06) es 0.4750. En este caso la figura 5.6 es de gran utilidad.

a. P(O S Z S 1.96) = 0.4750. b. Como el área a la derecha de Odebe ser 0.5000 (la curva normal es simé trica y el área total bajo la curva es 1), P(Z > 1.96) - 0.5000 0.4750 = 0.0250. c. Por simetría, el área entre 1.96 y O también debe ser 0.4 750. Así, P(- 1.96 s z s 1.96) = 0.4750 + 0.4750 - 0.9500. d. P(- 1.00 S Z S 1.96) = 0.3413 + 0.4750 - 0.8163. (Haga un dibujo.) • ~l ..

o

Oz .. 1

.0250

.0250

z -1.96

FIGURA 5.6

o

Soluc16n al ejemplo S.20

1.96

210

S

CASOS ESPECIALES DE DISTRIBUCIÓN DE PROBABILIDADES

z

-!<: FIGURA 5.7

EJEMPLO 5.21 Solución

o

Solución al ejemplo S.21

Encuentre k1 tal que P(O S Z S

k1) = 0.40 y *2 tal que P(-ltz S Z :S' ~) = 0.60.

En cierto sentido, este problema es opuesto al del ejemplo S.20. En ese problema,

se conocen los valores y se desconocen las probabilidades. En este caso, las probabilidades están dadas y los valores son los que se tienen que encontrar. Nuevamente, la representación gráfica es de gran utilidad (véase la figura 5.7). a. Al buscar en la tabla 3 del apéndice el área correspondiente a 0.40. encontramos que el valor de z más próximo es 1.28. Por consiguiente, P(O $ Z :S' 1.28) = 0.40; es decir, k 1 = 1.28. b. Un área de 0.30 (Ja mitad de la probabilidad buscada como se muestra en la figura S.7) corresponde a z.,0.84, de modo que P(-0.84 :S' Z :S' 0.84),.. 0.60; es decir, k2 0.84 . Cualq uier varfablc a lCJttoriíl norma l }' e pued e tra nsformar en una u riable a leatoria norm al estandar i.Lada (o tipificada) Z ustra)endo e l valo r c.spcrado µ y tfü id icndo el r esultado e ntre la d es' iación est á nd a r o.

Z • Y-p (1

ulo r esta nd arínd o z (o n lor z)

Para un valor dado de y, el valor correspondiente de z, llamado en ocasiones valor est a ndarizado z. ~s el número de desviaciones estándar que y dista de µ. Si µ = 100 y e= 20, un valor de y igual a 130 se encuentro 1.5 desviaciones estándar por encima de (a la derecha de) la mediaµ y el valor z correspondiente es z - (130 100)/20 - 1.50. Un valor de y igual a 85 se encuentra O. 75 desviaciones estándar por debajo de (a la izquierda de) la mediaµ y z""

ss ;0100 = -.1s

La relación entre los valores específicos de una variable aleatoria nonnal Yy los correspondientes valoresz se muestra en la figura 5.8. [Observe que;: - (y - µyo.)

EJEMPLO 5.22

Los ingresos anuales de los profesores de una universidad siguen aproximadamente una distribución normal con una media de 18,600 dólares y una desviación estándar de 2700 dólares. Encuentre Ja probabilidad de que un profesor seleccionado al azar tenga (a) un ingreso anual inferior a 15,000 dólares; (b) un ingreso mayor que 21 ,000 dólares.

S8

{'.! A..

01stnbuc:t6n normal

I



\

y µ - 2o -2

FIGURAS.a

µ·o -1

"'o

µ+o

1

µ+2o

2

l

'\elación entre los valores específicos de Y y los v~ores estandarizados z

1867

y 15.000

FIGURA 5.9

Solución

18.600

21.000

Áreas mayores que 21,000 y menores que 15,000 paraµ en el ejemplo 5.22

=

18.600 y <1

o::

2700

En priml!r lugar traz.nmos una figura en la que se muestran las áreas en cuestión (la figura 5.9). Ahora debemos determinar el área entre 15,000 y 18,600. y - " 15,000 - 18,600 : =- - -ª- = - - 2700

-3600 =

2700

= -1.33 El área entre la media de una di!.tribución normal y un valor de 1.33 des\ iaciones estándar a la izquierda di! la mc!dia e~ (de la tabla 3 del apéndice) O 4082. Por lo tanto, Ja probabilidad de percibir un ingreso anual menor que 15,000 dólar~s es

.5 - .4082 - .0918 Análogamente, para calcular la probabilidad de percibir un salario superior a los 21.000 dólares determinamos el área entre 18,600 y 21,000:

Z

=y "

" =

21,000 - 18,600 - 89 2700

.

212

S

CASOS ESPECIALES DE OISTRIBUCION DE PROBABILIDADES

El área correspondiente a:: = 0.89 es 0.3133. Por consiguiente, Ja probabilidad buscada es ~

.5 - .Jl33

EJEMPLO 5.23



= .1867

Si }'tiene una distribución normal con una media igual a 500 y una desviación estándar igual a 100, encuentre

ª· />(500 $ y s 696); b. P( y 2: 696); c. P(J04 s Y .s 696); d. k tal que P(500 - k s Y s 500 + .k) =0.60.

Solución

a. Un \'alor de y igual a 696 est:l a 1.96 desviaciones estándar por encima de la media;: - (696 - 500)/ l 00 = 1.96. Evidentemente, 500 está a cero desviaciones estándar por encima de la media, de modo que;: = (500 - 500Vl 00 = 0.00. Así. P(500 $ Y s 696) ..;. P(O s Z s 1.96) = 0.4750. b. P( Y 2: 696) - P(Z ? 1.96) = 0.0250. c. /'(304 $ }' $ 696) P( 1.96 $ Z :5 1.96) =0.950, pues 304 corresponde a una= igual a (304 - 500) 100 = -1.96. d. Al igual que en el ejemplo 5.21, P( .84 $ Z S 0.84) = 0.60, de modo que queremos un rango para Y que vaya de!>dc 0.84 des' iaciones estf.indar por debajo de Ja media µ - 500 hasta 0.84 des' iacioncs estándar por encima de la media: P[500 - 0.84( 100) s Y s 500+0.84(100)] =P(4 l6 s Y S 584) - 0.60 (véase la figura 5.10). • Un poco de práctica con este tipo de problemas y el hábito de tra.zar figuras haci: que los cálculos de la prohabilidad nonnal sean mu) fáciles de realizar. Como ya lo hemos mencionado, el concepto de \ariable aleatoria continua es en realidad una abstracción. pues la ma)oria de las variables de interés tienen sólo un número finito de valores posibles. No obstante, en muchas situaciones, e~ conveniente suponer que la variable aleatoria de interés tiene una distribución continua. De la mi!>ma manl!ra, la 'ariable aleatoria normal es una abstracción, pue~ en teo· ria cualquier valor numérico, negativo o positivo, es posible y el histograma es una

llv • 500 Oy • 100

y 416

FIGURA 5.1 O

500

Soluc16n al ejemplo S 23

584

SecctÓO S 8

213

Et*l'CiOos

cuna sua\e, simétrica} con forma de campana. En la práctica. valores positivos o negativos tales como 612.3142769 dólares pueden ser imposibles. Con frecuencia, tales cuestiones son irrelevantes. Si se supone que una 'anahlc aleatoria }'es normal, con una media de 500 y una desviación estandar c.lt: 1OO. la prohahilidad de que Y< O es J'Or hipótesis P(Z < -5), que es efectivamente cero. Si Y puede o no tomar valores negativos casi no importa. Similarmente. los errorc~ por redondeo, como cuando se trunca 612.3142769 a 612.31oa612 dólares. \on insignificantes. Si d histograma poblacional de una \ ariable aleatoria tiene por lo general una forma de campana. casi siempre la distribución de probabilidad normal proporciona un excelente modelo de la' erdadcra distnhución de probabilidades.

SECCIÓN 5.8

EJERC ICIOS

----

5.49

Suponga que Z representa una \ariablc aleatoria normal estandari1ada (tabulada). l~n~uentre las siguientes prohabilidades:

a

PIO S Z S P
b.

c. P( - 1 65 5.50

1 001 1 65) Z s OJ Z S O)

sZ

S 1 65)

f. P( - 1.28 S Z S 1.21!) g. P( - 1.07 S Z S 2.33) h. PtZ ~ 2.65) i. P(Z S - 2421

j. P(7. 2: 1 39 o 7. S - 1 391

Use figuras. Ohtenga el \alor de k en las siguientes ecuaciones para la \ariable ale:itoria normal est:mdariLad:i Z:

a. P(Z ~ k) =- .01 b. P(-k S Z S k}:::: 98 c. P(Z -k) • .01

s

d. P( - k S Z s k) e. P( - .le S L S k) f. PIZ ~le)= 95

=

6lC!6

= 9544

Nuevamente, use figuras. 5.S 1 Remítase a las respuesl;i.s del ejercicio 5.50. incisos (d) y (e). <.Cómo se relacionan e~ias rc~puestas con la regla empírica? 5.52 Suponga que Y representa una variable aleatnna con una distribución normal. un valor esperado (media) igual a 100 y desviación estándar 15. a . Demuestre que el evento (Y S 130) es equivalente 3 (l $ 2). b. Transforme el evento (Y~ R2.5) al valor estandarizado:. c. Encuentre P( Y$ 130) y P( Y~ 82.5). d. Encuentre P( Y _, 160). P( Y• 94) y /'(94 s Y$ 106 ). e. El'\Cuentre P( Y$ 70), /'(Y~ 130) y /'( 70 • Y< 130). 5 53 Considere la variable alcaloria Y del ejercicio S.52. Encuentre valores de k que satisfagan

a. P(\00 s Y s 100 + kl .45; b. P(IOO-lesYslOO~k1= .90. c P(Y 2: kl .. 20.

5.54

d PIY s le) = JO: e. PI Y S k) = 80: f P( Y ~ .le) = 70.

Para cada inciso, trace una figura adecuada Un analista financiero sc~a\a que (conforme a su probabilidad suhjeuva) el precio Y de los honos del gobierno a largo plazo, con un valor de 1000 dólarec;, tendrá al cabo de un a¡\o una distribución normal con .,.alor c~perado de 980 dólares y tlewiac1on estándar de 40.

214

5

CASOS ESPECIALES DE OISTRIBUCION DE PR08ABILIDADES

a. Encuentre P( Y 2! 1000 ). b. Encuentre P(Y S 940) . .fe. Encuentre /'(960 S Y S 1060}. 5.55 Remítase a la variable aleatoria Y del ejercicio 5.54 a. Encuentre el valor de le que: satisface P( Y 2! /e) - 0.90 b. Encuent~ el \alor le tal que la probabilidad de que el rrccio de los bonos (un afio después) exceda a le sea de 0.60. 5.56 Suponga que el salario por hora de un trabajador en una fábrica de ropa (qu.: se basa en un sistema de pago a destajo) tiene una distribución normal con valor esperado 5. 1O dólares y desviación estándar 0.40. a. Encuentre la probabilidad de que el ~lario por hora de un trabajador sea surerior a 5 40 dt'>lares. b. Encuentre la rrobabilídad de que el salario por hora se encuentre entre 4. 70 y 5.50 dólares. c. Encuentre la probabilidad de que el salario por hora sea superior al salario mini· mo contratado de J .90 dólares.

5.9

AP ROX IMACIÓ N N O RMAL DE LAS DIST RI BUCIONES BINOMIAL Y D E POISSON

- - --

- - - -- -- •

Una de las muchas aplicaciones de la CUr\:l normal es su uso como aproximación a otras distribuciones de probahilidades, particulannente a la binomial y la de Poisson. Esta sección explica cómo funcionan tales aproximaciones y en qué caso son razonablemente prccisac:. L:lS probah1lidadc!> asociadas con los valores d~ y se pueden calcular con un experimento binomial para valores cualesquiera de no tr. mas como usted se ima· ginará. la tarea se hace sumamcnt~ dificil cuando n aumenta su valor. Por ejemplo, suponga que se recoge la opinión de una muestra de 1000 electores para sahcr su sentir en pro del fortalecimiento del gobierno de 1.-i ciudad y el distrito. ¿Cuál es la probabilidad de encontrar 460 o menos electores a favor del fortalecimiento si suponemos que el 50% de la población está a favor de él? En este caso tcnerno<; un experimento binomial con n = 1000; n. Ja probabilidad de seleccíonar un:i persona a favor del fortalecimiento, es igual a 0.5. Para encontrar la probabilidad de descubrir 460 o menos electores a fovor del fortalecimiento en una muestra aleatoria de 1000, podríamos calcular P r utilizando la fórmula binomial para ~· = 460, 459, ... , O. La probabilidad buc;cada sería en este caso PI Y

= 460) + P( Y = 459) + · · · + P( Y = 0)

! !abría en esta situación 461 probabilidades difíciles de calcular a c.-iusa de los factoriales. Por ejemplo, la probabilidad de encontrar 460 electores a favor del fortalecimiento es

215

111>ro, ím ación nor111.11 de la distribución binomial

Para ciertos valores den y p, podemos aproximar la distribución binomial por medio de una distribución normal. Este hecho lo podemos demostrar apoyándonos en el Teorema Central del Limite, que analizaremos en el siguiente capítulo. En vez de demostrar dicho resultado en este lugar, mostraremos cómo y cuándo se puede utilizar la aproximación. La idea básica consiste en suponer que la variable aleatoria binomial Y tiene una distribución normal ~ utilizar Ja media binomial µ "" n1f y la desviación estándar ~mr.(1 n) Por ejemplo, podcmo-. tratar una variable binomial con n "" 400 y /r - 0.20 como si tuviese una distribución normal con µ = 400(0.20) .-.. 80 y <J= .J400(0.20X0.80) - 8. Para aproximar P( Y> 96) utilice las tablas de la distribución normal para obtener P( Y> 96) = P[Z > (96 80)/8] = P(Z > 2) - 0.0228, o 0.02, como valor aproximado.

EJEMPLO 5.24

Un::i compañia de seguros se ha fijado la meta de que el 10% de los clientes posi-

bles tome un seguro. Suponga que hay independencia entre los prospectos, de modo que se pueden aplicar las probabilidade~ binomiales. ¿Cuál es la probabilidad de que de 600 clientes posibles, 30 o menos de ellos contraten un seguro?

Solución

La solución exacta comprende probabilidades binomiales con n =600 y 1C - 0.1 Oen caso de que se alcance la meta. Como no tenemos tablas para n = 600. utili1.amos una aproximación normal con µ = ntr- 600(0. to) - 60 y a = , nn(I - n) = .,/600(0.10)(0.90) = 7.348. P(

Y:s; 30) = P(Z:s; 3~.;4860) = P(Z S -4.08)

que es prácticamente cero. Si un agente vendió sólo 30 pófü.as a los últimos 600 clientes potenciales, deberíamos concluir que el agente no cumplió con la meta; el resultado (30 éxitos en 600 intentos) no se puede explicar r:11onablemente como una casualidad atribuible al a1..ar. •

La aproximación normal de la distribución binomial puede ser muy mala si n1f < 5 o n(I - tr) < 5. Si n, la probabilidad de un éxito, es pequeña y n, el tamaño

corrección r>0r continuidad

de la muestra, es modesto, la verdadera distribución binomial está seriamente ses· gada hacia la derecha. En tal caso, la curva normal simétrica constituye una mala aproximación. Si 1l es próximo a J. de modo que n( 1 - tr) < 5, la verdadera distribución binomial está sesgada hacia la izquierda y nuevamente la aproximación normal no es muy buena. Cuando n1f y n( 1 - n) son mayores que 1O, la aproximación normal es bastante buena. En la .wna central, n1r o n( 1 ti) entre 5 y 10, una modificación llamada corrección por continuidad mejora en gran medida la calidad de la aproximación. La razón por la que se hace la corrección por continuidad es que estamos utilizando la curva normal continua para aproximar una distribución binomial discreta. La situación es la que se muestra en la figura 5.11. La probabilidad binomial de Y~ 5 es la suma de las áreas de los rectángulos correspondientes a 5, 4, 3, 2, 1 y O. Podemos aproximar esta probabilidad (área) por medio del área, a la izquierda de 5, bajo la cur.a normal superpuesta. Así, la aproximación normal ignora la mitad del rectángulo sobre el 5. La corrección por continuidad simplemente incluye el área

S

216

CASOS ESPECIALES DE.DISTRIBUCIÓN DE PROBABILIDADES

30 n - 20

1t a

o FIGURA 5.l I

1

2

3

4

5

6

7

8

9

1o 11 12 13 14 15 16

17 18 19 20

Aproximación normal de la d 1stnbuc16n b1nom 1al

entre y - S e y= 5.5. Para la distribución hinomial con n ::a 20 y TC - 0.30, Ja corrección consiste en tomar P( Y <; 5) como P( Y s; 5.5 ). En vc.l de P = (Y $5 .5) = P !Z ~ (5 20(0.3)) "'20(0.3)(0.7)} = P(Z <; -0.49) - 03121. utilice P - (Y SS.5)= P!7. s. (5.5 20(0.3)) h 20{0.3){0.7)} = P(ZS 0.24)=0.4052. La probabilidad binomial real,tomadn de la Labia 1del apéndice, es O 4164. La idea general de la corrección por continuidad es sumar o restar 0.5 del valor binomial antes de utilizar las probabilidades nonnales. La mejor manera de determinar cuándo sumar o restar es trazar un dibujo como el de la figura 5.11 .

Aproximación norm al de la distribución de probabrhdades binomial Para valores grandes den} valores de ;r no muy cercanos a cero o a uno. una \,ariable ale:uoria binomial Y se uede aproximar por medio de una d1stt1bución normal conµ= nTC y a= 11 n(I - .1r) Esta aproximación se debería utilizar sólo si n tr


EJEMPLO 5.25

Una f:lhrica de medicamentos realiz;;i pruebas clinic:is con 100 nue' o:. fármacos potenciales. Cerca del 20º o de las sust;;incias que alcanz:in esta etapa reciben finalmente la aprobación para su venta. ¿Cuál es la probabilidad de que se aprueben al menos 1S de los 100 medicamentos? Suponga que se satisfacen las hipótesis de la distribuc ión binomial, y utilice una aproximación normal con c o m~cción por continuidad .

So/uctón

La media (valor esperado) de }'esµ 100(0.2) - 20 ; la desviación estándar es <1 = J100(0.2X0.8) =4.0. La prob4lbilidad buscada es que 15 o más medicamentos se aprueben. Como Y - 15 está incluido, la corrección por continuidad consiste en tomar e l C\Cnto como Y~ 14.5.

Sección S 9

217

E1erc1c1os

14.5 .0 4

P( Y 2: 14.5) = P ( Z 2:

20) = P(Z 2: - 1.375)



que es aproximadamente 0.92.

MJlfo\imaciún nor-

La a¡ml\imación normal de l:i cli-.trihucic'm ck l'ui' 'º" funciona de la mis-

11,il clr la cl i,tribu-

ma manera. Si Y es una variable aleatoria de Poic;son con valor cspcrad0 µ, trate a

"'º" de Poi ~so n

}'como si tu\ icse una distribución nonnal; como además la varianza de una distrihución de Poisson es igual a µ, utilice a µ como la media y a .[µ comn la des' iación cst:lndar.

EJEMPLO 5.26

Suponga que Y. el número de trabajos que llegan a un centro de calculo en un lapso de media hora, tiene una distribución de Poisson con una media de 0.2 por minuto Utilice una aproximación normal para em:ontrar P( Y<; l 0).

Solución

µ -- (0.2/minuto)(30 minutos)

s.

P( Y

10) '"' P ( Z

10 -

6. De la tabla 3 del ap¿n
J6

s.

6)

P


L:i probahilidad de Poisson cx:icta es 0.9574.

l.a arroximación nmmal es bastante mala paraµ < 5 (correspondiente a nlf ..... 5 en el caso binomial) y bastante buena para µ ... 1O. En el caso intermedio, 5 ~ µ ~ 1O, la misma corrección por continuidad hace que la aproximación sea lo suficientemente precisa en 141 mayoría de las situaciones.

EJEMPLO 5.27

Solución

r CCIÓN s.9

Aplique en el ejemplo 5.:?6 la C(mccción por continuidad. Seguimos teniendoµ= 6 y figura p:ira ver por qué. P( Y

~

10.5) = P (z

CI=

J6. Aproxime P( Y$ 10) con P( Y :S 10.5 ). t lse una

s. lO.~ 6 )

= PCZ

s.

1.84) = 967 1



Nue,amente, la probabilidad de Poisson c:-.acta es 0.9574.

EJERCICIOS

- ---

5.57 Suponga que Y tiene una distrihución hinomial con /

5 .58

100 y 1T

0.50.

a . Utilice l3S tablas hinomiale~ rara calcular /'(40 s y s 60). b. Utilice una aproximación norm:tl (sin corrección por continuidad) para calcular la misma prohabthdad. ¿Es hucna la aproximación? l:t1licc una aproximación norm:il con com:cc1ón por continul(.bd para re~ponder al e1ercicio 5 57. ¿,Es mucho mejor e~ta aproximación 4ue la que se encontró en dicho ejercicio?

218

S

CASOS ESPECIALES DE DISTRIBUCIÓN DE PROBABILIDADES

5.59 En un sistema de contabilidad computadorizado suceden 1.6 errores por cada 1000 datos introducidos a la computadora. ¿Bajo qué condiciones esperaría usted que las "hipótesis de Poisson sean una aproximación razonable? 5.60 En el ejercicio S.59, suponga que las probabilidades de Poisson son adecuadas. Sea Y "' número de errores en un conjunto de 5000 datos introducidos a la computadora. a. Encuentre E( Y) y a,,. b. Encuentre P(S ~ Y S 11 ) 5.61 P:ira responder 31 inciso {b) del ejercicio 5.60, utilice una aproximación normal con corrección por continuid3d.



RESUMEN

En este capítulo presentamos las distribuciones especiales más imporulntes. Cada una de ellas surge cuando se satisfacen ciertas hipótesis. Tales suposiciones son una p:ute importante de la definición de cada distribución. En cada caso, especificamos las hipótesis, la distribución de probabilidades, el valor esperado, Ja desviación estándar y (en los casos necesarios) una tabla. Las distribuciones discretas más importantes son: Ja binomial, para el número de éxitos en un número fijo de ensayos de Bemoulli (independientes, con probabilidad constante); la hipergeométrica. para muesuas sin reemplazamiento tomadas de una población de éxitos y fracasos; la geométrica y la binomial negativa, para el número de ensayos de Bemoulli hasta que se alcanza un número fijo de éxitos, y la de Poisson, para el número de eventos aleatorios (no agrupados, independientes) en un intervalo de tiempo fijo. Las distribuciones continuas más importantes son: la uniforme, para probabilidades que se distribuyen unifonnemente sobre un intervalo; la exponencial, ixira el tiempo de espera hasta que suceda el siguiente evento; la nonn:il, una d1stnbuc16n que se presenta con mucha frecuencia y es la base de muchos métodos de inferencia estadística, y una aproximación (preferentemente con corrección por continuidad) a las distribuciones de probabilidades binomial y de Poisson.

TEMAS Y FÓAHUlAS PRINOPALES: dldes

a1sunas clsaibuciones de probabili-

1. Reglas para un recuento a. El número de sucesiones (variaciones) de r símbolos tomados de le en kes

r!

,P,

= (r -

le)!

b. El número de subconjuntos (combinaciones) de r símbolos tomados de k en le es ') r! ( le ª lc!(r - le)!

219

Resumen ~-

Exixrimcnto binomial a. Ha) "cosa) o~. cada uno de los cuales resulta en un éxito E o en un fracaso F. b. La prohabilidad de éxito P(E) = TC permanece constante para todos los cnsa)OS; p (F) = J Tr.

c. Los enSa) os son independientes. d. La variable aleatoria de interés es Y. el número de cxitos en n ensayos. 3. Variahlc :ileatoria binomial a. Distril"iución de probabilidades binomial P.(y)=

n'

. n:'(l-n:r-, y!(n - y)!

b. l\k
= mr

Var( }') = mr(l - 7r) ,-.:---

<1y

= v nn( 1 -

n)

4. Variabk :ilcatoria hipergeométrica a. Distribución
(

P.(}')=

-"1 ) (

r

N.. )

n- r . (~) .

b. l\.k
Var(Y)

= n('.")( ....E 1 N

.\')N-n --1: - N N-1

"r = Jn(NF.)(1 N - NE)!:!._:::_!_ N N-1 5. Variable aleatoria geométrica a. Distrihución de probabilidades

.r- 1.2•...

220

S

CASOS ESPECIALES DE DISTRJBUCION DE PROBASIUDADES

b. Media, varianza y dcS\ iación estándar de Y ~

E{Y)

= -1 n

Yar(Y) =

CTr

1-

1t

- lJt

~ =--Tt

6. Variable aleatoria binomial negativ:i a. Distribución de probabilidades

~(

)(y - I)! *(l tY -(k-l)!(y-k)!ll

,,-1 11''

b. Media, varianza )' desviación estándar de Y •

E(Y)

= -nk k(l - 11')

Yar(Y)=-~1l1

<1y

= k~

7. Variable aleatoria de Pois~on a. Distribución de probabilidades de Poisson

b. Media. varianza y des\ iación e~tánd:ir de Y E( Y) =µ

Var(Y) • µ CTy

= .¡µ

8. Variable aleatoria uniforme a. Función de densidad

1

fr(}')

= --. b-a

b. Media, varianza y dc~v1ación estándar de Y

y= k, k

+ 1. ...

Resumen

E(Y)

a+b =-2

Var(Y)

fJy

=

b-a =12

Fa .,¡12

9. Variable akatoria t!Xponencial a. Función de densidad /r(Y)

= (~)e-'1 '".

}'>O

b. Media. variani.a y desviación estándar de Y E( Y)= I'

Var(Y) fJy

=µ 2



10. Variable aleatoria normal a. Función ele densidad 1 -. 5(~)1 /r(Y) = - - e "

Jiña

b. La media. la varianza y la desviación estándar son µ, <J 2 y a. respecti, amcnte. c. Variable aleatoria normal estandarizada,

Y-µ

Z=-a

d. Usted puede obtener las áreas bajo una curva nonnal si calcula primero un valor estandarizado; y después consulta la tabla 3 del apéndice. 11. Aproximaciones normales de las distribuciones de probabilidades binomial y de Poisson a. Para la aproximación normal de la distribución binomial, use una distribución nonnal con media n1f y desviación estándar n 1t'(I - n}, siempre que

J

nn

~

5

y

n(I -

it) ~

5

b. Para la aproximación normal de la distribución de Poisson, utilice una distribución nonnal con mediaµ y desviación estándar siempre qui!µ~ 5.

.Jii,

222

CAPÍTULO 5

S

CASOS ESPECIALES OE OISTRJBUCION OE PROBABILIOAOES

EJERCICIOS 5.62 'Una compallia que realiza ventas por te!Cfono pretende comprar una máquina que sclecc1nna al azar y marca automáticamente nilmeros telefónico~. La compai\ia uli· li.taría la máquina para llamar a las residencias <.Jurante la tarde: las llamadas que correspondan a empresas serian un:i pérdida de tiempo. El fabricante de las maqui· nas afirma que sr éstas se program:in ~e reduce la ta~a de llamadas a cmprc~as en un 15%. Como una prueba, se \an a seleccionar al a1ar 100 número.; telcfónrcos de un conjunto muy grande de números posibles a. ¿Se cumplen las hipótesis de la distribución binomial en este caso., b. Encuentre la probahilídad de que al rncnos ~.i de los números correspondan a alguna empresa. c . Si en realidad 24 de los 100 números son de empresas. ¿am)ja este hecho -;crías dudas sohre la afirmación del fabricante'., l:.xplique'>e. 5.63 Rcmuase al ejercicio 5.62. a . Encuentre el valor esperado y la varianza de Y, el nilmero de llamada<; a teléfonos de empresas en la muestra. b. Utilice aproximaciones normales (con y sin correcciones pm continuidad) para encontrar PC Y~ 24). ¿Qué tan cercanas entre sí ~on las aproximaciones? 5.f>4 Se esuma que en una ciudad de Estados Unidos el 5'1o de las demandas por atención médica deficiente son fraudulentas. Se toma una muestra aleatoria de 50 demandas. a. e.Cuál es la probabilidad de que al menos una demand;i en 13 rnue:.tra sea fraudulenta? b. ¿Cuál es la probabilidad de que al menos 4 demanda<> \Can fraudulentas'! 5.65 Remítase al ejercicio 5.64. U11licc una aprox1macion de Porsson para responder a los apartados (a))' (b). ¡,Es bucn3 la aproximación? 5.66 En una ciudad, de 30.000 tarjetas de crcdilo bancarias en circulación, 300 han sido anuladas (por huno o falta de pago). l;n comerciante recibe 100 tarjctas diferentes en un día. a. ¿Cuántos conjuntos distintos de 100 tarjetas puede recibir el comc::rc1antc'! No realice ningún cálculo numcrico a menos que usted tenga un gusto sobrenatural por los números muy grandes. b. e.Cuántos conjuntos de 100 tarjetas oo contienen ningun;i tarjeta anulada? Nuevamente. evite la aritmctica. c. Escriha una expresión para la probahilidad de no ohtc::ner tar:jetas anuladas en una muestra de 1OO. d. Escriha una expresión para la probahilidad de obtener dos o menos ta~jetas ;inuladas en la muestra. 5.67 Remítase a los incisos (e) y (d) del ejercicio 5.66. a. Escriba expresiones para Ja.s aproximaciones binomiales de estas probabi lidades. b. lltilicc una aproximación de Po1sson para obtener respuestas numcncas que correspondan a estas prohab1lidadcs. 5.6R Algunas personas afirman que hay una tcndc::ncia a despla1..nr a las mujc::rcs que ocu· pan cargos gerenciales hacia áreas de menor relevancia, tales como las relaeioocs púhlicas o la dirección de personal. en contraste con áreas centrales como la producción. la comercialización y las finanzas. Suponga que un3 compai'lía tiene 24 hombres y 6 mujeres ocupando puestos gerenciales l>c estos cargos, 14 se conside· ran como poco relevantes o marginales. a. ¿De cuántas manera~ se pueden seleccionar los 14 gerentes de las áreas marginales?

E¡erc:1c1os

5.69

5.70

5. 71

5.72

5.73

5.74

5.15

5.76

223

h. ¡,De cuántas maneras ~e pueden seleccionar los gerentes de las áreas marginales. de modo que 5 de las 6 mujeres estcn incluidas entre ellos? c. Si los gerentes de las áreas margínah:s se seleccionan al atar. ¡.cuál es la probabilidad de que al meno-; 5 de ellos sean mujeres" Suponga que en una planta industrial ocurren accidentes que retrasan el trahajo > que éstos siguen una distribución de Poísson con una medía de 0.12 por"día. Sea Y= número de accidentes en un periodo de 1O días. a. Encuentre /'(Y= 1) y P(YS 1). b. Encuentre E( Y} y O"r En el ejercicio 5.69. ¿,sería acertada la aproximación normal? Se supone que la demanda semanal de saco" de harina de 5 lihras en un supermer· cado es aproximadamente normal. con una demanda medía de 72.0 saco~ y una desviación estándar de 1.6 SllCOS. Sea r demanda en una ~emana panicular. a. Encuentre P(>' ~ 72.8) y P(71.2 $ Y :S 72 .8). h. Encuentre P( Y "2: 74.0). c. La política de compras del supermercado es que la proba.hilidad de dcsahasto (i.e. que la demanda supere a Ja ofena) sea del 1%. ¡,Cuántos sacos de harina se deben tener en el almacén para alcan1..ar esta meta? Remítase al ejercicio 5.71. a. ¿Cuál es Ja probabilidad de que la demanda sea superior a los 73 sacos en una semana particular? b. ¡,Cuál es la prohabilidad de que la demanda sea superior a los 73 sacos en exactamente 3 de 4 semanas consecutivas? Suponga que las demandas semanales son independientes. Al confeccionar uniformes mílitares se desperdicia ciena. cantidad de material. Un fabricante encontró que el desperdicio sigue una distrihución normal con media 4.1 % y desviación estándar 0.6% de un lote a otro. a. En un Jote particular, ¿cu~I es la probahilidad de que el desperdicio exceda del S%? b. Si la cantidad de material necesaria para un lote es de 4700 yardas, y se dispone de 5000 yardas de material. ¿,cu:il es la prohabilidad de que el material disponible sea suficiente? Suponga. en el ejercício 5.73. que un conador panicular excede el 5% de desperdicio en 8 de ca.da 10 lotes. a . ¿Cuál es la probabilidad de exceder el 5% en al menos R de 10 lotes? h. Un resultado de esta naturale1a. ¿iodicaria de forma concluyente que el con:idor es ineficiente'! Un modem es un aparato que permite que dos computadoras se comuniquen entre si. Las especificaciones para estos disrositivos electrónicos exigen que el numero medio de errores en Ja transmisión sea de 1 por cada 5000 palahras (o mejor). Se pondrá a. prueba un modem particular efectuando una transmisión de 25.000 palabras. Si ocurren 8 efTores o mi\s en la transmisión. el dispositivo será rechazado. Suponga que las probahilídades de Poisson son aplicahles y que el modem justo alcan".a el estandar de 1 por 5000. a. ¿Cuál es la probahilidad de que el aparato sea aceptado? b. ¿Puede usted pensar en alguna razón por la que las hipótesis de Poisson no serían válidas? Suponga que la distrihución de Poisson es aplicable en el ejercicio 5.15. pero que el modem tiene una tasa de error media de 1 por ca.da 2500 palabras. de modo que no cumple con las especificaciones. ¿Cuál es la probabilidad de que el dispositivo sea aceptado?

.· 224

S

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

5. 77

Los ejecutivos de una compaftia de bebidas gaseosas desean ensayar una fúrmula novedosa para su principal producto. La nue\ a hebida se prueha en comparación ¡on la bebida actual. Se toma una muestra de 1000 clientes potenciales, )' a cada uno de ellos se le da un vaso con la fórmula actual y un vaso con la nueva. l.os vasos están etiquetados con las letras 11 y K para evitar sesgos indeseados. Cada cliente indica una preferencia. Suponga que, de hecho. los clientes no pueden encontrar ninguna diferencia y están, en efecto, adi\'ínando Defina Y como el número de clientes (entre 1000) que muestran preferencia por la nueva hcb1da a. ¿Qué distribución de prohabilidades se debería aplicar a Y? 1 as hipótesic; subyacentes a esta distribución, ¿parecen plausibles en este cuntc>.to? b. Encuentre la media y la desviación estándar de Y. 5.78 Encuentre la probabilidad aproximada de que la variahle aleatoria r del ejercicio 5. 77 no sea mayor que 460. ¿Debe ria ser exacta la aproximación? 5. 79 tina empresa considera la posibilidad de utilizar técnicas de venta por tele fono (telemorketmg) como complemento de los método<; tradicionales. Se estima que una de cada 100 llamadas resulta en una venia. Suponga que rn un día se hace n 250 llamadas. a. Escriba una expresión para la pro h:lbilidad de que haya 5 o menos \cotas. No haga ningún cálculo aritmético. b. ¿Qué supuso usted al responder al inciso (a)? ¿Es alguna de estas suposiciones francamente irrazonable? 5.80 a. Utilice una aproximación normal para encontrar el \alor numérico de la probabilidad en el inciso (a) del ejercicio S.79. b. Utilice una aproximación de Poisson par:i encontrar el valor numérico de la misma probabilidad. c. ¿Qué aproximación debería ser mejor? ¿Por qué? 5.& 1 Remítase al ejercicio 5.79. Sea Y= número de llamadas hechas hasta alcannr la primera venta. a. Encuentre la media y la des\ iación estándar de Y. b. Encuentre P(Y .. 1) y P( Y~ 100). ¿Cuál es mayor., 5.82 · En la situación descrita en el ejercicio 5.79, defina Y como el numero de ll:imadas hechas hasta alcan1.ar la cuarta venta (incluyendo esta última llamada). a. Escriba una expresión para la prohabilidad de que )'sea al menos 400. No necesita usted hacer ningun cálculo aritmético. b. Encuentre la varian1.a de Y. 5.83 El director general de una corporación debe seleccionar J personas para dmg1r la campaí'la anual de beneficencia de Ja empresa. lla) tres divisiones (A. H y C) dentro de l:i empresa y 5, 6 y 4 individuos, respectivamente. dentro de la..; d1' isiones, que podrfan ser seleccionados. a. ¿Cuántas combinaciones de 3 individuos se pueden hacer, de modo que c:ida uno de ellos provenga de una división distinta'! b. Suponga que el director general selecciona los individuos al a1ar. ¿Cuál es la probabilidad de que al menos 2 de ellos provengan de la división A? 5.84 Remítase al inciso (b) del ejercicio 5.83. Sea }' = nümero de individuos seleccionados de la di\1s1ón A. Encuentre el valor esperado y la \.arian1a ck Y. 5.85 La computadora que controla los cajeros automáticos de un banco queda fuera de servicio en ocasiones. El tiempo medio entre dos fallas es de S.O días. Defina Y como el tiempo de espera hasta que sucede la siguiente falla. a. Encuentre la probabilidad de que el sistema no falle en una semana (7 días). b. Encuentre la rrobab1lidad de que el tiempo transcurrido hasla la siguiente falla sea de al meno-; 2 semanas

E1erc1cios

225

En el ejercicio 5.85, encuentre el .. alor esperado y la desviación estándar de la variable aleatoria Y. 5.87 En el ejercicio 5.85, ¿que hipótesis hizo usted? Si se sahe que una falla tiende a ser seguida por otra en un lapso de tiempo relati\amente corto, (..Qué hipótesis se infringen? 5 .88 Una campal\a publicitaria para un nuevo producto está pro> celada para hacer que el 20% de la población adulta en el área metropolitana lo cono1.ca. Después de la campai'la, se toma una muestra aleatoria de -400 adultos en el área metropolitana. a. Encuentre la rrohabilidad aproximad.l de que 57 o menos adultos en la muestra tengan conocimiento del producto. Utilice una corrección por continuidad. b. ,,l>ebcna ser precisa la aproximación? c. La muec;tra pone de manifiesto que 57 adultos conocían el producto. El gerente de mercadotecnia argumenta que esta tasa tan haja es una casualidad aleatoria de la muestra. Con base en su respuesta al inciso (a), ¿está usted de acuerdo? ~.89 Los gerentes de marca de un producto en una compai'lia consideran que una campa1\a publicitaria para introducir un nuevo producto es exitosa si al menos el :?Oo/o del grupo objetivo toma conciencia del producto. Después de una de tales campai'las, un estudio del mercado encuentra que 56 de 400 individuos que conforman la muestra conocen el producto. El grupo objetivo lo conforman los adultos que tienen licencia para conducir en Estados Unidos. a. Escriba una expresión para la probab1hdaJ exacta de que 56 o menos personas en la muestra conozcan el pmducto, suponu:ndo que el 20~ •del grupo objetivo tiene conocimiento del mismo. ¿Qué distrit'lución de probabilidades es aplicable en este caso? ¿Qué suposiciones ha hecho usted? b. Utilice una aproximación normal para encontr:ir el valor numérico de esta probabilidad. c. Si usted fuese el gerente de marca del producto. ¿creería que la campai\a publicitaria ha tenido éxito? 5.90 Cierto defecto congénito ocurre con uoa probabilidad de O 0001; es decir, 1 de cada 10.000 bebés tienen este defecto Si en cierto hospital nacen 5000 nii'los en un ailo, <.cuál es la prohahilidad aproximada de q1.1e al menos un bebé tenga el defecto? ¿Qué aproximación se debería utilizar? 5.91 En varios estados de los Estados Unidos se practica hoy en día el juego de la Lotto (una \-ariante del juego de la lotería). Un jugador escoge 6 números distintos del 1 al 40. Si precisamente esos 6 números son seleccionados como ganadores. el jugador recibe un premio muy grande. ¿Cuál es ll\ prohabilid:id de que un conjunto p:irticular de 6 números sea seleccionado'? Usted podria pensar en los 6 números seleccionados como números "éxito". 5.92 En el juego de la lotto descrito en el ejercicio 5.91. hay premios mas pequei\os para quienes escogen exactamente 5 de los 6 números ganadores ) premios aún más pequei\os para aquellos que eligen exactamente 4 de los 6 números ganadores. a. ¿Cuál es la probabilidad de escoger exactamente -4 de los 6 números ganadores? b. ¿Cuál es la probabilidad de escoger al menos 4 de los 6 números ganadores? 5.93 Suponga que el juego de la Lotto Jel ejercicio 5 91 se cambia, de modo que se elijan 6 números del 1 al 42, en vez del l al 40. a. Sin realizar ningún cálculo aritmético, determine si la probabilidad de seleccionar los 6 númeroc; ganadore' e'> ma)or o menor que la que se tenia en el ejercicio S.91 1~1 cambio aludido. ¿ce; grande o ('ICque"o'.> b. Calcule ahora la probabilidad de seleccionar lo~ 6 números ganadores. escogién· dolos entre los números del 1 al 42. c. Compare la respuesta que dio al inciso (b) con la del ejercicio S.91. ¿Cambia la probabilidad tal como usted lo esperaba en el inciso (a) de este ejercicio? 5.86

226

S

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

5 94

Suponga que. en el juego de la lotto del ejercicio 5.91, un millún de jugadores es· cogen independientemente 6 números. 'ti. 1.Qué dl\tnhuciún de probabilidad se aplica a la varfable aleatoria Y = número de jugadorcc; que c~cogen los mismos 6 numeros'? b l·ncucntre una expresión para/'( Y O). No realice ningún calculo aritmético. c. Escriba una expresión para P( Y ~ 2). S.95 a En el ejercicio 5.94 , encuentre el valor esperado y la varianta de la v:iriable aleatoria Y. b. l Jtilice una aproximación de Poisson para encontrar P( Y 0) y P( Y ~ 2). ¡,Cuán preci"ll debería ser la aproximación? c. Sí usted tiene una calculadora apropiada, encuentre el \alor numérico exacto de la pmbabilidad y compárelo con la probabilidad aproximada que encontró en el inciso (b). S.96 En el ejercicio 5.94, ;,se dehcria utílinr una aproximación normal para c:ilcular P(Y

5.97

5.98

5.99

5.100

5.101

5.102 5.1 03

0)yP{Y~2)?¿Porqué?

Si en el juego de la/.""" descrito en el ejercicio S.94 nadie escoge los 6 números corrtttos, el premio principal no se repane. en ve1. de ello, el dinero se acumula para el siguiente sorteo. Si no hay ganadores en varios sorteos consecutivos. el pre· mio potencial puede llegar a ser de millones de dólares Suponga. como en el ejer· cicio 5.94, que en cada sorteo un millón de jugadores escogen independientemente 6 numcros. Defina la variable aleatona X ~ número de sorteos necesarios par:i ohte· ncr al menos un ganador. a . ¿Que distribución de probahilidades se aplica a-~ Deliend.:i su afirmación. b. Encuentre la media y la desviación esttmdar de X. c. Escriha una expresión para P(X ~ 3). En términos de lo que sucede en el juego de la lutto, ¡,qué significa el e\'ento X= 3? Uay una ohjeción a lo dicho en el ejercicio 5.97. t-:n realidad, si no hay ganador en l o 2 sorteos consecutivos. los noticieros informan del enorme premio potenc1:il. y mucha mis gente participa en el juego. Demuestre que este hecho infringe una de las hipótesis que se hicieron en el ejercicio 5 97. En cierta ciudad, ocurren incendios en casas hahitadas a r:11.ón de uno cad:i dos di:u. a. ¡,Cuál es el número esperado de incendios de casas hahitadas en un periodo de 7 días? b. Encuentre la probabilidad de que haya al menos 4 inccnd10s en una semana. c. ¡,Qué ba supuesto usted :icerca de la ocurrencia de incendios al responder al in· ciso (b)? ;,Pa~ce alguna de las hipótesis francamente irratonable? Rcmitase al ejercicio 5.99. Encuentre la probabilidad de que transcurran J dias sin que haya ningún incendio. ¡,Cuál es el tiempo esperado entre 2 incendios con· secutivos? El operario de una macrocomputadora recibe peticiones imprevistas para montar cintas de datos en el sistema. Como política, estas solicitudes deben ~er atendidas a la hre\edad posible; debido a ello, se tiene que interrumpir el llujo del trabajo programado. Los datos indican que la ta~ de tales peticiones durante el turno de 9 A.M. a 5 r.M. es alredcdur de t .5 por bora. Sea Y = número de solicitudes recihidas en un turno de 9 A .M. a 5 r . M a . Encuentre la media) la des\'iacióo estándar de Y. h. Encuentre P(Y> 8). Remítase al ejercicio S.101. Encuentre la probabilidad de que el tiempo transcurrido entre dos solicitudes consecutivas sea al menos de dos hora.e;. El gerente de sistemas del ejercicio 5.101 ohserva que la demanda para la in~tala­ ción imprevista de cintas de datos \aria durante la jornada laboral normal. 1-.ntre lai;

227

Estudio de caso: 01stnbuc1ones especiales

la 1 P.M. hay un promedio de una petición por hora; entre Ja 1 hay un promedio de dos solicitudes por hora. a. ¿Cambia esta situación sus respuestas al inciso (a)? b. ¿Afecta este hecho su respuesta al inciso (b)?

9

A.M. )

5 P.

ESTUDIO DE CASO:

P.M.

y las

M.

Distribuciones especiales

Un provcetlor de máquinas fotocopiadoras está a punto de emprender una fase de expansión. L:i compañia alquila maquin:is copiadoras y les da m:mtenimiento. Trabaja con empresas e instituciones de distint:i índole y está a punto de absorber a otra compai\ía competidora. Uno de los grandes problemas a los que se enfrenta la empresa es el siguiente: ¿cuántos técnicos de servicio son necesarios para la fusión de las dos compai\ías? La compailia distingue dos categorías de copiadoras. Las de oficina, que se utilizan ror lo general para hacer un número pequeño de copias y son manejadas por secretarias y usuarios casuales. Las fotocopiadnras de alto rendimiento se utilizan por lo general para grandes trabajos y son manejadas por especialistas. La compaMa alquila distintos tipos de copiadoras para ambos usos. Mantiene por separado plantillas de personal técnico para ambas categorías. Como las copiadoras son de marca comercial, el servicio es el área principal de competencia con otros proveedores. 1 a empresa quiere tener un equipo adecuado de técnicos. pero no tantos como para que estén desocupados una fracción muy grande del tiempo de trabajo. Actualmente, antes de absorber :i la otra compafHa, la empresa tiene alquiladas 21 OS copiadoras de oficina y 386 de alto rendimiento. Las solicitudes de servicio se atienden siguiendo básicamente el principio de que "el primero en llamar, el primero en ser atendido". El encargado del servicio recibe las llamadas y asigna a los técnicos en el orden en que las recibe. Un técnico en copiadoras de oficina normalmente puede atender un máximo de 8 solicitudes por día; un técnico en copiadoras de alto rendimiento trabaja por lo general en problemas más complejos y puede atender un máximo de 4 solicitudes por día. Si un aumento súbito en las llam:idas supera la capacidad de los técnicos, los trabajos ser:ín atendidos el día siguiente. El presidente de Ja compai\ía presiente que los clientes que no reciben atención inmediata están dispuestos a cambiar de proveedor cuando venza su contrato. La compai'lía emplea actualmente 8 técnicos para las copiadoras de oficina y 7 técnicos para las copiadoras de alta eficiencia. La compañía también parte del principio de que las copiadoras de oficina necesitan mantenimiento una ve1 cada SO días
. 228

5

CASOS ESPECIALES DE DISTRIBUCION DE PROBABILIDADES

La ley de lo!. rromedios dice que el mayor número de copiadoras en al4uiler debe comrcn<..ar tales aumentos súbitos. de modo que no es necesario hacer un incremento ~rororcional en el número de técnicos. f-1 presidente le ha pedido a usted que examine el problema, panicularmente el riesgo de postergar servicios para el día siguiente. El presidente tiene interés ~n leer material técnico, pero no ha tenido ninguna educación formal en estadística, así que usted tendr:í que exponer sus ideas con clandad

e ·~ /' Í TU l O

6

229

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

Nos encontramos en una sicuación que nos permite combinar las ideas relativas a la síntesis de datos del capítulo 2 con los conceptos de la probabilidad de los capirulos 3 - 5 para obtener la noción central de la estadística, la idea de distribución muestra! de un estadístico. Los ~sLadísticos sumarios (que resumen Jos datos): medias, medianas, desviaciones estándar, etc., varían de una muestra a otra. Esto ocurre porque las muestras de una población !>C to man aleatoriamente, de modo que las medias (por ejemplo) de dos muestras de la misma población pueden diferir en cierto grado. Las muestras de procesos activos como la producción o las ventas se ven afectadas por factores aleatorios que escapan de control, de modo que dos medias muestralcs del mismo proceso diferirán aleatoriamente. La distribución muestra! de un estadístico sumario es una fonna de describir la variabilidad de éste de una muestra a otra. Bajo ciertas hipótesis, la teoría de la probabilidad se puede utilizar para obtener una distribución muestra!. De hecho, la importancia de esa teorla en este texto radica en su aplicación a las distribuciones muestrales. Algunos conceptos de la probabilidad, como los de valor esperado y desviación estándar de una variable aleatoria, se utiliz.arán con insistencia en este capitulo. la aleatoriedad y la probabilidad se relacionan con los estadísticos sumarios por la vía del muestreo aleatorio. En la sección 6.1 explicaremos por qué es importante el muestreo aleatorio y cómo se lleva a cabo. Después, en la sección 6.2, recurriremos a Ja definición básica del concepto de distribución muestra! y utilizaremos, en la sección 6.3, el valor esperado y la desviación estándar ~n el contexto de las distribuciones muestrales. En la sección 6.4 aplicaremos las ideas básicas al caso especial más importante, a saber, el de media muestra!. En esta sección nos enfrenLaremos en primer lugar con un resultado matemático crucial, d Teorema Central del Límite, del que continuamente haremos uso de ahí en adelante. En la sección 6.5 consideraremos este teorema con más detalle: sus interpretaciones y falsos sentidos. Por último, en la sección 6.6. consideraremos cómo se puede utili1.ar la computadora para complementar las ideas matemáticas de este capítulo con simulaciones he· chas con su ayuda. Este capítulo es necesariamente teórico. Los resultados que en él exponemos ~e utili.t.arán una y otra vez en los métodos de los capítulos subsiguientes. Dicho~ uso-.

230

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

tal vez no sean obvios en una primero lectura, pero le prometemos que podrá \ erlos m~ adelante. Tenga paciencia.

' 6.1

'l>C,go de 'elección

MUESTREO ALEATORIO



La mayoría de los libros de estadística, incluyendo a éste. dicen que ha> que utilizar el muestreo aleatorio para reunir úatos. La razón fundamental para utiliz:ir un muestreo aleatorio es la de asegurar que las inferencias que se hacen con base en los datos de la muestra no estén distorsionadas por un srsgo dr selecció n. Hay un sesgo de selección siempre que hay una tendencia sistemátic.i a !iobrcMimar o subestimar alguna parte de la población. Por ejemplo. una muestra telefónica de familias en una región, conducida entre las 9 A.M. y las 5 P.M.• tendría un se-..ero ~e~go hacia las familias donde, por lo meno~ un miembro, no trabaja. Por lo tanto. cua~ les4uiera inferencias que se hiciesen con base en los datos de la muestra estarían desviadas hacia los actitudes u opiniones de personas que no trabajan y podrían no ser representativas de las familias de la región. Del mismo modo, una muestra de cuentas úe crédito que se realiza con base en un conjunto de transacciones, C\taría sesgada hacia las cuentas activas. con multitud úe operaciones com
EJEMPLO 6. 1

Suponga que el personal de investigación de un Banco de Rescna Federal quiere tomar una muestra aleatoria de cheques correspondientes a cuentas personales (no de negocios) para determinar el importe, el tiempo para su liquidación y el promedio de cheques sin fondos. ¿,Cómo la podrían realizar?

Solución

f la) que definir en primer lugar la pohlación objetivo. ¿Se trntu di.: todoc; los cheques per..orole!. e>.pediJos en un periodo dado? ¿O se trata de todo., lo~ cheques negociado!. por la cámara úe compensación de la reserva federal durante dicho periodo de tiempo'! Ha) una diferencia, pues un cheque que se paga en efocti\O en el banco en el que fue expedido nunca llega a la cámara de comp1.:nsac1ón Suponga que se elige la úefinición de la cámara de compensación. El s1gu1ente paso es cc,tablcccr un métoúo de muestreo aleatorio. Uno podría, en principio. pon
6. 1

Muestreo aleatono

r

231

Obviamente. ésta seria una forma poco práctica y costosa de obtener una muestra aleatoria. Tal método sólo sirve como una idealización con la que se pueden comparar otros métodos más prácticos. Otra posibilidad es elegir sistemáticamente un cheque de cada 300. Este método no es en rcnlidad un muestreo aleatorio, pues, por ejemplo, en la muestra no podrian quedar incluidos dos cheques sucesivos. Sin lugar a dudas, podriamos imaginar algunas situaciones en las que la elección de un cheque de cada 300 podría introducir algún tipo de sesgo. No obstante, este proceso da la imprt.'Sión de que produce una buena aproximación a un muestreo aleatorio y a un costo muy aceptable. •

111:.rco mue,tro l

El campo de aplicación de los métodos de muc~treo es mucho mas extenso que el de las encuestas políticas y los estudios de mercado que nos son familiares. El muestreo se debería considerar siempre que se quiera tener iníonnación y el costo (en n completa es excesivo. Por ejemplo, suponga que un fabricante de p:ipas fritas \ene.le el producto a través de 1943 minorist:is. Una variable crítica para el éxito del producto es el espacio promedio que se le :isigna en las cstantcrias. Sería absurdo que d fahricante tratase e.le visitar a cada distribuidor para medir el área dedicada a su producto. -:;~poniendo que el fabricante tiene una lista de los distribuidores. sería relativamente más fácil obtener una muestra aleatoria de. digamos. 100 de ellos y medir el espacio promedio en las estanterías de esta muestra. lde:ilmente, uno tiene una lista de los elementos de la población objeti\ o. Lo m:ls común es tener una lista que se aproxima. J)\!ro no c.lel todo, a la población objetivo. La lista casi correcta se llama marco de muestreo o mucstral, para indicar que no es exactamente igual a la población objetivo. Con frecuencia es muy fácil obtener un buen marco de muestreo, como lo sería en el caso del fabricante de papas fritas, que de seguro conoce a muchos, pero no a todos los distribuidores. Cuando se toman muestras de poblaciones humanas, es muy dificil encontrar un buen marco de muestreo. La gente se traslada; un din.-ctorio o una lista de direcciones se puede volver obsoleta rápidamente. Los directorios telefónicos no son una fuente completaml!nte confiable para desarrollar un marco de muestreo: hay muchos números telefónicos que no aparecen en la lista y muchos números telefónicos múltiple~. Quizá el problema más serio sea que las personas !.in telt!fono tienden a ser pobres. Este problema fue una de las causas principales del fracaso utíli7.ar el primer dígito del número de serie para seleccionar la fila y el ~egundo dígito pora seleccionar la columna.) Suponga que consultamos Ja tabla en la fila 'l. columna 1,

232

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

recorremos la lila y utilizamos Jos tres primeros dígitos. Para obtener una muestra aleatoria de 1O individuos tomados de una población de 916 individuos. numeramos a los fr\dividuos en el marco de muestreo del 000 al 915 y seleccionamos los primeros 1O números. a saber 24, 130 (utilizando sólo 241 ). 483(60). 225(27 ). 972(75), 763(93), 648(09), 151(79), 248(30). 493(40)) 320(81 ). Si uno de los numeros aleatorios es ma)or que 91 S, como por ejemplo 972. lo ignoramo~ y obtenemos otro número en su lugar. Por ejemplo, sustituimos 972 por 306(80). que es el siguiente número de la tabla 9 del apéndice. Si queremos tomar una muestra sin recmpla1.amicnto, •también ignoramos todas las repct1c1ones de los números. Por supuesto, no es necesario depender de la tabla; pr:ícucarnente, cualquier programa de computadora puede generar una serie de números aleatorios igualmente útilco;

EJEMPLO 6.2

Suponga que se va a tomar una muestra de 4 minoristas de un marco muestra[ de 1943 de ellos. Si consultamos Ja tabla 9 de números alentorios del apéndice en la fila 3, columna 1, y leemos venicalmcnte las columnas, los primeros 1O registros son 24,130, 42,167, 37,570, 77,921, 99,562, 96,301, 89,579, 85,475, 28,918, 63,553. ¿Qué minoristas debcrian integrar la muestra'!

Solución

U na de las mu..: has maneras en que uno puede utilizar estos números consiste en ignorar el último dígito y seleccionar sólo valores entre 000 J y 1943, ambos inclusive; así, ignore 2143, 4216, y así sucesivamente. Continuando a lo largo de l:i columna obtenemos los números 0942 (fila 13 ), 1036 ( fi Ja 14 ), 071 1 (fila 15) y 0236. Bajo la hipóiesis de que estamos haciendo un muestreo sin reemplazamiento, ignoramos las rcpeliciones. (También podríamos haber utilizado una computadora para seleccionar muestras aleatorias en el intenalo de 0001 a 1943.) • Para lograr una apro>
6 2

SE< CION 6. 1

6.2

6.3

6.4

6.5

6.6

c'ltadístico mucs trnl

233

EJERCICros 6.1

6.2

Estadinicos muestrales y d1stribuc1ones muestrales

Suponga que queremos seleccionar una muestra aleatoria de n == 1O elementos de una pohlación de 800 individuos. Utilice lo tabla 9 del apéndice para identilicar a Jos mdi\ iduo~ que formarán la muestra. Comience en la lila 5, columna 1 ~ lea hacia abajo. Las autoridades civiles de la ciudad toman una muestra de la opinión de los propietarios de casas de cierta comunidad acerca de la posibilidad de ele\'ur los impuestos para mejorar la calidad de las escuelas locales. Se utiliza un directorio de todas las casas en la ciudad: una comr>Utadora genera números aleatorios par:i identi licar las direcciones que integrarán la muestra. Un entrevistador visita cada hog:ir entre las 3 r .M. y las 6 P.M. Si no hay nadie en casa, l:i dirección se elimina de la muestra y se reempla7.a por otra que se selecciona aleatoriamente. ¿Se aproxima este proceso a un muestreo aleatorio? El director de una librería univer~itari:i estj intcre~ado en conocer el número de libros de texto que no se pidieron en número suliciente y se agotaron dos dias después del comienzo de las clases. Para ello, instruye a un empleado para que seleccione un número aleatoriamente, vaya al Jugar donde está colocado el libro con ese número, examine los 50 títulos que le siguen y anote cuántos de ellos están agotados. a. Técnicamente, este proceso no proporciona una muestra aleatoria de los libros en la tienda. ¿Por qué no? b. ¿Cómo se podrfo obtener una muestra verdaderamente aleatoria? Un equipo de béisbol profesional tiene dos planes para la venta de boletos: uno para 20 juegos )' otro para 40. El director de "enta'> quiere estimar el interés de los aficio· nados en un plan combinado por medio del cual dos personas que adquirieron planes de :?O juegos se pueden reunir para :idqu1rir. con un pequei'lo descuento, un plan de 40 juegos La población objeti\O para tomar la muestra son los compradores regulares del plan de 20 juegos. Se tiene a Ja mano una lista actuali1ada de los 4256 compradores l·.xplique cómo obtener un muestra :ileatona de los compradore\ regulares. Una forma de tomar una muestra de los compradores del ejerc1c10 6 4 con~•~tc en hacer una listad~ los números de asiento que ocupan en el estadio y tomar una muestra :ileatoria de ellos. No obstante, esto no parece proporcionar una muestra aleatoria de los compradores. Explique por qué no. El gerente de un complejo de 2526 oficinas empleó a un nuevo contratista en limpiey quiere formarse una idea adecuada de cuán satisfactorio es el trabajo que rcalil:l los fines de semana. Una e~trategia posible es seleccionar 3 oficinas en los primeros tres pisos y examinarlas junto con las 1O oficinas que se encuentran a su al rededor. Otra estrategia, que requiere aproximadamente el mismo tiempo. es seleccionar 15 oficinas ale:itoriamente Se argumenta que la primera estrategia es mejor porque pennite inspeccionar más oficinas. ¿Es válido este argumento?



ESTADÍSTICOS MUESTRALES Y DISTRIBUCIONES MUESTRALES • Una vez tomada una muestra y obtenidos los datos numéricos la primera tarea es sintetizarlos. En el capítulo 2 definimos muchas medidas que resumen los datos, tales como la media y la desviación estándar de la muestra. Cada una de ellas es un ejemplo de un estadístico muc~ tral No se puede predecir con exactitud el valor numérico que tendrá un estadistico muestra!. Aun si sabemos que la media poblacional µ es 216.3 7 dólares y que la desviación estándar poblacional aes de 32.90 dólares (es más, aun si conoccmo'> completamente la distribución poblacional) no podemos decir que la media muc!.tral f será exactamente igual a 216.37 dólares. Un estadístico muestrol es una variable

234

6

lli\trihución mnl"•lr:il

EJEMPLO 6.3

Solución

MUESTREO ALEATO.IUO Y DISTRIBUCIONES MUESTRALES

aleatoria. Está sujeto a un:l variación aleatoria porque se hasa en una mucstm. t:lm· bi~n aleatoria, de mediciones tomadas de la población de interés. Al igual que otras variables aleatorias. los estadísticos muestrales tienen una distribuciún de probabi· lidades A la distribución de prohabilidadcs teórica de un estadístico muestra! se le llama di'ltrihución mu~st ral del estadístico_] Uno de los problemas básicos de la estadística matemática es la derivación de distribuciones muestrales. Las técnicas que utilizamos inclu)·en los métodos hásicos de la probabilidad del capitulo 3, los métodos de Montccarlo (que analizaremos en Ja sección 6.6) y muchas otras fonnas de manipulación matemática. En esta sección mostraremos cómo se puede obtener la distribución muestra! de f para una población simphficad::i. Más adelante. en otras secciones. presentaremos varios resultados de alcance general. Se va a calcular la media muestra! y a partir de una muestra aleatoria de tamar'lo 2 tom::ida de una población 4ue consiste en los 5 valores ($2, $3. $4, $5 y $6). Encuentre la d istribución muestra! de f con b3se en una muestr.i de tam::il'lo 2.

n)

Una forma de encontr:ir P; (ji} es haciendo un recuento. Hay posibles de 2 itcms entre 5 posibles. Son las siguientes: t, Muestras posibles de tama"o 2: Valor de ¡ :

2. 3 2..S

2. 4 3

2.5

2.6

3,4

3,5

3.5

4

3.S

4

3.6 45

10 muestras ~ ~..

1

4.5

4,6

4.5

5

.S,6 5.5

Suponiendo que cada muestra de tamaño 2 es igu::ilmente posible, se deduce que la dbtribución muestra! de f con base en n = 2 obsenac iones seleccionadas de esta población es la que se indica a continuación: )".

P;( jJ):

2.5

3

15

l,' 10

1 10

2 ·10

4 2 10

4.S 2 10

5 1 10

5.5 1·10

La distribución muestra! se presenta gr.lficamt!ntc en la figura 6. 1.

2/10

1110

2.5

FIGURA6.I

3

D1stnbuc16n muestral de

35

4

Y: ejemplo 6.3

4.5

5

55



6.2

Estadí1t1cos muestrales y d1str1bucK>nes muestrales

235

Por lo general usamos un estadístico muestro! como una estimación de un parámetro de la población. Por ejemplo, podemos utilizar una medi:l muestra! para estimar la media correspondiente µ de la población de la que se obtuvo la muestra. Después utilizamos la distribución muestra! de un estadístico muestra! para detenninar la exactitud de la estimación. En el ejemplo 6.3 sabemos que la media poblacional µ es 4 dólares. Obviamente, en la práctica nosotros no sabemos d valor de µ. pero podemos utilizar la distribución muestra! de Y para detenninar la probabilidad de que, por ejemplo, el \'alor calculado tic la media muestra! esté a más de 0.50 dólares de la mediaµ. En el ejemplo 6.3, esta probabilidad es Py(2.5) + Pr(3) + Py(51 + Py(5.5)

mlc'rprctacioncs 1k una di,trihu -

ciún muc.'ltral

hi, logrnrn:i
de

'º' datos

4 = -10

En general, un estadístico muestra! se utiliza para hacer inferenci:is acerca de un parámetro de la población. La distribución muestra! del estadístico es crucial par.i detenninar cuán buena se supone es l;i inferencia._ Las distribuciones mucstrales se pueden interprel.'lr cuando menos tle dos manerns. Una tle ellas adopta el enfoque de la frecuencia relativa en el límite. Imagine que se toman mue!>tras repetidas de un tamaño dado de una población y !>e calcula el valor del estadístico muestra! en cada una de ellas. En el límite, las frecuencias relativas de los valores del estadístico muestra! se aproximan a las correspondientes probabilidades de la distribución muestra!. Por ejemplo, si usted toma un gran número de muelltras de la distribución de probab1ltdudcs de la población del ejemplo 6.3 y calcula la media para cada una de ellas. y será igual a 3.S en aproximadamente el 20% de las mue~tras. La otra manero de interpreuir una distribución muestra! hace uso de la interpretación clásica de la probabilidad. Imagine una Jbta de todas las muestras posibles que se pueden tomar de una población dada. La probabilidad de que un estadístico muestra! teng;i un valor particular (digamos. que y= 3.5) es la proporción de todas las muestras posibles que dan dicho valor. En el ejemplo 6.3. Pr (3.5) = 2/1 Ocorresponde al hecho de que 2 de cada l O muestras tienen una media muestral igual a 3.5. El muestreo repetido y d enfoque clásico son formas legitimas de encontrar probabilidades de un estadistico muestra!. No obstante, en la pr.íctica una muestra !>ólo se toma una vez, y sólo se calcula un valor del estadístico muestra!. ~Una distribucíém muestrnl 110 ..,, ;1li,:o que usted pueda \'Cr en la práctic:t; 110 e' un:1 distrihu ción que se pueda obo;cn•ar empíricamente. \Já~ bien, es un eonc<'pto t<'órico. un conjunto
236

6

MUESTREO ALEATORIO Y DISTRJ8UCIONES HUESTAALES

EJEMPLO 6.4

Rcmitase ul ejemplo 6.3. ¿Cómo podemos utili1.ar una computadora para aproximar la distribución muestra) de Y con base en n = 2 observaciones'!

So/uc1on

Suponga que decidimos simular 10,000 muestras de tam:iño 2 de la población del ejemplo 6.3. Para generar 10,000 dígitos aleatorios (O, 1,. ,9) con una distribución uniforme podemos utilizar una computadora. Como señalamos en el ejemplo 6.3, hay 1O muestras posibles. La muestra 2, 3 (.'v = 2 .5) se puede asignar al dígito O, la muestra 2, 4 {.Í' =- 3), al dígito 1, ... • y la muestra S, 6 (.V = 5.5 ). al dígito 9. Así, cada muestra posible tiene la misma proh:ibdidad. Esto resulta en 10,000 valores .v. A continuación mostramos los valores y las frecuencias relativas correspondientes :

'

Valor de ¡: : Frecuencia· frecuencia relativa:

2.5 1024 10:?4

3O 991 0991

3.5

4o

2006

:?018

4 5 1975

2006

.:?OIH

1975

5.0

5.5

1005 1005

9HJ 09111

Observe ~ue estas frecuencias relativas simuladas son mu} cercanas a las probabilidades teóricas 0.1, 0.1, 0.2, 0.2. 0.2, 0.1 y O. l. Este método siempre proporciona distribuciones aproximadas que se pueden mejorar aumentandQ el número de repeticiones (y. por lo lanto, el costo). •

EJEMPLO 6.5

Encontramos que la distrihución muestra) de Y en el ejemplo 6.4 asigna una prohnbilidad de 2/ JO a .Y= 4.5. ¿Cómo se interpreta este resultado?

So/uc1on

Ha} al menos e.los interpretaciones muy provechosas. Primero, podemos suponer que se ha tomado un número mu)' grande de muestras de t:imaño 2 de ei.ta población (conceptualmente, un número infinito de muestras). En tal caso. la fracción de muestras que. en el límite, producirían una media muestral de .i.s seria 0.2. Alternativamente. podemos suponer que se ha preparado una lista de todas las muei.tras posibles de tamaño 2; de éstas, 2 de cada 1O tendrán u na med1:1 muestra! de 4.5. •

En este libro dem aremos tan sólo algunas dbtnhuc1onci. (mucstralcs ) teoru.:as muy simples. Las más complicadas requieren dt: unn matemática compleja que no entra l!n nuestras prioridades. En camhio. nos concentraremos en las hipótesis subyacentes a la teoría y en las consecuencias que trae consigo transgredir tales hipótesis. Para la deducción de los resultados le sugerimos consulte un huen libro de estadística matemática tal como Larsen y Marx l I 986) Evidentemente, las d1stribuc1ones muestrale!> 1;imb1én se pueden calcular para muestras que se toman con reemplazamiento. Sí, en el ejemplo 6.3. la muestra se tom:i con reemplazamiento. Ja distribución muestra! de )'es la siguiente: ): P;( j'l.

2o 04

:? 5 08

3.0 12

3.5 .16

4

o

20

4.5 .16

5.0 .12

5.5

6 ()

08

(~

Se po<.lria realiz.ar un estudio simulado con una computadora suponiendo que el muestreo es con reemplu.amiento. Por ejemplo. podríamos tomar 10,000 números

237

Secc1on 6.1 E¡erc1C10l

aleatorios de 2 dígitos permitiendo que cada uno de los números OO. 01, 02 y 03 corresponda a y "' 2. cada uno de los números desde 04 hasta 11 corresponda a y :!.5. y así suceshamente. Las frecuencias rdativas de tal estudio serian mu~ cercanas ::i las probabilidades que se muestran. •

SECCIÓ N 6.2

EJERCICIOS 6.7

Fl propietario de una cadena de la\anderias automáticas estima el tiempo promedio entre dos averías de las máquinas midicm.lo el tiempo transcurrido desde la úllima reriarac1ón en l;is 100 mjqui~s 4ue se han ª'eriado m:ís recientemente ¡,Qué -;esgo p<">dría hahcr en este procedimiento? 6.8 "Puede usted sugerir un mejor enfoque para reunir una mue~tr:i de loe; tiemrios transcurrid-Os para las 100 máquin:ic; del ejercicio 6.7? 6.9 Una rnanera de revisar el 1% de tod3s las transacciones que rasan por una cac;a de corrctaít te; \en ficar aquéllas cu;. o número de serie termina en OO. Si usted fuec;e un eo;tafador que trahaia en una oscur:i oficina de la compañia. (,Qué penc;arfa usted de este rroced11n1ento" 6. 1O Sugiera una forma ideal para tomar una mucstrn del 1% de las transacciones del e.1erc1cío 6.9. 6. 11 De 13 población del ejemplo 6.3 se dehe tomar una muestra aleatoria srn rcempla1.am1ento de tamaño 3 Se puede demostrar que la distrihuc1on muestra! de Y es Í''

P,(i·l

JOOO

.u:n

.10

JO

H67 20

4 (X)()

4 3J3

.20

.:!O

4 667 .10

5000 . 10

a. Trace un histograma de ésl3) de la distrihuciím muestra! del ejemplo 6.J. h. Suponiendo que n 3. encuentre Ja rirohahilídad de que Y esté a menos de 0 .50 dólares de la media pohlacional que es de 4.00 dólares. 6. 12 Calcule los \alores e~per:idos y las varianzas de las distril'iuciones muestrales del ejemrilo 6.3 y del ejercicio 6. 1 l. ¿Cómo afectan a los \alores esperados y a las varian1as las diferencias entre los tamaños de las muestras? 6. 13 Se dehe tomar una muestra aleatoria de tamai'lo S. con reemplazamiento, de una pohl:ición con Ja siguiente distnhución de prohahilidades. Valor. l'rol'iahi hdad:

4

8

12

16

.50

.30

.15

05

Se puede demostrar 4uc las distribuciones mucstralcs de j':

P;l .\'l:

y: Prlyl:

oow

4.5

50

0188

~88

85 .0718

9.0

9.5

~39

0242

40

y:

13.0

13.5

14 ll

P;(f):

0000

0000

0000

5.5 OK98

6.0 1293

15H

100 .0119

10.5 0053

14 5 0000

()()()()

150

Y scm (con 4 decimales): 7.0 1550

7.5 1359

80 104!\

0021

11..S 0008

120 Ol.X)2

0001

15.5 0000

0000

6.5

11.0

12 5

160

a. Trace histogr.imas de la distrihución rioblac1ooal y de la distrit'lucíón muestra! de b. \'erifique que la media poblacional es 7.0. c . ...ncuentre el \'alor esperado) la' arian1a de f.

Y.

238

6

MUESTREO ALEATORIO Y DISTRIBUCIONES HUESTRALES

d. Encuentre la probabilidad de que Y se mcuentre a menos de 1.5 unidades de 11 media poblacional µ. 6.14., Remítase a los histogramas trazados en el ejercicio 6. 13, inciso (a). a. ¿Cuál de ellos muestra una varianza más peque/la? (Determine esto sin hacer ningún cálculo aritmético.) b. e:. Cuál de ellos muestra una menor asimetría? 6 . 1 S Una simulación por computadora del proceso de muestreo del ejercicio 6 . 13 propor• ciona lo~ siguientes \alores: Media. Frecuencia:

40

4.5

5.0

SS

3

25

45

91

Media: Frecuencia:

8.0 1IS

8.5

9.0

9.5

JO.O

10.5

11.0

71

38

23

12

9

3

6.0 122

6.5 131!

7.0 165

7.S 137

11 .5 2

1:!.O 1

a. Trace un histograma de las frecuenc1:is de la simulación. b. Compare este histograma con las probabilidades teóric:is que se mucstr:in en el ejercicio 6. 13 .

VALORES ESPERADOS Y ERRORES ESTÁNDAR DE LAS SUMAS Y LAS MEDIAS MUESTRALES

6.3

La disuibución muestra! de un estadístico es una distribución de probabilidades. Su forma exacta depende de la distribución de la población de la que se toma la muestra. Afortunadamente, de hipótesis mínimas acerca de la población podemos derivar las propiedades básicas de las distribuciones muestrales más importantes, las relati' a.e; a las sumas y las medias muestra les. l:.n esta sección encontraremos los 'alores esperados y las varianzas para dichas distribuciones. En la siguiente, mo\traremos que la distribución normal es a menudo una buena aproximación a las formas exactas de estas distribuciones muestralcs. Lós resultados matem:i1icos que se muestran en el apéndice 4/\ del capítulo 4 se extienden de inmediato a esta situación, proporcionándonos los resultados husca dos relativos a la distribución muestra! de una suma. Suponga que tomamos u 11;1 muestra aleatoria de tamaño n de una población de tamaño ,V suficientemente gr:inde como para que n sea pequei\o en comparación con N. Denotemos con Y, la 1-ésima observación de la muestra y sea T la suma muestra! Y1 + Y~+·· · + Y,,. En tal ca\O se puede demostrar que el valor esperado y la varianza de T son como a continuación se indica.

~

Valor esperado y varianza de una suma muestra! Si Tes la suma de n valores tomados aleatoriamente de una pohlacíón con media µ y varianza entonces el valor esperado. la varianza y la desviación estándar de T son

cr,

ECT) = µ + µ + .. · + 11 = nµ Var(T) = ª2 +al + ... + o2 = naz

---

r

ar=, Var(T) =..,¡na

6 l

EJEMPLO 6.6

Solución

Val«•s ..pe~s y errores

ei~nd.,.

de la1 sumu y lu. medias muenralu

239

Suponga que en una oficina regional del programa de asistencia m¿dica para personas mayores de 65 ailos (.Wedicart!, en Estados Unidos) el promedio en el límite del número semanal de solicitudes de atención es de 62,000. y que la desviación estándar es de 7000. Si suponemos que las solicttudes semanales durante un período de 4 semanas constituye una muestra aleatoria de uimai\o 4, ¿cuál es el valor esperado y la desviación estándar de solicitudes en este penodo? Se nos di<.:e queµ::: 62.000.

u-

7000 y"= 4. Se sigue que

,._, n .., 14H62.oooi : 241<.ooo 1

t1r

= h. 4)(7000) = 14.000

Lil suposición de independencia del número de solicitudes de una ~emana a la otra es la parte más critica de la hipótesis de que el muestreo es aleatorio. Si en realidad no hay independencia, e 1 valor esperado de T sigue siendo correcto, pero, de acuerdo con el apéndice 4J\ (capitulo 4). la desviación estándar es errónea. •

e rror c'tánda r

l=.ste es el momento indicado para introducir un nue\o nombre para un concepto existente. En los siguientes capítulos \amo., a especificar muchos estadísticos mucstralcs y muchas distribuciones muestrales; como resultado, hay muchas fónnulas para las desviaciones estándar de las distribuciones muesltales de dichos estadísticos. La mayoría de las fórmulas (como la de la desviación estándar de T) comprenden a la desviación estándar de la población. lo cual dificulta distinguir entre las diferentes desviaciones estándar. De aquí en adelante, utilizamos el término rrrur c~ + · ·· + Y,.)! n = T/11, que es el total de la muestra divid1do entre el tamaño de la muestraJOel apéndice 4A se deduce que podemos encontrJr el valnr esperado y el error estándar de la media muestra! dividiendo entn.: /1 los \'atores currespondientes de la suma muestr:il T.

=

=

f

Valor esperado y error estándar de Y Si se toma una muestra aleatoria de tamaiio n de una población, el \'alor esper.ido y el error estándar de Y son nµ

E(Y)

= -11

""' I'

,...

" "(1

<1 n, = - - =-=-

n

.J"

240

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

EJEMPLO 6.7

Encuentre, en la 'iituación del ejemplo 6.6. el valor esperado y el error estánd:ir del número de '\Olicitudes semanales durante un periodo de 4 semana~ .

Soluc1on

En el ejemplo 6.6, µ =- 62.000, CJ = 7000 y n - 4. Si Y es el promedio del numero Lle solicitudes ~emanales en un periodo de 4 semanas. entonce~ E( Y)= JI ar

=-

= 6~.000

f7

1000 " 4 = 35CX}



\. /1

'E( f )- µsignifica que. en promcuio, la media muestra] estim:i la media poblacion"al corrcct.ament~En una mucMra panicular, la media puede sobrestimar a Ja media puhlacional; en otra, la media puede subestimarla. Pero, en promedio, no hay una 1el\uc111. 1J ,¡.,tcmatica Lle la media muestra( para sobrestimar o ~uhe~timar la media poblacional. Esto es cieno independientemente del tamaño de la mucma. ÍLa desviación est:índar de la distribución muestral de la media (el error estandar de la m..:dia muestra!) e~ crucial para determinar el probable margen de error en una esumaciún. l lcmo~ dicho que no ha) una tendencia sistcm:ítica para sohrestimar o :.ube:.lllnar p con f. ¡Esto en realidad no nos consolaría si :.upit!semos ~ue la mitad de las \Cccs hacemos grandes sobrestimac1ones y la otra mitad grandes subcstimaciones! l:.I error estándar de una media muestral ar• junto con la regla empírica
EJEMPLO 6.8

Suponga 4ue el gerente de un supermercado ~uicre estimar el tiempo medio para pagar la cuenta en las cajas que no son rápidas." Un asistente obtiene una muestra aleatoria de 2 5 tiempos de pago. Si datos prevms sugieren que la des\ iación estándar de la población es de 1.1 O minutos. describa la probable desviación de } de la media poblacinnal µ.hasta ahora desconocida.

Soluc1on

La regla empírica indica que aproxim:idamente el 95% lle his \ ece!'. f se encuentra a menos de uos errore.. cst:índar ( 2CJ r) de la media poblacional µ. Paran 2S,

.,

2o-

2( 1.10)

=.44 J11 = - -5

-O"r - -

El error probable de



Y no es mayor de 0.44 minuto.

La probable precisi1)n de una media muestra(. cuan
(jcneralm~nle,

en ur>a c:ijm ripida no se cer en cícctivo (N del T)

~rmilc

d p:ago de

111ás

de 10 anículos

~

¿ste

s~

llene 'lllC ha-

241

Sección 6 l E1erctetos

\

.

muestra se incrementa, Si en el ejemplo 6.8 el tamaño de la muestra hubiese sido 50 / o 1OO. en vez de 25. los errores probables ( 2<1 y) habrían sido, respectivamente, 0.31o0.22. Cuando el tamaño muestra! tiende a infinito, el error estándar de la media muestra! tiende a cero. Esto signific:i que cuando el tama1)0 de la muestra es muy grande, el error esundar de la media es muy pequeño, y la media muestra! que se basa en ella es muy próxima a la verdadera media poblacional, con una probabilidad muy grande. En la sección 2.3 definimos limites de control, sumando y restando tres desviaciones estándar del valor objetivo deseado. La desviación estándar en cuestión es la desviación esundar de la media muestra), basada en el tamaño de la muestra utilizada. Por ejemplo, con anterioridad analizamos el caso de las transmisiones automáticas en el que la presión interna buscada era de 35. La desviación estñndar de las presiones de transmisiones particulares er:l de alrededor de 1.2, y cada día se tomaba una muestra de 5 transmisiones. Así, la desviación estándar de Ja media muestra! {error estándar) debería ser, teóricamente, 1.2 dividido entre la raíz cuadrada de 5, o 0.54. En el control de la calidad hay una fuente adicional de variabilidad que no se encuentra en las muestras tomadas de poblaciones fijas. Aun cuando un proceso esté bajo control, variará a lo largo del tiempo. Por ejemplo, la \crdadera presión media de todas las transmisiones puede variar de algún modo (a lo largo del tiempo) en tomo a 35, aun cuando el proceso sea básicamente satisfactorio. Esta variación adicional con frecuencia hace que la desviación estándar real de las medias muestrales -;ea un poco mayor que el valor teórico. En el ejemplo de las transmisiones, l:i desviación estándar real de las medias era de 0.60.

SECCIÓN 6.3

EJERCICIOS 6.16 Rcmltase a la distribución muestra! del ejercicio 6.13. Demuestre que el valor esperado y la varian7a encontrados en el eJercicio 6.13 concuerdan con los result:idos

teóricos de esta sección. 6. 17 Un asegurador de automóviles ha encontrado que las solicitudes de reparacion tienen un monto promedio de 927 dólares y una desviación estándar de 871 dólares. Suponga que las siguientes SO solicitudes se consideran como una muestra aleatoria del proceso a largo plazo. a. Encuentre el valor esperado y el error estándar del total de las siguientes 50 solicitudes. b. Encuentre el valor esperado y el error estándar del promedio de las siguientes SO solicitudes. 6.18 Se puede considerar que una simulación por computador;i es un ¡lroce<;o de muestreo. Surionga que se reali1:1 un estudio relall\O al tiempo requcndo para completar una in\cstigac16n y desarrollar un pro)ecto !la} una incertidumbre considerable en los tiempos requeridos para complet:ir las di<;tintas partes del proyecto, de modo que el tiempo de realinc1ón total llene una 'anabilidad muy grande Suponga que el tiempo de reaJ11..ación tiene una media de 28.2 meses y una desviación estándar de 6.9 meses. a. S1 la simulación comprende: 1000 ensayos independientes del proyecto, encuentre el valor tsperado y el error esl.ándar de la media (de la muestra) de la simulación. b. F.ncuentre el valor esperado y el error estándar si se realizan 4000 simulaciones.

/

242

6

6.4

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

DISTRIBUCIO NES MUESTRALES PARA LAS MEDIAS Y LAS SUMAS



"

En la última sección est estándar relevantes son aquellos que se dieron en la sección precedente. Supong.i que un empaquetador de carne~ proporciona corte!> de "12 onzas" que. de hecho. tienen un peS(l medio de 12. JO ont(C) y una des\ 1ación estándar de 0.20 onzas, y que los pesos tienen una distribución normal Suponga que un paquete de 25 eones constituye una muestra aleatoria de la población de cortes (que también se puede penS \ariables que las observaciones individuales. La desviación estándar relt:vante para la media muestra! es el error estándar; ar = a I ¡;, = 0.20 I Jis = 0.040. Para encontrar la probabilidad de que la media muestra! !>Ca mayor que 12.00 on~s. utilizamos el valor : que nos es fa. miliar, asegurándonos de utili1...ar el error estándar. no la desviación estándar de la población.

rJ

I'( Y>

12.00)

12.10) 0.040) = P(: > 2.50) J9l8 = .993R (a partir de la tabla 3 del apéndice)

= P(: > (12.00 = .5000

+

EJEMPLO 6.9

Una compa1'ía maderera planea conar 400 árboles de un bosque muy grande con 50 años de antigüedad La madera que se extrae de cada árbol depende en gran medida de su diámetro. Suponga que la distribución de los diámetros en el bosque es nom1al con una medía de 44 pulgadas y una desviación estándar de 4 pulgadas. También suponga (quizá irrcalmcnte) que l
Solucton

~e supone que 13 distribución poblacional (de los diámetros de todos los árbo-

les en el bosque) cs normal. De los resultados anteriores se sigue que la distribución muestra! de f tambiC:n es normal. El v3lor esperado y el error estándar .ipropi3dos son

6.'4

D1stribuc10nes muestrales para las medias y las sumas

243

µy=µ= 44 4

(1

= Jñ = .. '400

<1y

= .20

Como e s usual, calculamos las probabilidades normales con valores z (vea la figura 6.2): P(43.5

s

y

s

44.5)

= p(43.S

- 44 S Z S 44.5.20- 44)

.20

... P(-2.50 S Z S 2.50) = 2( 4938)

Teorem a Central d C'I Límite

= .9876

El uso del teorema fundamental de la Estadistica Matemálica, tal como se indicó antes, requiere suponer que la distribución poblacional es exactamente normal. En la práctica, ninguna distribución lo es. Otro teorema, llamado Teo rema Centra l llcl Umitc, implica que la hipótesis de una población normal no es crucial.

Teorema Central del Límite para sumas y medías Para cua/qwer población (con media finitaµ y desviación estándar O'), las distribuciones muestrales de la suma muestra! y de la media muestral son aproximadamente normah!s si el tamafto n de la muestra es !>Uticientemente grande.



Éste es un teorema sumamente notable. Irulcpcndicntcmcntc d e l:t n:1t uralc(h' la distribución poblacional : disc reta o co ntin trn . simé trica o sesgada, unlmodal o nrnltimodal. las distribucionc mul'strnlcs ¡rn r a T e f son normalc'i micntra'I el tama ño d e la muestra sea suficientemente gr a nde. Esto se ilustra en la figura 6.3 para la media mues tra!. La condición de que la media poblacional y la desviación estándar sean finitas casi siempre se satisface.•

1.1•

.4938'

43.5

1 ,••. FIGURA 6.2

44

44.5

-f-.. . ~

Cálculo de ta probabilidad del ejercicio 6.9



• La única excepción que conocemos es el caso de las 11111\ada.s leyes estables, que en ocasiones ae uti·

lizan como modelos financ ieros.

244

6

MUESTREO ALEATORIO Y DISTRIBUCIONES HUESTAALES

01slnbuCt6n muestra!

de

r

µ

FIGURA 6.3

Una 1lustrac1on del Teorema Central del Límite

Una pregunta obvia es: ¿cuán grande es una muc:-.tra suticientcmcnte grande? El Teorema Central del Limite es un teorema matematico; "n suficientemente gr.rndc" se traduce en ..a medida que n tiende a infinito'', de modo que no contiene la respuesta a esta pregunta. En un gran número de estudios se ha tratado de rcspomkr a la cuestión utiliundo otros teoremas matemáticos y simul3c1ones con computadora. Mucho:- libros de texto dan una regla general: utilice la aproximación normal siempre que n exceda de 30. Esta regla es una guía básica para utilizar el ícorema Central del Limite. Una mejor regla consideraría el efecto de Ja asimetría. Si la distribución de la población es asimétrica. la d1stribuc1ón muestra! real para n 30 o para /1 =40 tambi¿n será de alguna m:mern asimétrica. tal \eZ menos que la distritiución poblacional, pero lo suficiente como p::ira hacer de la aproximación normal algo mediocre. Si la distrihución poblacional es sim¿trica, aun una distribución muestra! con 11 =- 1O o algo así es not:ihlernentc cercarui a la normal Una mejor regla se basaría en una gráfica de los datos mucstrales: siempre es buena idea traz.ar una figura de los datos. Si un histograma de los datos de la muestra exhibe una oh\ 1a a:-.imctria (y, por lo tanto, sugiere una asimetría para la distribución pot>ladonal), la aproximación normal se dcbcna utilitar con escepticismo. a menos que" sea un\ :ilor pm,imo a 100 o más. Si el histogrJma tiene una pcquci\a asimetría. se puede utilíz.-ir la aprox1111a1:ión normal con confian~. aun con unan igual a 15 o 20. •

• 1.3 c:ihdad de una aprox11nación normal también se \e hgcrlmcnlc a lcct.ida por l.1 forma de l:is colas

en 1;1 población. Aun ~1 l.1 pohlac1on es c.1~1 s1mctr1\"a, puede contener muchos m:h \alorcs extremada· meme gr.mdc) o c:\trem.1damc111e pc.:¡uc1)0~ que un.1 d1)tnb11c1on c:m normal Una población con las colas pesad.as en una muestra manifiesta la prcscl\l:Í3 de valores atipu:os. unos pocos \'alorcs individuales q~ caen muy ICJOS del resto de los datos. l:l 1ra1:1m1cnto de los valores alípkos lo analí1.arcmos en capítulos posteriores

6 -4

EJEMPLO 6. 1O

Omnb..c1~s

245

muestrales para las medial y lal sumas

Se utili1ó un programa de cómputo para extraer 1000 muestras de tamaños 4. 10. 30 y 60 de un:i población exponencial que tiene una media )' una desviación estándar iguales a l. (í·n la sección 6.6 anali7.amos cómo se pueden realizar tales !>Ímulacio-

ncs con una computadora.) L:.n la figura 6.4 se mueMran los histogramas de las medias muestralcs . A medida que se incrementa el tam:iño de la muestra. ¿cómo cambia la fom1a di.: la distribución de las medias (muestralcs) teóricas'? ¿Cómo cambia la variabilidad de las medias muestralcs'.'

So/uc16n

Para /1 = 4, la distribución de las media!> c!t claramente asimétrica hacia la derecha. aunque no tanto como la distribución exponencial en si. A medida que se irx:rcmenta el tarnar)o de la muestra, las asimetrías decrecen. Para un tamaño
0.17

0.57

0.97

1.n

1.37

2.17

2 57

2 97

(a)

FIGURA 6.4

Histogramas de las medias muestrales: (a) muestra de tamano -4; (b) muestra de tamaño 1O; (e) muestra de tamano 30: (d) muestra de tamano 60

0.27

0.55

o83

1.11

1 39

1.67

1.95

2.23

1 26

1.46

1 66

1.86

1.07

1.19

1.31

1.43

(b)

0 .46

0.66

0.86

1.06 (e)

0.59

0 .71

o83

0.95 (d)

FIGURA 6.4'

(Contmuac1ón)

247

01smbuc1ones muestra.les para las medias y las sumu

6 '4

EJEMPLO 6. 11

En el caso de los pagos en el supermercado del ejemplo 6.8, se obsen aron los siguientes tiempos reales en minutos (n - 251· 0.4. 0.4. 0 .5, 0.5, 0.5, 0.6, 0 .6. O.7. 0.8, 0 .9, 1.1. 1.2. 1.4, 1.S, 1.8. 2.0, 2.3. 2.6, V>. 3.4. 4.2. 5.0, 6 .6, 9 .2. 16.1 ( .ii 2. 70). ¿Es claro que una aproximación normal a la distribución muestra! de f (por ejemplo. para muestras futuras de tamaño /1 =25, ) seria sausfactoria?

Solucion

Los datos de la muestra sugieren que, en apariencia, la distribución poblac1onal de los tiempos dc pago es altamente asimétrica. Vea el histogram:i hecho con computadora que mm.tramo' más abajo. La mayoría de los tiempos son breves. pero hay :ilgunas personas (pocas) que realmente retrasan las cosas. Una muestra de 25 clientes no es suficiente para eliminar la aJimctrio de la distribución muc!str:il. Incluso una muestra de 50 clientes no es en realidad suficiente en esta situación. Por lo c.anto. todo parece indicar que las probabilidadc~ de la regla empírica (que se basan en la distribución normal) en el ejemplo 6 X. son inadecuadas paran - 25 y quizá para n = 50. Para n 100, las probabilidade~ deberían ser bastante cercanas. C1

0. 4 1. 4 9.2

0.4 1.2 6.6

0.5 1.5

0.5 1. 8

0.5 2.0

0.6 2.3

0.6 2.6

0.7 2.9

0.8 3. 4

0.9 4.2

1.1

5.0

16.l

MTB > describe c1

..

MT8

>

o

CO'.l\t

2

TRMEAN

1.400

2.204

STOEV 3.563

SE MEAN

o. 713

10

••••••••••

9

•••••••••

2 ••

4

2

6

a

o 1

10 12 14 16

Solución

MEDIAN

hf stogr.,. of c1

M1dpo1nt

EJE MP LO 6.1 2

KEAN 2. 696

2S

C1



o

o 1





Una empresa que vende cortes de corne congelados de 9 on/a!. a los restaurantes quiere valorar el contenido de grasa de los cortes. Sostiene que el contenido de gra· su tiene una media de 8.1 % y una desviación estándar del 1.0%. Utilice una aproxi· mación normal para encontrar la probabilidad de que el contenido medio de grasa c!n una muestra alcatoria de 25 cortes exceda de 8.5%. ¿Esperaría usted que la aproximación nonnal fuese precisa? El valor esperado y el error esti1ndar apropiados son /ly =JI= 8.1° 0

u

(Jt

t.0

= .Jn ... J25 = 0.2º ~

248

6

MUESTREO ALEATORIO Y DISTRIBUCIONES HUESTRALES

La aproximación normal nos 8.5) = P( Z > 8.5O.l = P(Z > 2.00) ~ .0228 En esta situación esperaríamos que la distribuciún normal fuese casi sim\!trica; digamos. no esperaríamos ver contenidos de grasa del 15% o más (al menos para una empresa que se mantiene en el negocio), ni un contenido de grasa de prácticament\! 0%. (Por supuesto, una gráfica de los datos reales seria muy útil para valorar nuestras suposiciones ) Si nuestras ex~ctativas '>
EJERCICIOS 6.19 Fn un cierto periódico. la longitud en pulgadas de bs columna~ de: anuncio'\ clas11ic:ados que aparecen los lunes tiene una distnbucion apro~imadamcnte normal, con una media de 327 pulgadas y una desviación estándar de 34 pulgadas. Considere las medida~ de 1O lunes consecutivos como una muestra aleatona a. Encuentre el \'alor esperado y el error estándar de la longuud total (en pulgadas) de las columnas de anuncios clasilicados para 10 lunes. b. Encuentre la probabilidad de que el tntal se: encuentre entre 31 SO y 3390 pulgadas. c. Encuentre la probabilidad de que la longitud promedio de las columnas para cada lunes se encuentre entre 314 y 339. 6.20 Remítase al ejercicio 6. 19. Encuentre un rango


~ 327

+ kl ::: .95

Suponga que una pohlación tiene la siguiente distrihuci1)n: Valor: frecuencia relativa:

~00

60

300 20

400 .12

50() 06

6()()

.02

1 a media y la des,iación estándar poblacionales son 270 y 102.470, respc:cti\amente Un calculo de las prohabilidades exactas muestra lo siguiente

,, 2 4 K lb

32

---

ªt

PCY < µ - la;)

P(Y < µ - u,)

P(Y > µ +u;)

P( Y >µ + 2u;)

72.46 51.23 36.23 25 62 18. 11

o o

o 1296

.0173 .0127

1460 . 1876 .1543

2160 1965 1594 14R6 . 1473

0336 .0521 0319 0.:!.9S 0340

o

a. 1race un histograma de la distribución poblacional. ¡,Cu:il es el rasgo mós oh\ io ' de este histograma? b. Para cada tamai\o de la muestra, c.:alculc 13 prohabilidad de que Yse encuentre a menos de dos errores ec;tándar de µ. ¡,Es buena la aproximaeicin normal para l<)S distintos \alores de n? ¡,Qué tanto? c. Rerita el cálculo del inciso (b) para Ya menoc; de un error estándar de JI.

Sección 6 4 E1erc:1oos 6.22

249

En el ejercicio 6 . 17 consideramos una compañía aseguradora de automóviles a la que requerían reparaciones que promediaban 927 dólares, con una des\ iación estándar de 871 dólares. Se toma una muestra aleatoria de 50 nuevas solicitudes. a. Describa Ja distribución muestra! de Y. b. Utilice una aproximación nonnal para calcular P( Y> 1100). 6.23 ¡,Esperaría usted que la aprnximación normal del ejercicio 6 .22 fuese una buena aproximación? c:.Qué tanto? 6.24 Remítase al ejercicio 6.22. Suponga que para las SO nuc\ac; solicitudes se observa que y 1100 dólares. ¿Qué concluye usted acerca de la.s solicitudes de reparación para este al'lo? ;,Cambiarían sus conclusiones si .v fuese igual a 1000 dólares? 6.25 La demanda promedio, bastante estable a lo largo del tiempo, de esquís en renta en un 3rea particular es de 148 pares los sábados durante el invierno. ! lay alguna variación debido a las condiciones climatológicas y a las áreas de competencia. La des· viación estándar es de 21 pares y Ja distribución de la demanda parece ser normal. a. Un establecimiento que renta esquis tiene almacenados 170 pares. ¡,Cuál es la probabilidad de que la demanda supere esta provisión en un sábado invernal? b. El gerente del establecimiento piensa cambiar la provisión de esquís para el si· guiente ano si la demanda promedio en los próximos 12 sábados de invierno (considerada como una muestra aleatoria) es superior a 155 o inferior a 135. Estos límites no son equidistantes del promedio de 148 porque los costos de una provisión abundante )' una provisión deficiente son distintus. Si la media poblacional se m:mtiene en 148, ¿cuál es la probabilidad de que el gerente cambie la provisión? 6 26 En el ejercicio 6.25, uno podría argumentar que la demanda no será normal. l:n vel Je ello, la demanda en la mayoría de los ~ábadM ser.i próxima a Ja media. pero en aquellos pocos días en que. las condiciones para e5<1uiar sean malas, la demanda cacr3 muy por debajo de la media. a. De acuerdo con este argumento, ¿cuál será la fonna (:isimelría) de la di
250

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTAALES

d. Si la desviación estándar es 0.0.:?0. ¿cual es la probabilidad de que la medi:i
6.5

USOS Y ABUSOS DEL TEOREMA CENTRAL DEL LIMITE



lNos hemos apoyado en el Teorema Central del Limite (introducido en la sección 6.4) para justificar las aproximaciones normales a las distribuciones muestralcs de las ~urnas y las medias muestrales. Este teorema matemático indica situaciones en las que es válido suponcr que una distrihudím 11oblacional es ¡¡proxunadamentc normal, y se pueden utili7.ar algunas \ariacioncs del m1,mo para demo~tmr que l:is dismbuciones muestralcs de otros estadísticos son apro,1madamentc normalc!>,,.pero la proposición tamhién se puede malinterprct.ar. En lo que sigue, vamos a indu:ar un par de usos adicion::iles dt:I Teorema Central del Límite y una intcrprc1.ación errónea que es común. l lc aquí cl'f ounciado matemático formal del Teorema Central del Límite: si >' • }'~· ... , >',, son vari::ibles aleatorias independi!nles con las mismas funciones de densidad f,~y>. entonces T:: Y1 +Y~+· .. + Y11 e Y= (Y1 + Y2 +·· + Y,.)ln tienen distrit'luciones aproximadamente normales para valores suficientemente grandes de n. Cuondo hablamos de distribuciones muestralcs, Y1, Y2, •.. , Y" representan valores individuales extraídos de una muestra de tam¡¡ño n. e interpretamos T como el total de la muestra e Y como la medía.\ llay otras interpretaciones practicas del mismo teorema matemático.

6.5

Usos y abusos del Teorema Centnl del Um1te

Una de tales situaciones se presenta cuando cada valor i111lí\ idual en una poblacíón se piensa como una suma de n terminos independientes. El ejemplo 6.9 es uno de t.:iles casos; el diámetro de un árbol individual es la suma de un número muy gr.:mde de términos independiente$, en el que cada término es el crecimiento anual de dicho árbol. No es irrazonable suponer que al'lo con ai\o los incrementos del diá: metro son independientes. con distribuciones de probabilidad aproximadamente iguales.• Por lo tanto, podemos esperar que los valores individuales de los diámc· tros de los árboles (es decir, de la población) tengan una distribución aproximada· mente normal. Esta interpretación del Teorema Central del Limite justifica por qué podemos esperar que algunas poblaciones (mas no todas) tengan una distribución aproximadamente norm:il. La aproximación normal de la distribución de probabilidad binomial que presentamos en el capítulo 5 es otra consecuencia del Teorema Central del Limite. Suponga que asignamos el valor 1 a todos los éxitos en la población y el valor O a los frac:isos. La media poblacional es el número total de valores 1 dividido entre el tamai'lo de la población; ésta es exactamente la proporción poblacional lí de éxitos. La varían.la de la población viene a ser TC ( ( - 1r ). En una mue~tra de tamaño n, la media muestra! Y es justamente la proporción ir de la muestra. De este modo.

Y-µ

n-1t

z - - -- = -;::===JTC(I - l'C) , -

<1

Jn

Jn

tiene un:i distribución aproximadamente normal si n es suficientemente grande. Es más, la suma de la mue~tra es Y, el número de éxitos.

Y - nn

Z=-======, ' mr( l - l'C)

es un estadístico equivalente, aproximadamente normal. Otra consecuencia importante del Teorema Central del Límite es que la regla empírica tiene un campo de aplicación muy extenso, particularmente la porción del 95% de la regla. Como para la mayoría de l:is muestra~ (aquéllas de tamaño ra10nable) la distribución muestra! de t' es casi normal con una única moda y no mucha asimetría, el intervalo µ :t 2c r debería contener aproximadamente el 95% de los valores posibles de f. Esto implica que el máximo error probable para estimar µ con fes 2.a > . l la} un factor de compensación que actúa a nuestro favor. /\un cuando la protlabilidad 0.05 rcsl.:lntc no se encuentre distribuida uniformemente en las dos colas. la .. urna de las probabilidades de estas colas es aproximadamente igual a 0.05, lo que hoce que la regla empírica funcione. Así, la reglo empírica» túa bien aun cuando la distribución muestra! de Ysea un poco asimétrica y la protlabilidad de una cola sea muy próxima a cero. La probabilidad de la otra cola ~eri aproximadamente igual a O.OS . Algunas versiones del Teorema Central del Límite también se aplican a ouos estadísticos de la muestra adem:ís de las sumas y las medías. Hay muchos tcoremu • Ouas n:rs1ones m.U irn:igmati~as del Teorema Central del l.lmitc son ~:\lidas :iun cuando estas hip6tcs1s no se satisfag.:in con ~xaetilUd,.

252

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

de la estadística matemática que concluyen que tal y tal estadístico tiene una distribución asiroximadamente normal cuando n es suficientemente grande. Las proporciones muestrales, las medianas, las varianzas y muchos otro!> estadísticos muestrales tienen distribuciones aproximadamente nonnales para muestras muy grandes. Una vez que se han encontrado los valores esperados )' los errores estándar para estos estadísticos, se pueden calcular probabilidades aproximadamente normales. No obstante, la distribución norm:il no siempre se puede aplicar. El Teorema Central del Limite se ha malinterpretado para sugerir que toda distribución población, datos observados, o lo que sea, debe ser normal. En particular. algunos estudiantes creen que c:ualq111er población grande debe tener una d1stribuc1ón normal. Los Teoremas Centrales del Límite por Jo general se refieren a '>Urnas o promedios de muchos términos, pero a menos que estén implicado<; una suma o promedio. el gran tamaño no significa normalidad por sí mismo. Por ejemplo. todos los individuos que viven en Estados Unidos constitu~en una enorme población. pero la distribución de la riqueza entre estos individuos es extremadamente asimétrica /\ pesar de la asimetría en la distribución de la riqueza entre estos individuos. el Teorema Central del Límite garantiza que J.-1 distribución del ingreso medio de la muestra ( f) es aproximadamente normal para valort!s suficientemente grandes de 11. Cuando tratamos con datos indi,·iduales, los diagramas son la mejor manera de examinar la normalidad. La normalidad de las distribuciones mucstrales teóricas se puede prohar con m¿todos de simulación, que consideraremos en la siguiente sección.

6.6

pru,·ctl imien to para \ imular \Ilion•.,

SIMULACI O NES POR COMPUTADORA



! lasta aquí, nuestra atención se ha centrado m:ccsari::imentc en cuestiones teóricas. El concepto c.le distrihución muestra! es inevitablemente teórico. Una distrihución muestral se entiende mejor como la distribución de un e<;t;ic.lhtico que se obtiene al tomar muchas muestras bajo condiciones dadas. En la práctica. es poco probable que uno tome muchas muc!>tras. Lo que si podemos hacer es utilizar una compuUldora para tomar muchas muestras de una población dctcmunada. c:ilcular un estadístico especifico para cada una de ellas. y calcular la distribución de los resultados. En esta sección analizamos la aplicación de tales métodos a la~ distrihuc1ones mucstrales. El procedimiento para simular' alorr\ '>C b::isa en la función de distribución F,.(y). Comen1.imos con una variable aleatoria que tiene una d1stnbución uniforme {con la misma probabtlid:id para todos Jos \alores). Se conocen muchos métodos para obtener variables que en ap;mencia cst
F,
.37

.n

10

11

r2

79

""5

1 ()()

.e

!

06

S1mulKt0n~s

66

253

por compuu.dora

Suponga también que hay una variable aleatoria U de 2 decimales, uniforml!mcntc distribuida, con probabilidades P t.(u) =O.O 1, para 11 =O.O 1, 0.02, ... , 1.00. Ahora proceda como sigue: si .01 $ U$ .37, si .38 $ U$ .79, si .80 $ U$ .94, si .95 $ U$ 1.00,

asigne r = 9 a.signe r = 1o a.signe Y= 11 asigne Y= 12

Así, al v;ilor simulado 11=0.59, que se encuentra entre 0.38 y 0.79, SI! le asigna el v;ilor y: 1O(v¿ase la figura 6.5 ). Los demás valores simulados son valores y asignados de l;i misma manera. Los valores de corte para U, a saber 0.37, 0.79, 0.9~ y 1.00, se tomaron de los valores de P,.(r) que se muestran en la figura 6.5. Si bien este proceso da valores aleatorios Y. aún tenemos que dl!mostr;ir que estos valores tienen las probabilidades correctas.

= .01) + · · · + l'(U = .37)

I'(}"

= 9) =

P(l"

= .01 + ... + .01 = 37(.01) = .37 = 10) = P(.38 $ c.:$ .79) = P(t: = .38) + ··· + = .01 + ... + .01 = 42(.01) = . 4~

P( .01 $ U $ J7) = P(U

l'(l'

= .79)

Est.is probabilidades concuerdan con las
1.00 1

1

.75 -

.so -

------------------·

.25 1

1

9

FIGURA 6.S

1

1

10

11

S1mulac1ón de valores para una variable aleatoria con fd, Fy(y)

1 12

y

254

6

EJEMPLO 6. 13

Solución

MUESTREO ALEAT~O y DISTRIBUCIONES MUESTRAles

Simule seis valores de Y en el caso del cuidado de enfermos coronarios que se ilus· traen la sección 4.2. Suponga que un generador de núml.'r
o

r: f,c 1).

2

)

.001

.OOJ

006

.011

4 0:?4

y: f',I rl:

9 510

10

672

11 .782

12 870

925

1)

5 061

b IJ9

7 :?.?4

. J~6

14 964

s

9KK

16 W7

17 1 (XIO

1

u= .579 se encuentra entre .51 O y .672; :isigne y= 11 = .286 se encuentra entre .224 y .336; asigne y u= .413 se encuentra entre .336 y .51 O; asigne l u -= . I 07 se encuentra entre .061 y .139; asigne y 11 ::: .962 se encuentra entre .925 y .964; asigne l' u"' .494 se encuentra entre .336 y .51 O; asigne ,.

K

1O 8 9 6 14

9

.Si este proceso se hubiese llevado a cabo sobre un número muy grande de ensayos (números aleatorios uniformes), 0.672 - 0.51 O 0.162 de las asignaciones Y ha· • brían sido y= 1O, de acuerdo con las supuestas probabilidades Y. método de \lon tcc:.a rlo

La simulación, o método de Montecarlo (ignoramos por qué dicho casino recibe este honor) es un truco sumamente útil y muy empleado Con esla técnica. es mu)

fácil simular casi cualquier situación aleatoria una vct. que se han hecho las hipé>teo;1s apropiadas. Modificando las hipótesis. uno puede hacer prucb:is de sen<;ibihdad (c.¡ue .1-.p.:cto\ "ºn crucialc'>, cuales no lo wn tanto). Ha~ mucha-. otras aphcacione-. de esta tclnica Podemos uulitar la computadora para calcul.ir el \.alor promedio de un e.-.tadistico, calculado sobre. digamos, 1000 muestras. Este promedio es una buena aproximación a su valor esperado, que es el valor promedio teórico sobre un número infinito de muestras. O podemos utilizar la computadom para calcular la desviación estándar de un estadístico para 1000 muestras (o cualquier otro número). Esta desviación c'>tandar es uno buena aproximación al error estándar del estadlstico; recuerde que el error estándar de un estadístico es su desviación estándar teórica sobre una in· linidad de muestras. Para verificar la forma de Ja distribución teórica de un cstadisti· co, podemos calcular su asimetría o la propensión a los valores atípicos, o trazar histogramas. La simulación con computadora es una forma extremadamente nexiblc de poner a prueba la validez de cualesquiera resultados teóricos. Suponga que una computadora toma 1000 mui::.t~ aleatorias simples, cada una de tamaño 25, de una población que tiene una distribución normal con media 100 y desviación estandar 15. y calcula la media para cada muestra. Además, suponga que después de calcular todas las medias mucstrales, l:l computadora encuentra que la media muestra! promedio es de 99.921. que las desviaciones estándar de las medias muestralcs son 3.014 y que la mediana de las medias muestralcs es 100.003. Teóricamente. el promedio en el limite debería ser el valor esperado de la media muestra!. a saber, la media poblacional. El promedio simulado, 99.921, es muy próximo al valor teórico, 1OO. También la desviación estándar simulada de las

66

255

S1mulwonft por computadora

medias mucslrales, 3.014, es muy próxima al error estándar teórico de la media muestra), 15.0/ ,/25 = J.000. Por último. la distribución (muestra!) teórica debería tener una forma normal; en panicular, la asimetría debería ser cero. L:a simulac1ón .. mediana de las medias", l 00.003. es muy cercana a la simulación "media de las mt!dias", 99. 921, sugiriendo que Ja distribución de las mediai. es casi simétrica. Se podrí:i construir un histograma de las medias para comprobar la simetría.

EJEMPLO 6.14

Un programa de computador:i calcula las medianas de 1000 muestr:is de t:ima"o 25. tomadas de una población normal que tiene media 100 y desviación estándar 15. l.a nedi:ina promedio es 100.081, Ja desviación estándar de las medianas es 3. 763 y un diagrama
Soluc1on

1~1 promedio de la simulación deheria aproximar el valor esperado de la mediana muestra l. Por simetría, el valor esperado deberla ser el mismo que la media poblacional,

MTB> PLOT 'DATA' VS 'NSCOltES' DATA 75 . •

• 65.•

•••







••2• 2 2•

55.•

232 32 22 322*

• 45 . +

•••

15.•



25.+





•••

• •

••



•-----····•--·······•·--······+·········•·········••ICCl!S

·2 .5

·1.5

·0.5

0. 5

1.5

2.5

<•I FIGURA 6.6

Diagramas normales para (a) datos con una d1smbuc1on normal; (b) datos con asimetría hacia la derecha y (e) datos propensos a valores atípicos

2S6

6

MUESTREO ALEATORIO Y OISTRtBUCIONES MUESTAALES

1OO. La des\ iac1ón estándar de la simulación debería aproximar al error esr.jndar de la mediana muestr:il; teóricamente, el error estándar debería ser 3 .760. El histogtama sugiere que la distribución muestra! de la mediana muestra! también es normal. 31 menos cuando se le tomó de esw población. Como se mencionó en la sección 6.5. para muestras muy grandes. la distribución muestra! teórica de una mediana también es normal. Aparentemente, cuando se loman muestras de una distribución nonnal, un tamailo de 25 para las muestras es suficiente par:i considerarla una "muestra grande". • En esle libro presentamos los resultados de muchas simulaciones Estamos interesados no sólo en la corrección del valor esperado y en las fórmul3S para el error estándar. sino también. especialmente, en Ja corrección de resultados teóricos acerca de la forma de la distribución muestra!. Si, teóricamente, un3 distribución mucstr:il de cierto estadístico debe ser normal, pero los resultados de la simulación indican que la distribución real es claramente nn normal, ello indica que las inferencias estadísticas que se hasan en dicho estadístico podrían ser muy crrúncas.

MTB> PLOT 'DATA' VS 1 NSCO.ES 1 DATA 7.5•

• 6.0•

4 . 5•





3.0•



••• •• z

••

1.5•

··· ~z·2223

O.O•



• ••

• ··· ·· ·· ··•······ ···•· ··-··· · ·+····· ····•·········•llCOllEI -2. 5

·1.5

-0.5 (b)

FIGURA 6.6

(Contmuoción)

0.5

'·'

2.5

6 .6 dia ~ rama d e probabilidad nonmll

257

S1mulK1ones por (omputadora

Un dia2ra m a de probabilid ad norma l es una excelente maner3 de establecer si los datos (o las medias en una simulación por computadora) tienen una distribución aproximadamente normal. Este diagrama tiene como base los ' :1lorc~ normales. es decir. los valores pronosticados de los datos suponiendo una distribución normal. La idea es que los datos tenderán a dispersarse uniformemente a lo largo de los pcrcentiles. Si hay tres observaciones en una muestra, esperamos que el menor valor se encuentre en tomo al 25 percentil; el de en medio. cerca del 50 pcrcentil, y el mayor. cerca del 75 percentil. Si suponemos una distribución normal y utilizamos la tabla 3 del apéndice, encontramos que esos percentiles (en la forma de un valor =>son z =--0.67, z = 0.00 y z:::: 0.67, respectivamente. Análogamente. con 9 observaciones. esperamos que éstas se encuentren en tomo a los percentiles décim'l, vigésimo•.. , nonagésimo. Suponiendo nonnaltdad, estos percentiles !>on z =- 1.28, z =-0.84,... z - 1.28, respectivamente. Para cualquier tamaño de la muestra. el lor normal del 1-ésimo valor más pequeño se define como el 1 (n + 1) percentil de una distribución normal. Todo programa de computadora que realiza un diagrama de probabilidad normal, calcula los valores normales automáticamente. lln diagrama normal es un diagrama que compara los datos reales (o medias simuladas) con los valores normales. Los datos que tienen (en esencia) una distribución normal dan lugar (esencialmente} a una línea recta en el diagrama normal. Se

"ª-

MTI> Pl OT ' DATA' VS ' NSCORES' DATA 6 .0•



3.0•



••

•• •



••2••

22nze

ZJ2Z3ll

O.O+

-3. 0•

-6 .0•





• •••

•zezz • •



-9. 0•

•······ ··-•·········•·· · ······•·········•········· .. ICOlll 1.5 0.5 z.s •0.5 ·1.5 (C)

FIGURA 6.6

(Contmuoc16n)

258

6

MUESTREO Al..EATORIO Y DISTRIBUCIONES MUESTRAL.ES

observa q04;: los daros asimétricos tienen (en eSt:ncia) un diagrama con fonna di: una curva única. Los datos simétricos con valores atípicos tienen un diagr;irna con forma de~. Al mirar un diagrama normal generado por una computadora, bu,4uc d patrón básico gencr31 en ve1.
EJEMPLO 6. 15

En la figura 6.7 mostramos un diagrama normal de 1000 medias, cada una h:isaJa en una muestra de tamaño 1O tomada de una población exponencial (véase.: la sección 6.7) ¿Indica el diagrama normal que en esta situación la distribución muestra! de las medias es aproximadamente normal?

valores

... . ,,,.

,

..

···'

valores normales

FIGURA 6.7 - ---

Diagrama normal de las medias del ejemplo 6. 1S

66

Solución

259

Slmulacoones p<>f" compuadora

No. Hay una curva muy clara en el diagrama, que indica que la distnbución muestra) de las medias mucstrales es claramente asimétrica en esta situación. • Las simulaciones por computadora son un complemento muy útil a las derivaciones matemáticas de las distribuciones muestrales, no un sustituto de ellas. Una simulación por compuwdora comprende necesariamente hipótesis muy específicas acerca del estadístico y la población subyacente, mientras que un tcoremJ matemático por lo común se aplica de manera mucho más general. Pero en su cnhdad de complemento, y de ilustración de resulmdos matemáticos. las simulaciones por compur.adora pueden ser extremadamente valiosas.

EJEMPLO 6. 16

En la figura 6.8 se muestran diagramas normales de 1000 medias, b;isadas en muc!.tras de tamaño 30 y 60 de la distribución exponencial. ¿Cuál es el efecto de incrcment.ar el tamaño de la muestra'?

valores

/



/

/

valores normales (a)

FIGURA 6.8

Diagrama normal de las medias del e1emplo 6.1 6: (a) tamano de la muestra, 30, (b) tamano de la muestra, 60

260

6

MUESTREO ALEATORIO Y OISTRJBUCIONES HUESTAALES

valores

....

. ...

-.. valores normales (b)

FIGURA6.8

Solución

(Concmuooón)

A medida que el tama"o de la muestra se incrementa. el diagrama normal se aproxima a una línea recta, lo que indica que la distribución (muestr.il) teórica de la media muestra! se aproxima a la distribución normal a medida que el tamaño muestra! aumenta. Esto es precisamente lo que establece el Teorema Central del Límite. •

SECCIÓN 6.6 _§_ERCICIOS 6.31

- - -- - - - - - - - -

Se han encontrado las medias mucstrales de 1000 muestras de tamar"\o 4 tomadas <.le un.i población con distribución norm:il. con media 50 y desviación cst:índ:i.r 10. El promedio de esus medias es 50.1643 y la dcsnlc1ón estándar es 5.0104 a . ¿Qué cantidades teóricas se est.ln aproximando con el promedio de las medias y la desviación c~tándar de las medía~'l b. ;,Cu.iles son los valores teóricos de estas cantidades'? ¿Se aproximan los resultados simulados a estos valores teóricos (correspondientes a una infinidad de muestras)'!

Seccion 6 6

E1erc1acn

=--.

-().82

--0.54

--0.26

0.02

030

0.58

0.86

1.14

(a)

valores

./

valores l'lOl'males (b)

FIGURA 6.9

Histograma (a) y diagrama normal (b) de las medianas de una población de laplace; ejerc1c10 6.33

262

6

MUESTREO ALEATORIO Y DJSTRIBUCIONES HUESTRALES

6.3::? Se han calculado las medianas de 1000 muestras de t:una"o 30 tomadas de una población de Laplace (un:i poblaciún simétrica, con una ligera 1endenc1a hacia los va" lores atípicos). El promedio de las medianas es 0.0082 y la desviación estándar es 0.2070. ¿Qué indican estos resuhados acerca de la distribución (muestra() teórica de la mcdian:i'? 6.33 En la figura 6 9 se mueslr.m un histograma y un diagrama normal de las medianas calculadas en el ejercicio 6.32. " Indican éstos que la distribución tcúrica de la medi:ina es aproxim:id:imcnte normal en este caso'? 6.34 Se calculan las medias muestra les (de 1000 muestras cada una) de mu~-stras
T:imaño de la mue~tra IO

30

Media

Des,·iaciún estándar

30076 29986

.3563 2006

a. Calcule la media pobl:icional y la desviacr6n cst3mfar. b. ¿Cuáles son los valores esperados y los errores ec;tándar de 13., medias rnuestr:iles para cada tamal'lo muestra!? c. ¿Qué bn próximos SOC'l los resullados a los valon:s teóricos calculados l"ll el in<:1so (b)? 6.35 Se han calculado las medias muestrales de 1000 muestras de tamar'\o 10 tomadas de una población de Lapface. La media poblacional es cero> la v:irian1.a poblacional es 2.00. El \'alor promedio de las medias es O.OIOO y la desviación cst5ndar es 0.43M. a. Calcule el valor teórico esperado y el error estándar de la mctlia muestra!. b. ¿Qué tan próximos son estos resultados a los valores teóricos? 6.36 En la figura 6.1 O se muestra un histograma de las mcdi;is de los d:itos del ejercicio 6.35. La pobl:ición de Laplace es simttrica aunque ligeramente propensa a los valore$ atípicos. ¿Queda de manifiesto que la distribución teórica de las medias es casi normal?

-1.27

FIGURA6.IO

-0.87

-0.47

-0.07

0.33

0.73

1.13

1.53

Histograma de fas mechas de una poblaci6n de laplace; ejercrc1os 6.35-6.36

263

Resumen

Resumen En el capitulo 6 se analizan las distribuciones muestrales, base teórica de la inferencia estadística clásica. La idea primordial es que cualquier estadístico que resume los datos (estadístico sumario) de una muestra es aleatorio y variará de una muestra a otra. La aleatoriedad puede provenir del muestreo aleatorio, que se realiza para evitar sesgos (distorsiones sistemáticas) de la muestra, o de la aleatoriedad del proceso a lo largo del tiempo. La distribución mt1estral de cualquier estadístico describe su probable variación de una muestra a otra, la cual se puede derivar utilizando ya sea la teoría de la probabilidad o simulaciones por computadora de muestras repetidas. Las características sobresalientes de Ja distribución mucsLral de un estadístico son su valor esperado (promedio en el límite sobre muchas muestras) y su error estándar (desviación estándar sobre muchas muestras). Estos valores variarán dependiendo del estadístico y del tipo de muestreo considerado. Ya presentamos algunos resultados para la media muestra[ y la suma de la muestra; más adelante encontraremos muchos otros resultados acerca del valor esperado y el error estándar. Un resultado matemático muy importante que se aplica específicamente a las sumas y las medias es el Teorema Central del LímilC, que establece que virtualmen· 1e cualquier suma o media de un número muy grande de ténninos tendrá aproximadamente una distribución normal. La guía para saber cuántos términos tienen que considerarse depende de la asimetría Je Ja distribución subyacente (y en menor medida de Ja propensión a los valores atípicos y de la propia discrecionalidad). Un diagrama normal es un dispositivo muy útil; la nonnalidad de los datos aparece en un diagrama normal como una linea recta, Ja asimetría como una curva y la propensión a los valores atípicos con una forma de S. Tal como se estableció, el Teorema Central del Límite se aplica sólo a sumas o medias, no a cualquier fenómeno aleatorio "muy grande"; su aplicación requiere de cierta dosis de reflexión.

l.\~ Y FÓAHULAS PRINCIPALES: fNMllV90 •a.-ono y D t l:udonm mumtralm 1. Estadístico: un valor sumario calculado con una muestra aleatoria 2. Sesgo de selección: cualquier tendencia sistemática para sobrestimar o subestimar a una parte de la población cuando se toma una muestra 3. Distribución muestra! de un estadístico: la distribución de probabilidades teórica de un estadístico 4. Error estándar de un estadístico: la desviación estándar teórica de la distribución muestra) de un estadístico 5. Valor esperado y error estándar de una suma muestral T:

6. Valor esperado y error estándar de una medía muestra)

Y:

264

6

MUESTREO ALEATORIO Y DISTRIBUCIONES HUESTRALES

<1

"

<1y= -

J;

7. Teorema Central c.lcl Límite para sum;L, y medias: para cualquier pohlación. las distrihuc1oncs muestralés de Te Y son :irroximadamcnte normales, sin es sulicientemcnt~ gr:inde.

CAPÍTULO 6

EJERCICIOS 6.37

6 .38

6.39

Ci.40

6 41

Al demostr:ir eo sus semin3rios el papel de: la 'ariahi lidad en el control cstadl~tico de 13 colidod, el invcstig3dor W. Ed\\ard~ lkming hace que los participantec; introdutcan una p:ilcta de madera con 50 hoyos en un recipiente que contiene un 20°'0 de holas rojas ~ un 80% de hol:is hl<mcas perfectamente: metcladas. a. ¿Cuál piensa usted que seria el número esperado de bolas rojas en la "muestra de la paleta" de 50 h-Olas? b. Al responder al incisn (3) usted hito una hipótesis. ¿Cuál fue y cómo es quepodría ser errónt:a'> En miles de repeticiones del experimento con las bolas del ejercicio 6.37. Ocming reporta que el numero promedio de bolac; rojac; es aproximadomentc igual a 9.4. ¿Que indico e ste hecho acerca de la hipótesis que u~ted hito al responder el ejercicio 6.37? Una aplicación importante de la idea de muec;trco al control de la calidad es la inspección Je partes o componentes suministrados por los proveedores. Para el montaje de una pucrt:i de automóvil, los proveedores deben suministrar los cristales para las ventanas, los mec3nismos para subir y hajar los cristales. las m:inijas par3 las puertas, los mecanismos de cerradur:i y los adomos mteriores. Todos estos componentes se pueden probar para ver si cumplen con las especificaciones de a,iustc ~ durahihdad. Fn particul3r, suponga que un fahncante de automóviles especifica que las cerraduras de l3S puertas dehcrán funcionar con SU3\ id ad al ser accionadas S0,000 \eces. a. ¿Por qué es ahsolutamente necesario utilií'..ar un muestreo al probar las ccrradur:Lc;? b. l:n m~todo de muestreo posihle sería probar las primeras 5 cerraduras de cada emharquc de 1000. ¿Por qué seri3 poco recomendable este método? Una forma de espcci ficar un muestreo para la inspección de las partes de l:is puena'i de los uutom6viles del ejercicio 6.39. es pedir que se tome un:i muc<;tra ale.itona del os·~ de c:ida emharque de cada comrionentc y se pruehe. l.os tnmaños de los cmbar· ques vori:in desde 1000 manijas para las puertas (enviados por un proveedor de ca lidad desconocida) hasta S0,000 adornos mteriore<; (de un \'iejo proveedor de calidad reconocida). ¿Seria la regla del 0.5% un criterio de inspección razon3hle'? Suponga que se toma una muestra alcatona de 20 mecanismos eléctricos para abrir y cerrar las ventanas de cada lote de SOOO suministrados al fabricante de automóviles del ejercicio 6. 39. C3da mecanismo de la muestra se prueba sometiéndolo a un ciclo continuo de ascensos y descensos hasta que falla. Suponga que, de todo el lote. el tiempo medio hasta fallar (bajo estas condiciones de funcionamiento) es de 4200 ciclos y que 13 desviación estándar es 3400. Para cada muestra se registra el tiempo medio hasta follar a. ;.Cuál es el valor esperado de la media muestra!?

265

E1erc1c1os

b. ¿Cuál es la desviación estándar de la media muestra!? ¿Qu<: tanto intluiría si la muestra de 20 mecanismos se huhiese tomado de un lote de 10.000 en ve1 de un lote de 5000 mecanismos? c. ¿Seria razonable suponer que la distribución de los tiempos de falla individuales es aproximadamente: normal? ¿Se podria aplicar la regla empirica? d . ¿Seria razonahle suponer que la distribución de la media muestra! es aproximada· mente nonnal? ó.42 Suponga que el método de prueha del ejercicio 6.4 l se modifica para inspeccionar 40 mecanismos por lote en vez de 20. ¿Duplicaría esta modificación la precisión de la estimación del tiempo medio de falla? 6.43 Los sectores dallados de un disco flexihlc para mícrocomputadora no se pueden uli· lizar para almacenar datos. Suponga que en una gran cantidad de di~cos ílexihles almacenado~ el volumen medio de sectores dar'lados es de 2.13 ~ (kilohytes) por disco.) que la desviación est~rndar es 0.83 K. Un minori~ta hace paquetes de 100 discos ílcxihles tomados de estas existencias. a. ¿Cuál es el \Olumen e~perado del total de sectores dar'lados en cada paquete? ti. ¿Cu:íl es la desviación e~lándar dd total de sectores dar'lados en un paquete'! 6.44 ¿Qué supuso usted en el ejercicio 6.43 acerca del proceso Je empaquetado que hace el minorista? Si la supo:.kión es errónea. ¿qué parte de su respuesta se 'cria afoctada'? 6.45 Un comprador de discos tlcxihles reune muchos paquetes de 100 discos, encuentra laboriosamente el volumen total de sectores dañados en cada paquete ~ tra1:1 un histograma de los datos. ¡,Cómo espera usted que sea Ja forma del hi~tograma? ¿Por qué'? <>.46 lJn editorialista afirma que los directores de la.~ 1000 cmprc~as m:ís importantes de acuerdo con la re\'ista For/11ne pagaron en promedio sólo un 19. I % de su ingreso hruto como impuesto federal sobre la renta el año pasado. Con hase en el cJitorial publicado, se puede inferir que la dcs\'iación estándar pregonada es <>.8º o. Suponga que a usted, como funcionario de la administración fiscal norteamericana, se Je or· dena que tome una muestra de 200 cjecutivM para verificar estos datos. a. Los nomhres de todos los directores de estas empresas están a disposición del pútilico. ¿Cómo puede utili1ar usted esa lista para seleccionar una 1nue~tra alcato· ria? ¿Qué problemas podria usted encontrar? b. l:n \ inud de que" 200 es una muc~1ra mu:, grande, ¿puede usted suponer que la distribución del porcentaje del ingreso hruto que se paga como impuc!>to sobre la renta en la muestra es aproximadamente normal? Explíquese. 6.47 En el ejercicio 5.71 supu:;imos que la dernanda ~emana) de sacos de 5 0111.as de harina en un supermercado tiene una distrihuci<'>n normal, con una medía de 72 sacos y una desviación estándar de 1.6 saco~. a. ¿Piensa usted que una distrihución normal podria ser un modelo ra1onal'lle? b. ¿Cómo podria usted tomar una muestra aleatoria r:uonahle de tamaño 15 de esta pohlación? 6.~8 Suponga que en el ejercicio 6.47 se ha tornado una muestra aleatoria de tama1'0 15. a. ¿Cual es el valor de P( Y> 73 .0)? h. Encuentre un íotervalo al 95% para es decir. encuentre un valor le tal que 1'(72.0 - /e ~ f ~ n.o + k) = o.9s. <1.49 Una tienda de departamentos ("gran almacen") espera que el promedio de "merma en el inventario" (un eufemismo para registr;tr las cosas hurtadas por los empleados y los clientes) sea de 2.2%. Se supone que la des\ iación C$tándar es 1.6º o de una categoría de artículos a la otra. La tienda tiene 25 71 categorías de artículos, de las cuales se debe seleccionar una muestra de 100 categorías para vcrilicar con Jetallc el ioventario.

Y;

266

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

a. ¿Cómo seleccionaría usted dicha mue'>tra aleatoria'.' b. ;,Es deseable en este caso una mues1ra aleatoria ~imple? Dando por hecho que us~ ted no sabe nada acerca de métodos de muestreo más refinados. ;,puede usted pensar en otras consideraciones para este mue~trco':' (>.50 Supooi;:i que en el ejercicio 6.49 se selecciona uoa muestra aleatoria de 100 categorías. a. t:ncuentre el V( Y> ~.-1%). 6.51 ¡,Espera usted que Ja aproximación normal en el ejercicio 650 sea una buena aproximación? ¿Qué tanto'? ;,Cómo se podrian utilizar los datos muestrnles para tener una indicación de cu:ínto podemos fiamos de es:i aproximación? 6 5~ Suponga que una población lienc la siguiente distribución : Valores: Frecuencia relativa:

6.5J

Error estándar

'.!

l.l 'X) 1() 5-1 7.-15

6 .5-1

HO

~O

100

110

10

. :!O

J6

.:!O

1~() 10

1\)O .O:!

a . Veriíique que la media poblacional es 100 y la desviación estándar de la pobla· cióo es 21.07. b. Trace uo histograma de esta distribución. ;,Cuál es el rasgo más oh\ ío? Remítase al ejercicio 6.S2. La distrihución muestra! exacta de la media muestra! (para muestras de tamn"o 2, -1 y 8) tiene las siguientes propiedades:

ramailo de lu muc~lra -1 K

1o

.o:?

I'~ f· < µ - 2or)

/)( 5' < µ

- "• 1

- -

O.,KK

llXHX

04Xl<

01<99 1456

.O:iJ3

-

¡>4

r > JI +

oxxx OX99 l.l56

"i 1

l't Y >

- -¡i +- 2n; -1 .mxx 04XX .033.'

a . Para cada tamafto muestra!, calcule la prohahilidad exacta de que Yse encuentre a menos de un error estandar de µ. h. ¡,Es bueoa la aproximación normal para cada n" ¿Qué tanto? c. Repita los incisos (a) y (b) para valores de Y4l menos de dos errores estándar deµ. Los archivos de personal de la oficina principal de una compailia de seguros contienen datos sobre el número de dias de permiso (por enfermedad o por r;i;roncs pcrson:iles) que ha tomado cada uno de los 533 empleados a lo largo del año. Los números están almacenado~ en la columna 1 del conjunto Je Jatos 'CI l
Estudio de aso: Muestreo y d1stribuc1ones muestrales

267

d. Ohteoga un histograma o un diagrama de tallo y hojas de las 2S medias de la muestra. ¿Tiene este diagrama la misma forma que la distribución de la población? ¿Cómo se explica la diferencia? 6.55 llaga que la computadorl calcule la desviación estándar de las medias muestrales obtenidas en el ejercicio 6.54. ¿Qué cantid.kl teónca se está aproximando con esu des· \ iación estándar'? ¿Se aproxima el valor numérico que usted obtuvo al valor teorico? 6.56 Muchos programas de computadora seleccionan números aleatonos que están distribuidos uniformemente entre O y l . a. llaga que el programa tome 100 muestras. cada una de tamailo 12. Obtenga las medías de las 100 muesuas. Haga que el programa trnce un histograma de estas medias. (Nosotros habremos de repetir este proceso en un ejercicio del capitulo 7, de modo que usted puede conservar los valores de las medias o recordar el méto· do que utilizó r>ara obtenerlas.) b. ¿Debería tener el histograma de las medias una distribución aproximadamente uniforme entre Oy 1'?Explique la razón desde un punto de vista teórico. ¿Corres· pondc ar>roximadamente el histograma que usted obtuvo al resultado teórico? c. La varian1a de una distribución uniforme (entre Oy l)es 1/12 0.833333. ¿Cuál es la desviación estándar teórica de las medias que se ob1uv1cron en el inciso (a)? Haga que el programa calcule esta desviación estandar. ¿Cuán próxima es esta al valor teórico? d. ¿Cuál es la media (valor esperado) de una distribución ooiforme enlre Oy 1? ¿Cómo se compara el promedio de las 100 medias muestrales con este valor teórico'!

ESTUDIO DE CASO:

Muestreo y distribuciones muestrales

Usted trabaja en una compai'lía telefónica que presta servicios de larga distancia y que expide tarjetas de cargo a todo aquel que las solicite. La mayoría de los clientes son agentes de ventas y ejecutivos de empresas pequei'las y medianas. En tales empresas, el pago de las cuentas telefónicas no tiene una prioridad muy alta, de modo que su compai'lía tiene dificultades de pago con el 8% de sus tarjetas de cargo. Por con'>iguiente, la compai'lia está considerando establecer un sistema de calificaciones para el merecimiento de créditos (disponible en una empresa consultora) para decidir si expide o no tarjetas de cargo a los empleados de una determinada empresa. Para optar por el uso de este sistema en el futuro, Ja compai'lía planea tomar una muestra de Jos actuales usuarios de su tarjeta de cargo y estimar la calificación promedio según el sistema. Algunas de las variables del método de registro no están en la computadora de la compai'lía, de modo que para cada empresa de la muestra se necesita que un empleado dedique cerca de una hora de su tiempo a encontrar y dar entrada a la información. La compañía no puede decidir cómo tomar la muestra: algunas personas quieren hacer un muestreo de los usuarios de las tarjetas en fom1a individual, otros quieren tomar una muestra. de las empresas responsables del pago de las cuentas telefónicas. Algunas personas quieren tomar una muestra de alrededor de 200 cuentas; otros dicen que tal muestra sería muy pequei'la comparada con las (aproximadamente) 80,000 cuentas actuales de la compai\ía. Nadie parece haber pensado con detenimiento cómo tomar la muestra. aunque el grupo encargado de los sistemas de infonllación tiene a la mano una lista actualizada de todas las cuentas, que podría clasificarse virtualmente en la forma que se quisiera. Los especialistas no quieren decir cuál debería ser el promedio, aunque han

268

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTIW.ES

dicho que. en otras aplicaciones del sistema, la g~an mayoría de la~ empresa-. tienden a ohtener un valor entre 75 y 85, y que los registros entre 65 y 75 o entre 85 y 95 mJ1son r.iros Escriba un documento breve acerca de estos problemas, fijando su atcnóón en cómo se podría tomar la muestra. Dé recomendaciones sobre como seleccionar una muestra de tamaño 200 o de cualquier otro tamaño Usted puede suponer que sus lectores sabrán lo que es un promedio. J>t!ro no suponga que sahen mucho acerca de cuestiones técnicas de Ja estadística. Ocherá tomar en cuenta que sus lectores súlo podrón dedicar su atención a un texto de una página de longitud.

• •

Algunos estudiantes quieren entender por c¡uJ la fórmula para el error cstúndar de f tiene la forma que tiene. Para su beneplácito, este apéndice contiene un bosquejo de 13 demostración. Hay dos ideas fundamentales. cada una estahlccida en térmi· nos de la varianza. En primer lugar, al multiplicar una variable aleatoria por una con~tante se multiplica su varianza por el rnadruclo de la constante. Fn scgundo lug:ir. la 'ari:in1..a de una suma de variables aleatorias imlepcndiente.\· es la suma de J~s \arianzas de las componentes. Por lo tanto,

= vare="Y.)

var1r1

1

= 11·, Var('° l ;) L.

porque dividir cntrc n equivale a multiplicar por lln porquc las variables indi' iduaks son, por hipótesis, independientes porque las varíahks se toman de una poolaci
""2


al

=-;;z-=-;Tomando la

r:iíl

cuadrada ohtenemos el error estándar de

Y:

f1

=--¡=

.jn

Ejercicios de repaso para Jos capítulos 4-6_ _ ll11

l.as calificaciones de una prueba de aptitude$ para los trah3jadorcs de una cadcoa de monta¡c tienen una distribución aproximadamente normal. con una media de ::!00 y una desviación estándar de 40

269

E1erc1c1os de repaso para los capitulos ~-6

R:?:? H.:?3

R:?-t

a. Fncucntrc la prohabilidad de que un indi\'idoo seleccionado alcaloriamente tenga una cal! ricación supcnor a 21 O h. Encuentre la prohabilidad de que l:i media de una muestr:i aleatoria de :?5 indi\Íduos sea mayor que 110. Si la distribución de l3s e:ilifieaciones dc:I ejercicio R.:? 1 no es C\.actamcntc oonnal, ;,cuál de la.s anteriores respuesw proporciona una :iproxim:ieión más pobre? ¿Por qué? Suponga que en el ejercicio R3 se selecciona una mueslra aleatoria de 50 cambios de precio. El número de cambios hechos durante el periodo es tan grande que nn importa si la muestra se toma con o sin reempl:11..amiento. a. Escriba una expresión para la probabilidad de que tres o rncno'> c amh1ns estén anotadm incorrectamente. b. Encuentre un \alor numérico para la prohabilidad del iociso (a) . c. ¿Qué hipótesis se 3doptaron al responder al inciso (a)? ¡,83jo qué condiciones puede ser errónea cualquiera de estas hipótesis? Una agencia automo\ ilistica consen a en existencia cicna refacción (pieza de repue<1to). El número de pie1as en su almacén, en un momento dado. sigue la distribución de probahilidade'I

'(

R2~

R:?6

R27

a. l·.ncuentre la media y la desviación estándar del número de piezns en ex1l'tencia en un momento dado. h. S1 la agencia requiere de 3 pic:r..as en un dia dado, ¿cual es la prohabilidad de que ha) a Wl número suficiente de ellas en el almacén? Suponga que la agencia automo' ilistica del e1ercicío R2-t tiene en existencia 4 tipos diferentes de refacciones y que la distribución de prohahilidad del número de existertc1as de cada una de ellas es la distnhue1ón especificada en el ejercicio R2-t a. l'.ncuentre 13 media > la \'an3n1.a del total de existencias de las 4 refacciones. b. ¿Qué hipótesis adicH1nalcs. si es que las h3y, hizo usted 31 responder el inciso (a)? Indique, para cad.i un.i de las hipótesis. si es más decisiva para determ1n:ir la media o la "arian1a Ahora suponga que la agencia del ejercicio R24 tiene 200 refacciones distintas, y que la disponibilidad de C3da una de ellas está dada por la distribución de probabilidad del ejercicio R24. Encuentre la probabilidnd aproxim3da de que el número promedio en existencia (promediado sobre las 200 refacciones) sea mayor que 7. ¿Oebería ser ésta una huena 3prox1m3ción'.> La demanda di3Ti3 de gas propano de un pro"eedor particular (medida en las unidades apropiadas) es aleatoria, con densidad de probabilidad {,( i·I

R:?N R29

0.1 ..... 10

.0012r 111 O

JI.

o< r <

10

a. Un estud1:.mte quiere encontrar la probabilidad de que la demanda se encuentre entre 5 y 8 unidades (incluidas amhas) calculando /><5) + />~61 • /.,(7) + /~8). Explique por qué este procedimiento no proporciona la respuesta correcta. b. Calcule la probabilidad que se busca en el inciso (a) e. Encuentre la media y la des\ iación esl:indar de Y. En el ejercicio R27, de los dlas en que la demanda es superior a las 5 unidades, ¿qué fracción tiene una demanda menor que 8 unidades" Suponga que el proceso de fabricación del hilo de cnstal que se utilua en las fihra~ ópticas introduce 1mpure:ras con un3 tasa promedio de 0.000:? impure1.ns por pie. H hilo se corta en secciones de 1000 pies; si se descubre alguna impureza en la sección. ésta se recicla. ¿,Cu:il es la probabilidad de que una sección elegida al 11ar no contenga impurezas1

270

6

MUESTREO ALEATOAIO Y DfSTRJBUCIONES MUESTRAUS

RJO

¿Qué hipótesis adicionales además de las ya establccidóis hií'o usted para responder al ejercicio R29? 10 1 "Cierto programa de radio tiene un catálogo a travcs del cual los aficionados a 13 müs1co pueden pedir discos o cintas. así como algunas prend:is de "recuerdo". Supon· ga que el 40% Je los pedidos no incluyen discos ni cintas. el 300/o incluye un di
"Recuerdo.~"

o

o o

1

10

Discos/cintas solicitados

60

so/ic1tado.f (%)

2

3

30 25 40

5

2

5

40 30

)

)

15

.,.,

15 10 30

4

l

4

15

JO

~~

4

5

)

:? 5

5 !< :?O 40

7 10

10

Calcule en una tabla la distribución de probabilidades conjunta de X .. numero de discos o cintas solicitados e Y ... número de "recuerdos" solicitados. ¡,Son independientes los dos tipos de pedidos? IU:? Encuentre el número esperado de "recuerdos" solicitados, asumiendo las probabilidades que se mucc;tran en el ejercicio RJ I . l ;imh1én encuentre la dcs\·iación estándar del número de "recuerdos" solicitados. R33 lJo proceso de fabricación que funciona adecuadamente produce un 5% de articuloc; dcfectuo~os a cauc;a de impure1as en Jo.¡ matcnalec; ) otro' factorcc; aleatorio-. Suponga que al término del proceso se seleccionan 20 articulos y se inspeccionan. Suponga ademi.c; que el proce50 e$tá funcionando bien. a . Encuentre la probabilidad de que 2 o mós de los artículos seleccionados tengan defectos. h ¿Qué supuso usted al responder al inciso (a)? 104 Otro método de inspección para el proceso del ejercicio R 11 consiste en revisar cada aniculo y detener el proceso siempre que se encuentren 2 anículos defectuosos den tro de los últimos 1O artículos inspeccionados. ¿Satisface este método de inspección las hipótesis de una variable aleatoria binomial? R35 Suponga que, en las calí licaciones analizadas en e 1ejercicio R 12. se asignan las cali licaciones de 3. 2 y 1 a las clases "excelente", "sat1sfactorto" e "1nsat1'lfoctorio", respectivamente. l·ncucntrc la media y la varian1.a de la calificación de un joven ejecutivo seleccionad<> al a1.ar. R3<1 Se estudia la disponibilidad y el abasto real de los comestibles que venden en los supermercados Se deline X como la fracción de todos los productos que se almacenan en un supermercado seleccionado al v.ar. que est:in d1'\po01hlc<; para e'\c mercado. e r se define como la fracción de los producto'\ d1sponihlec;
2y+2xy+y1

.xy2 ).

0<x
a. Encuentre la probahílidtld de que X sea menor que 0 .3 e Y menor que 5. h fncuentre la densidad marginal de Y.

271

F1ercicoos de repuo para los capítulos -4-6

c. <.Se surone que X e Y son independientes en e~ta den<;1dad conjunta'? Dé argumentos en favor de su respuesta. RJ7 Utili1ando la deM1dad que se dio en el ejercicio RJ6. encuentre la media y la des\ iación estándar de la fracción de productos que se tienen en exi<;tenc1a ' · Encuentre el valor esperado y la -.arianza de W - 40X • 20Y rara 13 densidad con- ~ JUnta que se dio en el ejercicio R36 109 Suron¡a que se ha determinado que el número de line3-; de programa e-;critas ror semana por los programadores de computadoras que u11lm1n un lenauaje d1spomble en el mercado tiene una media de :?SO} una desviación estandar de 70 Suponga ademis que se toma una muestra aleatoria de 40 programadores. ¿Cual es la rrohahilidad aproximada de que el promedio de líneas producido sea ma)'or de :!65? k40 ¿Qué supuso usted al resronder el eJercic10 RJ9" ;.Bajo que circunstancias podría ser su respuesta al ejercicio R39 un3 mala aproximación? lln corredor de bienes raíces cree que. en las condicione' actuales. el 45º-'o de los clientes que atiende en su oficina eventualmente compran una casa a través de él. En 1·na muestra aleatoria de 16 clientes que visitan la oficina. ¿cuál es la probabilidad de que 3 o menos lleguen a compr:ir un3 casa. a través del corredor? Proporcione una respuesta numérica. Especifique todas las hipótesis que hizo al responder el ejercicio R4 I. ¡,f lay alguna hipótesis que pare1ca ser bastante irrazonable? R43 tJn cnm:dor de títulos de renta rija de la bolsa ocasionalmente llama a algunM clier.tes partl tratar de colocar bonos exentos de impuestos. Defina X número de llama· das hechas a un cliente particular en un periodo de tres meses e Y .. número de hemos pedidos por ese cliente en dicho periodo. Suronaa que _(4-.t)Cxy+I) 30(I + 2x) •

f (x,yl -

R44 R4 <;

R46 R47

X

I, 2. ), )' ,. 0, J.2 ..l. 4

a f ncuentrc la distribución condicionada de Y dada X. ya se.i en forma matemáti· ca o con una labla. b <.Son X e Y independientes? En el contexto del problema, ¿deberían serlo? Encuentre la media y la \'arian1.a de Y en el eJercic10 R4J. lJn vendedor maynrisla de software para computadora ocasionalmente recibe pedidos especiales que debe emharcar por avión J'ale" pedidos 4'<\n caro" e improductivos. LM registros indican que ocurren con una tasa promedio de 1.6 por dia de trabajo. En una 11emana de 5 días laborales, ¿cuál es la prohahilidad de que haya 10 o más pedidos que requieran envío especial? Proporcione una respuesta numéric3. Especifique con mucho detenimiento las hipótesis que usted hito al responder el ejercicio R4S. ¡,Es enónea a 1odas luces alguna de dichas hipótesis? Cuando se tr3nsmí1en archivos de datos entre computadoras. éstos se dividen en pequei\os paquetes para la transmisión. Cuando un paquele se recibe en la computadora destino. es revisado por un programa de verificacinn. Defina X 1iempo requerido para 1ransmit1r un paquete seleccionado al atar e Y .. licm¡io requerido para verificar el paquete. ambos medidos en milésima" de segundo. Suponga que la densidad con1unta de X e Y es X

R'°'I\

> 110. o < y < IOO

l:ncuentre la probab1hdad de que X e~é entre 200 y 300 e Y entre 10 y SO. Encuentre la densidad cond1c1onada de Y dada X para las variables aleatorias detimda" en el ejercicio R~7. ¿Qué indica la deMidad coniunt;i acerca de la dependende X e Y?

''ª

272

6

MUESTREO ALEATORIO Y DISTRIBUCIONES MUESTRALES

encuentre los valores esperados y l¡¡s v::iriam·.as de X, Y y T •X+ r para las v::inahles ::ileatorias del ejercicio R47. IUO .Suponga que en el ejercicio R47 redefinimos X e Y par:i cxpres:ul:is en segundos en "ez de milésimas de segundo. Asi, ,'('"" 0.001 X e r" =0.001 Y. Encuentre los v:ilores csper:idos )' las V3rianzas de T' =X'+ Y'. R5 I Nos referimos nuevamente al ejcrcicín R4 7. Se elige una muestra aleatoria de '.?50 paquetes y se registra el ttemPQ de transmisión de cada uno de ellos. a. Encuentre la probabilidad apro,imJda de que el tiempo promedio de 1ransnus1ón de la muestra sea m.i~ or que 0.180 segundos b. l.a probabilidad apro,imada que se calculó en el incisn (a). ,debería ser un:i hue· na aproximación a la pmhabilid.l<.I cxact:i que desconocemos'! Explique por qué.

R-'9

x·. )" )'

/,/.

•.A1~ ., ~

CAPÍTULO

7

,

ESTIMACION PUNTUAL

~

}l~

~J

1

1



,,

.7

Nos encontramos ahora en condiciones de analizar los problemas básicos de la inícrencia estadística. El objetivo de la estadística es hacer inferencias acerca de uno o más parámetros de la población con base en datos muestrales observables. Estas inferencias toman varias formas relacionadas. Conceptualmente, el método de inferencia más simple es la estimación puntual: la mejor suposición que se puede hacer del \alor individual de un parámetro de la población . Dicha estimación es el tema de este capítulo. Otros procedimientos de inferencia relacionados con éste son la estimación por intervalos y las pruebas de hipótesis. En el primero de ellos se utiliza la estimación puntual y cierta tolerancia para el error aleatorio con el fin de especificar un rango razonable para el valor de un parámetro. En el :.egundo, se aisla un posible valor particular del parámetro y se pregunta si este valor es plausible con base en los datos. La estimación por intervalos es el tema del capitulo 8 y las pruebas de hipótesis el del capítulo 9; la sustanc ia de ambos capítulos depende en gran medida de los resultados que se fijen en éste. En los capítulos del 1Oal 16 se extienden los principios básicos formulados en los capítulos del 7 al 9 a un número de situaciones que acontecen a menudo. Comenzamos este capítulo analizando en la sección 7.1 algunos criterios eficientes para estimar un parámetro de Ja población. La sección 7.2 es un análisis de Jos méritos relativos de tomar muestras con y sin reemplazamiento, y de la importancia relati\.a del tamaño absoluto de la muestra comparado con la fracción de la población que se ha considerado; algunos resultados que ahí se obtienen son sorprendentes para much:ls personas. En la sección 7.3 se introduce un método de alcance general, llamado de la máxima verosimilitud, que en general proporciona buenas estimaciones puntuales.

7.1

PUNTUALES - -ESTIMADORES -- - - -- -----



La inferencia estadística más simple es la estimación puntual o por punto, en la que se calcula un único valor (estadístico) con los datos mucstrales para estimar 273

1

274

7

ESTIMACION PUNTUAL

un par:imetro poblacional ¡,Cómo decidimos qué estodístico muestra! calcular para dar una i.inica estimación numérica de un p::ir.ímetro de la población'> Suponga t1\Jc tratamo!> de estimar la media poblacional y ~ue estamos dispuestos a suponer 4ue la distrihución de la población es normnl. La media muestra! es un cstadistico sumario natural que se puede utili7.ar para estimar la media poblac10nal. Como esta última también es la mediana de la población cuando In distribución es normal, la mediana muestral es también una estimación posible. También lo es una media truncada al 80%. el promedio del 80°n de los valores centrales. Aunque la población sea simétrica. es casi seguro que la mucstrn sea algo asimétrica debido a l::i \'ariación aleatoria. Así, para cualquier muestra particular, los tres metodos proporc1cman estimaciones en cierto sentido diforcntes. Los valores atipi· cos tienen una enorme inlluencia sobre la media. Una. media truncada tiene una menor iníluencia de los 'alorcs atípicos. pero desperdicia da10~ al ignorar (por ejemplo) un 20% de ellos Podemos pcnsnr en la. med1:m::i. como una media truncada extrema. en donde uno descarta todos los datos excepto el central o los Cl'ntralcs. ¿Cu:ll mctodo deberíamos utilizar? Para proseguir el análisis, necesitamos una delinició'! técnica . Utilizamos O como el símbolo genérico de un parámetro pohlacional, y 8 para indicar una estimación de 6 hasada en los datos de una muestra

Estimador Un c'tinuulor 8 de un parámetro 6 es una función de los valores muestralcs aleatorios Y1, }'2, •••• r,, que proporciona una estimnción puntual de 6 Un estimador es en sí mismo una vnriable aleatoria y por consiguiente tiene una distribución (muestra)) teórica.



Hay una distinción técnica entre un estim
EJEMPLO 7.1

Si Yp }'~e }'~son los resultados (aleatorios) de una muestra de tres indi\'iduos toma.da de una población. defina el estimador de la mctlia muestra!. Si en una muestra concreta se ohtienen los valores 106.8. 102.0 y 105 O. (,cuál es la cst1mación resultante?

7 1

Solución

Emmadore$ puntuales

275

La estimación

se puede interpretar como el proceso "toma una muestra de tres valores > prom¿dialos" En esta mut!stra concreta, y 1 = 106.8. \ ~ 102.0 e y, 105.0 > se obtiene .Y = 104.6 como una estimación de Ja media poblacional hasada en esta muestra específica. • La primera propiedad que queremos que tenga un estimador() su distrihución mut!stral) es que, en promedio. estime correctamente el parámetro de la población. Por ejemplo, parece e1Tóneo utiliz.ar el 90 percentil de una muestra para estimar la mediana (50 percentil) de una población, en vez de utiliz.ar lu mediana de la muestro. Aunque es concebible que. en una muestra particular. el 90 percentil est¿ más cerca de la mediana de la población que la mediana muestra!. en general dicho percentil es demasiado grande. En otras palabras, este percentil tiende a sobrestimar la mediana de la población. Queremos utilii.ar en la estimación un estadístico que no sobrestime o suhesti mc sistemáticamente el parametro pohlncional que se busca.

Estimador insesgado Un t!sllmador () que es una función de los datos muestrales }'1• Y~ . ...• Y,. se conoce como estimador inse!IJ:?ado del_ par.imetro poblac1onal ()si su 'alor esperado es igu~I a 8. Dicho de otra manera, 9 es un estimador insesgado del parámetro () si E( 8 ) - 9. l In t!M11nad!.>r insesgado es correcto en el prome~10. Podemos pensar en el valor cspcr¡¡do de 6 como el promedio de los valores 8 para todas las mues1ras posibles, o, lo que es lo mismo, como el promedio en el lirQite de los valores 9 para mucstrus rt!petidas. La c_ondición de que el estimador 9 es insesgado suponl· 4uc el V'!_lor 1m 11nr tlio de () es exactamente correcto. No dice que un \alor p11rtic11 lar (} sea exaclamente correcto (yéase la l}gura 7. 1). Si el estimador es sesgado, la magnitud del sesgo es Sesgo ( ()) '= E ( 6 ) - O

(a)

FIGURA 7.1

D1stnbuc1on

D1stribuc1on

muestra! de

muestral de

8,

82

(b)

Ilustración de (a) un estimador msesgado y (b) un estimador sesgado

276

7

ESTIMACION PUNTUAL

EJEMPLO 7.2

Sur)(Jnga que }'" Y2 ••• , Yn representan los valores obtenidos en una mui:stra aleatoria «imple tomada de una población que tiene media µ y varianza a~. Verifique que f. la media muestra!, es un estimador insesgado deµ.

Solución

En el capitulo 4 demostramos que E( Y) = µ. Así, por definición. la media muestrnl es un estimad9r insesgado de la media poblacional. • La exigencia de que un i:stimador sea insesgado no es muy restrictiva y no excl uyc muchos estimadores potenciales. Por lo general son muchos los estimadores insesgados de cualquier parámetro poblacional. Por ejemplo. cuando se toman muestras de una población normal, la media muestra!, la mediana y las medias truni.:adas son todos estimador~:. insesgados de la media poblacional µ. l J Ju~encia de sesgos no es la única propiedad que queremos que tenga un estimador. l In c:.t11nador ime:.gado que sobresllma el parámetro de interés l:i mitad de las veces >lo subestima la otra mitad no es un buen estimador. Una segunda propiedad que exigimos a un estimador es que tenga una distribución muestra! en que gr.in p.1rtc de la probabilidad esté concentrada cerca del parámetro que M: 'a a estimar El error ec,tándar nos da una medida de la concentración de l:i distribución muestra! de un estimador: mientras más pequei\o sea el error estándar, mayor será la concentra· ción de la probabilidad cerca del parámetro de interés. La figura 7.2 pn:-.cnt~• la' distrinuciones muestrales de dos estimadores insesgados hipotéticos ~e un parámetro de la población 8. Es obvio_que a6, > '18, y pClr consiguiente que O~ es un estimador de() más deseable que l· 1 error estándar de un estimador también se relaciona con el grado de error probable: mientras más pequer'lo sea aquél. más pequel'lo será é::te. Por cons1guicnte, nos gustaría encontrar un estimador insesgado con el menor error c:.t{1ndar posible o. lo que es lo mismo, el error probable más pcqueilo.

e,.

Estimador eficiente Se dice que un estimador es l"I más eficiente par:i un problema particular cuando tiene el error estándar más peque~o de todos los estim:>dore~ in!>esgados posibles. Sc utiliza la palabra eflcienle porque. en una situación dada, el estimador hace el mejor uso posible de los datos muestrales De :icuerdo con la teoría estadí~tica

9

(a)

FIGURA 7.2

D1stnbuc1ones muestrales de 9 1 y 8 2

8 (b)

• 7.1

277

Estimadora pum~

clásica, en términos generales se debe preferir el estimador insesgado más cfkicnk sobre cualquier otro. Dadas algunas hipótesis muy especificas, es posible encontrar los estimadores más eficientes. Por ejemplo. si la población de la que se toman las muestras es normal. la media muestra! tiene un error estándar más pcquél'10 que la mediana muestra!, que cualquier media truncada muestra! y que cu::ilquier otro cstim::idor insesg::ido. Por lo tanto, si hay una buena 111/Ón para suponer que la población es normal, el mejor estimador de la media pobl::icional es la media mul!stral.

EJEMPLO 7.3

Un programa di! computadora selecciona 1000 muestras de t.ama~o JO de una población con distribución normal. media 50 y des\ iación estándar 1O. Para cada muestra se calculan la media, la mediana y la media truncada (promedio del 80% de los datos centrales). El valor promedio y la desvi::ición estándar de cad::i conjunto de estimaciones de las 1000 muestras son los siguientes: Esladlstica

Valor promedio

Desviación estándar

Media Mediana Media truncada

so 1254

1 IH73

50 1696 501196

2 2607 111947

¿Parecen ser insesgados los tres estadlsticos'? ¿Cuál de ellos parece ser el más eficiente?

Solución

r~ t im:u l o r ro bu~ l o

hl valor promedio de cada estimador es (una aproximación ~11nulatl,1 a) '>U valor esperado. Dicho valor promedio resulta en cada caso muy próximo a la media poblacional, 50. Esto último p::ircce indicar que. a l meno'> en esta situación, los tres estimadores son insesgatlos. La desviación estándar de cada estimador es (una • aproximación simulada a) su error estándar. Como la media muestra! tiene el menor error estándar, todo parece indicar que en esta situación es el estimador más eficiente . • Dcsafonunadamcnte, las declaraciones de eficiencia dependen fuertemente de algunos supuestos. Cuando la distribución de la población no es normal, la media muestra! no es siempre el estimador más eficiente. En particular, cuando la distribución de Ja población tiene colas anchas, la medin muestra! es más ineficiente que una media truncada (aunque aún es insesgada). Las distribuciones con colas anchas tienden a producir muchos valores "extral'ios", datos extremos que iníluycn más en la media que en una media truncada. Un tema lle investigación en In teoría cstadistica es el de los llJmados estimadores r obu!llo'I cstadfsticos casi inscsgados y casi dicientes para una gran \.ariedad de distribuciones poblacionalcs. Aún no hay un acuerdo general sobre los estimadores robustos ideales, pero es razonable suponer que tales métodos se utilizarán cad:i vez más en un futuro próximo. Pese a ~u utilidad potencial, no dedicaremos mucho esp::icio a los estimadores robustos. Las fórmulas para la cstim;ición robusta son mucho más complicadas que l;is que hemos presentado, pero los principios básicos pura utilizarlas son los mismos.

278

7

EJEMPLO 7.4

ESTIMACIÓN PUNTUAL

Se programó una computadora para tomar 1000 muestras, cada un.a de tama~o 30, de una población con colas extremadamente anchas y sumamente procli'e a los valore~atipicos. con una media igual a cero y una desviación estándar de 9.95 r>ara cada muestra se calcularon la media, la mediana y algunas medias truncadas. Los \ alorcs promedio)' las desviaciones estándar de las estimacione:, ~(m las siguientes: Estadístico

Valor promedio

J..,fediJ

01:?S

Mediana Media truncada

0141!

1101< 1

Desvi:ic1ón estándar l.!( 757 45JO .56/l7

¿Qué indican esto~ resultados acerca del sesgo y la eficiencia de los tres estimadores al tcimar mue)>tras de esta población?

Soluc1on

Los tres promedios, aproximaciones a Jos \'alores esperados. son casi cero. de modo que los tres estimadores parecen ser insesgados. En este i:aso, la desviación estándar de la mediana parece ser mucho más pequc~a que la desviación estandar de la me· dia y un poco más pequel'la que el de la media truncada. Así, para esta f>Oblaci6n proclive a los valores atípicos, la mediana muestnil parece ser más eficiente que la media truncada y mucho más eficiente que la rrn!dia muestra!. •

con'i'tcncia

Un criterio adicional para un buen estimador es la con~i stcncia Si tenemos la fortuna de contar con una muestra muy, muy grande, debería e~tar garantizado que el estimador esta muy próximo al parámetro poblacional (o del proceso).

Estimador consistente Un estimador es consistente si se aproxima al panímetro pohlacional con probabili· dad uno a medida que el tamal'lo de la muestra tiende a infinito.



Por ejemplo, la medía muestra! Yde una muestra aleatoria tiene valor esperadoµ y un error estándar que se aproxima a cero a medida que n tiende a infinito. Por lo tanto, cuando el !amaño de la muestra tiende a infinito, f se aproxima aµ tanto como se quiera. De acuerdo con la definición, Yes consistente. (Todos los estimadores que se analizan en este libro son consistentes siempre y cuando las hipótesis establecidas se cumplan.) Un estimador inconsistente es a todas luces un mal estimador. No es aconsejable dar una estimación imprecisa basada en una infinidad de datos. cosa que puede suceder si el sesgo de un escimador no se aproxima a O a med1d3 que n cic:nde a infinito. UtiliZA1r el 25 percentil de la muestra para estimar la mediana poblacional produciría un cscimador inconsistenle. También habría inconsistencia si el error estándar de un estimador no tiende a cero a medida que el tamaño mul!stral crece r>or lo general, lo~ estimadores inconsiscentes son el resultado de alguna equivocación o. lo que es más probable, resultan del fracaso de una hipótesis clave.

279

Sección 7.1 E1eraaos

EJEMPLO 7.5

En la sección 4. 7 definimos Ja correlación (poblacional) de dos variables ah:atorias. Este parámetro se puede estimar con datos muestraJes si Ja~ variables se miden con precisión, sin errores de medida. No obstante. cuando ha) un error de medida, la correlación mueslral se acerca a un número entre cero y la correlación de la población (dependiendo de la magnitud del error). ¿Qué indica este he1.:ho acerca de la corre· lación muestra( como un estimador?

Solución

Cuando hay un error de medida, la correlación muestra! es un estimador inconsistente de la verdadera correlación, pues su sesgo no desaparece al aumentar el tama· r'\o muestra!. •

SECCIÓN 7.1

EJERCICIOS 7.1

7 .2

7.3

74

Se toma una muestra aleatoria de 20 vicepresidentes (entre las 500 principales em· presas según la rcvisla Fortune) y se determina el porcentaje del ingreso bruto que cada uno pagó como impuesto federal sobre la renla. Los datos son 160

18.1

24.I

24.3

18.6 24.7

20.2 25.2

22.4

21.7 25.9

26.3

22.4 27.9

23.l 28.0

23.2 30.4

23 5 33.7

a. Calcule la media y la mediana muestra!. b. Calcule la media truncada al 20%; es decir, elimine el 10% inferior y el 10% superior de los datos y encuentre la media del resto. Rcmhnse n los datos del ejercicio 7.1. a Construya un histograma utilizando alrededor de 6 clases. b. ¿,llay alguna evidencia de no normnlidad en los dntos,, c. ¿Cuál de los estadísticos muestrnlcs calculados en el ejercicio 7 .1 seleccionaría usted para estimar la media poblac1onal? Un estudio con el método de Montecarlo comprende 10,000 muestras aleatorias de tnmal\o 16 tomadas de una población normal conµ 100) a 20. Para cada muestra se calcularon la media. la mediana y In media truncada al 20%, con los s1gu1entes resultados: l:.st1mador

Media

Mediana

Promedio Varianza

100.23 26.S2

Media truncadn

99.96 4061

99.98 27 49

a. ¿,Qué sugiere en este caso el estudio acerca del sesgo de los tres estimadores'.' b. ¿Cuál de los tres estimadores parece ser el más eficiente? Una muestra de 30 ediciones de un periódico semanal revela los siguientes datos numéricos sobre la longitud de las columnas de Olnuncios cl:uificados, mcdidn en pulg3das: 171

225 245

185 228 249

193 228

199 230

251

254

204 234 257

210 235

:!16

218

237

262

263

240 271

221 241

280

223 243 379

a. Calcule la media y la mediann. b. Calcule la media truncnda al 20%, el promedio del 80°0 de los valores centrales.

280

7

EST'MACIÓN PUNTUAL

7.5

Remítase a los datos del ejercicio 7 4. a. Construya un diagrama de tallo y hojas. ¿Cuál es el aspecto más obvio del • diagrama? b. ¿Sugieren los datos que la media es el estimador más eficiente en esta situación? 7 .6 Suponga que r 1• Y1 , Y3 e Y4 representan una muestr:i aleatoria de cuatro observaciones tomadas de una población con mediaµ y des\ 1ación estándar a. Se pueden considerar dos estimadores de la media: • Y1 µ, = y""

+ ··· + Y4 4

)'

l.os resultados del capitulo -t indican que, para varíahles aleatorias independientes,

E(L e, Y,)= (Le,)µ Var(L r, Y,)=- (L r!)o 2 a ¿Son insesgados ambos estimadores? b. ¿Cuál estimador tiene la \ arian1.a más pequer'la? l~ n la figura 7.3 se muestran tres diagramas de caja para las medias, medias trunca· das (eliminando el 10% superior y el 10% inferior de los datos) y mediana.<; para muestras de tamar'lo 10 de una población de l.aplace (ligeramente propensa a valo· res atípicos). La media de esta población es cero, a. ¿Parecen insesgados los tres estimadores? b. ¿Qué estimador parece ser el más eficiente? 0

7.7

·- *---11 11~- . . · - il 11--- ..



media

1

* *

media truncada al

o

so••

. . -------il 111------ -

o

mediana

-1.65 FIGURA 7.3

-1.17

-0.69

-0.21

0.27

0 .75

1.23

D iagramas de ca¡ a para tres estimadores; población de Laplace,

1.71

n= 1O

, ,~

181

Seccoon 7 1 E1ercocoos

7.8

Los promedios y las desü.1ciones est:indar de los tres estimadores lid ejercicio 7.7 -;on los siguientes: Promedio

l:st1mador

7. 9

'

Des\ iación estánd:u

~1edia

0100

-n66

Media truncada Mediana

004()

3899 3704

.ocm

¿Son consistentes estos resultados con las respuestas que dio al ejercicio 7.7? Se toman muestras de ta mallo 30 de una pobl:ición uní forme . La media poblacional es 0.500 > la varianza poblacional es 0.08333. l.a distribución poblacional es simétrica y absolutamente plana. No bay valores menores que cero ni mayores que uno. de modo que no hay pos1bil1dad alguna de que existan valores atipicos. Se han ob· tenido los siguientes promedios> desviaciones estándar: htimador

Promedio

\.1ed1a Media truncada Mediana

7.10

Des\ iación

e~tándar

05().4 0611

.SOIS .5017 5().4 3

0644

a . Dada la naturale1.a de la población, ¿deberían ser insesgados los estimadores? ¿Parecen serlo? b. ¿Cuál de los tre<; estimadores p:irece ser el mas eficiente? En la figura 7.4 se muestran diagramas de caja para los estimadNes del ejercicio 7.9. ¿Apo)an estos diagramas sus respuestas al ejercicio 7.9?

*_____.¡

l·il.--· ..

media

·--! 11....___. ·~1 11. . ___media truncada al

• •

80~o

mediana

0 .23 FIGURA 7.4

0.31

0 .39

0.47

0 .55

0.63

0 .71

Diagramas de caja para tres estimadores; población uniforme, n =30

0.79

:--.

282

7

ESTIMACIÓN PUNTUAL.

7 .11

El gerente de operaciones del depilrtamento de transmisiones ;iutomáticas de una fábrica de automóviles obtiene cada semana datos sobre la presión a la que funcionan las 50 transmisiones de una muestr:i. Una de sus preocupaciones es la media para la " producción sem;inal, que es de 2200 transmisiones aproximadamente. (Otra preocupación es la \ariabilíd:id en tomo a la media.) Por In general, la presión de las transmisiones es ligeramente superior o lígeramente inferior al nível oominal de 35 libras por pulgada cuadrada. Algunas transmisiones pueden tener lecturas muy por encima o muy por debajo del nivel nominal. Una forma de estimar el promedio de toda la producción es utilizar el rango medio de los datos muestrales: el promedio del valor más grande y del valor más pequeno de los 50 datos. a. Con base en la información que usted tiene (sin lugar a dudas limitada), ¿hay alguna razón para creer que este método subestima sistemáticamente a la media? ¿O la sobrestima? ¿Que concepto técnico de la estadística se ha puesto en duda en esta situación? b. Aun cuando no haya una sobrestimación o subestimación sistemática, puede ser que el método del rango medio no utilice de una forma efectiva los datos. Explique por qué no. 7 .12 Explique por qué el gerente de operaciones del ejercicio 7.11 puede no querer utili1ar la media de las 50 presiones de fa muestra como un estimador del promedio de toda la producción semanal.

7.2

\arianza de Y, con y s in recmpla7am ie nto

EJEMPLO 7.6

MUESTREO CON Y SIN REEMPLAZAMIENTO



En el capítulo 6 derivamos la fórmula para el error estándar de la media muestra! ( <Jr"" <JI ~)bajo la hipótesis de que los valores sucesivos de l:is variables aleatorias de la muestra Y1, ••• , Y,, eran índepcndientes. Dicha hipótesis es literalmente correcta en una sítuacíón de muestreo aleatorio sólo cuando se toman muestra~ con reemplazamiento. No obstante, tomar muestras con reempla.i:amiento parece ser una idea muy poco práctica en la mayoría de los casos. Vamos a mostrar en esta sección que la distinción entre muestreo con reemplazamiento y sin reempla1..amiento es irrelevante. Como beneficio secundario podremos aclarar la importancia relativa del tamaño absoluto de la muestra y de la fracción de la población que se considera. De acuerdo con la idea de eficiencia, los estimadores insesgados (en nuestro caso. medias muestrales tomadas con y sin reemplazamiento) se pueden comparar sobre la base de las varianzas o, lo que es lo mismo, los errores estándar. Se puede demostrar que la varianza de la media muestral (basada en el tamai'\o n de la muestra, el tamaño N de la población y la varianza poblacional (J 2) es <J 2/n, cuando se toma una muestra con reemplazamiento, y (
Suponga que se toma una muestra de tamaño 200 de una población de tamaño 20,000. Compare las varianzas y los errores estándar de las medias de la muestra basadas en muestreos con y sin reemplazamiento. ¿Qué procedimiento de muestreo proporciona el estimador más eficiente deµ?

7.l

M~streo

283

con y $In ~mpbllmtel\to

Solución Método de mueslreo

Con reemplazamiento al

Var( Y)

200 -

11 -

J200

= 005a 1 ...0707a

Sin rccmpla1..amiento

~ (2~.000 200

200) ,,. .00495a: .0.000 - 1

J20.000 - 200 .. 07()4o " 200 20,000 - 1 o

~

El muestreo sin reemplazamiento nos da el error estándar más pequeño, pero la diferencia ap:irece en el tercer dígito significativo del error estándar (el cuarto decimal). Es poco probable que esta diferenci:i tenga alguna importancia prác1ica. •

EJEMPLO 7. 7

Considere las siguientes situaciones de muestreo en que

Y se utilil'I para estimarµ .

a. Tome una muestra de 100 items (sin reemplal'lmiento) dc una población de 1000. b. Tome una muestra de 1000 itcms (sin reemplazamiento) de una población de 1,000,000 Si todo lo demás se supone igual, ¿cuál de los dos procedimientos produce el error estándar más pequeño para Y?

Solución

En la situación (a) usted tomaria una muestra de una frac ció n m:h J!rnndc de la pol>la l'ití n . mientras que en la situación (b) usted tendría un rn111aiio mi•" g r:111tlc: d e la mu c~ tra Para ver cuál de estos procedimientos es más preciso, podemos calcular el error esuíndar de Y en ambos casos: (a)

" Jiooo -_ 100 = .0949a JíOO 1000 1 C1

(b) r==== "1000

JI .000.000 - 1000 000000 1 l. • -

= .03 160

Suponiendo que las dos poblaciones tienen varianzas iguales (y por consiguiente iguales desviaciones estándar), el error estándar de Y es mucho m:ís pequeño en la situación (b). • Los ejemplo~ precedente'> ilustr.in dos conclusiones de carácter gener:il. En primer lugar, l:l c.Ji,tinciún ent re mu c~ lrco con y ~ in rccmpla.rnrnicnto pr:í ctic¡1m c 111l' \C p ued e i~nora r ' ªh'o en el (' :l'lio (muy raro ) en c1uc el ta ma1io d e la mu c~ tr a e ~ :il meno« el 10% clcl t:mrn ii o de Ja población Este es el caso del ejemplo 7.6. La segunda conclusión básica, que se iluslrJ en el CJCmplo 7. 7. e' una ~orprc­ sa para la mayona de las personas: Par:i cklerminar In precisión probable, el tam a i1 0 a h ~ olul o de la muc,t r:1 C\ mucho m:h importante que el tamailo tic la fracción de la pobla cici n tpH' "e m11c.,trc:1 Por supuesto, cuando el tama~o de

284

7

ESTIMACIÓN PUNTUAL

la población es fijo, incrementar el tamaf\o de la muestra también incrementa la fracción de muestreo. No obstante, para casi cualquier situación práctica, el efecto numt!rico del cambio en el tamaño absoluto es más imponante . El tamaf\o de la muestra, no la fracción, determina cuánta información hay en los datos.

EJEMPLO 7 .8

Una computadora está programada para extraer 1000 muestras de tamaño 20 de una población, tomando las muestras con y sin reemplazamiento. La distribución de la población es Individuos:

00 09

10 29

JO 69

70 89

90 99

Valor: r 2 J 4 5 (La media de la población es 3.) Se calculan las medias muestrales para todas ellas, y se obtienen los promedios y las desviaciones estándar: 2.9996 y 0.249 con rcemplat.amiento y 3.008 y 0.216 sin reemplazamiento. a . ¿Parece ser insesgada la media muestra!? b. ¿Qué parece ser más eficiente, tomar las muestras con reemplazamiento o sin él?

Solución

a. Los promedios son muy próximos a 3.0, de modo que la media muestra! parece ser insesgada en este caso. b. Las desviaciones estándar (aproximaciones simuladas a los errores estándar) son más pequei\as en el caso del muestreo sin reemplazamiento. de modo que el mueMreo sin reemplazamiento parece ser más diciente. •

EJEMPLO 7.9

Se repite la simulación del ejemplo 7.8, pero con los siguientes cambios. La población se conviene en Jndh iduos· O 99 100 299 300 699 700 899 900 999 3 4 5 Valor: J 2 (Nue\amente, la media poblacional es 3.) En esta simulación, el tamai\o de la muestra es 50. Obsene que en este caso el tamaño de la muestra es 2.5 veces el tamaño de la muestra del ejemplo 7.8. pero que la muestra es tan sólo el 5% de lapo· blación, en contraste con el 20% del ejemplo :mterior. Se obtienen los siguientes resultados: con reemplazamiento. promedio=- 3.002 y desviación estándar= 0.153; sin reemplazamiento, promedio - 2. 997 y desviación estándar 20 O. 150. ¿,Qué indica una comparación entre este ejemplo> el ejemplo 7.8 acerca de la importancia relativa de la fracción de la muestra y el tama1'o de la muestra?

Soluetón

SECCIÓN 7.2

En cnda caso. la aproximación simulada al error estándar es más pequeña en este ejemplo que en el 7 .8. Así, el efecto del incremento del tamaño de la muestra es m:ís imponante que el efecto de considerar una fracción más pequeí'la de la población. •

EJERCICIOS 7.1;\

F.n el ejercicio 7.11 se considera una muestra de 50 transmisiones automaticas to· mada de una producción semanal de 2200. En las semanas con un día festivo la producción se reduce en un 20%. a 1760 transmisiones. ¿Se desprende d1: lo anterior

7.l

7 . 14

7 . 15

7 .16

7. \ 7

7.3

mNoclo de m:hima ' r ro, imilitml

Estimadores de máxima wrositn1htud (J)

285

que el tJmar'o muestra! también se ruede reducir en un 20%, a 40, y tener la misma precisión al estjmar d promedio semanal? a. En el ejercicio 7.11, ¿esperaría usted que la muestra de las transm1s1oncs se tomase con reemplazamiento o sin él? e.Por qué? h. Suponga que la muestra se tomará sin reempli11amicnto, que la des' iación estándar en el limite de las presiones es 2.40 libras por pulgada cuadrada y que el tamai'lo muestra! es 50. ¿Es significativo para el e"or estánd:ir de '3 media muestra! el que 111 producción semanal cambie de 2200 a 1760 transm1s1oncs? ¡,En qué magnitud,, l Jn poht1co que contiende por un c'\car'o en la legislatura estatal ohservó que en una encuesta se hab1a tomado una muestra de 2000 electores registrados de un total de 8,000,000 (uno de cada 4000) y que la encuesta tenia un error probable de i 3 puntns porcentuales. El candidato planea tomar una muestra, guardando la misma proporción de los 40,000 electores de su distrito legislativo )' espera que el error prohahle se:i igual. ¿En dónde cstfl equivocado el ra.mnamicnto del candidato'? Se toma una muestra de 90 individuos responsables de hacer pronósticos para ciertos b3ncos regionales. Hay 650 personas que pueden ser escogidas. Cada uno de los individuos en la muestra predice el porcentaje del crecimiento del ingreso disponihle real p3r;i el 31\o siguiente. Suponga que la desviación estándar de los pronósticos de la roblación es 0,4o/o. a. F.n la práctica, ¿se debería tom:ir la mue'itra con reemplazamiento o sin él? b. Calcule el error estándar de la media suponiendo que la muestra es con rec mplUól miento. c. Calcule el error estándar de J;i media suponiendo que la inuc~tra e<; sin rccmpla1amiento. d. ¿Qué error estándar es más pequcl\o? ¿Por cu!nto? I· n los di as de elecciones, con frecuencia los espectadores de televisión suelen escuchar, en los progr3mas nocturnos, proyecciones acerca de quién ser;i el ganador en un estado bas;idas en un peque~o porcentaje de l;i votación. Para cst3dos tales como Nueva Yor~ y California, )3 proyección puede basarse en un 1% de los votos, pero para cst;idos tales como W}oming y Dcl;i\\3re. la proyección tiene como b;ise un porcentaje mucho más gr;inde. ¿Por qué'l

ESTIMADORES DE MÁXIMA VEROSIMILITUD (d)



En la sección 7. 1 analizamos dos propiedades deseables de lo' C\timadorc' de par.imctro~: que sean insesgados y con errores estándar pequenos. ¿,Corno \C procede en cualqu11.:r <.ituac1ón de mul''ltreo para enwntrnr un c'\timador de un parámetro 6? El método de m:himu Hros imilitml e<; un procedimiento general par.i la selección de estimadores. Hay varias ra.wnes por las que se quiere utili7.ar un estimador ctl1do a estas propiedades. muchos investig:idores están a favor del uso de los estimadores de máxima verosimilitud c:n gran parte de situaciones de muestreo. Una de las formas más simples
286

1

ESTIMACION PUNTUAL

de m:íxima verosimilitud en un problema dado. Suponga que tenemos un experimento binomial con una probabilidad de éxito Tt desconocida >que obtenemos ~ 2 éxitd's en n =S ensayos. Podemos utilizar ta tabla 1 del apéndice para evaluar la prohabilidad de alcanzar dos éxitos en cinco ensa)os. Para 1't =O 05, la prohatnhdad es 0.0214; para 7t 0.1O, la probabilidad es 0.0729 A medida que avanzamos a lo largo de la tabla, la probabilidad de dos éxitos en cinco ensa}os se incrementa a un 0.40 es Ja máximo (de 0.3456) en 1t := 0.40 y después decrece. Por definición, estimación de máxima 'erosimilitud (al menos entre los valores que se muestran en la tabla 1 del apéndice) de 7r cuando los datos son dos éxitos en cinco ensayos.

=

x;:

EJEMPLO 7.1O Soluci6n

Encuentre la estimación de máxima verosimilitud de Jren un experimento binomial con n = 20ey == 16. Si comenzamos con la tabla 1 del apéndice en 7t - O.OS paran = 20 e y ... 16, encontramos que 13 probabilidad de 16 éxitos en 20 ensayos se incrementa cuando 'amos de 1t - 0.05 a 1t = O.SO. Para seguir leyendo Ja tabla, debemos buscar en et extremo derecho el valor de y. y en ta parte de abajo el valor de Jt. La probabilidad de 16 éxitos en 20 ensayos se incrementa a medida que retrocedemos a lo largo de la tabla hasta alcanzar un máximo (de 0.2182) en 1t = 0.80 Entre los valores de Jt que se muestran en la tabla 1 del apéndice, 1t = 0.80 es la estimación de máxima verosimilitud cuando}' = 16 y n =20. • Para definir ta estimación de máxima verosimilitud de manera general, necesitamos algunas otras definiciones.

Función de verosimilitud Para datos discretos y" y 2, ••• , Yn• la función de verosimilitud les la probabilidad de observar los datos que de hecho se están observando: L(Y1·>'1·· ··· Y··O} = P{y1.Y1 ..... y.)

que consideramos como una funci6n del parámetro desconocido de la población, O. Si los datos se toman de una distribución continua/r(y), la distribución de probabilidad P se reemplaZ41 por la función de densidad/ : L(y¡, Yi· ··· ·Y··O)

= /(Y1.Y2···.,y,.)

Suponiendo que los valores muestrales se toman independientemente, podemos obtener la probabilidad Po la densidad f como un producto:

L(Y1·Y2· ····Y··9)

= P(y 1)P(y2) ... P(y,.)

o

Si, en un experimento binomial con n =5, obtenemos y =2, entonces la verosimilitud es simplemente la probabilidad de dos éxitos en cinco ensayos tomada como una función de la probabilidad de éxito desconocida de la población, 7t.

7.)

EJEMPLO 7. 1 1

Solución

287

Ese.madores de mhima veros1m1htud (r))

Suponga que, independientemente de los que sucede el resto de los días, el número de trabajos que llegan en un día o un taller mecánico tiene una distribución de Poisson con media desconocidaµ. Suponga además que el primer dfa de la muc'itra llego sólo un trabajo y que el segundo (y último} día llegan cuatro. Escriba la función de- verosimilitud. Recuerde que Ja distribución de Poisson es discreta con P()')

µ' = t-•y!

Los valores observados son y 1 "" 1 e y 2 =4. Lo verosimilitud es

que se puede reducir a s

t(l,4,µ)

= e- 2" ~4 !



Estimación máximo verosímil de O Pora valores observados en una muestra y 1• y 2 , ••• , y"' Ja estimación máximo verosímil de un parámetro Oes el valor fJ que maximiza la función de verosimilitud L(Y1.Y2· ... • y", 8). • En un experimento binomial con n = 5 e y; 2, la (.'Stimac16n máximo verosímil de 1t es (de acuerdo con Ja tabla 1 del apéndice) igual a O 40.

EJEMPLO 7.12

Remítase a la función lle verosimilitud que se encontró en el ejemplo 7 . 11 . Indique cómo podríamos utilizar uno tabla de probobilidades de Poisson para enc(lntrar la estimación máximo verosímil deµ.

Solución

La verosimilitud que se encontró en el ejemplo 7.11 es el producto de las probabilidades de Poisson de obtener y 1 "" 1 e y 2 - 4. Utilizando la tabla 2 del apéndice, podemos c:ilcular estas probabilidades y obtener lo siguiente: 2.3

2.4

2.S

2.6

2.7

P,111

.2306

.2177

.20S2

P,(4) /.(J. 4, JI)

.1169 .0270

.1254 .0273

. l.H6 0274

.1931 .1414 0273

. lll Is 141(1( 0270

I'

El valor deµ que maximiu¡ la función de \Crosimilitud es 2.5. Así, la estimación m;\ximo verosímil es ji ""2.5. •

188

7

ESTIMACIÓN PUNTUAL

En principio. siempre es posible encontrar estimadores de máxima verosimilitud calculando numéricamente la funcíón de verosimilitud. No obstante, con frecuen¡ia es más fácil uti lizar el cálculo diferencial para encontrarlos. Recuerde ustea que para determinar el máximo de una fu nción se iguala a cero la primera derivada y se resuelve la ecuación que de ello resulta. En principio se debería utili1.ar el criterio de la segunda derivada para asegurarse que lo que se obtiene es un máximo, no un mínimo. No obsUUlte, es muy claro que la solución de la ecuación correspondiente a la primera derivada produce un estimador de máxima verosimilitud, no un mínimo. En los problemas de verosimilitud, con frecuencia es más com eniente trabajar con el logaritmo natural de la' erosimilitud que con l:i verosimilitud misma. En \ irtud de que el logaritmo es una función creciente, a medida que la verosimilitud se incrementa hacia su máximo, también lo hace su logaritmo. Por ejemplo. conside re nuevamente un experimento binomial con n =S e y - 2. La verosimilitud es .,

L( ... n)-=

5! 2

!)!

2

n (1 -

tt)

3

Si denotamos la función logarítmica de la verosimilitud como /(2, n), tenemos que /(2.n)

= log(5!l- log(2!3!) + 21ogn + 31og(I

- n)

Igualando la primera derivada a cero: 2 3 ---==O n 1-n

=215 - 0.40. Por lo tanto. el cálculo diferencial proporciona la misma estim:ición máximo verosímil, it = 0.40, que la calculad:i con m¿todos numéricos. La solución de esta ecuación es ñ

EJEMPLO 7. 13

Remítase al ejemplo 7.11. Encuentre la estimación má.ximo verosímil deµ utilizando el cálculo diferencial.

Solución

Nuevamente, lo mejor es utilizar el logaritmo de la verosimilitud. En el ejemplo 7.11 encontramos que s

L(l ' 4 ,µ ) --e -2,.L 1!4!

de modo que el logaritmo de la verosimilitud es /(1.4.µ)

= -2µ + 51og(µ)- log(l!4!)

Igualando a cero la primera derivada, obtenemos la ecuación

289

Seccoon 7 3 E1erc1c1os

de modo que la estimación máximo verosímil deµ esµ = 512 2 5. Una vez más. el resultado que se obtiene con el cálculo diferencial concuercfa con el resultado que se encontró numéricamente. • Un problema importante en la teoría estadística consiste en estimar la media poblacional µbasándose en una muestra aleatoria tomada de una pohlación normal. La distribución normal se hasa en una variable aleatoria continua con densidad

El logaritmo de la !'Unción de verosimilitud de una muestra alcatona tomada de una población normal se puede encontrar por medio del álgebra. Éste es

Para cualquier valor especifico de veros1m1litud con resrccto aµ es

o+ o+¿

{}' - µ)

~.122 (

(T,

digamos 3.72. la deri\'ada del logaritmo de la

o

1-.l estimador de máxima verosimilitud o;c encucntr.i rl.'sol\'iendo la ecuación que se obtiene al igualar esta expresión a cero '(}',

µ)

i...,3}22

o

Una forma de ver que µ - y es la solución de esta ecuacit'ln es ohsen ando que t(y, - .v) =O. Obviamente, la elección de cualquier valor particular de a es irrelevante para el cálculo del estimador de máxima verosimilitud de µ; nuestra elección de a 3.72 fue arbitraria y no tuvo ningún efecto en los cálculos 1 n gener.il. cuando la distribución de la roblación es normal. la media muestral es el estimador m:is diciente y tamhién el estimador de máxima \'Crosimilitud . /\si, saht!mos 4ue cuando la población es normal, la media muestra! es un estimador de múxima verosimilitud de la media pohlacional y tarnhh!n, que la proporción muestra! es el estimador de máxima \erosimilitud de la probahilidad de éxito cn'un experimento binomial.

SECCI Ó N 7 .3

EJERCICIOS 7 .18 Con frecuencia es factible suponer que loi; tiempos >'¡. Y~ . ... entre las llegadas de clientes a una tienda tienen una d1 ~1r1h11ción cxpo~ncial negativa. f,,(y) =

º(' .,

290

7

ESTIMACIÓN PUNTUAL

Utilizando un proceso similar al de las distribuciones discrela.S, podemos encontrar ert este caso el estimador de máxima verosimilitud para una muestra de n observaciones y 1, y 2, • •• , y~ maximiundo la verosimilitud

Suponga que una muestra de tamai'\o n • 4 nos da y 1 = 2 4,

y1

.::

.8,

y,

.2,

y., = 4.6

a. Demuestre que para 9• 0.S, la verosimilitud es (0 ..5)4c 4 - 0.00114. b. Construya una tabla de "erosimilitudes para este problema. con

o-

iJ

.1, .2• .3. .4, . .s•.6• .7.. 8, .9. lo

(Necesitará una calculadora que maneje valores exponenciales.) c. ¿Cuál piensa usted que es la estimación de máxima verosimilitud de 8 en esta situación? 7. 19 a. Utilice el cálculo diferencial para demostrar q:JC el estimador de máxima verosimilitud de 9 en el ejercicio 7. 18 es iJ - 0.S. b. Dcmuestre que para una muestra de tamallo n tomada de la distribución exponencial negativa, el estimador de máxima verosimilitud de 9 es l

o- ... -¿11-r.= 7 .20

r

Una expresión de la función de densidad logarítmica normal está dJda por la siguiente función matemática: /.(y)• _l_

,/hy

c 1n(C1ou1-•I',

donde 7t .. 3.141.59 ... y log y es el logaritmo natural de y . Suponga que una muestra de tamai'\o 2 nos da y 1 = 4.28 e y 2 = 4.69. a. Utilice una calculadora que maneje logaritmos naturales para verificar los siguientes valores. Sugerencia: la verosimilitud paran"' 2 observaciones es -1- e (l•Y1.Yz

1.2

(J.

Verosimilitud:

11111• . , • . ...e

00723

-111t1•01-•1•)

1.3 00760

14

00783

1.5 00791

16

00783

b. ¿Cuál es la estimación máximo 'erosimil de 9, según estos valores? i}

7 .21 a . En el e1ercicio 7.20, utilice el cálculo diferenciill para maximizar la verosimili-

tud. b Demuestre que para un n general, el estimador de m:lxima verosimilitud de 8 en la función de densidad logarítmica nonnal es



os=-1•_•¿ _togy, _ 11

.

Sugerencia: para maximinr la verosimilitud, minimice

¿ ººª r. -

1.

1

nil

791

Re-sumen

7.22

La función de

den~1dad

/,(y) • .St

de Laplace

11-fl

se compara con una distribución nonnal, simétrica en tomo al valor de 9, pero tiende a presentar valores atípicos. Suponga que cinco observaciones tomadas de una densidad de Laplace nos dan y 1 - 2.6, y 2 = 5.1, yl 4.7. y~,. 9.6 e Ys 5.0. a. Encuentre la media y la mediana de los datos muestrales. b. Calcule la función de verosimilitud cuando 9 es igual a cada uno de los valores que se encontraron en el inciso (a). c. ¿Puede ser la media muestra! el estimador de mbima verosimilitud de una población de Laplace? Explique su razonamiento

Resumen

• Este capitulo es el primero que se dedica a hacer inferencias acerca de la población (o proceso) subyacente basándose en los datos de la muestra. En él se introducen algunos principios para elegir buenos estadísticos que resuman la muestra. Hay dos criterios fundamentales: Los estadísticos deben ser insesgados (ser correctos en el promedio) y deben ser eficientes (tener la menor variabilidad posible y, por consiguiente, el error estándar más peque~o posible). La ele<:ción del mejor estadístico depende de las hipótesis que se hagan acerca de la población o del proceso subyacente. Por consiguiente, las gráficas de los datos son extremadamente útiles para seleccionar estimadores razonablemente buenos. La noción de eficiencia se puede aplicar al considerar muestras con reemplazamiento o sin él. Los resultados indican que tomar muestras sin reemplazamiento es mós cticicntc. pero por un margen 1nsignificantc en la mayona de los casos. Los resuh3dos también indican qu~ el tamai\o 3bsoluto muestra! es el factor primordial al determinar la precisión de la estimación; y que, sorprendentemente, la fracción de ta población de donde se toma la muestra tiene muy poca importancia.

FÓRMULAS PRINCIPALES: Est1mac1ón puntual l. Estimador inscsgado (} del parámetro 9.

E(O)

:e:

o

2. Error estándar de

Y <1

muestra con reemplaz.amiento:

ª1 .. J;

muestra sin reemplazamiento: 11,

-

j;; JZ =;

3. Función de verosimilitud: L(y 1 ,y1 , •.•• y.,6) = P(y 1)P(y1 )- · · P(y,,) Para variables 3leatorios continuas, reemplace 13 probabilidad P(y,) con la función de densidad./tv,).

292

7

ESTIMACIÓN PUNTUAL

Bajo hipótesis muy específicas acerca de la distribución de Ja población subyacente, se pueden encontrar estimadores eficientes e insesgados por el método de mi.xi~a verosimilitud. Este procedimiento pennitc encontrar el valor del parámetro de la población que maximiza Ja probabilidad de obtener los datos que en realidad se obtuvieron.

CAPITuLO 7

EJERCICIOS 7.23

Una aplicación del método de Montecarlo incluye 5000 muestras, cada una de tamarto 30, de una población con colas anchas que tiene una media de 300 y una desviación estándar de 25. En cada muestra se calculan la media, la mediana y la media truncada ni 20%: Estad lstico

Media

Medianii

Media tnsncada

Valor promedio Varianu

298.91 3S.79

300 74 41.27

299 09 28.47

a. ¿Resultan insesgados o casi insesgados los estimadores? b. ¿Qué estimador parece ser el mis eficiente'! 7.24 Se toman muestras de tam<mo 30 de una población exponencial que tiene media r. Recuerde, del capitulo 5, que la distribución exponencial es asim~trica hacia la derecha. 1 e.Deberían ser la media, la media truncada y la mediana mucstralcs estimadores in csgado-; de la media poblac1onal? b. Los valores promedio (de 1000 muestras) de estos tres est1madorcs son 1.0026 para la media, 0.8489 para la media truncada y 0.7149 pora la mediana. ¿Concuerdan estos resultados con su respuesta al inciso (a)? 7.25 Se toman muestras de tamarto 60 de una población simetrica. ~ro con fuene tendencia a los valores atípicos, que tiene media cero y desviación estándar 9.95. En la figura 7.5 se muestran diagramas de caja de las medias, medias truncadas y medianas resultantes. a. e.Parecen ser insesgados los estimadores? b. ¿Deberla ser la media muestra! el estimador más eficiente de la media poblacio· nal cuando se toman muestras de esta población'? 7 .26 A continuación se muestran los promedios y las desviaciones estándar de los tres esllm:idorcs del ejercicio 7.25: Desviación cstindar

Estimador

Promedio

Media Media truncad3 Mediana

-.028S

l.JI6S

0014

J6Q9 .3262

.0003

¿Son consistentes estos resultados con sus respuestas al ejercicio 7.25? 7.27 Se va 1 tomar una muestra aleatoria de SO observaciones de una población de interés. e.Bajo qué distribución muestra! preferirla usted utili7.ar la mediana muestra! en

293

o

.. ·-·--1 11

1 - - - - --

-

••

media

·+ -· ·+ -

media truncada al

so•.

me dia na

-6 .20

FIGURA 7.5

-4.68

·3.16

·1 .64

·0.12

1.40

2.92

4 .44

Diagramas de ca1a de tres estimadores: población prope nsa a valores atípicos. n=60

vez de la media muestra! como un.i estimacíón del "centro" de la población? En cada caso, explique por qué prcfcrirfa utilit."1r la mcdi:ina. 7 .28 Se toma una muestra de 400 individuos de la población de todos los individuos en E~tados Unidos que tienen licencia para conducir. El propósito del estudio es deter· minar si conocen un nuevo producto. Ila} muchos millones de personas en la pobla· ción; una muestra de 400 es tan sólo una fracción microscópica de ella. Por consiguiente, podemos oirgumentar que l:i mue~tra no puede m siquiera dar una estimación precisa de la proporción de indi' iduos que tienen conocimiento del pro ducto. ¿Es éste un argumento \:ilido? 7.29 Un estudio proporciona dos variables ale:itorias. Y1 e }'~ . Cada una de ellas tiene valor esperadoµ, la media pohlacional de interés. 1.a variam'."1 de Y1 es 2 y la de Y2 es 8. Se (lTOponen tres estimadores:

1i, _. .5 Y, + 5 Y1

¡,I til

.:? Y, = .8 Y,

+ .ll )'! + .2 Y2

lJ11licc las propiedades de los valores esperados que analitamos en el capítulo 4 p:.m1 determinar cu:il de estos estimadores es insesgado. 7 .30 ¿C~I de los estimadores del ejercicio 7.29 tiene la vari:in7.a más pequella? lltihce las propiedades de las varian1as que analizamos en el capítulo 4. ¿A qu~ \.inalile

294

7

ESTIMACIÓN PUNTUAL

:ileatona se le debería ~r un peso mayor, a la que tic:nc la varian1.a más grande o a lj que tiene la varian7..a mós pcquei\a? Una compañia de servicios que administra comedores c:n distintas compañías prueba un nuevo procedimiento para Ja licitación de contratos CadJ un¡¡ de las cuatro oficinas de la compaftia utilit.41 el procedimiento hasta g;inar tres licitaciones. La oficina 1 n:4uicre 7 de ellas. la 2 requiere 9, la 3 requiere 6 y la 4 requiere 14 licitaciones. Podc:mos suponer que a la \;ir1able Y número requerido de llc1taciones i;e le puede aplicar una d1stribuc1ón binomial negativa (capítulo 5). Recuerde que pilril la distnbuc1ón binomial negiltiva.

7 .31

(y-1)! '(I 11 ' }' - (k - l)!(y - k)!

)'•

P.()

- JC

donde k número de éxitos que hay que obtener y Ir es la probab1lid:id de éxitos. a. ¿Cuál es el valor de le en este problema? b. Calcule la verosimilitud de los resultados obtenulos pilra tr • 0.1 O. 0 .20, O.JO, 0.40, 0.50. 14TB

>

pr lnt •sal es'

sa les 100. 11 99 .9 101.8 84 .0 100 .9

99 .9 911 . 3 101.2 100. 3 104 .8

98 .2 100 . 0 93 . 6 100.5 99 . 5

99 .S 142.l 99 . 7 99.1 102 . 7

100.1 101.3

91 .7 99.6 109 .3

100 . 1 98 . 2 100. l 100. 1 98 .0

100.7 98 . 2 119. 4 100 . 2

103 . 9 98.7 99. 3 102. 1

14TB > descri be •sales ' sales

42

MEAN 100. 71

HEOIAN 100. 10

TRMEAN 100.09

sales

HIN 80 .50

HAX 142 . 30

01 911 .60

03 101.22

N

14T8

>

STOEV 8 .61

hist ogr11111 of •sa les' N = 42

HiStOiJr8111 of sales

Hidpoiot 80 85 90

95 100 105 110 115

120 125 130 135

140

Count 1 • 1 •

o

2 •• 32 ••••••••••••• •• • •••••••••••••••• 3 ••• 1 •

o

1 •

o o o 1



• Noto. soles • ventas. Sahda de M1n1tab para el e jerc1c10 7.35

SEHEAN 1.33

80 . S 93 . 2 101 . 6 100 . 2

295

Ejerc1ct0$



140• sel es

120•

... . • ••



• 80•



········+·····-···+·········•·········•·········•········nacorea · 1.60

FIGURA 7.6

d

iJ

·0. 80

0.00

0.80

1.60

Diagrama normal para los ejercicios 7.35-7.36 Minitab para el ejerc1c10 7.37

c. ¿Cuál de estos valores de tr parece ser el más cercano al estimador de máxima \erosimilitud? 7.32 Utilice el cálculo diferencial en el ejercicio 7.31 para encontrar el estimador de máxima verosimilitud de rr. 7.33 Una compailfa de seguros utili.ta l:i distribución de Pareto

como la supuesta distribución de probabilidad de Y= importe (en miles de dólares) de los pagos por liquidacióo de seguros de responsabilidad civil. Para una clase de póli1.as, tre'> reclamos de pago proporcionan y 1 -= 0.82, y 2 - 0.63 e y 1 • 7 .55. a. Escriba una expresión para la \ erosimilitud como una función de 6. b. Calcule la verosimilitud para 8 1, 2 y 3. ¿Cuál de estos tres valores de 9 lc parece más cercano a la estimación máximo verosímil? 7.34 En el ejercicio 7.33, utilice el cálculo diferencial p:ira encontrar el estimador de máxima verosimilitud de O. ¿Cómo se generali111 la respuesta para cualquier mues· tra de tamaño " tomada de una población con distribución de Pareto? 7.35 Una c:idena de 1.apaterías fija un presupuesto de ventas para cada tienda. Se reunen Jos datos de las ventas reales de una muestr:i de tiendas como una fracción de las ventas presupuestadas. Estos dalos, procesados con Minitab. son Jos que se muestran en la página anterior: a. Localice Ja media y Ja mediana muestrales. b. ¿Cuál de estos valores debería ser una mejor estimación de la media pobla· cional? 7.36 l:n la figura 7.6 se muestra un diagrama normal de los datos del ejercicio 7.35. a. ¡,Qué indica la forma del diagrama normal acerca de Ja forma de los datos de Ja muestra? b. ¿Confirma el diagrama normal su respuesta al inciso (b) del ejercicio 7.35'? 7.37 Un represeotantc de un productor de café mide la fracción dedicad::i a su marca en las eslanterlas en que se exhiben todas las marcas. Obtuvo los siguientes resultados:

296

7

ESTIMACIÓN PUNTUAL

HTB > pr int • fr• ct fon' f r ac t t on o. 157895 o. 142857 0.090909 0.269231 0.238095 0. 130435 0 . 230769 o . 153846

0. 160000 0. 200000 0.1 25000 o. 13636' 0 . 210526 o. 192306 o . 190476

o. 105263 0. 200000 o . 142857 o. 176471 111111 0.187500 0 .062500

º·

o. 142657 o. 160000 o. 142857 o. 2212n 0. 187500 0. 210526 o. 166667

0.250000 0. 210526 0.21 0526 0. 120000 o . 142857 o. 117647 0.083333

0 . 166667 o. 142857 o. 130435 0 . 176471 0.095238 0. 200000 0. 142857

0.2 10526 o.2212n o. 136361. 0. 210526 0. 210526 0 . 125000 0.150000

MT8 > t t 9m and lttf of •f rec tíon• Sttm·•nd· l ••f of fr ac t lon Lttf Un l t • 0.010

, 4

7 14 24 (6) 20 16 6 2

,

o o 1 1 1

6 899 011 2223333 4444444555

1 2 2 z z

8899 0001111 111 2233 5 6

• 50

, 6666n

HTll > duc rlbt

1

f r1et l on• HEAM

HEOJ.AM

lRHEAll

STOEV

SE MEAN

50 0.16623

o. 16000

o. 16631

0.0461.4

0.00657

N

fr ect l on

N

MIN

MAX

f r ect l on 0.06250

0. 26923

01 03 o. 13488 0. 21053

¿Hay algun3 razón para pcnsM que la media muesmll es un esum:idor ineficiente de la media poblacional? 7.38 En la figura 7.7 se muestra un diagr:ima normal de los datos del ejercicio 7.37. ¿Confirma la forma del diagr;ima normal su respuesta al ejercicio 7.37? 7 39 Una compaJ'lla que alquila teléfonos celul:ires p:ira automóvil cst;i interesada en l:i cap:icidad crediticia de sus clientes. Si los pagos dc:I alquiler no se hacen a uempo (o simplemente no se hacen). la compaJ'lia sufre cu:intiosa~ pérdidas. En general, alrededo r dc:I 11 % de los alquileres presentan problemas crediticios. La compaJ'lia ha decidido ensayar un sistema de registro de créditos para e\aluar a sus futuros clientes. l· I s islcma utili;;a información contahlc de los clientes. tal como el cociente ca· pital de trabajotgasto; med idas d e la cst:ibilidad del cliente, como el numero de aJ'lo~ en su dom icilio actual, y medidas de la estabilidad de la industria del cliente, como la variabilidad de las utilidades de un aJ'lo a otro. Toda esta información se combina para obtener una calificación: mientras mis alta sea éiaa más fiable será e l cliente. La eompai\ia quiere hacer una estimación del 11 percentil ele la población de sus cliente s actuales con este sistema de ealiíieaciones, pues planea utilizar dicha calificación como un limite para otorgar los créditos.

297 " T8 > plot 'f ract ion' vs •nscores• 0.280+



fr 1ct ion-

2•



7

0.210+

z2

2 3

2

2•2

o. 140•

2 7

• • 0.070•

••• •

• 22



········•···-·--··•·········•···-·--··+·········•········nscorea - 1.60

FIGURA 7.7

-0. 80

0.00

0.80

1.60

Diagrama normal para los ejercicios 7.37-7.38

l.a base de datos computadori1..a1<;tc simplemente en utili7..ar el promedio de lo<; registros cuadragésimo cuarto y cuadragésimo quinto. ordenados de menor a ma) or l·ste método garantii..:i.rá que 44 ·400 de los registro\
298

7

ESTIMACIÓN PUNTUAL

7.41

La compailla de alquiler de teléfonos del eje:-cicio 7.39 quisiera obtener una mues· tra de los registros de crédito de 400 climtcs. Los datos se utili7.arian para estimar no sólo el 11 perccntil, como en el ejercicio 7.39, sino también para estimar la mc'ttia. Como una "estimación h1potetica", la compai'Ua ~upone que la desviación estándar de los ~gistros de 18,000 chentcs es alrededor de 12.0 a. Calcule el error estándar de la media mucsr.ral suponiendo un muestreo con reem· pla7.amiento. llaga el mismo cálculo suponiendo que la muestra se toma sin él. b. Oe hecho, ¿cómo deberla llevarse a cabo el muestreo? ¿Qué t:in gr.lnde es la diferencia? c. ¿Se deheria preocupar la compa"ia porque la muestra sólo toma en consideración a menos del 3% de sus clientes? 7.42 l'n anísta hí10 cieno número de impresione~ de una litografia ~ de«pue-; deo;trU)Ó la plancha. Nunca se re ..eló el número total de impresiones, pero cada copia tenia un número de serie. lJn corredor de obras de arte se dio cuenta de que el 'alor de cada copia dependi:l en gran medida del número que se hubiese hecho. También dcscuhrtó que las cuatro copias que se encontrahan en ese momento a la venta tenían números de serie y 1 14, ) 2 • 4. l ¡ =21 e l '4 = 11. Parece rvonable rnponer que toda~ las copias tienen 13 misma probabilidad de estar a la \cnta, de mod(l que la d1-;1ribución del número de serie }' deheria ser uniforme: P,(y)-= 110.

7.43

7.44

para }' .. 1. 2•.. .•O

donde 9 es el número desconocido de copias que se hicieron. (Por supuesto. es imposible tener un numero de serie mayor que el número de impresiones hechas.) a. Calcule la verosimilitud de los números de serie observados para 8 = 25. 24. 23, 22, 21 y (atención) 20. Aun cuando los números de serie en realidad no son independientes (en efecto, la muestra se ha hecho sin reempla7.amiento), en este caso no se perderá nada importante si supone que lo son . b. ¿Cuil parece ser la estimación mbimo verosímil de ff! a En el problema de los números de serie del ejercicio 7.42, ¿cómo se generali7..a el estimador de mbima verosimilitud al caso den números de serie ~· 1 • v, .... >'? Aunque no concuerde con los hechos. usted puede '>uponcr que ha) indercndenc~a entre los numeros. )a que ello no tiene ninguna imponanc1a en este problema. b. ¿Es ~te un estimador inscsgado? Usted no deheria reali1ar ningún cálculo matemittco para responder a est.i. pregunta Fn el e1ercíc10 6 51 usted obtuvo 100 muec;tras. cada una de tamaf\o 12, de números aleatorios que e<;taban distribuidos uniformemente entre O y 1. Introduzca los datos de esas muestras a un programa de computadora o. en su defecto, obtenga un nuevo conjunto de 100 muestras. a llaga que el programa calcule la media> la mediana de cada muestra. Encuentre el promedio de las medías y el promedio de la-; medianas. <.Parecen i;er insesgados ambos cstadisticos? b. llaga que el programa calcule las desviaciones estándar de las media<; y las medianas. "Qué estadístico parece ser más eficiente en est:i situación?

estimación En el estudio de caso del capitulo 6, usted desempeM el papel de un empleado de una compailia telefónica que estaba considerando tomar muestras entre sus clientes par:i. estimar la califkación promedio en un sistema en el que <;e valorad merecimiento de créditos. Dicha comp:ii\ía ha decidido tomar una muestra de 200

299 empresas (usuarios que no son individuos) de la lista de clientes actuales. No obstunte, alguien se dio cuenta de que lo que importa no es la calificación promedio sino la calificación que indica problemas potc:ncialcs para pagar las deudas. Específicamente, la compafüa m:ccsita estimar el 8 percentil de las calificaciones. pues cerca del 8~o de sus clientes tienen problemas de paso. Como el 8° o de 200 es 16, una estimación obvia es la decimosexta calificación más baja de la muestra to tal vez el promedio de Ja decimosexta> la decimoséptima). Su ayudante arguye que una muestra de tamaño 200 es sulicientc:mentc grande como para suponer que los datos son normales, de modo que usted dc.:bcría obtener la media y la desviación estándar muestr.ll y estimar el 8 perccntil como 1.41 desviaciones están· dar por debajo de la media. Sin embargo, su ayudante sigue creyendo que la muc:stra es una fracción muy pequeña de los 80,000 clientes de la compañía. Escriha un breve memorándum para su U) udante, respondiendo a sus ideas. Como) a ~e hahrá dado cuenta, su ayudante no fue un estudiante estrella de estadística, de modo que usted deberá explicar .. u r.lzonamiento con claridad.



CAPÍTULO

8

300

ESTIMACIÓN POR INTERVALOS

En el capítulo 7 el análisis se centró en un tipo de inferencia estadística: la estima· ción puntual. La tarea consistla en hallar el mejor número para el valor del parámetro de una población. Los métodos que desarrollamos en et capitulo 7 no incluyen ninguna indicación explicita del probable grado de error. Es por ello que en este capitulo vamos a desarrollar métodos que nos permiten no sólo encontrar la mejor estimación del valor de un parámetro, sino también el pro bable grado de error en la estimación. Los métodos que estudiaremos permiten determinar tanto un valor aislado que sea la mejor estimación del parámetro de una población. como un interva· lo de valores razonables para dicho parámetro. Dado que estos procedimientos proporcionan todo un intervalo numérico de valores posibles para un parámetro, se les llama métodos de estimación por intervalos. En este capítulo nos basamos en los métodos de estimación puntual del capítulo 7 para desarrollar la estimación por intervalos para los parámetros. Una vez que hayamos especificado algunos procedimientos de carácter general, nos ocuparemos Je algunos métodos espec íficos para los parámetros más impo rtantes, tales como las medias) proporciones poblacionales. En la sección 8. 1 se presenta. el concepto gene· ral Je intervalo de confianza, dándose la casualidad de que el análisis se lleva a cabo en términos de las medias. En la sección 8.2 se extiende dicho concepto al problema de la estimación de úna proporción. En la sección 8.3 volvemos al problema básico de la planificación de estudios estadísticos: ¿ De qué tam:u1o necesita ser la muestra para lograr una precisión dctermi nada? La sección 8 4 contiene la teoria básica de la distribución t de Student. una distribución de uso general para la determinación de intervalos de confianza y el desarrollo de otros t ipos de inferencias estadísticas. En la sección 8.5 se analizan las consecuencias de la aplicación de la d istribucí~\n t de Sllldcnt a los problemas relativos a los intervalos de confianza. En la sección 8 6 analil,.amos las hipótesis subyacentes a los métodos de estimación por intervalos. las consecuencias de violar dichas hipótesis. y los métodos para detectar el incumplimiento de las mismas. En la sección 8.7 analizamos la estimación por intervalos para la mediana de la población, en contraste con los métodos para la media, y en Ja sección 8.8 utilizamos los intervalos de confianza para estimar la desviación estándar.

l

101

81

8.1 rango prohablc

estima ción por inte rvalos

intc nalo d e confianu al 95% paraµ

ESTI MACIÓN POR INTERVALO S D E LA MEDIA PO BLACIO NAL CO N DESVIACIÓN ESTÁNDAR CO NOCIDA Las ideas presentadas en el capítulo anterior analizan la estimación puntual: encontrar la mejor estimación de un parámetro poblacional. Es casi inevitable que tales c~timaciones tengan algún grado de error. La especificación
P[µ ,.... 1.96(3) ~ Y ~ µ + 1.96(3)] = .95 Dicho de otra manera: cada vez que la media muestra! observada y se encuentra en el intervalo µ ± 1.96(3 }, el intervalo y± 1.96(3) contiene a µ. Esto se muestra en la figuro 8.2. Como la posibilidad de que Y se encuentre en el intervaloµ:!:: 1.96(3) es de un 95%, la posibilidad de que el intervalo Y± 1.96(3) contenga aµ es de un 95%. En la práctica, por lo general, sólo tomamos una muestra de la población de interés. El intervnlo y± 1.93(3) que construimos utili1.ando la medio muestra! observada se llama internlo d e confianza al 95% para µ,

µ - 1 96(3)

FIGURA 8.1

µ + 1.96(3)

µ

D1stnbuc1ón muestra! de

Y

• Nuevamente, ut1hz.arnos leins mayüsculas para las variables aleatorias y lctta.s minúsculas ¡art loa v1· lor~s correspondientes. Asl, cuando planeamos tomar una muestra, consideramos probabilidades 1cer· ca de Y. Cuando la mucstr1 nos proporciona los valon:s 90, 96, 100 y 106, y• 98.

'

302

8

ESTIMACION POR INTERVAl.05

'

µ

11 + 1.96(3)

y. 1.96(3) y+ 1 96(3)

FIGURA 8.2

D1stnbuc1on muestra! de Y La f<.'>rmula general para el intervalo de confianza de una media poblacional se deriva de la misma manera. Dicha fórmula es exacta sólo cuando la distribución de la población es normal y se conoce la desviación estándar de la población. No obstante, cuando la distribución de la población es simétrica o ligeramente asimétrica, la aproximación que nos proporciona es excelente para tamaños mucstrales iguales o mayores a 30.

1ntervalo de confianza al 100( 1 - a)% para ¡i. con a conocida

Y-

=1111"r S: µ ~

Y+ z.,2"r

donde u, = u/ Jñ y za12 es el valor tabulado que tiene un área igual a (1)2 en la cola derecha Je la distribución normal estándar o tipificada.



EJEMPLO 8. 1

Una aerolínea necesita estimar el numero promedio de pasajeros en un vuelo de reciente apertura. Su experiencia es que los datos del primer mes de vuelos son poco fiables, pero que despucs el número de pasajeros se estabiliza. Por consiguiente, el número medio de pasajeros se calcula con base en los primeros 20 días hábiles del segundo mes después de haber iniciado los vuelos (considerados como una mucstr:i aleatoria de 20 días tomada de una población hipotética form::ida por los días entre sem;ma). Si la media muestra! es 112.0 y se supone que la desviación estftndar de la población es 25, encuentre un intervalo de confianza al 90% paro el numero medio verdadero de pasajeros del vuelo, en el límite .

Solueton

Suponemos que la hipoh!tica población del número de pasajeros diarios entre semana no tiene un sesgo considerable. En tal caso. la distribución muestra! de Y es aproximadamente normal y los resultados del intervalo de confianza son bastante correctos. aun para un:i muema de sólo 20 días. Para este ejemplo, y 112.0. a;:: 25, y

81

Esumaoón pe<

intenr~os

de la media poblaoc>Nll con desv1ac160 ~itandar coooc1d1

303

=

CJ, CJI ./20 = 5.59. En tal caso, para un intenalo de confianza al 90%, utilizamosz0.os - 1.645 en la fórmula para obtener

112

±

1.645(5.59),

o

102.80 a 121.20

Tenemos un 90% de confianza de que la media este intervalo.

µ en el límite se encuentra en •

Hay un pequei\o probkma lógico al interpretar el "90%" de un intervalo de confianza al 90%. En el ejemplo 8.1 uno se siente tentado a escribir P(l02.80

interpretación d el in ten alo cJe conlian1u

EJEMPLO 8.2

s

µ :s; 121.20)

= .90

pero, tal como se ha escrito, no hay ninguna cantidad aleatoria en la expresión· µ es una conswnte poblacional desconocida, mientras que 102.80 y 121.20 son sólo números. Por lo tanto, desde un punto de vista estrictamente lógico, no podemos aplicar una probabilidad a un intervalo par1icular. El "90%" se refiere al proc:eso de construcción de Jos intervalos de confianza. Cada intervalo de confianza o incluye o no incluye al verdadero valor del parámetro que se estima. En el limite, el 90% de los intervalos así construidos incluye el valor poblacional Asi, decimos que tenemos confianza, al 90%, de que 102.80 ~ µ ~ 121.20. Esta es una forma abreviada de "el intcnalo 102.80 S µ S 121.20 es el resultado de un proceso que, en el límite, tiene una probabilidad de 90% de ser correcto". Un estudio de Montecarlo considera 5000 muestras, cada una de tamai\o 40, tomadas de una población aproximadamente normal. Para cada muestra, se calculan intervalos de confianza de la media poblacional al 90% y 95%. Se lleva la cuenta de aquellas muc)tras para las que la '>crdadcra media se encuentra por debajo. dentro o por arriba del intervalo de confianza:

Debajo

- -lnten·alo al 90~o lntervalo al 95%

236 129

Dentro

Arriba

451'.1 4753

251 118

--- -

¿Cuáles son las frecuencias esperadas'! Compare las frecuencias teóricas (esperadas) con las observadas.

So/ucion

.

Las frecuencias esperadas se pueden encontrar multiplicando las probabilidades ' teóricas por 5000:

Intervalo al 90° o Intervalo al 95%

Debajo

Dentro

J\rriba

250 125

4500 4750

:?50 125

l ,as frecuencias de la simulación son todas muy próximas a las frecuencias esperada!.•

304

B

<1u-.tit11cio11 11l'' r or
ESTIHACION POR INTERVALOS

El análisis que hemos realizado en esta sección incluye una hipóte~i ~ poco' iahle: a saber. que se conoce Ja desviación estándar pohlacional. En la práctica. es dificil e~contrar situaciones en las que se descono1ca la media pohlac1onal y se wno1ca la desviación estánóar. Por lo general. tanto la meJin como la desviación est:indar se tienen que estimar con base en la mueMra. Como (1 se estima con la desviación cstanJar muestra!.~. el \erdadcro error estándar de la media. CJIFn. se estima naturalmi:ntc con si.fñ. Esta estimación introduce otra fuente de error aleatorio (s varía aleatoriamente, de una muestra a la otra. en torno a a) y, cstrictamente hahl:mdo, invalida nuestra fórmula para i:I intervalo de confian1.a. Afortuna
EJEMPLO 8.3

Suponga que la aerolínea del ejemplo 8. 1 torna una mucstr:i de 40 días y encuentra una media muestra! de 112.0 y una desviación estándar de 25. Encuentre un intervalo de confianza al 95% para la media poblacional.

Solución

Paro .f - 112, s 25 y n = 40, <J, =25 / ./40 =l95. Así, utili1ando : 0 .025 - 1.96, el intervalo de confianza al 95% para µ es 112

±

1.96~3.95)

o



104.26 a 119.74

SECCIÓN 8. 1 EJERCICIOS ~--~--~----~----------~----~----~----~------------~

8.1

A continuación reproducimos los datos del ejercicio 7 .1 acerca de un.i muestra del (Xlrccntaje del ingreso bnito que 20 ejecutivos pagaron como impuesto federal sobre la renta

8.2 83

8 •1

160

lll I

!4 1

24 .l

186 24 7

202 25.2

21.7 25 9

224 26.3

22 4 23 1 23 2 27.9 2ll () 4 Supooga que la des\ iación estándar de la población sub}acente es 4.0. a. Calcule un intervalo de contian1a al QSºó de 13 media poblacional b. ('alcule un intervalo de confian1.a al 99~o de la media poblacional. Dé una interpretación verbal mu} de1allada del intervalo de confianza del inciso (a) del ejercicio 8.1. Hasándose en la apariencia de los datos del ejercicio 8 1, ¿es razonable suponer que la distribución muestra! de la media es casi normal? (És1a es una hipótesis subya· ccnte al procedimiento del intervalo de conlian1.a.) Una re\·ista de negocios toma una muestra de OI'. ,.ersonas encargadas de h;icer pronósticos económicos para bancos regionales. La población es suficicntemen1e gran· de. de modo que no importa si la muc~tra se tomó .:on o sin reemplaLamiento.

·'º

• Rt>sulta que csla rc¡la coincide con una regla cs1~ndar para rccumr al Teorema Ccn1ral del l.lm1tc. bta úluma sólo es bueAa para dis1ribuc1oncs de población s1métncas o liscramcntc asimétncas

Secc160 8 1

K.5

8.6

8. 7

305

E¡erocios

Suponga que la muestra de 90 pronósticos da una previsilin promedio la desviación cs1ándar es 4.2%. Calcule un intcr,alo de contian1a al 95% rara la media verdadera de la merma. ¿Cree usted que la distribución mucstml de Y en el e1ercicio 8 5 sea aproximad:imt'ntc normal? t lna cadena de talleres de "servicios rápidos" tiene un servicio estándar para reali1.ar cambios de aceite y verificar el funcionamiento básico del automóvil Sus norm:is es1ablccen que el tiempo promedio para dar el servicio debería ser 12 .5 minutos por au1omó.. 1l lla> un:i variabilidad considerable en los tiempos. entre otros motivos, a causa de las diferencias en el dise1'o de los motores y la carga de trabajo en otras áreas. La desviación estándar observada ha sido de 2.4 minutos. 1~1 gerente de uno de los talleres cronometró aleatoriamente 48 tiempos de servicio (-1 diarios durante 12 días). Los datos se analizaron con Minitab. obtenrcn
HT8 > z1nterval 95X conf1
R.8

l1Mc11tcJ •

STOEV SE MEAN 2 . 417

PEACENT C. I . 12.424, 13 .784)

~.O

(

tiempo u1ili7..ado

a. Escriba el intervalo de confiani..a :11 95% rara la media. Indique qué significa la cifr:.i del 95%. b. ¿ Indica este intervalo que la media de este taller d11im: de los 12.S minutos del estándar? Tamb1~n se calculó con Minitab un intervalo de confianza al 90•1o para la media utili1ando los mismos datos que en el ejercicio 8. 7.

MT8 > i i nterval 90X

conf1~nce

THE ASSUHED SICMA =2. 40 N HEAN t 11neus ed 48 13 . 104

8 .Q

0.346

essi.níng s1 g11W • 2.4 f or

STOEV SE HEAN 2.4 17

o.346

•t1~us ect •

90 .0 PEACENT C.I. e

12.s14,

13.6~>

,,Indica este intervalo que: la media de este taller difiere dt: los 12.5 minul!ls del estándar? ¿Por qué e~ diferente esta respuesta de 13 que se dio en el inciso (b) del ejercicio 8. 7? El siguiente es un dia¡rama de caja de los datos del ejercicio R 7:

Ml8 >

bo~plot

of

1

t1~us ed'

+

···-·!

!-··---··--·······--·



+·-··--···+----·-·-·+·-··-·····----·····•···----··•-··-··ti191\9Mf 10.0

12.0

14.0

16.0

18.0

20.0

306

8

ESTIMAOON PORINT!RVALOS

a. 1,Quc forma de no normalidad indica el diagrama de caja? b. ¿Invalida cs1.:i no normalidad lo-; niveles de confi.:in;ra intl1cados en los ejerci-

'

8.2

'a lor es 1u~ ra d o y c•rr or c'l andar dl· ic

cios 8. 7 y 8.8'!

INTERVALO S DE CONFIAN ZA PARA UN A PROPO RCIÓ N



El método de los intervalos de confianza de la sección 8.1 ~ puede ad:iptar íntegr.i· mente p;ir.i encontrar un interv:ilo de confianza para un:i proporción poblacional. Este método se basa en una aproximación normal a la distribución muestra! de una proporción muestra!. Como tal es también una aproximación, por lo 4ue re4uicre de alg.unu~ reglas paru su uso. 1 a proporción de ~xitos tándar de la vnriable aleatoria binomial Y son, respectivamente, ntr y J111cC 1- n) • se: sigue que (con hase en las propicdadc:s desarrolladas c:n el capítulo 4) e l valor t'Spt'rad o )' t'I error <'~tímdar de ir son, respectivamente. E(ñ)

n

y

" · :=

J lf( 1

• lf)/ 11

Cuando n es suÍlcientementc grande, ir tiene una distribución aproximacfamente normal. así, por ejemplo

p( - 1.96

$ n "• n

5 1.96) :::: .95

Equivalentemente, P(ii - 1.96'1. ~ n 5 ñ + J .96a.I ~ .95 Esta expresión tiene el aspecto de una fórmula par.:i el intenalo de confianza, pero tiénl! el problcmn de qu..: d error e~tánd.u <J,. Jír( 1 ir) /1 comprende al parámetro pohl::lcwnal 1r 4ue se desconoce. Así como podemo'> recmpl:11.ar a con .~ en <J f cuando n es muy grande,
Intervalo de confianza al 100( 1 - u)% para una propo rci6 n

Esta íórmula es la misma que figura en el intervalo de confianz.a para la media: "estadístico muestra! ± valor en la tabla multiplicado por el error estándar". La media muestra! ji se rccmpla.za con la proporción muestra! ir Análogamente, uf se reemplaza con a Ji •

Sección 8. 2

307

E1erc1c1os

EJEMPLO 8.4

Suponga que en una muestra de 2200 familias con uno o más televisores, 471 \en un progrjma particular en un momento dado. Encuentre un intervalo de confian:ta al 1 >5% para la proporción de la población de familias que ven este programa.

Solucion

La proporción muestra! es ir - .n 1/2200 = 0.214, y it(I: Tr)/ n =0.00874. El v;1lor =de Ja tabla que corta un área de la cola derecha de 0.025 es 1.96. El intervalo de confiani.a es

J

.214

1.96(.00874)

s

1[

~

.214

+

1.96(.001<74)

o

.197

~ 1T ~

.231

Usted puede consultar la clasificación jerárquica de los programas de televisión actuales para ver cómo repercute en la clasificación de un programa la difcn:ncia entre .ma audiencia de 19. 7% y una de 23.1 %. • apro~i.u:tci(m

normal a h1 '\ di,tríbucíoncs binomiales

SECCIÓN 8.2

El método del intervalo de confianza tiene como base una :tflrct\.imaciún normal a h1 di,1rihudú11 hinomial que es adecuada para /1 suficientemente grande. La regla es que tanto ntc como n( 1 tr) deberían ser al menos 5, pcm, como Ir es la proporci6n de la población que desconocemos, la regla se tiene que basar en n ir y 11( 1 - ic ). Por lo general, si el tamaño muestra! infringe esta regla (o si !>Ólo se aproxima a ella), el intervalo de confian1..a que se obtiene es
~JERCICIOS 8.1 O El gerente de ventas de un mayorista en hardware encuentra que. Je las últimas 500

8. 11 8. l 2

8. 13

llamadas telefónicas a sus clientes (liencfas de computación), 22? resultaron en la colocación de nuevos productos. Suponiendo que las 500 llamada" representan una muestra aleatoria, encuentre un intervalo de conlian;r.a al 95% de Ja proporción en el límite de colocaciones de nue\nS productos. Dé una interpretación vcrhal mu) Jetallada del intcr\'alo de conlian:1a que encontró en el ejercicio 8.1 O. Como pane de un estudio de mercado, en un:i muestra de 125 personas se encontró que 84 de ellas tienen conocimiento de cierto producto Calcule un intcnalo de confian1.a al 90% para la proporción de individuos de la población que tienen conocimrento del producto. ¿Podemos considerar que la aproximación normal subyacente al inter\'alo de con· fian1a Jel ejercicio 8.12 es adecuada?

308

8

8 14

8.3

amplitud tolrrahle

ESTIMAOON POR INTERVALOS

En una muestra de 40 gerenres de rango medio de una compaMa, se encuentra que 8 participan activ;amentc en organi1..aciones civicas o de beneficencia. Calcule un inter"valo de confian1.a al 90% para la proporción de: todos los gerentes de rango medio que esr3n comprometidos de esa manera

iQUÉ TAMAÑO DEBE TENER LA MUESTRA?



La información es cara. Reunirla cuesta en términos <.le s:ilanos, gastos y tiempos (y utilidades) perdidos. Obviamente, alguna infonnación es crucial para tomar decisiones gerenciales. De este modo, el problc!ma de cuánta información hay que rl!unir (de qué tamaño ha~ qui! tomar la muestra) es básica. Los intervalos de confian?a proporcionan un método adecuado pura rcspondl.'r a c\ta rm.:gunta Suponga que un cjccuti\o de opcrnción de un banco con muchas sucur.,ales qu1c:re saber el promedio dinno de cheque\ 4uc pc!rmaneccn l.'n las sucursales hasta el día siguiente. Todos los días, un coche hhndac.lo recoge los cheques recibidos y los transporta a un centro de procc:so, donde se les registra y envía a la cámar.l de compensación. Los coches deben visitar las sucursales antes de que éstas ciem:n. por lo que un volumen sustancial de cheques pueden no ser recogidos sino hasta el día siguiente. El interés perdido puede ser muy costoso. ¿Por cuántos dias se dche calcular el volumen de cheques no recogidos para tener una idea r:mrnable
8 3


•~ m~st~•

309

El procedimicnto de ensayo y error se puede ilustrar con el ejemplo de los cheques que no se recogen cfo las sucursales del banco Suponga que se desea un intervalo de confianza al 95% con una amplitud no mayor de 5000 dólares (un término más-menos no ma~or de 2500 dólares), y que la desviación estándar en el límite se estima en 10.000 dólares. Suponga que nue~tro primer intento lo hacemos con 11 = 16. El intervalo de confiant..a es y± 1.%( 10.000 í ./i6) o ji± 4<>00. l a amplitud de este intervalo es casi el doble que la deseada; para reducir a la mitad la amplitud del intervalo de confianL.a, dchemos cuadruplicar el tamar'to de la muestra, pues éste aparece en la fórmula para el error estándar como _¡¡;.Con /1 =64, el intcnalo de conlianl.41 al 95% es y :1: 1.96(10.000 'J"64) o Y t 2450. que es aproximadamente lo que queremos. Como la hipótesis de que la des\ iac1ón est;índar es l 0.000 dólares es tan sólo una suposición. no tiene mucho sentido discutir si /1 debería ser 64 o 63 o 65: un valor den que "cumple su p:lrtc" es suficiente. rodemos calcular el tamaño de mue'>tra requerido con una fórmula. Haga =an.<J I Jñ igual a la tolerancia Ey obtengan.

Tamaño muestra! requerido para un inte rvalo de confianza al 100( 1 - c.t)% de amplitud ciada para la media poblacional µ El 1am:ii10 muc, cral requerido para obtener un intervalo de confianza al 100( l a)% para una media poblacional µde la forma y± E, donde E - : 112 (] / .Jñ. es

z!,2112 E2 La amplitud del intervalo de contian1.a es 2E. n =--



EJEMPLO 8.5

L's dirigentes sindicales están pn.:ocupados por los informes de 4ue una compar'tía dentro de su jurisdicción está pagando salario<; interiores a sus empicados ~De qué tamaño dl!bc ser la rnue:;tra para obtener un intervalo de cnnfian1a al 90° o para el salario medio por hora de la pohlación. µ.que tenga amplitud igual a un dólar? Suponga que (] - 4.00 dólares.

Solución

La amplitud buscada es 2E - 1.00 y (] =4.00. Sustituyendo en la formula para el tama11o muestral con =a/2 = 1.645, tencrno<>

• EJEMPLO 8.6 Soluc1on

¿De qué tamar'to debe ser una muestra para obtener un intervalo de confianza al 9S% paraµ. con una amplitud de 2 décimas de una desviación est:indar (poblacional)? L;i amplitud busc:ida es '2E =0.2CT. de modo que E= 0.1 CT. f>or lo t::into

3 10

8

ESllM.t.CION POR INTERVALOS

( l.%)211l -(.111) 1

2

( 1.96) --- ~ (. l)z

J

84



Oeterminar el tamaño rnuestral para d intcr'
:: li(I - if)

E1

El único problema es que el tam:iño muestra! depende de ii. !lasta que se determina el tamai'lo muestra! y se toma la muestra, desconocemos el valor de ii. ! la) varias maneras de resolver este problema. Podemos sustituir ir"' 0.5 en la fórmula para el tamaño muestra!, lo que resulta en un tam;iño muy conservador, por lo general. más grande que el tam:iño requeri
Tamaño muestra! requerido para un intervalo de confianza al 100( 1 - a)% de amplitud dada para 1f El tamaño muestr.il requerido para obtener un intervalo de confianza al 100( 1 - a)% para Tr de la forma ii ±E, donde

es

Nota: uuhce ii = 0.5 para tener un tamaño prudente (más bien grande) de 1:i muestrJ. o utilice el valor de ir de algún estudio previo (o estudio piloto). •

EJEMPLO 8.7

El director comercial de cierta compañía que reali1..a ventas por correo dehc precisar con mucho cuidado sus polític:is de crédito. Suponga que la compañí::i sospcch::i que los anuncios ..:n cierta n:vista han conducido a una tasa mu) elevada b. Si se toma un:i muestra con estas cu..:ntas y se determina que d 10% son c:rncclacioncs. ¿que inten·alo de confianza al 90% result::i de ello'.'

Secc.On 8 3 E1erc1C1os

Soluetón

a . La fórmula para el tamaño muestra! es

"

lltilizando la estimación conscrvador:i de ir 1.645, el tarnar1o muestra! buscado es

=(I~

( 1.645 ¡i1.5 ¡l

11

=-

-

(.02) 2

::::

0.5 y sustituyendo E

-

. (':l.':

0.02 i:on

169 1

b. Si una muestra
= (1.645 )1 (.1)(.91 '02)

2

609



Tal como lo indica el ejemplo M.7, h~l\ur In tlctcr111in:1tio11 del tamaiw mll<''lral en la hipólesis de que ir e' 0.5 1rncck 'cr e\ce .. i\ amente 1>rudcnlc. Siempre que ha> a información que sugiera que la proporción muc'> tr.11 d11icn:
SECCIO N 8.3

EJERCICIOS N. 15

3. Remitasc al ejemplo 8.5. ¿Oc qué tama"o se debe tom3r una mucslra para obtener un intervalo de confian1a al 90% con amplitud SO.SO? <.Y con amplitud S0.25? ¿Y con 3mplitud S0.125? b. En general, ¿cuánto se debe incrementar el tama"o mucstr:il rara reducir la. amrlitud del intervalo de confian;r:t a la mit3d (utíli7.ando un nivel de confian1.a específico),, 8.1(, Remítase al ejemplo 8 .6. ¡,Oc qué tamai\o debe ser un:i muestra para obtener una am)">htud de 3 décimas de una desúaeión estand:ir? <.Y de 4 décimas'' R.17 lJn3 eomrai'ia que vende seguros de: automó,iles quiere encontr:tr el \ 3Jor promedio de las c;olicitudes de reparación de carrocerioi.~ de los automóviles asegurados. Sus registros combinan Jos importes corre!\pond1en1es 3 carrocerías con todos los dcmas, de modo que se debe tomar una muc~tr3 ele i1ohci1udcs indh 1duales. Se busca un intervalo de confianza al 95o/o con una amplitud no mayor de 50 dólare~ . Se pien· s:t que la desviación estándar es de alrededor de S400. ¿De qué tamal\o se necesita 13 muestra?

312

8

E511W.OONPORINITRVALOS

8.18

'\uponga que la des' iaciún estándar con.1eturad;i en el ejercicio 8.17 se cnn1cntra entre los 300 y los -l50 dúlares. • Calcule el tamai'o requerido muestra! para cr 300 ~ para a .i 'iO h ¿Qué le sucederi3 a la amplrtud del intervalo de conft;m;ra si se utih1ase el\ alor de /1 correspondiente a a - 450, cuando en realidad la llC~\iación estandar fuc,c de 300 dól;ircs? 8. 19 ¡,Piensa usted que el l3mai'o mucstr;il utili1ado en el e1ercic10 8 17 serla adecuado para suponer que Y tenía una distnhucilltución consen ador;i 1f - 0.5. t>. ¡,Cómo camhia la respuest;i al inciso (a) si suponemos que la proporción de c;i.1a~ imperfectas es al menos de 0.005 y no ma~or que 0.0W?

8.-t

LA D ISTRIBUCIÓN t



Los procedimientos que presentnmos en la sección 8.1 para estimar la mcJi;1 pohb· \.'tonal ¡i ti~nen como hase la h1pótes1s de l)Uc o <1 se comx:c o se rcali~ un número sutic1ente de ohservac1ones (i . ~ .• JO o más) de tal forma que la Jcsviac1ón estándar muestra! s puede reemplaz:ir a <Jen el error estándar para .Í' ::: CT ! ./ñ. Sin embargo. hay ocasiones en qLX: es imposibk o mu) costoso ohtencr una muestra sulici~ntcmcnte grande para hacer inferencias acerca Je la media pohlacional. Por ej~mplo, realiur 30 ohservaciones del patrón que sigue el trático en las inmediaciones de un puente los' ierncs por la tarde tomaría m:ís de 6 me<;es. fatc puede ser un periodo mu) extenso de tiempo para proponer medidas com.-ct1vas. \\'. S. Ciosset encaró un problema similar a principios dd siglo xx cuando. en la cervecería Guinncss, donde trabajaba, se le pidió que hiciera un dict:\mcn acer· ca de la calidad media de varias ccn·c1.as. Para akantar sus conclusion~s. tan solo le proporcionnron algunas mucstrac; sumamente ~que?las. Gosset creyó que al utiliL.ar el estadístico= para muestras pcqu~1,as t - µo

q/.j;. y sustituir o con s. se

~staba subestimando la' ariahilidad en el estadístico. llah1éndose interesado por el problema. resol\'JÓ derivar la distrihución muestra! de la cantidad

y

µo

.~1Fi "''titu r iún de \ por CT

en el caso particular en 4ue n < 30. La '"'litucicín de .\ por CT en d estadístico=

/

8 4

313

La d1stnbuc16n e

introduce una segunda fuente de variabilidad además de Y. En la sección 8.1 recomendamos la sustitución de s por <J siempre que 11 ~ 30. Ahora proporcíonamos intervalos de confianza para µ, cualquiera que sea el valor de n > I. Los procedimientos son muy parecidos a los que ya presentamos para muestras grandes. Gosset obtuvo la distribución muestra! para el estadístico f - JI

s/Fn y publicó sus resultados en 1908 bajo el seudónimo de "Student", ya que iba en contra de la política de la compañia publicar sus resultados. Con frecuencia, al estadístico

Y-µ -

l= -

s/Jn t tic Studc·nt

se le nombra t de Student y a su distribución distribución t de Student Podemos sinteti1.ar las propiedades de una distribución t comparándola con una dístribución normal estándar(:).

Propiedades de la distribución t de Student 1. La distribución t, al igual que la distribución:, es simétrica con respecto a la media µ = O.

2. La distribución t til!ne una mayor variabilidad que la distribución z (véase la figura 8.J). Normal

o FIGUAAB.3

Una d1stribuc16n t con una d1str1bución normal superpuesta

J. l la) muchas distribuciones t diferentes. Se dctennina una en particular al especificar sus grados de libenad. g.I. Si se toma una muestra aleatoria de una población normal. el estadístico

Y-µ

t=--

s/Jn tiene una distribución t con g.I. =n - l. 4. A medida que n se incrementa (o, lo que es lo mismo, los g.I. se incrementan), la distribución t se aproxima a la de.::.



314

8

ESTIMACIONPORINTERVALOS

o

fa

FIGURA 8.4

Ilustración del área para la distribuc16n t que aparece en la tabl:i '4 del apend1ce

de libr rtad

La definición general del ténnino 2rados dr libertad requiere de la geometría n-dimcnsion:il y del conocimiento del álgebra lineal. En vez de abordar con detalle esLa cuestión, tr:i1.arcmo~ de dar una idea intuitiva del significado del término. El término g.I. se refiere a la desvi:ici6n estándar estimada y se le utiliza para indicar el número de pie1.as de información disponibles para ella. La desviación estándar se basa en n desviaciones de la media, pero las desviaciones deben sumar O. de modo que sólo n - 1 desviaciones pueden variar libremente. La última desviación (la n-ési ma) cst:l determinada por las otras n - 1. Por consiguiente, se dice que el estadístico t tiene n - l grados de libertad. Aunque se puede proporcion:ir una fórmula para la función de densidad de la distribución t, ésta carece de importancia ya que se cuenta con 13blas para evaluar las probah1lidadcs t. Como / es simétrica, sólo se han tabulado los puntos porcentualc' (áreas o probabilidades) de la cola superior de la distribución t. Éstos aparecen en la t:ibla 4 del apéndice. Los grados de libertad (g.1.) se enumeran a lo largo de Ja columna izquierda de la página. Cada entrada en la tabla especifica un valor de t,
EJEMPLO 8.8

Si se toma una muestra aleatoria de tamai'lo n .::: 15 de una población con distribución normal, l!ncuentrc

~rado"

y

p( Solución

-2.145

~ ~/--;. ~ 2.145)

Debemos utiliz.ar la tabla /,es decir, la tabla 4 del apéndice con n - 1 = 14 g.I. La t.1bla indica los valores que separan áreas especificas en Ja cola derecha. En particular, se puede ver que P(t 14g 1 • > 2.145) es 0.025, de modo que • Otr.u formas de notación comunes son 111 ~ 1 o 'fil (N. dt lo R T)

84

·2.145 FIGURA 8 .5

315

La d1str1buc1on t

o

2.145

Distribución t con 14 g.I.

p(:!Fn >

2.145) = .025

(véase la figura 8.5). La distribución / es simétrica en tomo a cero, de modo que el área de la cola izquierda también es P<.11481 < -2.145) - 0.025. El área restante después de cortar ambas colas es 0.95, de modo que

Y-µ

)

P ( - 2. 145 s s/Jn s; 2.145 - .95 Un examen de la tabla / nos muestra el efecto de cambiar de

a

Y-µ s/Jn

t=--

Cuando n es muy pequeJ'la, los valores de la tabla t son muy grandes, y para g.I. - 2, un área de 0.025 en la cola derecha se corU en 4.303. A medída que g.I. se íncrementa, los valores de la tabla 1, para un área dada de la cola, se reducen. En la última fila, que corresponde a un número ínfmito de grados de libertad, la tabla t contiene los valores de la distribución normal (z). Este fenómeno se puede explicar si se considera cómo aparece la distribución t. El estadístico t se obtiene al reempla1.ar la verdadera dc~viac ión estándar O' por la desviación eslándar s muestra!, introduciendo de este modo una fuente adicional de variación aleatoria. Cuando n es muy pequeJ'lo, el valor des puede diferir enorme· mente del valor de O'. y la distribución t debe tener una varianza bastante grande. A medida que n aumenta de valor, hay una menor variación aleatoria des con res· pecto a O', y la varianza de la distríbución t se hace más pequci\a. Cuando n tiende a infinito, s se aproxima a <J y la única fuente importante de aleatoriedad es f; la distribución z explica Ja variación de Yen tomo a µ . La primera vez que consideramos sustituir O' con sutilizamos la regla de que se podían usar las tablas de zen caso de que n fuese mayor o igual a 30. Los valores

316

8

ESTlMAOON POR INTERVALOS

de la tabla t para 30 g.I. ~on muy próximos a los valores de la tahla normal. cxccpto para áreas mu) pequeñas de la cola. No obstante, no hay ninguna necesidad de seguir ~onservando esta regla en adelante. En vez de ello podemos utilizar las tabl:is I de manera rutinaria par.i todos los estadísticos t. Si el valor g.1. en curso no aparece en la tabla. para casi todo lin práctico es sufil:iente hacer una interpolación aproximada. Otra altemali\a más conservadora consiste en utiliLar el valor mmcdioto inferior de g.I. en la tabla.

EJEMPLO 8.9

Encuentre el punto de separación de un área de 0.025 en la cola derecha para una muestra all!atoria de tamaño 46 tomada de una población normal: es decir. em:uentrc 'oms tal que

Y-µ

p (- Y >

f OH

) = .025

s/""

So/uC1on

Hay n - 1 - 45 g.I., y los entradas de la tabla para g.I. igual a .JO y 60 son 2 021 )' 2.000, respectivamente. Como el valor de g l. es más pnh1mo a 40 que a 60, t 0 02 \ debe ser más próximo a 2.021quea2 .000. Podemos utili1ar un d1agmma \imple. tal como el que se muestra a continuación, para encontrar el valor de interpolación de t valor t

2.021

g.I.

40

e? 4S

2 000 60

Como In distancia de g.I. - 40 a 45 es la cuana parte de la distancia de g.I. =.to a g.1. .,. 60. qul.!remos un valor t que se encuentre a una distílncia proporcion:il entre 2.021 y 2.000. Con 0.02 1/4 =0.005. el valor buscado de I es 2.021 o.oos . . 2.016. • Otrn posibilidad seria ir de 45 g.I. al valor inmediato inferior en la tobla, íl saber 40, ) utili;rar este valor. Ésta es un;i elección consl.!rvadora, suficientemente precisa para muchos. fines.

SECCIÓN 8.4

EJERCICIOS 8.21

Se v:i a tomar un:i muestra alc;11oria Je tama"o 4 Je una pohlaciún ll(>rrn"I con rncdia µ - 100 Sea 1

y 100 =--=s//4

Calcule las siguientes a. #'(I > 1 63R' b. Plt > 5.341) c. P(t < - 2.353) 1race figuras.

probah1hdadc~:

J . P( - 2.353 < / < 2.353) e.

P(lrl>l182)

f P\11 1 > 4 5411

es

3 17

Intervalos de confianza pa~ la d1stnbuct6n 1

8.22

Suponga que se asume equivocadamente que el estadístico / del ejercicio 8.21 tiene una distribución normal (z). Evalúe P(t > 1.638) y P(ltl > 1.638) bajo esta errónea suposición. ¿Ocasiona esta suposición una sobrestimación o una subestimación de las probabilidades? 8.23 Se bacc un estudio de Montecarlo tomando 1100 muestras de tamai\o 4 de la población nonnal del ejercicio 8.21. El estadístico I está definido en ese ejercicio. Los resultados del estudio son los siguientes: Evento

Frecuencia

44 59 896

( < -2.353 - 2.353 < 1 < - 1.638 -1.638 < I < 1.638 1638<1 < 2.353 t > 2 353

47 54

a. ¿Cuáles son las frecuencias teóricas correspondientes? b. ¿lla) alguna evidencia de que las frecuencias del estadístico t se estén alejando sistemáticamente de las frecuencias teóricas correspondientes? 8.24 Para un estadístico r con 72 grados de libertad. utilice una interpolación burda par:i encontrar los pcrccntiles 90, 95 y 99.

8.5

INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN t



Los desarrollos matemáticos de la sección 8.4 se pueden utilizar para determinar procedimientos di! inferencia para la media, aplicables al caso en que se desconoce la desviación estándar de la población. Esta sección está dedicada a los intervalos de confianui. Los cambios en el procedimiento para el intervalo de confian7a cuando se desconoce
Solución

Suponga que una muestra de tamaño n =25 tomada de una población aproximadamente normal proporciona una media muestra! igual a 96.2. Calcule un intervalo de confianza al 95% para la media poblacional suponiendo que la desviación estándar de la población es l 5.0. Vuelva a calcular el intervalo suponiendo ahora que se desconoce l;i desviación estándar de la población y que la desviación estándar muestra! es 16.2. Con el primer problema podemos utilizar los procedimientos de la sección 8.1:

96.2 - 1.96

( 15.0)

f:tt $ µ $

" 2s

90.32

$

( 15.0) 96.2 + 1.96- -

µ $ 102.08

J2s

31 8 En el scgunJo problema necesitamos el valor de la tabla t para n 1 = 24 g.I. Este 'alor debe ~e parar dos áre~ en las colas derecha e izquierda, con un valor total de O.O,, de modo que el área que se quiere en la cola derecha es 0.025. El valor en la tabla / es 2 .064. Sustituya a=- 15.0 con s = 16.2 y z0.025 1.96 con 10 ois 2.064

=

16 2 96" .• - 2.064 (J2s· ) 89.51

=

°

$µ$

6·2) 96. 2 +. 2 064 J2s

~ µ $

102.89

Este intervalo es más ancho que el anterior por dos ra.1.ones: por4uc t00 H > ::11 >'~· y porque en este casos= 16.2 resulta ser mayor que la supuesta a- 15.0. • El intervalo de confianza / para

µ basado en una distribución t con g.I.

=

n - 1 es el siguiente:

Intervalo de confianza al 100( 1 - a}% para µ, G desconocida

-

Y-

fn:. s µ s Y+ r. 2 j; .\

1., 2

1

donde 1,, es el valor / tahulado que separa un área de a,2 en la cola derecha con n- l g1

intenalo de cunfianL:t en m u c'-

A la fórmula anterior a menudo se le denomina fórmula del in ten alo de confianza para la mcdiu en mue!ltras pequeñas, :mnque es válida para muestras de cual-

p cqueitn'i

c¡111er tamar1o Para una muestra J e gran tamai'lo, l~ diferencia entre utilizar la tabla 1 y la tabla :: es insignificante, de modo que la distinción entre t y:: sólo es importante para muestras de tamai'lo pequei'lo. La hipótesis de una población normal es critica para muestras de tamai'lo pequei'o, para las que el Teorema Central del Limite tiene un efecto relativamente pequei'lo.

EJEMPLO 8. 11

Una aerolínea tiene en un aeropuerto cuatro ventanillas para la venta de boletos. En un intento por reducir los tiempos de espera de los clientes, la aerolinea introduce el "sistema de única fila". En este sistema, todos los clientes forman una única fila que se va distribuyendo entre las ventanillas. La persona que alcanza la primera posición de la linea es atendida en la primera ventanilla que quede libre. Durante tres semanas, el director del departamento de atcndón al cliente registró el tiempo de espcrn en minutos del primer cliente que llegaba a las ventanillas después de las 4 P.M. Una observación se excluyó a causa de una condición inesperada: hubo neblina en el aeropuerto y muchos planes de vuelo debieron ser cambiados. Los datos son

tra!>

4.3

5.2

2.1

6.2

58

4.7

3.8

113

5.0

41

60

8.7

O.S

49

Encuentre un intervalo de confianza al 95% para el tiempo de espera medio i:n el límite, e n días hábiles, bajo condiciones normales.

1

8S

Solución

Intervalos de confianz:a para la dmnbuco6n 1

3 19

Pnmero calcule y"" 5.043 y s = 2.266. El 'alor de la tabla I ( 13 g.I., y un área en uní> cola igual a 0.025) es 2.160. El intervalo es ~ ~ (2.266) ., (2.266) . 04. - 2.160 r.; s JJ s 5.043 + _,16() r.; vl4 v l4

o 3.735

sµs

6.351

Lo mejor sería reportar este resultado como 3.7 S µ S 6.4, redondeado según la precisión de los datos. • ta maiio m1H.''itrul requerido para cslimur µ

Uno de los usos importantes de los intervalos de confianza es determinar el tama~o muestra! requerido para obtener un grado de precisión deseado. La precisión está determinada por el nivel de confianza y la amplitud del intervalo. Recuerde 4uc cuando se conoce u y especificamos el nivel de confianza 100( 1 a)% y la amplitud del intervalo de confianza deseado 2E, el tamaño muestra! buscado lo en· contramos resolviendo la ecuación Z•/l(I _

Jn -

L'

r.

para"· Ahora nos gustaría encontrar n resolviendo 'u.:i-~ Jñ =E, pero hay dos dificultades. En primer lugar, s se desconoce hasta que la mue!>tr'.t se toma), en segundo lugar. no tenemos g.I. para 147 hasta que n se especifica. El primer problema se puede resol\ cr) a sea utilizando una aproximación al valor des o especificando la amphtuJ tkseada como una fracción de una de!>v1aci6n C!>tóndar. (Un error de menos de O O1 desviación estándar al estimar una media se ve ria empcque~ccido por la variación de los vil lores individuales de la media, mientras que un error de 1.00 desvia· ción estándar sería algo sustancial.) El segundo problema se puede ~solver haciendo una suposición preliminar de que n es suficientemente grande como para que: se pueda sustituir con l. Sí la n resultante es demasiado pcquc~a. por lo general se puede obtener una respuesta rápida por ensayo y error (en la dirección creciente den).

EJEMPLO 8. 12

Suponga que en el ejemplo 8.11 se desea un intervalo de contianL.a al 95% con una tolerancia de más-menos media desviación estándar. ¿De qué tama~o tiene que ser la muestra?

Solución

E ha de ser 0.5s. Por ahora, suponga que podemos utilizar el valor 1.96 de la tabla : ~orno una aproximación de 'o.o~s· Resolviendo la ecuación

para n, tenemos que

n=

(l.96s) 2 (.5s) 2

=1.4 5

320

8

ESTil"W:ION POR IN'TtKVAlOS

Paran= 16( 15 g.I.) utilizarfamos 'o.ols lor real de E igual a

'2. l 3Js {,

=2. 131 en vez de 1.96 para obtener el "ª-

::::: .533(.t)

"16 que: es un poco grande. Trate n = 18 ( 17 g.l.); 'o.o:?s =2. 11 O y

2.1IOs

:::: .497(s)

' 1

de modo que bastará con n



= 18.

SECCIÓN 8.~E_R_C_IC_l_ O_ S _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __ 8.25

lJn fabricante de galletas y bocadillos n:aliza una pequclla revisión de la antigüedad de uno de sus productos en los puntos de venta. Para llevarla a cabo. toma una muestra aleatoria de 23 minori~tas en una región particular. En cada tienda se selecciona el en\ase que se encuentra al frente del anaquel y se determina el número de días transcurridos desde su fabricación por medio de un código que tiene impreso. Los datos (dias transcurridos, ordenados de menor a mayor) son 27

57

34 63

36 71

~6

lK

75

~4

19 96

39 110

39 147

40

40

42

45

47

51

52

a. Verifique que y• S6.87 y s "' 28.97. h. Calcule un inter\·alo de confian1a al 99% para el verdadero tiempo medio transcurrido.

8 26 Suponga que el fabricante del ejercicio 8.26 quiere obtener un mtcrvalo de confianu al 90% con una amplitud no ma)or de seis días. Suponiendo que la desviación 8.27

estándar muestra! no cambia, ¿de qué tamallo necesita ser la muestra? Un grupo de consumidores quiere estimar el precio de entrega medio de cierto modelo de refrigerador en el área metropolitana de Nueva York. tos precios se determinan por medio de las compras rcafü.adas por clientes en 14 tiendas seleccionadas al uar en el área. Dichos precios son, en dólares (sin considerar los impuestos),

319 331 326 298 33S 351 316 307 335 320 J2Q 346 (¡¡lcule un intervalo de confianza al 9S% de la \erdadera media. 8.28 lJna muestra aleatoria de 20 catadores calific¡¡ la calidad de un nue\O produc10 en una escala del O al 100. Las calificaciones son las siguientes: 341

16 67

8.29

347

20 67

31 81

SO 92

SO

SO

SI

S3

SJ

55

57

5'1

óO

60

61

6~

a. Calcule un intervalo de confianza al 95% para la calificación media pohlacíonal. ,se deberían utilitar tahlas to tablas:'! b. Trace una gráfica de los datos. ¿ llar alguna ra1ón para pensar que es una mala idea usar un intervalo de confian1.a basado en la media? Un transportista de muebles calcula el peso real como una proporción del peso estimado en una muestra formada por los últimos 31 trabajos. La media muestra! es 1.13 ) la desviación estánd
;t1

,,

l l......~ ~

'·.

b. Suponga que la desviación estándar pohlacional es 0.16. Calcule un intcrvalo'de conlian1..a al 95% para la media poblacional utilizando tablas : . ~ . c. ¿Son aproximadamente del mismn tamar'o Jos intervalos calculados en los in~ sos (a) y (b)? 8.30 Cuando se traza una gráfica de los datos correspondientes al ejercicio 8.29, el ',· diagrama muestra una fuerte asimetría hacia la derecha. ¿Indica este hecho que el nivel de confian1a nominal del 95% puede estar equivocado?

8.6- - - --HIPÓTESIS - - PARA LA ESTIMACIÓN POR INTERVALOS



Cualquier método estadístico incluye hipótesis. Algunas de ellas son gene-ales y se aplican a una gran variedad de métodos; otras son específicas pnra un método en particular. En los próximos capítulos tendremos mucho que decir acerca de las hipótesis. En vista de que Ja estimación por intervalos para un parámetro único (sea éste una media, una proporción o una mediana) es un concepto relativamente simple, en este contexto podemos tratar con mayor claridad las cuestiones relativas a las hipótesis y a su violación. En primer lugar, queremos subrayar que los métodos de este capítulo sólo se aplican a muestras aleatorias. La tolerancia de errores inherente a los intervalos de confianza es sólo una concesión para el error aleatorio; no se tolera ningün sesgo en la selección de datos. Si, por pereza, los datos en que se basa un intervalo de confianza se han reunido con una muestra no muy buena, es mu> probable que el intervalo de confianza no sea el adecuado, simplemente por los sesgos en la selección de datos. No se conocen métodos para compensar por los sesgos en las muestras que se han seleccionado mal. En las muestras aleatorias legitimas, hay algunas hipótesis específicas que pueden ser problemáticas. Una hipótesis clave es Ja de independencia e ntre las muestras. Todos los métodos descritos en este capítulo suponen que las observaciones son independientes entre sí, aunque no todos Jos métodos de muestreo aleatorio proporcionan observaciones independientes. Por ejemplo, suponga que un a:-.esor en bienes raíces selecciona 22 manzanas (bloques de casas) en una tona residencial para evaluar, con base en las listas de impuestos de la ciudad, el valor de mercado de las casas de cada manzana. Si se supone que la selección es realmente aleatoria, no hay un sesgo sistemático en favor de las casas de escaso o alto valor. Pero hay un problema de dependencia. Dada la clara tendencia a que las casas e
322

'rn~ibilidacl

de lo~ p rocedimientos de una col:1

8

EmM...clON POR INTERVALOS

en los intervalos de confianta dependen en gran medida de la hipótc~1s de indepcn· dcncia de las observaciones. Cuando ha) dependencia, las fórmulas para el error c.;tñndar pueden subestimar la incertidumbre real en una estimación. Aun si l:i depcndenc1:i es modesta, el grado Je sube-.t1mación puede ser mu) seno. En efecto, la dependencia significa que no tenemos tanta información como indica el valor n. Considere la dependencia extrema que se daría en una muestra de 25 observaciones si la primera observación fuera genuinamente aleatoria, pero h1s subsiguientes observaciones tuviesen que ser iguales a la primera. La fórmula para el intervalo de confianza estaría b:isada en una muestra de tamaño 25, pero de he· cho sólo tendríamos una muestra de tamaño l. Siempre que los datos se toman en orden temporal es una buena idea hacer una gráfica de las observaciones con respecto al tiempo. S1 las observaciones son realmente independientes, no debe aparecer ningún patrón en la gráfica, los datos deben parecer aleatorios. Cualquier patrón que sea muy claro (cido<. o tendencias) en la gráfica es una raLón para preocuparse por la independencia. Por ejemplo, busque un patrón en la gráfica de la figura 8.6, hecha con Minitab, relativa al ausentismo semanal de trabajadores. En ella se observa claramente un patrón cicli· co ondulante en los datos. Fn esta situación no nos sentiríamos satisfechos con una hipótesis de independencia. Además de la hipótesis de independencia, los métodos para las media:. incluyen la supo,ición de que la población correspondiente tiene una distribución nom1al En h1 práctica, ninfeuna pohlarión ('S C\ :1ct:1111('ntc normal Cuando uti· !izamos los 111c1odoi. de la J i-.1ribuc1ón t para la media, estamos suponiendo que la población es normal, aunque claramente el>ta hipótesis no es del todo cierta. Cuando se supone que las poblaciones no son normales. hay que con!>iderar dos cuestiones. l: n primer lugar, ¿qué clase de no normalidad se supone? y, en seguncJo lugar, ¿qué efectos posibh:s tienen estas formas específicas de no normalidad en los procedimiento!> de la distribución(! De las distribuciones que se desvían de la distrihución normal las más imponantes son t:is asimétricas y las que tienen colas pesadas. (I as d1stnbuc1onei. con colas pe:.a ~e dan por la presencia de \alores :llípico5 en datos que de otro modo serian simétricos.) ,\fin de valorar el efecto de la no nonnalicJad que se revela en la 3ll11netriao en las colai. pei.ada-., debemos discurrir si los procedimientos de la dl'>tribución / siguen siendo, a gr.indes rac;gos, correcto:. para este tipo de distnbucionei. o s1 ha} otros procedimientos más cfccti' os. Aun si un intcl'\ alo de confianz<1 paraµ basado en t no-; proporciona resultadoi; casi correctos para. digamos, unadic;tribución poblacional con cola:. pe~ada'>, es posible que ha) a otro proced1m1cnto más eficiente (que proporcione un intervalo de confianl'.a de menor ampl ituado en una media truncada. El problema de la precisión aproximada de los procedimientos t ha sido objc· to de muchos estudios. la conclusión general de <'r:~ investigaciones es que las probabilidades especificadas por los procedimientos t. en particular el nivel de confian1a, son bastante precisas aun cuando la distribución de la población tenga co· las pesad:is (o ligeras). En contraste, la asimc:tria, paniculannente con mue!>tras de tamaño pequeño, puede tener un efecto importante en estas probabilidades, en especial en los procedimientos de una cola. Como sabemos, toda distribución tes sim.!trica. No obstante, si la distribución poblacional e!> asimetrica. la verdadera distribución muestra! de un estidistico / también lo es. Dich:i asimetría se reduce a

86

323

H1p6tesos para la Hllmaoón por 1nterval0'

60•



1bscnces·

45•



• •

30•





.. . • . . •









•• •



••



• 15•

•·····-···+·········•·····-·-·•·-···-··-+·········•··--··11eet,...

o.o FIGURA8.6

6 .0

18 .0

24 .0

30.0

Gráfica de ausencias por semana •Noto. absr11ces • íalw. wu.tnum

método
12.0

2

número de semana.

medida que el tamai\o muestra! se incrementa, pero no hay ningún tamai\o que elimine por completo la asimetría en su distribución muestra!. El segundo problema trata con la eficienci:i de los procedimientos t y sólo recientemente se le ha estudiado con seried:id. La conclusión :i la que se ha llegado con estos estudios es casi un:inime: Cuando la distribución de la población es simétrica pero tiene colas pesadas, varios procedimientos robusto\ son más eficientes que los procedimientos estándar t. Virtualmente todos los procedimientos robustos eliminan o dan un peso muy bajo a las pocas observaciones mu) grandes o muy pequci\as en la muestra. La media muestra! ordin:iri:i da un mismo peso a todas las observaciones y es muy sensible! a los valores extremos. Por coni,iguicntc. cuando la distribución pobl:icional tiem: colas muy pesadas, los proccd1m1entos robustos tienden a producir estimaciones más precisas y errore~ eslánJar m;h pequei\os que la media muestra! ordinaria. Desafortunadamente, no se ha trabajado tanto en la efectividad de los proce· dimientos robustos cuando la distribución de la población es asimétrica. Una media truncada al 20%, que promedia el 80% de los valores centrales, es indudablemente un estimador sesgado de la media poblacional cuando la población es asimétrica. Que este sesgo se vea compen'iat:índar pequc1'\o que ~1..:mprc sobrc~timasc el p:ir:imetro poblacion:il. Entonces, ¡,qué debe hacer un gerente que no es expeno en la materia? En primer lugar, ob5cnar lo.\ d<1tos. Uno de los peligros más serios al utilizar el sofiware c!itadistico disponible es que el análisis estadi•a1co '>C puede llevar a cabo sin que el usuario haga ningún razonamiento. Un simple histograma de los datos o algún otro recurso gráíico puede re\ ciar una fuerte asimetría o la presencia de valores atípicos. También podemos calcular el coeficiente de asimetría para los datos de l:i muestra (véase el capítulo 2). Si no hay una anormalidad evidente, las probabilidades nominales de la distribución t deberían ser razonahlerr.ente correctas y el procedimiento

324

8

ES'Tlt-WX>N POR INTERVALOS

t deberia ser razonablemente eficiente. Si los valores de los datos tienen una obvia asimetría o colas pesadas, las probabilidades de la distribución t y la eficiencia del proceaimiento / serán dudosas. Siempre que sea posible, usted debería intentar otro método en estas situaciones. Por ejemplo, en la sección 8. 7 presentamos un inter\alo de confianza para la mediana poblacional. Dado que la mediana no se ve t:in afect;1da por los valores atipicos como la media, aquélla se puede utili:zar como una altemati\.a para el intervalo basado en el e!>tadi5llco t. En este libro se mencionan otros procedimientos robustos, mas no podemos hacerles justicia a todos ellos. Esperamos que en los at'los venideros estos procedimientos se integren a los paquetes estadísticos para la computadora. Si tales programas no están disponibles hoy en dia, un gerente debería al menos mostrarse escéptico respecto de la precisión de las probabilidades set'laladas.

8.7

4•,tndhtico' de onkn

INTERVALOS DE CONFIANZA PARA LA MEDIANA



Ya en el capitulo 2 observamos que la ml!diana es menos sensible que la media a las asimetrfas y a los valores atípicos. Por consiguiente, en ocasiones es preferible hacer inferencias basándose en la mediana en vez de la media. Las inferencias relativas a la mediana resultan métodos relativamente robustos cuando la hipótesis de la normalid.id de la población es incierta. Es decir, las inferencias basadas en la ml.'Cliana son en general más creíbles que las inferencias basadas en la media cuando no se cumplen las hipótesis subyacentes a estas últimas. Aun cuando las muestras sean muy grandes, de modo que las inferencias acerca de la media se apoyen tn el Teorema Central del Limite, las inferencias basadas en la mediana pueden ser m:is precisas y eficientes. Este fenómeno se presenta en panicular cuando los datos <..on propensos a los \alores atípicos. Uno puede esperar que el inter. alo de confi:in1.a para Ja mediana saga Ja regla convencional ..cs.11mac1ón más-menos valor en la tahla, multiplicado por el erTor estándar''. Sin tmbargo. no es a.si. En vez de ello, el problema se reduce a una situación binomial cuando se fonnula de nuevo basándonos en la idea de que aproximadamente la mitad de los datos de la muestra deberían de estar por encima de la mediana y la otra mitad por debajo de ella. El intervalo de confianza para la mediana tiene como base los c-,t11dí,tico' de orden. El estadístico de orden le de una muestra de n valores es el k-ésimo valor muestra) en orden asctndente. Así, la medida más pcquct'la es el estadístico de primer orden, la medida más grande es el est;1distico de orden n, y para un númtro impar de valores la mediana de la muestra es d estadístico de orden (n + 1)12. A continuación estipulamos un procedimiento para utilizar el orden entre los estadísticos a fin de obtener un intervalo de confianza para la mediana.

Intervalo de confianza aJ 100( 1 - a)% para una mediana 1. Para una muestra de tamaño n, utalice tablas binomiales con esa n y 1r::: 0.50. A~ada probabilidades hasta justo antes de que el total exceda de a/2.

Intervalos de conflanu pMll la

87

325

~~

Llame k al núme ro de éxitos en que esto sucede. Sí el valor de n no figura en las tablas, utilice el valor aproximado le= 0 .05n - 0.05:11".? redondeado hacia abajo. 2. Ordene Jos datos de menor a mayor, y cuente k + 1 valores desde cada extremo; es decir, encuentre los estadísticos de orden k + 1 y n - Je. F:;tos valores son los extremos del intervalo de confianza.

rn



EJEMPLO 8 . 13

Un ajustador (negociador) de una compai'lia de seguros obtiene los presupuestos de dos talleres para la reparación de automóviles extranjeros que han sufrido da1'os en colisiones. Su interés se centrn en la diferencia entre los presupuestos. Se obtuvo una muestra de 16 diferencias.

Automóvil:

1

2

J

4

s

6

1

!<

9

Diferencia:

.3

t. 1

1.1

-.2

.J

.S

.4

9

.2

10 6

11 .3

12 1.1

13

14

.I<

9

IS 9

16 .7

Encuentre un intervalo de confianza al 95% para la med ia poblacional de las di fcrencias .

Soluetón

Para n = 16 y al2 = 0.025, podemos ver en las tablas binomiales que P( }' S 3l n ,. 16,

lt

= .50) ==

OI05

y

4ln'"' 16. n =.SO)= .0383 Por i.:onsiguiente, tomamos le ""'3. fa así que el intervalo de confianza al 95% para P(y S

la mediana poblacional tiene como límite inferior al estadístico de orden 4 y como límite superior al estadístico de orden 13. Para estos datos. las diferencias ordena· das de manera creciente son

- 2

2

.l

.l

l

.3

.4

.S

~

.1

c~tc

9

.9

.9

1.1

1.1

1.1

f 13

4

Oc

H

modo, el intervalo de confianza al 95o/• para la mediana poblacional es

O 3 S mediana poblacional

~ 0.9



EJEMPLO 8 . 14

Encuentre los estadísticos de orden que proporcionan los límites inferior y superior del intervalo de confianza al 90% para la mediana poblacional ba~ados en n"" 100 observaciones.

Solución

Aunque podríamos utilizar la tabla 1 del apéndice. otra posibilidad es la siguiente: k es el mayor número entero menor que

.5n Para

/1

.5Z,.¡2

j;

100 y a/2 =O.OS, tenemos que

.5(100) - .5(1.645)10

= 41.775

326

8

ESTIMAOON POR INTERVALOS

de modo que le --= 41. Los límites de confianza pertim:ntes son los estadisticos de orden 42 y 59. • Cuando se toman muestras de una población normal, no hay razón alguna para utilil.ar los intervalos basados en la mediana. En dicha situación, comCI hemos visto en el capitulo 7, la media muestra! es el estimador insesgado más eficiente (menor error estándar); cuando la población es normal, un intef\.alo 1 (o.:) tiene el rango más estrecho y preciso. No obstante, cuando Jos datos son altamente propensos a los valores atípicos, los intervalos paro la media pueden muy bien tener un rango mayor que el de los intervalos para la mediana. De nuevo resulta muy útil construir un diagrama para los datos para ver cuál método es el mis adecuado.

EJEMPLO 8.15

Una prueba del sabor de un nuevo producto comprende 50 individuos que valoran el gusto en una escala que va desde O.O (lo mejor) a 9 .9 (lo peor). Se obtuvieron las siguientes calificaciones:

08 42 44

4.7

1o 42 4 .5 48

29 4.3 45

3.0

3.4

3.5

3.7

3.7

38

3.9

4.3

43

4.3

4.3

45

4.S

48

48

H

4.9

49

46 5.1

44 46 5.1

44

4.5

4.3 45

4.1 44

4 1 44

4.2 44

46

46

47

4.7

67

68

La calificación media de los 50 degustadores es 4 .300; la desviación estándar es0.966 a. Trace una gráfica de los datos. ¿Cuál es la forma general? ¿ Hay valores atípicos? b. Calcule un intervalo de confianza al 90° o para la media. c. Calcule un intervalo de confianza al 90°0 para la mediana. d. En conformidad con el inciso (a), ¿cuál de los intervalos deheria ser má!> J)Cquei\o? ¿Lo es en realidad?

Soluc1ón

a. lln d1agrJma de tallo;. hojas o un histograma indica que los datos son casi si métricos. "A ojo" parece haber valores atípicos importantes. Los "cuartiles primero > tercero" (25 percentil y 75 percenttl) son 4 .2 y 4 . 7, lo que nos da un RIC de 4.7 - 4.2 ""0.5. Las b:meras interiores son 4 .2 1.5(0.5)"" 3.45 y 4 .7 + 1.5(0.5) 6.45. Siete de las 50 calific ac iones se encuentran fue ra de estas barrl!ras, sugiriendo que la mu~stra se ha tom;ido de una población propensa a los valores atípicos. b. No hay ninguna entrada en la tabla t para 50 1 = 49 g.I.; razonablemente, utilizamos el registro correspondiente a 40 g.I. y ( 1 - 0.90)/2 = 0 .05, 1.684. El intervalo es

=

(0.966)

4.300 - 1.684 ~

$ µ ~

407

~ µ ~

..¡so

(0.966) 4.300 + 1.684 ~

" 50

o 4.53

=

=

c. Sumando probabilidades binomiales de la tabla con n 50 y Tr 0.50, encontramos que P(Y~ 18) = 0 .03 13 y P(Y~ 19) = 0 .0583. Entonces tomamos k = 18

Secciones 8.6 y 8 7

327

E1erctc105

y el intervalo de confianza al 90% se extiende desde el (k + 1)-ésimo 4.3. hasta el (n - k)-isimo valor= trigésimo segundo \•alor, 4.5. ·U s; mediana

~

=\'alor 19,

4.5

d. Hemos indicado que el uso de la mediana es más eficiente (proporciona intervalos de confianza mas peque~os) cuando los datos son propenc,os a \alores atípicos. El intervalo de confianza p:ira la mediana tiene una amplitud de 4.5 • 4.3 =0.2; el intervalo de confianza para la media tiene amplitud 0 .46.

EJEMPLO 8. 16

\fo~tramos un diagr:ima normal para los datos del ejemplo 8.15 hecho con Minitab. ¿Confirma el diagrama la opinión que nos formamos acerca de la distrihución de los datos en el ejemplo 8. 15?

MTB

p\ ot •ret ing' va •nscore• '

>





6.0+

ret lng

2

• 3 3

3

6 6

3

6 4

4.0+





2.0•

.

.



· ·······+·········•·········•···· · · ··•+·· ···· ···•·· ······nacor.. ·1.60

• .\'010.

Solución

· 0.&0

roting - calificación, flSCOrt'.T



0.00

O. &O

1.60

valon:s l\Qnnalcs.

En el ejemplo 8.15 concluimos que los datos eran propensos a \'alores atípicos. El diagrama normal muestra la forma de S que es característica de este tipo d.: d.lto •

SECCIONES 8.6 Y 8.7 8 31

EJERCICIOS

Remiiase a los datos del ejercicio 8.27. a. Trace un histograma o un diagrilma de tilllo y hojas de los diltos b. <-11'1) alguna razón oh\'io p;ira dud:ir de la correcta aproximación del nivel de confian¿a al 95º'o., 8.32 Con los datos del ejercicio 8.27, encuentre un inter. alo de confi:in1a al 95°10 para la 'erdadera mediana de los precio~. 8.33 Un fahricante de ropa ¡irueh:1 un siqema compu1adori1ado rara cortar rollos de tela. Su mteres rnncipal se centra en la cantidad de tela desperdiciada. l 'n cortador ex· penmentado (y costoso) tiene un rromed10 de 11.3'/o de desperdicio. Se selecc10na

328

8

ESTV-W:ION POR INTERVALOS

unJ mue~tra aleatoria de 18 patrones y ~ calcul:i el porcentaje que se desperdicia con el sistema. Los datos son los siguientes:

1o 6 12.6

8.34

8.35

8.8

di">I rihul.'iún j i cuadrado

11.3 12.8

11.6 13.0

11.6 132

1 1.8 13.J

o

12 IJ.6

12. t 13.9

12.2 143

12 4 149

(media 12.622, desviación estándar 1.113) a Calcule un intenalo de confian1a al 95% para la medi;i. b. Calcule un intervalo de contianZ<> al 95~~ para la mediana. Considere los datos del ejercicio 8.33. a. Construya un diagr;ima de tallo y hojas para los datos. ¿Existe una evidencia clara de no nonnalidad? b. ¡,Qué indica su respuesta al inciso (a) acerca de la eficiencia relativa de la media mucstral cuando se le compara con la mediana? ¿Se ve confirmada su respuesta por las amplitudes relativas de los dos intervalos de confi;inz:i que encontró en el ejercicio 8.33? Si usted dispone de un programa para la comput01dora, construya un diagrama normal de los datos del ejercicio 8.33. ¿Muestra el diar¡rama alguna obvia no normalidad?

INTERVALOS DE CONFIANZA PARA LA DESVIACION ESTÁNDAR



Hasta aquí sólo nos hemos concentrado en los intervalos de confianza para promedios (medias o medianas). No obstante, en muchas situaciones. especialmente en el control de la calidad. la variabilidad es tan import:mte como los valores medios Obviamente, reducir I:> variabilidad es una meta importante en la producción ma· siva de artículos: una compal'\ia que produce rollos de "3 pulg:>d:i~". la mitad de los cu:>les tienen :!.4 pulgadas de longitud y la otra mitad 3 6 pulgad:i., de longitud. no ser.i un buen negocio por mucho tiempo. L:i \ :iriabilidad también es importante en las organi~ciones de servicios: si un cajero automático nos hace esperar un promedio de 15 segundos (5 segundos en 90% de l:is veces) 105 segundos el 1Oºlct restante), el IOºo de las veces estaríamos molestos Una de las fonnas más razonables de mi:dir la v:inabilidad es la des\ iación estándar. por Jo que en esta sección estudia· remos J:i inti!rencia de intel'\ alos de confianla par:> este estadístico. El método que se describe en est:i sección utiliza una nue\ a distribución (muestra!) teórica. l:i distribución ji cuadrado (X"). En el apéndice de este capítulo mosm1mos qui:. p:ira medidas independientes tomadas de una población o proi:eso con un:i distribución nonnal. la c:intidad (n - 1)(s1 1 tiene una distribución ji cuadrado con n 1 grados de libenad. Por lo tanto, necesitamos usar t:iblas X~ para obtener un intervalo de conti:inza p:>ra la desviación estándar. En contraste con las distribuciones =y t, la distribución X: no es simétrica, por lo que el uso de tahl:is paro x= es un poco más complicado. L:i tabla 5 del :ipendíce nos da puntos: \':llores porcentuales que tienen una cola derech:i con :íre:i predetenninada a. Por ejemplo. el \'alor que separa un:> cola derecha con un área de! a=- 0.05 para una distribución x= con 5 g.l es 11 .07 (véase la ligur:i 8. 7:i). Para encontr:ir un punto que tenga una cola i:q111erda con un :íre:i predetenninada, debemos buscar el área complementaria. Por ejemplo, el valor que

cr)

Intervalo• de confianza para la den\8cJ6n inúndar

88

329

I(?)

t t .07 (a)

!(..-'}

05 t .15

(b)

FIGURA8.7

D1stnbucr6n

x2 con g.I. = S: (a) valor superior O.OS; (b) valor rnfenor O.OS

tiene un área izquierda de O.OS corresponde a un área derecha de 0.95. El valor tabulado para a - O.95 y g.1. =S es 1.15. Un diagrama como el de la figura 8.7b aclara la ~1tuación . Para valores muy grandes de g.I. un valor aproximado es

l~ ~(Ji- + J g.1. _ .s

r

EJEMPLO 8.17

Utilice la tabla 5 del apéndice para encontrar valores que tengan áreas en la cola derecha y en la cola izquierda iguales a 0.025, parn una distribución X~ con 29 g l. Utilice la aproximación que consiste en tomar g.I. muy grandes para determinar los mismo~ valores.

Solución

Para el \'alor correspondiente a la cola derecha, buscamos en la columna a= 0.025 y Ja fila 29 g.I., encontrando~ ois - 45 .72. Para el valor correspondiente a la cola

330

6

ESTlMAOÓN f'Oll INTCRVALOS

izquierda. debemos utilizar un área complementaria, a= 0.975; la entrada para 29 g.I. es~~ 975= 16.05. Para utilizar la aproximación con g.I. grandes, observamos que =~ 025 es el número 1. 96, qu..: ya nos es familiar. El valor ~ 02 ~ aproximado es

X~H ~ (l.96/v2 + y'28.5) 2 = 45.22 Para la cola izquierda, el valor de la tabla;; debe tener un área de la cola i::q11ierda igual a 0.025 y un área en la cola derecha de 0.975; este valor es z0.975 = - 1.96. El valor aproximado r} para la cola izquierda es 2 ;{ 91s

~

1.96/

(-

Ji. + J28.5 ) = 15.62 2

Aun para 29 g.I. l::i aproximación con g.I. grandes es razonablemente precisa.



Los valores tabulados se utilizan para encontrar un intervalo de confianza para la varianza pobl::icionnl (o del proceso). El intervalo de confianza correspondiente p::ira la desviación estándar se puede encontrar extrayendo las raíces cuadradas di: los limites de confianza para la varianza.

Intervalo de confianza al 100( 1 - a)% para si

a2 y a

s2

1 Para a 2 •• (n - 1) - 2 - < - a < - (n - 1 ) 2 --

Xw2

Xi

2

Para a;

(n - 1) s2

Xe12

donde

•l

~a~ J(n - l)~ X1 - o12

x.! separa un área a en la cola derecha de la distribución x2 con n -

1 g.I. •

Por ejemplo, una cadena de moteles tiene un número 800 para recibir reservaciones telefónicas. Un índice de la calidad de un servicio es el tiempo de espera, el tiempo que transcurre desde que el teléfono suena por vez primera hasta que un agente responde, preparado para hacer las reservaciones. El estándar de la cadena es que el tiempo promedio de e~pera no debería ser mayor de 30 segundos. La cadena tiene inspectores que viajan a los distintos moteles y verifican todos los aspectos del servicio. Estas personas realizan cada semana 30 llamadas para hacer reservaciones y registran, entre otros indicadores, el tiempo de espera en cada una de ellas. En una semana, los tiempos en segundos son 12, 13, 13, 14, 14, 14, 15, 15.16.17, 17, 18, 18, 19, 19.25,25,26,27,30, 33,34,35,-t0,40, 51,51,58, 59 y 83. En esta muestra, la media es 28.37 y la desviación estándar, 17.37. Podemos utilizar los valores tabulados ( 16.05 y 45. 72) que encontramos en el ejemplo 8.17 para calculor un intervalo de confian.ra al 95% para la varianza poblacional y Ja desviación estándar.

(30- 1)(17.37) 2 ------ <

4S.72

o

-

2

q

(30- 1)(17.37) 2 < ------

-

16.0S

88

lntel"alos de conlianu para la desV1aclÓn es~r

2

~I

191.38 .S u S 545.16 Extrayendo raices cuadradas obtenemos el intervalo de confi:mJ'a al 95% para la desviación estándar del tiempo de espera. 1383 s (1 s 13.35 El inten-alo indica que hay una gran \ariahilidad en los tiempos de espera, aun cuanJo todo parece indicar que el estándar para l:i media si se alcanza

EJEMPLO 8. 18

Una compañía farm:icéutica fabrica cierta clase de tabletas antihistamínicas. Es muy importante limitar la variabilidad o potencia de una tableta a la otra. El departamento de control de la calidad prueba rutinariamente muestras aleatorias de las tablet.a.S de cada lote. u potencia nominal de cada tableta es 25 miligramos y las potencias medid:is de 30 tabletas en una mueMra son 24.1 25.8 22.7 24 s 264

27.2 27.3 269 261

2S4

26 7 23.2 24 g 25.9 23.3

::?3 6 :?69

264 27.1

24 o

234

25 4

22 9 24.3

23.0

25.2 26 7 2SO 24 9 23.11

Construya un intervalo de conlianJ'..a al tencia de las tabletas.

Solución

9S~o

pam la desviación estándar de la po-

Los cálculos uswles nos muestran que y= 25.097 y s1 2. l 5tn Como n = 30. hay 29 gJ. Consultando la tabla 5 del apéndice, los valores X.Í ª 1 }' X~~ para un intervalo de confianza al 95% son¡.~ m = 16.05 y x~ ou = 45.72 . Porlo tanto. el intervalo de conlia~ al 95% para cr es 2.1583

<29> 45.72 .S

2

ª

.S (

29 2.1583 ) 16.05

o 1.369 S a 1 S 3.900

Extrayendo raices cuadradas, el intervalo de confianza al 95% para <:1 es

.[1369 s

t1

.s . . 3.900

o 1.17

s s (1

1.97

La justificación de este intervalo de confianza es que el C\ ento

sz

(n -

sz

1)-2- .S u 1 S (n - 1)-1- X.12 11 -.¡z

es algebra1camente idéntico al evento

3)2

8

ESTIHAOON POR INTERVALOS

1h:/d tiene una distribución X~ con n - 1 g.1. y que x?-a 2 y x}, ~ tient:n áre:is en la cola izquierda y en l:u:ola derecha de u 2. rc:.pccti\ amente. Laprob:d>ilidaddcl e'ento(el ni, el dcconfianai)esporlotantoel \alordel-.eado 1 a . Las inferencias ji cuadrado acerca de la de-,, iaci<~n estándar o de la 'arianza son panicularmente sensibles a la hipótesis de una pohlación o proceso normal. Si la población no es normal, las probabilidades anunciadas como el nivel de conliani'..O pueden ser erróneas. Un supuesto intervalo de confianza al 95% puede tener en realidad sólo una prohabilidad del 80°'1> (o aún menos) de incluir el valor correcto. La razón es que no hay nada en el procedimiento (excepto los valores tabulados. que suponen normalidad) que dé cuenta de la incertidumbre de la 'arianza mwstral. El Teorema Central del Limite no prcst:i ninguna ayuda: éste es un teorema acerca de las medias muestrales, no acerca de sus varianzas. Por consiguiente. en esh: caso es aún más importante trazar diagramas con los datos; si éstos tienen un aspecto no normal, el supuesto nivel de confianza no es creíble. Otro método par:i determinar intervalos de confianza es el mHodo jflc/..k11ife, que se basa en un enfoque de cómputo. Para llevar a cabo este melodo. cxclu~ a cada vez y en forma consecutiva una observación muestra!, y vuelva a calcular l:i varianza. Si usted omitió un valor típico. la varianz.:i no cambiará mucho: pero si usted omitió un valor atípico, la varianza decrecerá se1,eramcnte. Así, el método 1ackknife le advertirá si está tratando con datos propensos a los valores atípicos. pues las varianzas correspondientes a dichas exclusiones 'ariadn enormemente. Como es de esperar. usted deberá aplicar el m¿lodo con una computadora, no a mano; un programa para tales propchito' se hará cargo de los det:illcs técnicos. (Para su conocimiento: la computadora calcub "scudovalores" por ejemplo. /1 \C· ces el logaritmo de la varían~ menos 11 1 veces el logaritmo de las varianz.:is co· rrespondientes a las exclusiones- y después encuentra un intervalo de confianza / utilizando los seudovalores. Quizá tenga que reconvertir los logaritmo~. mas en otro'\ aspectos usted puede dejar el trabajo pesado al programa.) l:I métodn jackknife no supone una población normal, y la prohahilidad bu-.c:HJa ::.e hace más precisa a medida que jUment¡¡ el tamai'\o de la muestra; por consiguiente, es más fidedigno que el inlcr\'alo ji cuadrado en los casos en que un diagrama de los datos sugiere que éstos ticn~·n una distribución no normal. Los datos correspondientes a los tiempos de espera en el trámite e.le rescn aciones considerados con anterioridad en esta sección son asimétricos a la derecha. Sabcmo~ que (n

método j t1ckk11iji.•

"4T8 MTB "4T8 "4T8 HTB MT8 MTB MTB MT8

C48 MTB MTB HT8 HTB

>

let k1 • 1

> execute 'kn1 fe1 ' >

let c50•ck1

> l et k2•s1.111(c50) > let k3•ssq(c50 ) > le t k4•count(c50 > > let c49• (C k3· c50••2)·CCk2·c50)••2)/( k4 ·1))/( k4-2) > l et c48s2•k4• loge(s tdev(c50))-C k4 ·1>• 1oge(c49) > tlnte rve l of c48 N MEAN STDEV se MEAN 95 .0 PERCENT C.J. 30 5.790 2. 333 0. 426 ( 4.9 t 9, 6.661) > let k5•exponent ial(4.919) > let k6•exponent ial C6. 661) > note k5 and k6 are conf1dcnce t imlts for t he va ri ance > prlnt k5 •nd k6

KS

136. 866

K6

781. 332

MT8 > end

333 de modo que un intel"'\·alo de confi::in;.a determinado con estc método delierá ser más digno de crédito que un inter\'alo El trabajo lo hizo un "macro·· de Minítah; y nosotros consideraremos los resultados. no los cálculos. l· I intervalo jaclclcnifc 136.87 ~ d S 781.33 es más amplio que el intervalo ·i 191.38 $ d ~ 545.16 que encontramos previamente. No obstante, la pretendida conftanz;i al 95% del imervalojockkn~fe es más fidedigna que la corrl!spondiente al 95% dd inter\'alo parad, dada la no nonnalidad de los datos de la muestra.

x!

EJEMPLO 8. 19

Con hase en los datos del ejemplo 8.18, el intervalo de conti::inza jocklcnife al 95% para la desviación estándar de la potencia de las tabletas es 1.581 $ d ~ 3.034. Un díagr.ima di! tallo y hojas de los datos es básicamente plano sin nada parecido a un \ alor atípico. ¿Hay alguna ra1.ón para prefl!rir el intervalo 1ackk.nifi• en VC7 del intcl"'\·alo 1.369 S <:i- ~ 3. 900 que se enconlró en el ejemplo 8.18?

Solución

No hay ninguna indicación de asimetrías o valores atípicos, de modo que la pretendida confianza del intel"'\·alo X~ debería ser ra/'onablcmcnte precisa, al igual que el nivcl de confian1..a del intervalo jocklcnife. Ambos son válidos. ma~ el intervalo jaclclcnife es preferible por ser más pequei\o. •

SECCIÓN 8.8 ~JERCICIOS _ Suponga que r tiene una distribución X2 con 27 g.I. a. Encuentre f>(f > 46.%1. h. Encuentre l'( r · 18.11 ). c. Fncuentre P( Y· 12.88). d. ;,Que 'alor tiene P( 12.8786 < Y< 46.9630)'.> 8.37 l'.ira una distribución x. 2 con 11 g.I., a. Encuentre X~ 0 ,~ ; . ~ b. hncucntre •m . 8.18 Suponga que Y tiene una distribución 1 con 277 g.I. Encuentre \alorc!t aproxima-

8.36

Xo

8.39

-

x

dos para X~ o~s y X~ im • Un vendedor de muebles de madera con disc~os modernos importa muchos de sus articulos del norte de EuroJla. Para reducir )os gastos de embarque. los muebles se en\ ían desarmados en empaques planos y compactos. El cliente arma los muebles en su casa. No se puede esperar que el compr:idor haga trabajos de carpintería de alta precisión. de modo que las pJrtcs deben encuadrar muy bien. Para un modelo 11111) poflular. el cliente dehe insert3r cuatro Jliltas redondas en sendos hoyos ya per· for3dos. Para un ajuste adecuado. el diámetro de las patas debe ser ligeramente menor que un centímetro. lne\ itahlemente, ha) cierta 'ariacion en los diámetros de las patas, debida principalmente al desgaste de las herramienta~ de corte e imperli:cciones en 13 madera. El vendedor compra las patas a dos proveed-Ores bajo la e~pcc11i­ cacion de que el d1.imetro medio dehe ser de 0.99S centímetros> la desviación estándar menor que 0.030 centímetros. Como parte de los procedimientos de control de la calidad, se obtu\ ieron muestras 3Jea1orias de 12 l pata~ de cada uno de los pro\'Cedores. Los datos correspondientes al proveedor A se analilaron con Minitab, con Jos siguientes resultados:

334

8

ESTIMACIÓN POR INTERVALOS

HT8

>

print

•s~lA'

S~lA

"

0.937 0.970 0 .978 0.982 0.986 0.990 0.993 0 .998 1.000 1.003 1.006

1.011 1.020 1.028

0.947 0.972 0.978 0.982 0.987 0.991 0.993 0.998 1.001 1.003 1.006 1.011 1.021 1.029

0.957 0.972 0 .978 0.982 0.987 0.991 0.993 0.998 1.001 1.003 1.007 1.012 1.023 1.032

0.962 0.973 0.979 0.983 0.987 0.991 0 .994 0. 999 1 .002 1.004 1.008 1.012 1.023 1.038

0.963 0.974 0.979 0.983 0.987 0.992 0.995 0.999 1.002 1.004 1.008 1.015 1.024

0. 963 0.974 0.980 0.981. 0.989 0.992 0.995 1.000 , .002 1.005 1.008 1.015 1 .025

0.964

0 . 967

0.970

0.980 0. 981. 0.989 0. 992 0.997 1.000 1.002 1.005 , . 009 1.017 1.025

0.981 0.985 0.989 0 . 992 0.997 1.000 1.002 1.005 1.010 1 .018 1.025

0 .981 0. 986 0.990 0 .993 0. 997 1.000 1.002 1.006 1 .011 1. 019 1.026

o. 975

o.9n

o. 9n

MT8 > describe •supplA' 11

Supc>IA

121

SupplA

0.93700

Mlll

MEAN 0. 99516

MEOIAll JRMEAN STOEV 0.99700 0.99548 0 .01825

ltAX 01 1.03800 0.98250

SEMEAN 0.00166

03 1 .00600

• /\'ottJ. supp/A ,. ptovtc:dor A

a. C3kule un intenalo de confianr.3 al 95% pilra la desviación estándar de todo un lote de varios miles de palas. b. De acuerdo con este intervalo de confian1.a, ¿es posible que la \Crdadcra desviaciún estindar sea mayor que 0.030 centímetros? K 40 a. F.I intervalo de confianz.a del ejercicio 8.39 tiene dos extremos. ¿Por qué un in· tervalo de confianza ~on un solo extremo. el superior, puede ser más útrl'> b. Calcule un interulo :il 95% p3ra la desviación estándar con un solo extremo. d superior. ¿Qué indica este intervalo acerca de la posibilidad de que l:i des\ iac1ón estándar sea ma)or que 0.030 cenlimctros? S.41 Se ha clatoorJJo unJ mac ro (sucesión de instrucciones) parJ M initab llamada ..kni· fe I " para realizar los cálculos del mctodo jackknife par:i f3 v:irianza de una sola muestra. A conlinuación se mue ..tran los resultados para los datos del ejercicio 8.39.

MTB > ltTB > MTI > MTB > MTB > MTB > ltTI > MTB > ltll >

l et k1•1 •a : kni fel' let cSO•ckl l et k2ss1111(c50> l et k3 =ssq(c50> l et k4•cOYnt(c50> l et c49•<< k3 ·cso••2>·<< k2· cSO> ••z>t< l4 · 1))/( k4 ·2> t et c48=2•1t4*1oge(stdev(c50 >> · •toge(c49) t1nterval o f c4&

ex~ute

11

C48 MTB MTI Ml8 MTB MT8 (5 (6

121 > ffd > l et

MEAN

·8., 17

STOEV SE MfAll 1.540 0.140

95 .O PERCEliT C. I. · 8.J94 , - 1 . &1.0>

e

k5=cxpon< 8.394) l et k6=exponC · 7.840> >note kS ard k6 a r e the j ackkn1fe conf1dence li•1ts far Sl llfl\t squared > print kS k6 0 .000226221 0.000393669 >

Sección 8 8

8.42

335

E1erc1c1os

a. Identifique el inlervalo de confian;ra al 95% para la \'arianza de la población. b. ¿Es este intervalo muy distinto del que se encontró en el ejercicio 8.39? Los siguientes datos y anáJisis corresponden al segundo proveedor del problema 8.39.

Suppl8 0.907 0.956 0.967 0.973 0.980 0.987 0.991 0.997 1. 001 1.005 1.010 1.017 1. 031 1.043

0.921 0.959 0.968 0.974 0.981 0. 987 0.991 0.997 1.002 1.005 1.011 , .018 1.033 1.045

0.936 0.959 0.969 0.974 0.981 0.987 0.991 0.997

, .003 1.006 1 .012 1.019 1.036 1.050

0.945 0.961 0.969 0.975 0.982 0.988 0.993 1.000 1.004 1.006 1.012 , .019 1.036 1.059

0.946 0.962 0.970 0.976 0.982 0.989 0.993 1.000 1.004 , .007 1.013 1.023 1.036

0.946 0.963 0.971

o.9n 0.984 0.989 0.993 1 .000 1.004 1.008 1.013 1.024 1.039

0.948 0.963 0.971 0.978 0.985 0.990 0.996 1 .001 1.004 1.009 1. 015 l.027 1.039

0.951 0.966 0.973 0.978 0.985 0.990 0.996 1.001 1.004 1.009 1.016 1.027 1.039

0.955 0.967

0.973 0.979 0.985 0.990 0.997

1.001 1.005 1.010 1.017 1.029 1.040

MT8 > describe 'Suppl8' N

Suppl8

121

S~l8

0.90700

HIN

MTB MlB MTB MTB >tTB MTB MTB MTB MT8

MEOIAN 0.99600

TRlo!EAN 0.99422

MAX 1.05900

01 0.97450

oJ 1.01050

STO EV SEl~EAll 0.02740 0.00249

l et kh2 execute 1 a:kn1fel' let c50:clt1 > lct k2ssUll(C50) > lct kJ•ssq(c50) > l e t k4=couot( c:50> > let c49•(( k3·c50**2)·(< k2 ·c50)**2 )/( k4 ·1))/(k4·2> > let c48=2•k4*1oge(stdcv(c50))·(k4· 1) *loge(c49) > t1ntervel of c48 >

> >

11

C48 MT8 MTB MTB MT8 MTB (7 (8

MEAN 0.99378

121

MEAN . 7. 273

STDEV 1.541

se MEAN

o. 140

(

95.0 PERCENT C.I. ·7.550, ·6 .995)

> end > let

k7=expon(· 7.550) l et k8=expon(·6.995) > note k7, k8 are jockkn1fe conf. lim1ts for > print k7 k8 0.0005261 10 0.000916453 >

t~e

Suppl8 veriance

Mín1tab para el ejercicio 8.42

Con los métodos ji cuadrado y jadtknife. obtenga intervalos de conliani'.a al 95% p:ira la de$viaci6n estfodar. ¿Son parecidos estos inten a los-:> b. Si usted ya llegó a alguna conclusión, ¿cuál de los proveedores diría que tiene una mayor variabilidad? ¿Es suficiente la información que proporcionan las muestras para sustentar su decisión con una certeza casi absoluta?

:i.

•••

"

UtW •

t

H'OftlNllKVALOS

La estina:lción por intervalos nos pem1itc especificar límites ra1onables para los valores de los parámetros de una población y nos da una ind1c:lción explícita del grado de inccrtidumhre en una estimación. La forma de un intervalo de confianza para la media de una población o proceso es estimador± (valor tabulado)(error estándar) donde el valor tabulado se toma de una tabla zen el caso (poco realista ) de que se conozca la desviación estándar de la población, y de una uibla ten el caso (cieno por lo general) de que sea desconocida. Lo mismo se puede decir de muchos, pero no de todos. los intervalos de confianza de otros estadísticos, con distintas fórmulas para el error estándar. Los intervaJos de confianza para las medianas, que requieren tablas binomiales, y las desviaciones estándar, que requieren de tablas ji cuadrado, son intervalos que no son de esta forma. Los estimadores eficientes proporcionan intervalos de confianza precisos y peque~os. La elección del método para el intervalo de confianza depende de la natUr.lleza de la población o proceso subyacente. Nue,amentc, los diagramas para los datos pueden indic3.f si las asimellÍas o los valores atípicos obligan a utili7.ar un parámetro distinto a la media. Una forma muy útil de determinar el tamaño que debe tener una muestra, es decidir la amplitud deseada del intervalo de confianza y después calcular n. Este principio se aplica por ensayo y error en muchas situaciones, mas para el caso especifico del muestreo aleatorio y la media se puede proporcionar una fórmula.

FÓRMULAS PRINCIPALES: estimación por rntervalos l. Jntervalo de confianza al 100( 1 - a)% para µ, cuando se conoce O" (1

donde

<1 r

= /;

Observe que za.'"2 es el valor de la tabla normal que tiene un área igual a aJ2 en Ja cola derecha. 2.

lnteí\alo de coníianza al 100(1 - a)% para 1C

-± Ji(I -

1l

3.

Za¡2

Tama~o

i)

"

muestra) requerido para obtener un intervalo de coníianza al 100( 1 - a)% para µ, con amplitud 2E z:12C12

n =---

E2

4. Tam:li'lo muestra! requerido para obtener un intervalo de confianza al 100( 1 - a)% para te, con amplitud 2E

CAPÍTULO 8

337

Z~12i(l - Í!)

ti=------fl donde

;r se puede estimar con base en un:l inform:ición previ:i o tomar.

de manera conservadora, como O 50 5. Intervalo de confianza al 100(1 - a)o/o paraµ s >' ± le¡l

¡;.

donde la12 se basa en g.1. 6.

=n -

1

Intervalo de confian1..a al 100( 1 a)% para la mediana estadístico de orden (k + 1) S mediana$ estadístico de orden (n donde

.le)

P(número de éxitos S k) $ aJ2 y P(número de éxitos S k + 1) > aJ2 en la tabla 1 del apéndice, tr = 0.50. Para n muy grande, k • 0.05n - 0.05zan.Jn. 7. Intervalo de confianza al 100{ 1 - a)% para la varianL.a

sl

(n - 1)-2-

le/2

~ u2

s (n -

1)-

sl

2- l1-e12

EJERCICIOS

---------------

8.43

Una muestra aleatoria de los balances de fin de ai\o de 22 empresas pequei't:11s (con ventas anuales inferiores a los S00,000 dólares) 1irrojo una media muestra! de los beneficios brutos de las ventas del 5.2% y una desvit1ción estándar del 3.3%. Utilice C'itos resultados para calcular un intervalo de confianza al 90% de J;i media poblac1onal, donde la población estÍI constituida por (el beneficio bruto de) los .. arios miles de pequei'tas empresas de la ciudad. 8.44 Rcmftase al ejercicio 8.43. Obviamente, el beneficio bruto de un negocio saludable no puede ser negativo. La regla cmplrica para dos desviaciones estándar indicaría que una fracción sustancial de los negocios tienen beneficios brutos negativos. a. ¿F.s probable que los datos de la muestra tuviesen una distribución cercana a la normal? b. ¿Qué indica su respuesta al inciso (a) acerca del intervalo de confianza que se calculó en el ejercicio 8.43'? 8A5 Un pro)'ecto de investigación para una compaflia de seguros tiene como propósito determinar el valor medio de las posesiones personales de los arrendadores de apartamentos urbanos. Un estudio previo sugiere que la des' iación es~ndar de la población deberi:i ser aproximadamente 10,000 dólares. Se pide un intenalo de coofian.1a al 95º• con una amplitud de 1000 dólares (más-menos 500 dólares) e.De que tamai\o se debe tomar la muestra para obtener dicho inte~alo de conli3n1J"' 8 46 Se puede argumentar que los datos del ejercicio 8.45 podrían ser 3simétricos: son pocas las personas que poseen propiedades de mucho valor. Por lo tanto (continú3 el argumento) el intervalo de confianza es totalmente inválido. 1, Es correcto este argumento? 8.47 Mucho~ incfüiduo!> de más de 40 ai'los desarrollan intolerancia para la leche y otros productos lácteos. Un fabricante ha elaborado una linea de productos sin lactosa que

338

8

ESTIMACION POR INTERVALOS

'ºº mejor tolerados. Para determinar el mercado potencial de estos productos. el fotmcante pidió a un grupo de in\'esiisaciñn de mercado que estud13c;e :i los indivicon m:is de 40 ailos en su áre:i de \Cnta. Una muema :ilcatoria de :!SO personas indica que 86 tienen intolerancia para la leche Calcule un intervalo de confian1.a al 90°ó para la proporción de la roblación que tiene intolcrJncia hacia la leche con hase en los rcsuhados de la muestr:i. 8.4 S En el ejercicio 8.4 7 se plantea un segundo e~tudio. Se debe construir un ínter\ alo de confian.1~ al 90~o. ¿Oc qué t:im:tllo se debe tomar la muestra para ec;timar la proporción de 13 población, con un error no mayor de O.O:?. t-.310 las siguientes condiciones: 3. Suponiendo que la proporción de la muestr3 es 3proximadamente la misma que -;e cncootró en el ejercicio 8A7. b Suponiendo que la proporción de la población puede ser cualquier3? 8.49 Poco ante~ del 15 de ahriJ• de un ailo particular, un grupo de sociólogos realizó una encuesta para in\estigar su teoría de que los e\'asores de impuestos tienden a reducir sus culpas sosteniendo cienas creencias. Se entrevistó a un total de 500 adultos, a quienes se les preguntó en qué situaciones pensaban estaba ,1ustificado hacer declaraciones incorrectas. Las respuestas inclu}eron las siguientes: ~uos

56° o est:i de acuerdo en que "otras personas no declaran todos sus iogresos". 50°ó cst:i de acuerdo en que "el gohicmo a menudo no tiene cuidado con el uso del dmero recaudado ror impuestos". ~6° o est:i de acuerdo en que "el engallo puede no ser tenido en cuenta si en i¡.éneral uno es respetuoso de las leyes". Suponiendo que lo~ datos son una mue'>tra alc;iton3 simple de 1.1 pohlJc111n de quu:nes dehen ra¡¡ar 1mpuc<;tos (inclu~ cndo e' a'>orc'\). calcule un intcn alo de conlian.1.i JI 95° • p.ua la proporción de la población que concuerda con cada una de la'I atirmacmnes 8.50 Al coment:>r el estudio del ejercicio 8 49. un escritor de editon3lcs alirma que la opinión de 500 individuos es 'mu::ilmente msignificante comparada con el número total de quienes pagan impuestos en .. stados Unidos; estos podnan ser los 500 "ma~orcs e\awres" de todo el pais. Critique 13 postura del editorialista. 8.51 Se midio el contenido de cafeína {en mili¡;r3mos) de una muestra ::ileatoria de 50 ta/3S de café negro sel"\ idas por una nue' a máquina L3 media> la desviación estándar son 100 miligramo'> y 7.1 miligramos, respcct1' ¡¡mente. Construy::i un ínter\ alo de contian1a al 98°0 para la \erdadera media (poblacional) del contenido de c3feín3 por ta.13 ser\ ida por la máquina. K.52 La rn:iquina del ejercicio 8.51 es capal de servir 3000 ta1as por día fl conh:nido de cafeína camhia dehido a las \'ariaciones en la cantidad presente: c:n los ¡¡.ranos de calC molidos y en el tiemro de extracción a . ¡,Se puede cuestionar el estudio del ejercicio 8.S 1 en 'irtud de que ~e ha analindo una fracción mu~ peque/la de las ta1as que sir\ e l<J máquina'? b. Las 50 ta1as de la muestra se toman de la m:iquioa en forma consecutiva t.1lace esto que el estudio sea cuestionahlc? 8.53 \ ln:i muestra aleatoria de los halances financieros de fin de año de una muestra de :!:? pequeilos negocios minoristas (con ,·cntas anuales inferiores a 500,000 dólares) muestra que el margen de ganancia neta sohre las 'entas es 0.021 O y la de~' iación c~tindar 0.011~ . Encuentre un inter\alo de confianta al 90°ó para el margen medio de ¡;:inancia nela de todos los peque/los negocios minoristas de la ciudad. 8.S~ LM rell-istros indican que en el ejercicio 8.53 hahia 97!0 pequei\os nesocios mino· nstas. La mue,tra se tomó sin rccmplatam1en10. t.t::s imponante corregir los cálculos del inten alo de confianza parn el mue~treo sin reempla.1anucnto'' 85) Los datos del ejercicio 8.53 indican que la d1stnhuc1ón de los márgenes netos de ganancia tiene un pico alrcdi:Jnr de O 015. algunos negocios tienen márgenes mucho • l"i.!.:h3 ~n que las (,\' tft'I T.)

~rSOl13S

lis1cas 11cnm que

pc~scnw

su dt"dar3c1on de ingresos '-'fl r.,udos 1'mdos.

H9

E¡ercicios

m:i~ grandes pero ninguno margenes miis pequeilos. ¡,Que indica este hec ho acerca del inten.alo de confian1.a al 90% que se encon1ró? 8 56 Se obtu"o un:i mue~tra aleatoria de 100 registros. Los dalM y la \alicfo de Minitah son los siguienles:

values

40 54 57 60 61 65 67 72 HT8

45 55 58 60 62 65

42 55 57 60 62 65 67 72

68 7J

48 55 58 60 62

48 56 58 60 63

49 56 58 60 63

49 56 59 60 63

66 68 7J

66 68

66 68

66

66

74

76

69 79

69 81

v1lues

100

MEAll 61.460

HEOI AN 61.000

TRHEA N 61.478

values

HIN 40.000

HAX 81.000

Q1 57.000

Q3 67.000

11

HTB > t interval w1th 95X c:onf1denc:e for N 100

values

50 56 59 60

51 56 59 61

51 56 59 61

61,

61,

61,

67 69 81

67 69

67 70

52 57 59 61 65 67 70

53 57 59 61 65 67 72

•values•

~sc:ribe

>

47 55 58 60 62

>'EAN 61.460

1

STOEV 7.845

SEHEAN 0.784

v1lues•

STOEV SE MEAN 7.845 0.784

(

95.0 PERCENT C.t. 59.903, 63 .017)

a. íracc un diagrama de tallo y hojas o un histograma. ¿Cuál es la forma general de los datos., b. l»I in1crvalo de conlian1.a para la media. ¿debería ser más grande o m:i~ pcquel\o que el intervalo de confian1a al 95% para lu mediana? c. Calcule un intervalo de cunfian1.a al 95% par;i la mediana. t.Concuerda el resul1ado con la respuesta que usu:d dio al inci~o (h)? 8.57 A continuación moslramo" un diagrama normal de los dato'\ del ejercicio R.56 hecho con Mini1ah ¿Confirma el diagrama !J opinión que u<;tcd se formú en el inciso (a) de dic ho e1ercic10'! HTB > plot

1

v1lue1 1 vs • nscores •

values

••

75•



2

32 4 42 55 7 433 60•

6 9 5 6 45 24 •2• • 22

45•







+· • • • • · · · ·+· • • · · · · · ·+· • · · · · · · -•· • · • • - · · ·•· • • · • • • · ·•· · • • • ·nacor••

·3 . 0

· 2.0

· 1.0

o.o

1.0

2.0

340

8

~STIHACIÓN POR INTERVALOS

IU8

l·.I dep:1r1amen10 de policía de una ciudad de rcgul3r t3m3ilo registró el tiempo de respuesta a 13s ll3mada<; en las que se denuncian delílos. pero que no <;on emergencias. como desvalijamiento de automó\'1les o robo a casas Como una muestra ' alc3toria del proce<¡o en curso, ~e tomaron los tiempos en minuto~ correspondiente~ a 29 llamadas registradas durante una .;emana. 11. cont1nuac1ón st: muestra 13 s3lida de Minllah

IH B > print • res pt il!lf • respt i 111t

25 26 23

24 12 14 MTB >

18 16 17

descri ~

zs

,,

1S 12

19

11 12

2t

19 12

36

l9

18

11

1J 19

21 16

12 24

' res ptilllf' N

resptime

29

MEAN 18 .3 1

MEDI AN 18 .00

TRMEAN 17.93

MIN 11.00

MAX 36.00

01

03

respt iine

12.00

23.SO

STOEV 6.l9

SEMEAN 1. 17

MTB > zínte rva l w1th 901' conf1dence si gma • 6.0 da ta •r esptiN ' THE ASSUMEO SI GMA "6.00 N

respt11M

29

MEAN 18 . 31

STOEV SE MEAN 90.0 PERCENT C. I . 6. 29 1. 11 < 16 .48, 20 . tS >

MT8 > tl n terve l wí th 90X conf ldence date N

respti •

29

• ,\'01<1. n·.fpttn1c!

STDEV 6. 29

MEAN 18. 31

tiempo de

1

SE MEAN 1.17

resptí111e 1

(

90. 0 PERCENT C.I . 16 .32 , 20. 30)

respue~ta.

a. Calcule un inter\'alo de confi3n1a al 900/o p3ra el tiempo medio del proceso. en el limile. suponiendo que la des\'i3ción estándar es de f\.O minutM. Localice el resultado en la <¡alida de Minitah. b. Vuelva a calcular el inlervalo de confian1..a suponiendo que <¡e desconoce la des\ iación estándar en el limite. Localice este re~ult3do en la s3lida de Mini1ab. c. 1,l'nr qu~ el segundo intcí\'3lo es más nmplio que el primero? 8 5<> 1racc un hi'itogr3ma o un diagrama de 1allo y ho1as de los dato<; del ejercicio fUR 1 l .e rarccc que la di'itribucion de Jo<; tiempos de respuesta e<; arroximadamcnte normal? !1.60 I· n un crl3dero estatal de pece'\ se crían truchas rara aprovisionor ríos y lagos. El peso del pe1 en el momento que es li~rado se puede controlar variando su alimen1ación. El ohjetivo e<; una media de 10 on1.a"I. s1 los peces son mu:. pcqueilos. quienes los pe<;c.m no quedan muy contentos. pero ~i los pece" son dema"liado grandes, los descontentos son quienes compran el alimento. Se pesa un3 muestra de 61 peces en el momento de ser liberados. tos pesos, con una aproximación de dl!cimas de on1n. son los siguientes: 93

11 7

1()0

!l!I

98 10::? 101 9.7

9.0 91 10.2 J04

media

o

11 9.3 10 7 11.0 !I K 91

9 !I

92 9.J 94 9.J 97

10.1 K1 96 9.7 10.J 107

9.6803, des\'iaeión est:\ndar

K9

99 104

12.1 10.7 tOó

!17 94 94 9 !I IOK

0 .95983.

95 IU

l08 10 3

9 !I

91(

7. 1

113 9 (1

75

ti 7 98 9.2 ro J 101

76 9.5 11.0 10.6 9.2

341 a. Calcule un intervalo de conlianla para el pe$o medio de un grupo formado 11M 'arios miles de peces. ¿Se debe considerar la de'' 1:u:wn C'-t.rnd.1r 1nd11:ad.1 comfl una des\ iación estándar poblacional o muestra!? b. ¿Indica el intervalo de conlianra 4ue el criadero no está logrando el ohieth o de •: 10 onzas? &.61 Obtenga un diagrama de tallo y hojas de los dato~ del ejercicio R.60. ¿Indica d diagrama que la distrihución de pesos es aproximadamente normal? Si no lo es, ¿se im alidaría por ello el intervalo de confian1a calcubdo en el ejercicio &.60'? 8.62 Los datos del ejercicio 8.60 se ohtu\ ieron dividiendo aleatoriamente los pece~ en grupos con distintos destinos. Después, dentro de cada grupo se seleccionaron algunos peces (escogidos ;il aru en la medida de Jo posible). Podemo$ sospechar que al principio se atraparon con la red los peces más ~randes ) 4ue estos se asignaron a los primeros grupos. A continuación se mue~tra un diagrama del peso de los peces contra su número de grupo. ¿l la~ ;ilgún indicio claro de que los pesos se van reduciendo a medida 4ue se incrementa el número del grupo'?

wei ghts •





11.2•





• • • • •

9.6+





2





2 4





2

• • •

8. 0•





2

• •

2

• •

3

2





• •



• •





3 2









· ·····•·· ·· ·····•· ·· ······•········ ·•·········•·········•betcti 1.5

3.0

6. 0

4.5

7.5

9. 0

8.63

a. Utilice los dalos del ejercicio 8.60 para calcular un intervalo de confian1..a al 95% de la desviación e<;tándar ¡'l(>hlacional. h. El criadero espera una des"iación esr:indar de 0.75 on1;i~ en los pesos. ¡,Indica el intervalo de confianla del inciso (a) que en este ca"o no se alcanzará dicho

8.M

Un fabricante de m;illas metálícas trata de limit;ir el nümero de defectos a no más de 5 por cada 1000 pies. Los defectos son por lo general alambres rotos en la mall:i o hurbujas de pintura. Cada día. se inspecciona una n1ue .. tra de 2-J corte~ de tela metálica, cada uno de 500 pie" de longitud. Los siguientes datoi; corresponden a los defectos encontrados en lo" cortes de la muestra.

o~jetivo?

J .i 11

.:!4

~

J J

'media * 2.917

o

ti

.i

5

o ~

~

2

o

medi;ina des\iac1ón estándar 300() 1. 7IJ 2

5

2

~



.1

ó

342

8

ES'TlMACION POR INTERVALOS

a. Calcule un intervalo de confi:inza al 99% para el número medio de defectos en la producción de un di:I. de muchos miles de cortes de 500 pies. 1> De acuerdo con las metas del fabrican1e, ¿cuól debería ser el número medio de defectos en los cortes de 500 pies? ¿Indica el intervalo de confianza que este \3lor no es posible? Los datos del ejercicio 8.64 se obtuvieron por inspección \isual lle la malla. Supon· ¡;a que el día en que se reali16 la mues1ra, Ja inspección no fue tan cuidadosa como debería haberlo sido. ¡,Qué sesgo se introduce con ello? Como resultado, ¿el 1n1ervalo de confianta deberia ser muy pequel'to o muy grande? a . En d ejercicio 8.64, la media menos dos desviaciones estándar corresponde a un número negativo de defectos. ¿Que sugiere este hecho acerca de la distribución de Jos datos? b. Trace una gráfica de lo.> Jatos. ¿Confirma la figura su respuesta al inciso (a)? a. Calcule un intervalo de confian1a al 90°0 para la verdadera desviacibn estándar pohlacional del número de defectos. b. Suponiendo que la distribución del número de defeclos no es normal, ¿cuál es el efecto sobre el intervalo de confian1a para la desviación cstándor? Un fabricante de di squete~ para computado ras personales está preocupado por el número de sectores doi\ados que se registran cuando se formatea un disco en una computadora particular. Se selecciona una mue ~tra de 36 disquetes de Ja producción diaria. se les da formato y se registra el tama"o (en miles de bytes) de los sectores

8.65

8.66

8.67

8.68

Mf8 > print 'badsects' b.1dsects

4.92 6.97 3.91 S.47 MTB >

10.20 4.69 0.49 26.03

st ~

12.88 14.79 7 .57 0.6J

1.05 1S .53 1.03

12.09 12.43 6.02

4.54 8.00 26.43

5.96 7.97 4 .19

7.36 4.85 7.07

5.77

1.68

3 .68

31.68

3..~1

17 .21 0.94 48.93 5.43

and leaf of 'badsects•

Ste111-end·leaf of badsects

N • 36

leaf Unit " 1.0

14 (11) 11

o 00011 133344444 o 55556677778 , 02224

6

1 57

4

2

4 2

2 66 3 1

1 1

3 4

1

4 8

MTB > describe 'badsects • N

MEAN

MEDIAN

badsects

36

9.49

5.99

UNUN 8. 12

MI N

AA)(

badsecu

0.49

48.93

01 3.98

03 12.34

STOEV

SE MEAN

10.02

t.67

MTB > t1nterval 951 conf 1dence of 'badsecu• b.:ldsects

N

MEAN

STOEV

36

9.49

10 .02

SE MEAN

1.67 (

95.0 PERCENT c.r. 6 . 10, 12.88)

(con11nú.1)

343 MT8 > s i nterval 95l confidence of 'b&dsect s • F~

SI CN CONFIDENCE I NTERVAL

badsects

N

MEDIAN

36

5.990

MEDIAN ACHIEVED CONf IDENCE

0.9348 0 .9500 0.9712

CONf" IDE NCE IN TERVAL

( ( (

4. 850, 4.808, 4 .690 ,

POSIT JOli 13 llll

7. 970) 7 . 978) 8 .000)

12

• No1a. bC1dst'cl.1 '" sectores dallados.

daí'tados de cada disco. A continuación se muestran los datos correspondientes a un día de producción. a. Localice el intervalo de confianza (para la media) con base en los métodos de la distribución t. b. ¡,Se puede decir que este inter"·alo significa que el 95% de los discos individuales tienen entre 6.10 y 12 .88 miles de bytes de sectores d!Wados? 8.69. a. Determine un intervalo de conlian1.a al 97.12º'.. para la media poblacional de los dato~ del ejercicio 8.68. b. Explique por qué este intervalo incluye valores tan distintos a los del iotervalo de confianza del ejercicio 8.68. 8.70 Los datos sobre los sectores daí'tados
48+

*

badsec ts· *

32+

*

* 16•

. O+

*

.

* *



* 2 *

2

* *



• 2

*

• • z ······•·········•·········•·-- -···-·•·-·· · ····•·· ·······•totRAll 2. 0

3.71

* *

4.0

6. 0

8 .0

10 .0

12. 0

Una compal'lia arrendadora de automóviles compra unidades nue\as, las utilii'..a durante unos seis meses y después las vende en subasta. En efecto, la compal'lia está en el mercado de valores luturo~ de los automóviles usados. Por lo tanto. quiere tener una estimación correcta del valor futuro de su flotilla actual de automóviles. Un asesor propone un nue\o método para estimar el valor futuro. ~:ste se aplica a un:i muestra de automóviles. Se hacen estimaciones iniciales, se utilii'an los autornóvi· les ) después se obtiene el precio subastado de cada uno de ellos. Los datos soo el c~iente entre el valor real y el valor estimado para cada uno de los 121 automóviles que no sufrieron da1'o durante el periodo de arrendamiento. A continuación mos· tramos los datos como los presenta la computadora.

344

8

ESTIMACION POR INTERVALOS

llT8 > prlnt '•ct/est• ect/Ut " o .968n 1.01080 0.94118 1.02320 1. 04872 0.96125 0.99000 0 .96406 0.99622 0.960 11 1.00280 1.001 8.3 1.01532 1.00563 0.98227 1.00000 0.95688 1. 07150

1. 02 149 0 . 96833 o.9n19 0.97978 1.01224 0.95879 0. 99463 0.96311 1.06927 1.039S9 1.02494 1.04700 0. 99293 1.0S370 0.97611 1.00579 1. 02029 1 .01643

1.01100 l.01814 1.00409 0.89570 0.9S 713 0 .98965 1.on83 1.01996 0.92623 0.94857 0 .98779 0. 99011 1 . 01865 0 .99537 1.00074 0.95124 0 .9929S

1.03069 0.98233 1.00S9S 1.02869 0.96719 0.97314 0.98070 0.98937 1. 03237 0.9813S 0.96610 1.04333 1. 06040 1.00424 l. 08310 0.99522 1. 00000

1.0 1039 0.989SO 0 . 98702 0.99\89 1.07646 1.02847 0.95106 0.99123 0 . 99904 0.93376 0.94118 l . 06329 1. 03927 1.00686 1.01981 0.961&4 1.00435

1.03266 1.00423 0.97J97 1.00378 1.00463 1.01319 1. 04667 1.00000 1.05807 1. 00000 0.99445 0.96900 0.96418 1.05361 1.03604 0. 98S85 l .01088

0 . 98667 0.96911 1.01228 0 .96988 0 . 96637 o. 9687S 0.98620 1.04423 0.99028 1.01877 1. 02761 0. 96613 0 . 99283 0.97479 1. 01578 0 . 98786 1.02974

MT8 > boxplot of '•ct/est•

-·······---·f······-··········· • ·· ··---····· ·



······ ··· ····· !

···· ··•· ·-·-····•·· ······ ·•·· ·······•·· ··-·- ··•· ······· ·•ectl••t 0.910

0 .945

0 .980

1. 015

1. 050

1.005

llTB > tlnte rvtl for '•ct/ est '

M I Ct/Ht Hf8 >

121

MEAN 0 . 99964

STOEV SE MEAN 0.03404

95 .0 PERCENT C. I . ( 0.99371, 1.00597)

0 .00309

sintervel for ' act / est'

SJGN CONFIDENCE INTERVAL FOlt MEDI AN

ect / ut

• 121

MEDI AN 1.000

ACHIEVEO CONf lDENCE 0.9310 0. 9500 0.9545

CONFIDENCE INTERVAL ( ( (

o . 992, 0. 991, 0. 991,

POS ITI ON

1.004 )

S1

1.004) 1.004 )

Nll

so

a. Basándose en los métodos t, determine el valor del intervalo de con fianza al 9S% para la media. b. ¡,Se puede interprel.;lr el inlervt1lo como la indicación de que el precio real se en· cuenlra entre el 99.37 1'/o y el 100.597°0 d-: lo estimado para el 95% de los auto· mó\·iles., 8 .72 a. rara los datos que se muestran en el ejercicio 8. 71, determine el intervalo de confian.ta al 95 45°11 part1 la mediana. b. ¡,Son los inter\.alos de conlian1.a par.i la media y la mediana dt: estos daws mu) distintos entre sí? Con base en el dia~rama de caja de los mismos, 1,dehcri:m d1fenr mucho entre sí los intervalos? 8. 73 a. Calcule un intervt1lo de confian1~ ~I 95o/o para la desviacióo estándar roblacional con los datos del ejercicio 8.71. b. Si la desviación estándar es tan grande cornil el limite superior del 1nter,alo de conlian7.a, ¿qué podemos decir acerca de la precisión de la estimación del precio individual de los autos?

ti .7-1

J

Para ver sí h:ibia alguna tendenci3. o;c trv.ó un t.li:il!ram3 de los d.ito~ Jel ckrcicio 8 71 con respecto al precio real del automóvil. (,Encuentra u~tcLI alguna cc~t.lencia crcc1entc del cocicnce Jd precio real entre el precio ei;timado a medida que el precio re:il se incremeota'> MTB

>

plot •ect/est• vs •1c:tue1•

·'

81

ac:t/ut -



1.050•

..

*

.. •

*

• •

• 2 ••

2• •



0.980•



2





• • 2 •2•• • •• • 2••2•2•• •• • • •

0.910•

z ·2

2 • • •

2 • 2 ••

••

•••



••

z





• •



• •

l I

• -··-•·-···-···•·········•··-····-·•·····-···•·····-···•··ect~l

7.5

8.75

9 .0

10.5

119 llY 112 126 121 l:!K media 117.67. cksvi:ición csúndar 20 65

8. 76

8. 77

8. 78

12.0

13 .S

1S.O

IJn rest:iurante tratb de incrementar la as1~tenc1a loo; lune\ pnr la oo'he. que tradi· cionalmente es la noche más ílo1;i de la scman:i. ofreciendo los postres de su menú e~pecial a un dólar promocionándolos con la fr:isc "¡Anímese!". Se registró el nú· mero de cenas servidas los lunes durante l:ls doce semana\ en que estuvo vigente la oferta Los datos fueron . IOX

63

l IX

105

131

14:!

a. Calcule un inten.alo de con fianza al 95% para el númeromedtode cenasen el límite. b. Antes de la promoción. el restaurante o;ervla en promedio 105.2 cenas los lunes por la noche ¿Es ra1onablc interpretar el 1ntef\ alo de conlian1a del 1nc1~0 (.1) como una indicación Lle que la oferta especial no 1ncremcnlo el numero mc1.ho de l.'cna,'.' a. l t1hce los dalos del ejercicio 8. 75 para calcular un intervalo de conlioloza para la mediana. IJtíhce un nivel de confianza ligeramente !'iupcrior al Q5ºó. pero tan próximo a este valor como le ~ca posible b ¿Cómo ~e compara la amplitud de este inten1 alo con 13 del intcr\ :ilo que ~e en· contró en el ejercicio 8.75'.' ¿J\ que se dehc 13 difcrenci3'.' lltihce los Jatos del ejercicio l!.75 para c31cular un intervalo d.: contian/a 3J <>O"'é para la verdadera desviación estándar en el limite ¡,113~ alguna razon para pcn~ar que la pretendida confiann del cm•~ podría ser incorrecta'> Una mJdercria minorista inspecciona los embarque~ de madera que llegan Je sus proveedores. rara los embarques Lle pino de calidad selecta. Lle 8 pies (2 por 4 ). el '.'IUpcrvisor escoge aleatoriamente una grues:i ( 12 docenas o 144 hojas 1 de un emhar· que de varias decenas de miles de hojas. En la muestra. 18 hojas no pueden \cnder· se como de calidad ~electa . a. Calcule un inlef'\ alo de conli:an1...a al 95°~ para la proporción de hojas de todo el embarque que no pueden vendeue como de calidad ~electa. h. Si el 20% o mas del emharque no puede venderse como madera de calidad selecta, el embarque no es renlahlc. e.Indica el intervalo de confian1:i que ha) ruon~ p;ira pcn~ar que el embarque no es rentahlc?

346

8

ESTIMACION POR INTERVALOS

8. 79 a. l.a maderería del ejercicio 8 78 tiene que decidir cuántas hojas f)or embarque se· rin inspeccionadas. ¿De qué tamaño <;e debe tomar una muestra para obtener un " intervalo de confianw al 95~o con una amplitud de 0.04 para la proporción de hojas invendibles? Su¡x>nga que entre un 1O~o) un 20% del embarque es invendihle. h l:.n esta situación. ¿seria útil calcular el tamallo muestra! con base en la hipótesis extrema de que el 50% del embarque es invcnª ~c3 porque no se conectaron con el circuito central o porque el equipo ha fallado. lla) 45,300 medidores en uso y la compailia no está en posibilid3d de in~peccionarlos todos. a. Se quiere para la proporción un intervalo de confian1.a al 90% con una amplitud no mayor que O 04. ;.Cuantoc; medidores se deben tomar en una rr.uestra si no se hace ninguna h1potes1s particular acerca de la proporción correcta? b. ¿Cuántos medidores se dehen considerar en la muestra si la compañia supone que la verd3dcra proporción de la poblacion se encuentra entre O.OS )' 0.15? e. ¿l'ermite la hipótec;is del inciso (b) reducir considerablemente el tamailo de la muestra requerid3'l R 82 1 a compailia eléctrica del ejercicio 8 K1 toma una muestra de MO medidores~ encuentra que 61 de elloc; no ec;un runc1onando. ::?8 porque no se concct3ron al circulln ~ l 3 JlOr defectos en el equipo. Calcule mtel'\alos de confian1a al 90°0 para las proJlOr· ciones de 13 población de los mcd1dorcc; füera del c1rcu1to ~ de lo<; 4ue han fallado 8.83 La mucc;tr3 del ejercicio 8.8::? se obtuvo inspeccionando todos los medidores de 16 c;ectores seleccionados aleatoriamente entre los 1062 del área de la comrallia. En cada sector hay entre 30 y 50 medidores. ¿Por qué este procedimiento no reúne una muestra aleatoria simple? 8.84 En el ejercicio 2.66 se consideraron las reclamaciones de pago (en miles de dólares) hech:is a una compañia de seguros por averías por colisión de autom6\ 1les asegurados. En la figura 8.8 se muestra un diagrama de caja de los d3tos. Junto con la fi. sur:i se presenta un análisis utiliando el paquete Statgraph1cs. a. Interprete el intervalo de confi3nw. para la media. ¡,Es importante si el inter\'alo se nasa en las tablas ro en las tablas :? b. Utilice el intervalo de confianza para la vari:in¿a para encontrar un tntcr\'alo de confianza al 95% para la desviación estándar. 8.85 !-.1 diagrama de caja de la figura 8.8 indica que la distribuc1on de la ¡>Oblación sub) acente es asimétrica hacia la derecha. ¿Cómo :lfccta este hecho a la credibili· dad de los intervalos de confianza del ejercicio 8 84? ¿Afecta igualmente la credi· hthd.id de los intervalos para la media y la ,·arianza'l

347

E¡eretc101

Diagrama de ca¡a y bigotes

_ _ _ _ _ _,

00 00 c?ln

o )1(

o

10

)l

40

30

20

cantidad reclamada

FIGURA8.8

Diagrama de ca¡a para los datos sobre el monto de las redamac1ones de pago One· Sa11'1le Anel ys is Res utt s S1111'pl e St • tl s tics: No..rrbe r of Obs .

Averege Vtr i anee Std. Oeviat 1on Median

c ta 11M i zir 187 5. 17754 27. 9194 5 .28388 l .5

Conf 1dence l nterval f or Mean: S1111'pl e 1

95 Percent 4. 41 509 5. 93999

1860 . f .

Conf idcnc:e l nterval f or Var1anc:e :

95 Percent 23.01 23 34 .5919

186 O. f .

Sairpl e 1

8 .86

8 87

R 88

Mucho-; periódicos, al informar los resultados de las encuestas ¡iolitícas, afirman que "los rc'lullados tienen un:i confian1a del 95% y un error nn ma) or de 3 pun· tos porcentuales". FI tamai'lo usual de las muestras es de aproximadamente 1500 persona<;. Se supone que el error permitido cubre tanto la variabilidad de la mue<;tra como el efecto de pequei'los sesgos. a. Suponga que la encuesta (muestra) indica que alrededor del 50% de los electores piensa votar por un candidato en panicular. ¡,De qué tamar'lo dehe ser el término ± para un intervalo de confianza al 95% para la pro¡iorción de la población? b. ¿Seria mu) distinto el tl!rmino ± si el 40% de los electores de la muestra favore· ciese al candidato'? c . ¿Por qué el margen mencionado de± O 03 es ma)or que el término± que usted calculó en el inciso (a)" Considere de nuc\.O encuestas políticas. Cuando hay muchos candidatM, como en las etapas iniciales de las elecciones presidenciales primarias (de Estados Uni· dos). un candidato espccirico puede ser favorecido por sólo el 2% de los panicipan· tes en la encuesta. Dados los ± 3 ¡iuntos porcentuales ya mencionados, la broma comün es que tal candidato puede tener una preferencia negativa. Con un inter,alo de conrianza al 95•1o. ¿qué térmioo ±se debería aplicar si el candidato ei. favorecido por 30 de los 1500 electores en la muestra? l.a división de mercadotecnia de un fabricante de automóviles quiett estimu la satisfacción de los compradores con un distribuidor particular, seis meses después de haber adquirido un auto. Los gerentes Je mercadotecnia no quieren utilizar una encuesta ¡ior correo porque creen que: los cuestionarios que no sean contestados producirán un sesgo importante. Es más factible hacer un muestreo por teléfono, pues los números telefónicos de: los clientes aparecen en las pólizas de garantía.

*

'ª"

348

8

ESTIMACIÓN POR INTERVALOS

Una pregunta clave seria la siguiente: ;_rccomendaria a este di~tribuidor con ~us ;1m1gos y vecinos? Los gerentes de mercadotecnia quieren estimar la proporción de }Odos sus clientes que respondenan "sí" basándose en una muestra telefónica. a 1,De qué tamar)o <,e dellc: tom:lr la muc~tra para ohtencr un intervalo de conliann al 90°0 para esta proporción. con una amplitud de 0.10 (un término± de: 0.05)? Utilice la estimación más conservadora, la que aphcarí:i en el peor de los casos. b . S1 se duplica el tamaño muestra!. e.se reduciría la amplitud a 0.05? H.89 a. Con la estimación más conservadora del ejercicio 8.88, que se utilizaría en el peor de los casos. ¿qué está usted suponiendo acerca de la satisfacción de Jos clientes con el distribuidor? ¿Piensa que ésta seria una hipótesis accptabk en la práctica? b. ¿Cómo cambiaría el tamaño de la muestra del inciso (a) del c1erc1eio !US8 si supone que la proporción del "sí" dehcria estar en algún punto entre 0.80 y 0.<>5? 8. 90 Una revista para abogados tomii una muestra de 147 despachos para determinar el costo del a lquiler que paga cada uno de ellos por sus oficinas (en dólares por pie cuadrado al allo) Los datos se ano:ilizaron con MinilJlb. con los siguientes resultados :

r~.,te ls

r ental a

MEAll 18 . 366 MAX 32 .S50

"'

147 Nlll 1S.050

MEOIAll

17 .soo

01 16 .330

TRMEAll 18. 0S7 03 19.610

STOEV 2.949

SEMEAll 0. 243

MIB > t1n t erval 90X conf1dence bas @d on 'ref'ltet s• MEAN 18 . 366

N

r ente ls

147

STOEV SE MEAN 2.949 0.243

(

90 .0 PERCENT C. I . 17 .963, 18 . 768 )

SIGN CONflOENCE INTERVAL fOR MED IAN

r entals

N 147

MIB > boxplot of

MEO IAll 17.50 1

· · ·I •

ACHIEVEO CONFIOENCE 0.90 10

COllflOEllCE lNTERVAL ( 17. 27, 17 .96)

POSITION 64

rent111•

t····· · ·· ••

•• o

o

-·•···--- ·· · • -·· · ·-- ··•·---·····•···----·· rent1l1 15 .0

8. 91

20 . 0

25.0

30.0

¿Por qué los resultados "tintervaf' y ..s1nttrvaf' son tan distíntol' entre sí y ni siquiera se superponen? En una muestra de 21 S residen les urbanos entre 22 y 35 arios de edad se registran todos los días durante un mes los gastos en díversiones } entretenimientos El total de gastos de cad;i individuo, expresado como un porcentaje del ingreso mensual, cslá almacenado en la columna 1 del archivo 'CB8CI .DAT' en el disco de dato~ . (El número de individuos se encuentra en la columna 2.) Cargue los datos en algún paquete estadístico que cslé a su disposición a . Ohteng3 la media y la desviación e:.tándar mucstrales para los gastos. h. Calcule (ya sea a mano o por medio de la computadora) un intervalo de conlian7.3 al 95% para la media pohlacional.

Estudio de caso estimación por intervalos

349

c. Interprete cuidadosamente el intervalo de confianza. 8. 92 a . Obtenga un diagrama de callo y nojas o un diagrama de caja para los datos correspond1en1es :a ga5tos en el e1erc1cio 8. 91. b. Con base en el diagrama recién elaborado. ¿ha) algun motivo para pensar que es incorrecto el pretendido nivel de confian1.a al 95% del ejercicio 8.91? 8.93 Un proveedor~ equipos de oficina proporciona servicio a las fotocopiadoras que alquila- Todas las solicitudes de senicio se registran, anotándose la hora en que fueron hechas y el tiempo necesario para reali;r,ar el servicio. Para cada una de las últimas 61 llamadas, el tiempo transcurrido (en minutos) entre la solicitud y la tenninación del servicio se ha guardado en la columna 1 del archivo 'CH8C2.DAT' del disco de datos, mientras que en la columna 2 se encuentra el número de llamada, del 1 al 61. Cargue los datos en un programa para la computadora. a. Obtenga la media y la desviación estándar de los datos relativos al tiempo transcurrido. b. Calcule un intervalo de confianz.a al 90% para la media del proceso en el limite. con el programa o a mano. 8.94 a. En el ejercicio 8.93, obtenga un diagrama normal de los datos relativos al tiempo transcurrido. (Si el programa no le permite hacer lo anterior, trace un diagrama de tallo y hojas en su lugar.) <.Se puede decir que los datos tienen una distribución aproximadamente norma1·1 b. Haga que el programa trace una gráfica del tiempo transcurrido contra el número de la llamada. (Los números de llamada son el orden lemporal de las solicitudes.) ¿Hay algún patrón en este diagrama? En caso de que así sea. ¿qué nos indica acerca de la hipótesis de independencia de las observaciones? 8.95 Un banco de inversiones est~ considerando el posible uso en sus análisis de dos hojas de cálculo (programas para la computadora). Se realizó una muestra con 20 problemas de análisis característicos utilizando ambos programas en Ja computadora personal cstfadar de la compa~ía. Para cada problema y cada programa, se anotó el tiempo necesario (en minutos) para cargar los datos y programar los cálculos que habría de realizar la hoja de calculo, así como el tiempo que lardó el programa en efectuar los cálculos e imprimir los resultados. Los datos relativos a la hoja de cálculo A se encuentran en la columna 1 del archivo 'Cll8C3.DAT' del disco de datos, mientras que los correspondientes a la hoja de cálculo 8 se encuentran en la columna 2. Cacb fila del archivo corresp<>nde a uno de los 20 problemas. Cargue los datos en un programa para la computadora. a. llaga que el programa calcule las diferencias de los 20 registros. b. Obtenga un intervalo de confianza al 95% para la media de las diferencias. c. ¿Indica con toda claridad este intervalo de confianza que alguna de las hojas de cálculo es mejor (es decir. necesita, en promedio, menos 11empo)? 8.96 a. Obtenga un diagrama de caja parJ lo~ datos relati•o~ a las d1fcrcnci.is del ejercicio 8.95. ¿Hay valores atípicos? b. ¿Se podrin decir que la distribución de las diferencias es asimétrica? 8.97 Con los datos del ejercicio 8.95, calcule (a mano o con la computadora) un inlervalo de cnnlianza al 95% para la desviación estándar de las di;erencias.

ESTUDIO DE CASO:

estimación por intervalos

En una universidad le han pedido al director del departamento de personal que evalú~ los costos de un sistema de prestaciones flexible que se ha propuesto. Bajo

JSO

8

ESTIMACIÓN POR INTCRVAL.OS

dicho plan, cada individuo elige una "canasta" de prestaciones como mejor se ajuste a sus necesidades. Las elecciones más importantes, en términos de lo que cuesta a la uni' ersidad, ~on el monto del seguro de vida, el del S
z

nv

'24

J

07

4

•1• •SS

s

• 7

,.,,• 9

ll 1J 14 IS

SS9

6SI )19

na

med~a

'19' 21' tJO

,,.

'" '" ..,.. ,,.,

114&

4~

~I

97 47' ll9 MI

)tl

zo

1137 )9S

ns 4n

492 MiZ

"'-

tal J\7 11) J)I

u

'"

4U

.,,..,

181

11

" 'º 20 Z1 J9S

u Z4 n z•

17 ll Zt JO

,,

)IS 167 189 7" lS. 4~

)1

20

Jl

~

J4

sn

)S

"'

)7 JI

,.

441 41

4l 4)

'n

17'

,.... P)I

S79

lSI '61

n

l~

soo

•n

Z4' ltli

'°' ..,.,

)6)

m

sn

"'

llZJ 921 . .1 740 '47 IZl7

,..,

nu

1)1 ION

UH rem1

empl

tu

4t

n.e

u. IW ni 61)

m

no

61'1)

SOl StO l'M ~ 6)J ~7

76'

4S

))O

47

7J6 .01

,. ,.u ,, u

)7

~

60 61

~

rn

74S

•" t.70

SZI t47

.,,

661

~J

Sl9

.02 493 Tll

llS 1120

2'7

390 ,, l'9

1)9

-

701

'" 4&1

'°'

~

74&

11)1

61.J '60 .SS MT

'º' 7'f ..,.. 1157 714

.... ,,, ,., "' "" TOO

..

Tl"O

SM

10l4

,

IW

126.l 609 11114 71J tz1

s 19

1161

m

... ,.,,,,

llal

uo

60I

4119

411

w

'" ,.. "• Nota.nslife • sc¡uro de vida, "'edical ; seguro mtdico, rrurt'metft ª 44

w

,1 5l

14

742 667

71' 711

fondo para el retiro

70

no 66)

67• •IJ

nt

l8l 7(>1 6'24

6.19

Apéndice La. d1Stnbuc1one5 t

351

y 11 cu1.drlldo

El director del depanamento de personal quiere precisar un rango ra1.onahk para el costo medio que cada tipo de prestación representa para la universidad, así como el costo total medio por empleado. Además, quiere tener una idea del tama~ . 1"\o de la muestra necesaria para estimar el costo total por empicado con una preci- ~­ sión


Apéndice: Las distribuciones t y ji cuadrado_ ___

Presentamos en este apéndice un breve bosquejo de las matemáticas suhyacentes a lu distribución / y la distribución ji cuadrado (X 2 ) relacionada. Esta es la base de los métodos del capítulo anterior y de los siguientes. También debería ayudar a clarificar el concepto de grados de libertad. La hipótesis matemática formal es que hay n variables aleatorias Y¡. Y2, .... r,,. cada una de las cuales tiene una distribución normal con media µ y desviación estándar a; en particular, las hipótesis son válidas para una muestra aleatoria tomada de una P<Jblación normul. Los correspondientes valores= son 2 1 = ( }'1 - µ)la, ... , z,,
Distribución

x.2

Lu distribución x2 con n grados de lihena
¿o'¡ -

U' =

propfrdadc'i dr l:i di, tribuci6n ;( 2

µ12

z ~ + ... + z; = -· -o- - 2

Oe la definición se siguen directamente dos propiedades de la distribución x2:

,

/cr

n( f -µ) 2 tiene una distribución x2 con 1 g.I. Si W1 y W1 son variables aleatorias independientes con una distribución x 2• con n 1 y n 2 g.I,. respectivamente, entonces W1 + W~ tiene una distribución x2 con n, + "2 g.I.

l. Si

Y= I., Y, 1n, entonces

La primera propie
/cr

352

8

ESTIMACIÓN POFl INTERVA.LOS

La segunda propiedad se cumple en vinud de que W1 y W2 son sumas de términos Z2, de modo que W1 + W2 , como suma de sumas, es a su vez una suma de (n 1 + n2) términos Z2 • La hipótesis de independencia de W1 y W2 nos permite afirmar que t&tos los términos Z2 son independientes. de modo que w, + w]. tiene las pro· piedades que ddinen una distribución 2 con n, + nz g 1 Fstos resultados nos penniten relacionar la distribución x~ con la distribución muestra! de \1 , la varianza muestra!.

x

D istribución muestraf de s 2

Paril una muestra aleatoria de tamaño n tomada de una población normal, el es· tadístico s1

(n -

1) -

ul

tiene una distribución muestra!

x2 con n -



1 g.I.

Recuerde que s 2 ==l(Y, -Yi /(n-1), de modo que (n-1Xs2 l
¿ (Y, -

µ) l =

(11

" ¿,.J Y, -

02

-2 Y)

+ n( y- -

µ) 2

(11

que se puede demostrar escribiendo l(Y,- µ) 2 t[CY - Y) • (r - µ))2. desarrollando el cuadrndo y observando que l:7. 1(Y- µ)(>: - >') (Y - µ)¿7 1p;- >') O. La cantidad l(Y- µ) 2 / ' µ) 2 tiene una distribución 2 2 con J g.I. En vista de que estadísticos x. independientes se suman para formar estadísticos 2 con más grados de libenad, es razonable que el otro término l< r f )2 / o 2 también tenga una distribución x2 . Es más, como los grados de libenad son aditivos, este término deberia tener n - 1 g.1. El único paso del argumento que omitimos es la demostración de que los dos términos en el miembro derecho d~ la ecuación son independientes; esto sólo se demuestra en textos avanudos. Estos resultados preliminares acerca de las distribuciones x~ se utilizan al de· sarrollar la distribución t. En primer lugar definimos la distribución t con v grados de libenad (g.I.):

cr

x

Distribución t con v grados de libertad

___

La distribución t con v grados de libertad es la distribución de 7.

,

J w¡11

x

Ap~ridoce

l.» dosinbuoones t y j1

353

~drado

donde Z tiene una distribución normal cstóndar {µ - O, <J - 1) y W una distribución 2 con \' g. l. Es necesario que Z y W sean independientes. 8

x

Tomamos 2 como ( r µ) I (
x!

(y - JI) 1

tJ \,

n

1)

,

Y-

JI

= - - - -~~-1- - - -- s. fn

1

\J

111 -



(n

11

que es el estadístico t utili1.:ido en este capítulo.

CAPITULO

9

354

PRUEBAS O CONTRASTES , DE HIPOTESIS

A menudo los datos muestrales sugieren que algo relevante está sucediendo en la población o proceso subyacente. Una muestra de clientes potenciales puede poner de manifiesto que una mayor proporción prefiere una nueva marca sobre la ya existente. Una muestra del tiempo que tardan los empicados de la oficina de reservaciones en atender las llamadas telefónicas puede mostrar que hay un incremento en el tiempo medio de espera por parte del cliente. Una muc¡,tra de los cigOei'lales elaborados con una nueva aleación puede mostrar una disminución en la desviación estándar de la dureza del metal. En cada caso, los datos provienen de una muestra limitada y por lo mismo están sujetos a cierto grado de variación aleatoria. La pregunta es si el resultado o el efecto aparente en la muestra es una indicación de que algo está sucediendo en la población (o proceso) subyacente o si el resultado obsc"'ado es pos iblemente una casualidad, un fruto de la variación aleatoria. Probar hipótesis e tadisticas es una manera de estimar si los resultados aparentes en una muestra indican concluyentemente que en realidad algo está pasando. Este capítulo está dedicado a Jos conceptos básicos de las pruebas de hipótesis. Comen1amos en las secciones 9. 1 y 9.2 con el análisis de una prueba de hipótesis para la proporción, basada en las probabilidades binomiales. Esto prueba tiene alguna importanci.:i práctica, pero Ja estudiamos principalmente como un vehículo idóneo para introducir las ideas sin cálculos complicados. Después dirigimos nuestra atención a una prueba para la media, que se utiliza más y está basada en probabilidades normales. La mecánica de esta prueba: se expone en la sección 9 .3, y en Ja sección 9.4 st estudian sus propiedades teóricas. El valor p de una prueba, un método estándar para indicar cuán concluyente es el resultado de una pnu:ba, e~ el objeto de la sección 9 S. Una vez establecida la teoría de las pruebas de hipótesis. podremos anah.l.3r algunos métodos ampliamente utili?.ados: en la sección 9.6, una prueba t para la media, en la sección 9. 7, una veriucac!ón est:lndar de las hipótesis; en la sección 9.8, una prueba para la mediana, y en la sección 9.9, una prueba: ~proxim:ula para una proporción. Las pruebas de hipótesis y Jos intervalos de conlianza son dos formas de tratar con el problema de la variación aleatoria y la incertidumbre en las muestras, por lo que en Ja sección 9 .1O se estudia la conexión entre estos dos enfoques. Las pruebas para la desviación estándar y los intervalos de confianza relacionados con ellas son el tema de la sección 9. 11. Por último, en la

9. 1

Una prU4tba para la proporc.00 b4noml&I

lSS

sección 9.12 consideramos Jos pros y los contras de las pruebas de hipótesis como un método para la toma de decisiones empresariales. Las pruebas de hipótesis comprenden algunos conceptos y definiciones nuevos, más un cierto número de fórmulas para llevar a cabo los cálculos. Cuando trabaje con éstos, trate de no perder de vista la idea básica. Los datos de una muestra están sujetos a la variación aleatoria, de modo que Jos resultados aparentes
9.1

hipútcsis alte rnativa o de in\ c"tigación

hipótesis nula

hipótesis unilater a les

~

bilater a les

UNA PRUEBA PARA LA PROPORCIÓN BINOMIAL

------•

La investigación de mercado preliminar para un nuevo producto con frecuencia comprende una muestra de consumidores que lo comparan con una versión anlcrior 0.50. l a hipótesis nula. denotada con H0 , es la negación de la hipótesis alternativa H0 • Como el nombre sugiere, la hipótesis nula con frecuencia tiene una calidad negativa. En el ejemplo de la investigación del mercado. si 7r $ 0.50, el nuevo producto no se pn!ficrc a la versión anterior. Llamamos a H0 : ¡r S 0.50 la hipótesis nula porque niega o contradice nuestra hipótesis altemali' a. rosterionnente veremos que el valor límite entre H 0 y Hª (n O 50 en el ejemplo de la investigación del mercado) es el valor crucial de n para la prueha. La hipólesis altemati\a puede ser unilateral o de una ~ola col11 (dirigida) o bilateral, de d os colas (no dirigida). En el ejemplo de la comparación de produclos se especificó una dirección particular para H., relativa a H0 • H.,: 1C > 0.50 es una hipótesis unilateral. Por el contrario, si hubiésemos especificado H": Tr 'jt O.SO,

356

9

PRUEBAS O CONTAASTES DE HIPOTESIS

tendríamos una hipótesis alternativa bilateral, no dirigida. La finalidad del estudio determina la elección de hipótesis alternativas unilaterales o bilaterales. Cuando se com~ra un nuevo producto con otro anterior. queremos 'cr si el nuevo producto es mejor, de modo que utili7.amos una hipótesis alternativa unilateral. Si estamos comparando dos versiones de un nuevo producto, quercmoi. saber cuál de ellas es claramente superior a la otra. Si 1C es la proporción de la población a fovor de la versión I, queremos saber si n > 0.50 o 1C < 0.50; asi que utilizamos la hipótesis bilateral H0 : tr ~ 0.50.

EJEMPLO 9.1

Una cadena de supermercados vende pan recién horneado. Los cálculos realizados confonne a ta teoria de inventarios indican 4uc para balancear los co.,tos del pan no vendido (por estar duro) y la satisfacción Je los el ientcs. la cadena debería agotar sus existencias de pan el 20% de los días. Se elige una muestra aleatoria de 50 tiendas y se determina la tasa de desabasto de esas tiendas en una fecha particular. Formule una hipótesis nula del tipo "no hay problema". ¿Se debe considerar a la hipótesis alternativa como unilateral o bilateral?

Solución

La hipótesis nula se refiere a 1C, la proporción de todas las tiendas de la cadena (no sólo las consideradas en la muestra) en las que que se agotó el pan en esa fecha. El valor deseado para Tres 0.20, de modo que la hipótesis nula "no hay problema" es H0 : Tr 0.20. En este problema, nos deberían preocupar las tasas de desabasto que son o muy hajas (que resultan en dcmasiaJo pan duro) o muy altas (que resultan en "'enta.-. perdidas e insatisfacción de los cliente~). Por consiguiente, deberíamos tomar la hipótesis bilateral Hª: Tr ~ 0.20. •

estadístico d e la

prucha

La estrategia básica en las pruebas de hipótesis es tratar de apo) ar la hipótesis alternativa "contradiciendo" la hipótesis nula. Se "contmd1cc" a la hipótesis nula si los datos de la muestra son poco creíbles dada H0 y sumamente verosímiles dada H0 • As!, para apoyar H0 : 1C > O 50. necesitaríamos encontrar que los resultados de la muesLra fuesen muy poco probables suponiendo que 110 : JC S 0.50 es cierta Los datos se deben sintetizar en un est1dtstko de la prueba (E.P. ). Dicho est.:1dlstico se calcula para ver si es razonablemente compatible con la hipótesis nula. Cuando se prueba una proporción el estadístico de la prueba E.P. es muy simple: se cuenta el número de éxitos en la muestra para encontrar E.P.: Y= número de éxitos. Fn el ejemplo del nuevo producto contra el anterior, suponemos que éste es al menos tan bueno como aquél. Dada la hipótesis, es muy poco probable que Y, el número de consumidores en la muestra que prefieren al nuevo producto, sea muy grande. Así, si Y resulta ser muy grande, rechazamos la hipótesis nula y apoyamos la hipótesis alternativa de que el nuevo producto es mejor. Para ser más precisos, digamos que la lógica bisica es la siguiente:

t . Suponga que H 0 : Tr S 0.50 es cierta; 2. Calcule el valor del E.P.: Y - número de clientes en la muestra que prefieren el nuevo producto; 3. Si est.e valor es inverosímil (lo que, en este caso, significa muy grande), rechace H0 y acepte Hª.

9.1

EJEMP ~0

rc~ión

Un.a prueba par.a la. propotc•6n binomial

357

9. 2

En el ejemplo 9.1, Jfrepresentaba IJ propon:1ón de todas las tiendas que se quedaban sin abasto de pan en una fecha partu:ulur. Si Ja hipótesis nula es H0 : TC-=- 0.20 y la hipótesis alternativa H,, es bilateral, ¿cu..'ll es un estadístico adecuado para la prueba'! (,Qué valores de este estadístico contradirían la hipótesis nuln y por consiguiente apoyarían la hipótesis de alternativa?

Solución

El est.adistico natural de la prueba es E.P.: Y= número de tiendas de la muestr..1 que se quedan sin abasto de pan en esa fecha. Suponiendo que H0 : Jf= 0.20 es verdadera, es muy probable que Y sea próximo a 50(0.20) 1O. Los valores de r mu~ por arriba o muy por debajo de 1oson muy poco prooobles ~ tienden a contr.1dcc1r // •

de rccha10

error tipo l

En las pruebas de hipótesis es necesario tr;u..'.lr una linea entre los valores del estadístico de la prueba que son relativamente probables dada la hipótesis nula y los ':llore~ que no lo son. ¿Fn qué \alor del estadístico de la prueba comen7..amos a decir que los datos apoyan a la hipótesis altcmntiva'! Para contestar a e:.ta pregunta se requiere conocer Ja distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba que son sumamente improbables bajo la hipótesis nula (tal como los determina Ja distribución muestral) fonnan una región de rechazo (R.R.) para la prueba estadística. Cuando se especifica una región de rechazo se debe reconocer la posibilidad de error Suponga que. para una muesu-a de 100 con!>umidorc~. fijamos la región de rechazo en y= 59 o más clientes que prefieren el nuevo producto. Aun si la hipótesis nula H0 : te s; 0.50 es verdadera, hay una pequeña probabilidad de observar y 2. 59. Si dicha situación ocurriese, los investigadores de mercado pensarían equivocadamente que el nuevo producto es superior al anterior. Esta clase de error· rechazar una hipótesis nula que es. de hecho, verdadera. se llama error tipo 1 Al establecer una región de rechazo. un investigador debe especificar la máxima probabilidad tolerable de un error tipo 1, denotada con a. La prohahilidad a en la pmeba de una proporción podemos calcularla sumando prohabilidaJes binomiales de la tabla 1 del apéndice, pues el estadístico Y de la prueba satisface todas las hipótesis de una variable aleatoria binomial En el ejemplo de la comparación de productos. si tenemos 11 - 100, H 0 : Tí S 0.50 y R R. : y 2: 59, l!ntonces el riesgo a es•

a

máxP(Y2:59jn~.50}

" En principio, para encontrar a debemos calcular P( Y 2: 59) para cada valor de tr S 0.50. Si buscamos en la tabla 1 del apéndice con n =100 y Jf - 0.50, encontramos que P(Y ~

59ln = .50)

= 0159 + .0108 + ·· ·,.

0444

• Hcnicamente, !a notación pan la probabilidad condicional P(Y ~ S9 t 1r S 0.501 no es correcta., pues 1r s O SO no es un evento alca.torio en un espacio muc:stral. No obstante. la no(;l.CIÓn es muy convemcll1C. :uf que 9eguiremos utili.Dndoll. Para evitar este upo de incomcc:iones. lea el slmbolo ~r como supon1e11do en vez de dodo f/W.

358

9

PRUESAS O CONTRASTES DE HJPOTESIS

En la columna correspondiente a

PJ Y~ 59 l tt

Tr =

0.45 encontramos que

= .45) -

.0016

+ .0009 + ··· = 0034

= .40) -

0001

+ .0000 + .. · =- 0001

Análogamente

P(Y ~ .S9l1t

Obsen:e que el mayor valor
P( Y ~ .S6 l l'I'

= .50) = .1358

y

l

P( Y
= .0968.

Por lo tanto. una región de rechazo adecuada es Y~ 51. En la ma)ona de los estudios, a se especifica como 0.1 O. 0 .05oO.O1 aunque el valor que elegimos e~. en cierto sentido, arhitrario. En la sección 9.11 hablaremos un poco más acerca de la elección de a.

EJEMPLO 9.3 Solución

Encuentre una región de rechazo correspondiente a a - 0 . 10 en el problema relativo a la venta de pan en los supennercados de los ejemplos 9. 1 y 9.2. Debemos ohservar que en el ejemplo 9.2 la región iguales del valor esperado
l = .20) =

l

P( Y
0308

y

P( Y S 4 1t = .20)

P( Y
= .20) = .0607

y

P( Y~ 5 l n

= .0185

y

Como región de rechazo escogemos R.R.: Y $ 4 o Pt Y s; 4 o Y~ 16)

0308

= .20) = .0490

Y~

+ .0185

= 0493

+

=

16, pues

mientras que P(Y s; 5

o

Y ~ IS) ....0607

que es mayor que el valor

0490

1097

a admisible (O. 1O).



El último paso en la prueba de hipótesis es obt~ner los datos y llegar a una conclusión. Por ejemplo. suponga que 65 de los 100 clientes considerados en la

Seccl6n 9 . 1 E¡trc1c1os

359

muestra del ejemplo de la comparación de productos, prefieren el nuevo producto. Hemos fijado como región de rechazo (para a - 0. 1O) a R.R.: Y 2: 59. El valor y"' 65 se encuentra dentro de dicha región. As!, hemos contradicho H 0 y los datos apO) an la hipótesis alternativa H.,: TC "> 0.50. •

EJEMPLO 9.4

Si en los ejemplos 9.1-9.3 se encuentra que 14 de las 50 tiendas se quedaron sin abasto de pan en el problema de la \ enta de pan en los supennercados, ¿podemos decir que los datos apoyan la hipótesis alternativa?

Solución

En el ejemplo 9.3 encontramos que R.R.: Y S 4 o Y 2: 16. El valor y= 14 no escá en esta región. Por consiguiente, los datos no apoyan la hipótesis alternativa. • Podemos sintetizar el proceso de probar una hipótesis en cinco pasos, utili.t..ando el ejemplo de la comparación de productos.

Los cinco pasos de una prueba estadística 1. Hipótesis nula H0 : Tí s 0.50. 2. Hipótesis alternativa o de investigación H.,: n > 0.50. 3. Estadístico de la prueba E.P.: Y = número de clientes que prefieren el nuevo producto. 4 . Región de rechazo R.R.: para a - 0. 1O, Y 2: 57. S. Conclusión: como y= 66, rechace H0 y acepte H".



retc·nción de 110

Cuando H0 no se rechaza. en ocasiones hablamos de "aceptar" H0 . Pero cuando H0 no se recha.L'.l, esto sólo significa que no tenemos suficiente evidencia para aceptar la hipótesis alternativa. Si no se apoya H., e~to no es una evidencia concluyente en favor de H0 ; ¡puede mu} bien suceder que no tengamos evidencia ~uficicnte para decir nada en particular! En esta situación. rreferirnos decir que r<'tcnemos H 0 , en vez de decir que la aceptamos. La lista anterior incorpora la estrategia b{11,ica de las rrucbas de hipÓICSIS. Necesitamos fomrnlar una hipótesis nula. escoger una hipótesis alternativa unilateral o bilateral y seleccionar un estadístico adecuado de la prueba En cal caso, la selección de una probabilidad a tolerable nos pcnnite e~pccificar una región de rcch:vo: aquellos valores potenciales del estadístico de la prueba que contradicen la hipótesis nula. Por último, la obtención de datos reales nos permite alcanzar una conclusión.

9.1

Suponga que la opinión prevaleciente entre los analistas de la bolsa de "ªlores es que sólo ti 35% de las ofertas públicas de compra resultan en una adquisición real. Un grupo de analistas cree que incluso este porcenlaje es muy elevado. Para poner a prueba sus creencias, el grupo planea rastrear las siguientes 20 ofertas públicas de compra para ver cuántas de ellas derivan en una adquisición.

360

9

9.2 9.3

9 .4 9.5

9.6 9.7 <;.8

9. 9

PRUEBAS O CONTRASTES DE HIPOTESIS

a. Defina el parámetro relevante para una prueba de hipótesis estadística. b. Como hipótesis nula, sostenga que "la opinión prevaleciente es correcta". a Formule una hipótesis alternativa para el grupo que cree que la opinión prevale· ciente es errónea. d. Suponga que se establece una región de rechazo para rechazar la hipótesis nula si 3 o menos de las 20 ofertas públicas de compra resultan en una adquisición. 1.Cu.íl es la correspondiente probJhilidad á' Fn el e1crc1c10 9 1. de><; de las ofertas púbhca'i de compra resultaron en un.i adqu1~1c16n . c,113) una e\.1dcnc1:i suficiente en los date><; para :icept.lr la hipótesis altematl\ .t'' L na cadena de mmolnharias ofrece un plan de venta garantizado. Las cosas que h:in estado en la lista ) no se han .,.end1do durante 6 \emanas son adquindas por l.1 mmohiliaria en un precio predeterminado. Con el tiempo, el 5% de las ca'ias que la in· mobiliaria pone en sus listas son compradas bajo este plan. Dado que las residencias con piscina son en ocasiones más dificiles de vender. se sospecha que con este plan. la inmobiliaria adquiere una fracción muy grande de dichas casas. La cadena ha puesto en sus listas 50 residencias con piscina, y puede determinar cuántas fueron compradas con este plan. a. ¿Cuál es el parámetro poblacional relevante para este problema? b. Formule la hipótesis alternativa adecuada. ¿Debería ser unilateral o bilateral., c. Fstahlc1ca la hipótesis nula. d. Use tablas binomiales para determinar una ~gión de rechazo correspondiente a un valor tolerable de a= 0.05. Suponga que 7 de las 50 casas dd CJerc1cm <J 3 fueron compradas bajo el plan ,,Apo)a esta e'·idcnc1a a la h1pótcs1s alternativa? ¿~ puede rccha1..ar J10 con a O 05? FI anterior 1hrcctor (por muchos ª"os) de scr\.1c10~ municipales de la ciudad obtuvo del gobierno federal la subvenciún solicitada el 50~o de las veces que pidió ayuda. Se nombró un nuevo director de servicios municipales de la ciudad, quien presentó 18 solicitudes de ayuda al gobierno federal durante su primerª"º· El concejo municipal quiere saber si hay un cambio en la tasa de resultados positivos bajo la nueva dirección a. Defina el parámetro poblacional adecuado para una prueba estadística. b. Formule una hipótesis nula apropiada. c. La hipótesis alternativa, ¿debe ser unilateral o bilateral? d. Encuentre la región de rechazo correspondiente a a- 0.05, utilizando el estadístico de la prueha Y~ número de solicitudes que tuvieron resultados positi' os en· tre las 18 sometidac;. Suponga que 7 de las 18 solicitudes del ejercicio 9.S fueron subvencionadas ¿Se puede recha.7.ar //11 con a= 0.05? En el ejercicio 9.5 se utilinron prohabilidades binomi:iles. ¿Bajo qué condiciones puede ser la distribución binomial una hipótesis muy pobre? El gerente de investigación y desarrollo de una compai\ía de alimentos comprohó que sólo el 40% de los nuevos productos potenciales que se han someudo a prueha con los clientes llegan a ser comercialiados. Para determinar qué productos habrin de someterse a prueba con los clientes, el gerente ha establcddo un método de selección revisado a. Formule la hipótesis nula de que el método de selección revisldo no tendrá ningún efecto en la proporción de los nuevos productos potenci:iles que se comercialiL.an. b. ¿Qué argumentos se pueden dar en favor de una hipótesis alternativa bilateral? c. Si se va a utilinr una hipótesis alternativa unilateral. ¿cuál debcria ser ésta? Suponga que en la situación del ejercicio 9.8 se ha utilizado una hipótesis alternativa bilateral. Una muestra de 20 nuevos productos potenci
92

Error CJpo 11, prob~11td.t /J y potenc1~ de una prueba

36(~~ :z ~

v

prueha con los clientes. Defina Y• número de estos productos que lin.ilmentl!...} 5on comerciali7..ados. _,0 a. Suponiendo que la hipótesis nula es verdadera, cuál es la media (valor esperado) de Y? b. Determine una región de rechazo, simétrica en tomo a la media que <;e encontró en el inciso (a). correspondiente a una tolerancia a = O.OS. 9.10 Fn el ejercicio 9.9 se utili7..aron tablas binomiales para encontrar la región de rechaLO. Se observa que varios de los producto'> que se han sometido a la prueba con los clientes compiten cnlre sí, de modo que si un producto se comercializ.:i, lo más probable es que los otros no lo sean. c,h esta una indicación de que 1:1..c; probabilidades binomiales podrian no ser aphc.:ihles'> Explique por qué.

9.2

t•rror tipo 11

ERROR TIPO 11, PROBABILIDAD DE UNA PRUEBA

f3 Y POTENCIA

Hasta ahora sólo nos hemos interesado en un tipo de error en las pruebas de hipótesis: el error tipo 1, en los que se recha.t.a la hipótesis nula cuando ésta es verdadera. En el ejemplo de la comparación de productos, un error tipo 1 sería una afirmación de que el nuevo producto es mejor 4uc el anterior cuando en realidad no lo cs. Ha) 01ro error posible; los in\e-,t1gadorc'> de mercado pueden afirmar que el nue\o producto no es superior al anterior cuando, de hecho, si lo es. Es1c error, un error tipo 11 , proviene de no recha1.ar la hipótesis nula cuando la hipótesis alternativa es verdadera. Cuando la hipótesis nula es negativa, como a menudo sucede, un error tipo 1se puede llamar un error falso positivo, pues en él se llega a la conclusión equivocada de que una hipótesis positiva Hu es verdadera. Análogamente, un error tipo 11 se puede llamar un error falso negativo. la conclusión errónea de que una hipótesis negativa H0 es verdadera.

EJEMPLO 9 .5

En el problema de la venta de pan en los supennercados que se analizó en los ejemplos 9.1-9.4, ¿cuáles son las consecuencias de los errores tipo 1 y 11 ?

Solución

H0 : te =- 0.20 afirma que la cadena de supermercados no tiene ningún problema. y H,,: Tr ~ 0.20 afinna que sí hay un problema. Un error tipo 1 es por con'i1guiente la afirmación incorrecta de que hay un problema con la cantidad de pan que se pone a la venta; en efecto, un error tipo 1es una falsa alarma. Un error tipo JI es la afirmación incorrecta de que la cantidad de pan que se pone a la "enta C!>tá bajo control; · en efecto. un error tipo 11 corresponde a un fracaso en que no suena la alanna. • La probabilidad de que se cometa un error tipo 11. dado que la h1pótes1s alternativa es verdadera, se deno~ con /l La cantidad 1 - f3 se llama potencia de la prueba; la potencia es la probabilidad de que la prueba apoye la h1pótc~1s alternativa cuando ésta es verdadera. En la tabla 9.1 se presenta un resumen de los resultados posibles de una prueba estadística y las probabilidades asociadas con ella.

)61

9

TABLA9.I

PRUEBAS O CONTRASTES DE HIPOTESIS

Posibles resultados y probabilidades para una prueba de hipótesis Concl1c1án /10 es verdadera

110 es ..,,erdadera

Concl!Aíón Aceple H 0

Conclusión correcta probabilidad 1 - ex Error tipo J probabilidad a

Rechace H0

Error tipo 11 probabilidad {J Conclusión correcta probabilidad l {J (

polencia)

EJEMPLO 9.6

Remii.ase al ejemplo 9.5. Bajo cienas condiciones, la potencia de la prueba es 0.60. ¿Qué significa esto?

Solución

La potencia se refiere a la probabilidad de que la hipótesis alternativa sea apoyada correctamente. De este modo, el enunciado significa que si la hipótesis alternativa es verdadera (i.e., la cadena si tiene un prohlema con la cantidad Je pan que se pone a la venta), hay una probabilidad de 60~o de que la prueba descubra la existencia d~ dicho problema. • En una prueba binomial para una proporción, f3 se puede calcular sumando probabilidades binomiales. El problema conceptual consiste en especificar el valor que se usará para 1C. La hipótesis alternativa del ejemplo de la comparación de productos afinna lan sólo que tr > 0.50. La probabiliJad de que no rechacemos la hipótesis nula depende en gran meJ ida de que la hipótesis alternati\a sea "extremadamente verdadera", tal como tr- 0.90, o "apenas verdadera", tal como tr = 0.51. Así, /3 se debería considerar como una función del justo valor del parámetro poblacional y se debería calcular para varios valores distintos. Por ejemplo. si suponemos que 1t - 0.55, podemos encontrar f3 sumando probabilidades binomiales para la región de no rechazo. (Recuerde que f3 es la probabilidad de que la hipótesis nula no sea rechazada, dado que la hipótesis altemati\a es verdadera.) La región de rechazo para el ejemplo de Ja comparación de productos es Y~ 57; para encontrar fJ, debemos sumar las probabilidades de todos los valores de y S 56. Leyendo hacia arriba Ja columna correspondiente a tr- 0.55 en el bloque correspondiente a n = 100 de la Labia 1 del apéndice, encontramos que

/J H

= .0071 +

0108 + .0157 + ···

= .6172

Los valores de f3 que se muestran a continuación se determinan con cálculos semejantes utiliz.ando otras columnas de la tabla 1 del apéndice: Valor de 1ten H,,:

P.:

.SS .617::?

60 .2368

.65 0389

.70 0020

.7S ()()()()

EJEMPLO 9.7

En el ejemplo 9.3 se vio que la región de rechazo correspondiente a a= 0.10 era Y S 4 o Y ;? 16. Encuentre f3 y la potencia de la prueba cuando tr = 0.30 y cuando tr - 0.35.

Solución

Para encontrar fJ debemos sumar probabilidades para todos los valores de y que no se encuentran en Ja región de rechaz.o, a saber, 5 S y S 15. La potencia es simplemente

Secc16n 9 2 E¡en::1cios

363

1 - {J. Sumando probabilidades para y - 5, 6, ... , 15 en las columnas correspondientes a tr - 0.30 y tr- 0.35 de la tabla 1 del apéndice, con n =50, obtenemos los siguientes valores: ir:

/J: Potencia:

JO 569 .431

.J5 :!80 .720

Observe que Pdecrece (y por consiguiente la potencia se incrementa) a medida que el valor de tr se aleja del valor para H0 , rr = 0.20. • El valor de fJ eslá influido por ciertos factores. 1. Si todo lo demás se mantiene igual y a se incrementa, fJ decrece. Incrementar a facilita rechazar H 0 , disminuyendo así la probabilidad de que no rechazaremos H 0 • No obstante, observe t¡ue no es verdad que a+ fJ = l. Tanto a como f3 son probabilid:>de~ conJ icion:>das. definidas por condiciones diferentes; su suma no significa prácticamente nada. 2. Si todo lo demás se mantiene igual y n se incrementa, fJ decrece. Con más información, el riesgo de error es menor. 3. Si todo lo demás se mantiene igual y el \alor hipotético del parámetro de la población se aleja de H0 , fJ decrece. Es más fácil percibir una desviación grande de H 0 que una pequeila.

SECCIÓN 9.2

EJERCICIOS 9.11

9.12

9. 13

9.14

9. 15

En el ejercicio 9.1 lenfamos H0 : tr • 0.35, H..: 11' < 0.35," 20, R.R.: Y S 3 y una a real de 0.0445. a. Suponga que, de hecho, tr 0.25. ¿Cuál es la probabilidad de que la hipótesis nula no sea rechazada? ¿Cuál es el nombre técnico de esta probabilidad? b. Si rr 0.25, ¿cuál es la probabilidad de que /10 será rcch:11ada? ¿Cuál es el nombre técnico de esta probabilidad'? ¿Cómo debería cambiar la probabilidad que se encontró en el ejercicio 9.11 inciso (a). si 1f 0.20 en .. ez de 0.:!5? Sustente su respuesta en principios generales antes que en un cálculo. En el ejercicio 9.3, suponga que. a la larga. el 10% de las residencias con piscin3 son compradas por la inmobili:iria. Encuentre la probabilidad de que la hipótesis nula no sea recha.LD.da. ¿Es ésta una probabilidad a o {J? Una clase de error que podemos cometer en la situación del ejercicio 9.3 es alirmar que la probabilidad de que las residencias con piscina se compren bajo el plan es mayor que Ja de las otras casas, cuando en realidad las res1denc1as con piscina tienen la misma probabilidad que éstas. Acorde con el planteamiento del ejercicio 9.3, ¿es este un error ttpo 1 o tipo 11? Suponga que la muestra del CJcrcic10 9. 3 se extiende a 100 casas y que el .. alor de a sigue siendo 0.05. También suponga, como en el ejercicio 9.13, que, a la larga, el 10°0 de las residencias con piscina son compradas por la inmobiliaria. a. La probabilidad de que la hipótesis nula no sea recha1.ada, ¿debería ser mayor o menor que la probabilidad que se encontró en el ejercicio 9.13? Sustente su respuesta en principios generales antes que en el cálculo.

364

'1

PRUEBAS O CONTRASTES CE HIPOTESIS

b. La región de rechazo con n"' 100 y a - 0.05 se convierte en Y
9.3

UNA PRUEBA PARA LA MEDIA POBLACI ONAL CON DESVIACIÓ N ESTÁNDAR CONOCIDA



Los conceptos relativos a la<> pruebas de hipótesis se introdujeron en el contexto de la proporción binomial. Hay muchos otros parámetros poblacionalcs y muchas otras prueh:is estadísticas. En esta sección ilustramos los conceptos básicos correspon· dientes para el caso de una prueba estadística para la media poblacional. Como es usual, trabajaremos con un ejemplo. Suponga que una oficina de pesas) medidas tiene interés en determinar el peso real de 13, caja.o¡ de un cereal marcadas como de 16 onzas. Hay alguna variabilidad en el pcc;o de una caja a la otra, a causa principalmente de la forma de las piezas del cereal Algunas experiencias pasadas han mostrado que la desviación estándar de los pesos de las cajas es de 0.1 onza. Aunque la oficina no exige que cada caja pese 16 ont..:ls. quiere asegurar al público que el peso medio de las cajas de cereal es al menos de 16 onzas. Si la oficina sospecha que la compailía no llena debidamente las cajas (pone menos cereal en ellas), ¿cómo puede probarse esto? Dado que las cajas se deben abrir para pesar el contenido, la oficina no puede probar cada caja que sale de la linea de producción. En vez de ello se debe tomar una muestra aleatoria de las mismas para probarlas. Suponga que los datos muestrales son los pesos reales del contenido de 25 cajas seleccionadas aleatoriamente. ¿Cómo debería proceder la oficina? Este problema lo podemos formular en t¿rminos de una prueba estadística del peso medio poblacional µ para todas las cajas de cereal producidas. La oficina está interesada en el problema básico de llenado insuficiente; en particular, en confirmar la hi[l6tesis alternativa H.,: µ < 16 onuis. Para esta hipótcsic; alternativa, la hipótesis nula correspondiente es H0 : µ ~ 16 onzas. Como ya se indicó en la sección 9.1. el interés primario se centra en el valor límite. Denotamos el valor límite de la media hipotética con µ 0 ; en este caso Jlo = 16. ...._ El cstadbt1co de la prueba más razonable en este caso es el pc~o medio .v de la muestra de las 25 cajas. Las medias muestrales mucho m3s pequcl\as que µ 0 son poco probables bajo H11 y relativamente más probables si H0 : µ < 16 es verdadera. Por lo tanto, la región de rechazo es "rechace H 0 si .Y es menor de lo que razonablemente ocurriría por azar".

9 3

Una prueba para la media pobla<:1onal con deJv11c16n estindar conocida

)

6S

Para determinar con exactitud la región de rechazo. necesitamos conocer la distribución muestra! de f. Recuerde, del capítulo 6, que si la distribución poblacional de los pesos es normal con mediaµ y desviación estándar <J, entonces la distribución de la media muestral también es normal con valor esperado igual al peso medio poblacional (µY µ)y con un error estándar igual a <Jy o!.[;. Aun en el caso en que la distribución poblacional sea ligeramente no normal, el Teorema Cl!ntral del Límite nos a) uda a hacer que esta distribución sea una buena aproximación. Para el problema de la oficina, <J"" 0.1, n = 25 y el valor crucial paraµ es el valor límite de la hipótesis nula µ 0 "" 16. Así, si la hipótesis nula es verdadera, la media muestra) Y tiene una distribución normal con µy :;;.. 16 y o r = 0.1 / = 0.02 Podemos us~ esta información acerca de la distribución muestra! del estadístico de la prueba, Y. para determin:lr una región de rechazo. La región de rechazo complet~para H0 : µ - 16, Hu: µ < 16 se encuentra en la cola inferior de la distribución de Y En panicular, a partir del conocimiento que tenemos de las propiedades de la distribución normal, sabemos que la frontera de la región de rechazo se localiui a una distancia de 1.645 errores l!stándar ( 1.645 <J V) por debajo de µ = 16 cuando a se toma igual a 0.05 (véase la figura 9 1) Para determinar si debemos o no rechazar la hipótesis nula, también podemos calcular a cuántos errores estándar por debajo deµ - 16 se encuentra el valor observado de y Esto se logra calculando un c"tadlst ico z para la media muestra! observada .v con la fórmula

./25

e'O tad b tico z

:

y - µ0 (J /

y-

16

,¡;, - ---m-

Esto sugiere dos formas de determinar la región de rl!chazo para una prueba estadística relativa a µ. En primer lugar, en términos del estadístico y de la prueba. Ja región de rechazo es rcJ:ión tic r cchaLo u t iliLando ji

R.R.: Para a- O.OS, rechace H0 : µ ~ 16 si el valor observado de .f se encuentra más de 1.64 S <J r veces por debajo de µ = 16 (véase la figura 9 .1 ).

µ:: 16 Rogión do rechazo

FIGURA 9.1

.1

r

1.645ay

Región de rechazo para el estadístico

y de la prueba (a = 0.05. una cola)

366

9

PRUEW O CONTRASTES DE HIPÓTESIS

o

-1.645 Rechace H0

FIGURA 9.2

1

Región de rechazo para el estadístico de la prueba z (a

= 0.05, una cola)

Una fonna equivalente de establecer la región de rechazo es en términos del estadístico de la prueba z = (_v JJr,)/ o- y, también llamado estadístico::

región de rccbaio utilizando z

=

R.R.: para a = 0.05, rechace H 0 : µ 16 s i el valor calculado El estadístico =

z = 15.83 - 16 = -8.5

.11.fiS indica que la med ia muestra! ( 15.83) se encuentra 8.5 e rrores estándar por debajo de la media hipotética µ = 16. En virtud de que el valor c3lculado del estadístico z ( -8.5) se encuentra en la región de rechazo muy por debaj o del valor critico - 1.645, la oficina puede recha.zar la hipótesis nula y afinnar que la compa~ía no llena correctamente las cajas. Una lista nos muestra el trabajo realizado por la oficina.

Resumen de la prueba de una cola para µ , con a conocida Ho: µ = µo (µo= 16 onzas ) H. : µ< µo

y- µo E.P.: : = -- , a,

(1

"r • .¡;, -

R.R.: Para a = 0.05, rechace H0 si z :S - 1.645 Conclusión: z =

15.83 - 16 ~ .1 / ...¡¿_~

= -8.5; rechace H0

Nota : Para H 0 : µ =- µ 0 y H 0 : µ > µ 0 , la región de rec hazo para a = 0 .05

esz ~

l .64S.



93

Una prue~ para la media poblaaonal con des11tac16n estándar conocida

367

Para las pruebas de hipótesis que comprenden tanto a µ como a Tr, hemos sei"talado que el valor limite de la hipótesis nula es el valor más importante. En el ejemplo del peso de los cereales, suponga que habíamos tomado algún otro valor dentro de H0 para la media, tal comoµ = 16.01 . El estadístico z correspondiente estaría aún más lejos dentro de la región de rechazo: : =

15.83 - 16.01

= -9.0

.11Jii Si el estadístico de la prueba basado en el valor límite nos lleva al rechazo de h 0 , un estadístico de la prueba basado en cualquier otro valor de H 0 también nos lleva al rechazo de H 0 . Ahora bien, hasta aquí sólo hemos utilizado un signo de desigualdad para H0 en las pruebas unilaterales. En adelante, únicamente nos preocuparemos por el valor límite que es capital y eliminaremos el signo de desigualdad.

EJEMPLO 9 .8

Un investigador afinna que el tiempo que los nii"tos preescolares urbanos entre 3 y 5 ai"tos dedican a ver la televisión por semana tiene una media de 22.6 horas y una desviación estándar de 6.1 horas. Una compai"tía de investigación de mercado cree que la media proclama4a es muy pequeña. Para probar su hipótesis, se toma una muestra aleatoria de 60 njños preescolares urbanos y se mide el tiempo que dedican a ver la televisión, encargándole a los padres que lo anoten diariamente en una hoja de registro. Si la media semanal del tiempo dedicado a ver la televisión es de 25.2 horas y se supone que Ja desviación estándar poblacional u es de 6.1 horas, ¿se debería rechazar la atinnación de los investigadores con un valor a de O.O1?

Solución

La hipótesis alternativa de la compañía es que 22.6 es un valor demasiado pequeño para la media poblacional. Así. la hipótesis alternativa de interés es H": µ > 22.6 y la hipótesis nula es H0 : µ = 22.6. Los elementos de la prueba estadística para a = O.O 1 se resumen como sigue: H 0 : µ = 22.6 H. :µ> 22.6

. _ ji - µ E... P z - "r 0

....

J

2S.2 - 22.6

6.l/J60

e:

.

30

R.R.: Para a= 0.01, rechace H0 si z 2: 2.326 Conclusión: corno z "" 3.30 se encuentra adentro de la región de rechazo. rechazamos H0 : µ == 22.6. • El procedimiento de prueba paraµ se puede modificar fácilmente para manejar otra~ hipótesis alternativas. Por ejemplo, si la compai'\ía de cereales quiere esta· blecer, más allá de toda duda razonable. que el verdadero peso medio es mayor que 16 onzas, podría comenzar con la hipótesis alternativa unilateral H": µ > 16. Los valores grandes de ji indicarían entonces el rechazo de la hipótesis nula H0 : µ = 16. En particular, para a - O.OS, la región de rechazo comprendería los valores de ji que se encuentran al menos l.645u ¡;por encima de J.lo = 16, o lo que es lo mismo, z ~ 1.645 (véase la figura 9.3).

368

9

PRUEBAS O CONTRASTES DE HIPOTESIS

",. 16 Aeg1on de rechazo

o

1 645

Re91ón de

1 rechazo FIGURA 9.3

Reg16n de redlazo para H 0 : µ > 16, con (a) y como estadístico de la prueba; (b) z como estadlstico de la prueba

De nuestro análisis de las pruebas de una colo se sigue directamente w1a prueba de dos colas para la hipótesis alternativa, Hu: µ~/Jo· Por ejemplo, el gerente de la compañía que se interesa en el posible llenado excesivo o deficiente de las cajas puede tomar como hipótesis alternativa que µ ~ 16. Tanto los valores grandes como los valores peque~os de y se~alarlan el rechazo de H 0 : µ 16. Si la región de rechazo ~e divide unifonnemente cm.re las colas, para a - O.OS. ést;:1 sería como se muestra en la figura 9.4a; la correspondiente región de rechazo basada en el estadístico: ~e muestra en la figura 9.4b. Se puede escribir un cuadro para la prueba : cubriendo las tres formas de la h1pótcs1s alternativa. Recuerde que : 0 es el valor z que tiene un área a en la cola derecha de la curva z. Así, zo.os - 1.645 y z0 ois - 1.96. Para una prueba de dos colas y una a dada, los puntos de corte buscados son : 4 1 ) : 41 . Para a- 0.05, utilizamos :-00 ~ ~ - 1.96 y - z0 02 s .. -1.96. Los pri"'.'eros cuatro pasos de la prueba estadística para µ (<1 conocida) se muestran aquí. Estos enuncian el problema y determinan la región de rechazo; el último paso consiste simplemente en llegar a una conclusión

9l

Una prueba p~ la media pobladonal con desviac:16n eslindat conocida

369

.025

15.961

l=\eg¡ón de rechaio

~

¡.t •

1.96oy

·1.96

16 039

16

t

(a)

1.96oy

~

o

Región de rechazo

1 96

Región de rechazo

Región de rechazo

(b)

FIGURA 9.4

=

Región de rechazo para H0: µ 16, con (a) y como estadístico de la prueba; (b) z como estadístico de la prueba

con bru.c en el valor calculado del estadístico de la prueba z. Si el valor calculado z se encuentra dentro de la región de rechazo, rechazamos la hiplltcltb nula en favor de la hipótesis alternativa. Si el valor= no ~e encuentra dentro de la región f3 para varios valores de µ.

Resumen de la prueba z, a conocida Ho: µ=/.lo H.: l. µ>µo 2. P
170

9

PRUEBAS O CONTRASTES DE HIPÓTESIS

y- µo

E.P.: :

= u/.¡;

' R.R.: para la probabilidad de un error l. => •• 2. ::: < -z. J. z > z.11 o

EJEMPLO 9.9 Solución

a tipo 1, rechace H 0 si

z < - : 1112

Remítase a los datos del ejemplo 9.8. Ponga a prueba la hipótesis alternativa H0 : µ ~ 22.6 ~tilizando a= O.O l. Sintetizamos los cinco pasos de la solución corno sigue:

H0 : µ H.,: J' E.P.: :

= 22.6 :;,

2::!.6

=y -

Jlo

= 3.30

Uy

R.R. : Para a= 0.01, rechace H0 si z 2: 2.576 o si: S-2.576 Conclusión: como el valor calculado de z (3 .30) se encuentra dentro de la región de rechazo, rechazamos H 0 : µ =- 22.6. En otras palabras, como la media muestra[ es mayor que 22.6 y corno rechazamos H 0 : µ -= 22.6, podemos concluir con seguridad que µ > 22.6. • En el ejemplo de las cajas de cereal hemos supuesto que se conoce la desviación c:.tandar poblacional. cosa que en general no sucede en la práctica. Algunos parámetros poblacionales. como la desviación estándar, tienen por lo general valores desconocidos. En el capítulo 8 manejamos el problema de las desviaciones estindar desconocidas utilizando la distribución t. En la sección 9.6 analizaremos algunos métodos de pruebas de hipótesis que utilizan la distribución t. No obstante. a fin de C\iltar algunas complicaciones mcnorés. nos conviene utilizar por algún tiempo pruebas zen nuestros ejemplos. Recuerde que para muestras grandes la diferencia entre las tablas t y z es insignificante. Asf. para tamai\os muestrales en los cientos, no importa si se utiliza una tabla to una 1.abla z. Suponga que Ja oficina de pesas y medidas torna una muestra de n - 100 cajas de cereal y encuentra que la media muestra! es ji - 15.83 onzas y la des,•iaci6n est(indnr mues tra! es s:: 0.12 onzas. Suponga también que la oficina no quiere hacer suposiciones infundadas acerca de la desviación estándar poblacional. Una estimación razonable, basada en los d:ltos, es que la desviación estándar poblacional CJ es aproximadamente igual a la desviación estándar muestra! s (es decir, aproximadamente igual a 0.12). Parece razonable sustituir el valor des, la desviación estándar muestra!, como la mejor estimación del valor de a en el estadístico z. De acuerJo con un teorema de la estadística matemática, si n es suficientemente grande. el estadístico z que de ello rcsuli.a tiene, de hecho, una distribución z, al menos como una

9 4

37 1

L• probabilidad (J poa.ni laJ pruebas z

buena aproximación. La oficina puede proseguir y realizar una prueba=· El resumen de la prueba es el siguiente, la oficina ha utiliZ3do en esta ocasión a= O.O 1 sólo para variar. "~

Resume n relativo al resultado de muest ras grandes, <1 desconocida H0 :µ= 16 H.: JI< 16

E.P.: z ~

y-µ 0 15.83 - 16 --= • s/...fñ

. 12/~

- 14.167

R.R.: Para a= O.O!, rechace H0 si z S -2.326 Conclusión: como z = - 14.167 se encuentro dentro de la región de rechazo, rechazamos H 0 .



Usted debería ser capaz de verificar que - 2.326 es el valor critico correspondiente a a = 0.01.

1amaño

mu e~tra l

requerido

EJEMPLO 9. 1O

Solución

El procedimiento para muestras grandes es muy simple: utilice la desviación estándar muestra! sen vez de "· la desviación estándar poblacional, en el estadístico z. En la sección 9.6 daremos una justificación más amplia de esla sustitución. Por ahora, suponga que el procedimiento para muestras grandes proporciona una aproximación razonable si n ;::: 30 y una buena aproximación si n ~ 1OO. Dado que el estadístico de la muestra de la oficina de pesas y medidas se encuentra dentro de la cola de rechazo, la oficina puede rechazar H0 sin ningún temor. Suponga que la muestra del tiempo dedicado a ver Ja televisión del ejemplo 9.8 tiene una desviación estándar de 5.8. Utilice este valor para probar la hipótesis alternativa Hu: µ> 22.6, con a= 0.01. Cuando s reemplaza a a, el valor del estadístico ;: es

;: = 25.2 -

22.6

5.8//60

= 3.47

Este valor se encuentra dentro de la región de rechazo z ~ 2.326, de modo que se acepta Hu. •

9.4

LA PROBABILIDAD /J PARA LAS PRUEBAS z



En la s~ción 9.2 introdujimos el rie~go fJ (la probabilidad de no rechaLDr la hipótesis nula cuando la hipótesis :iltemati' a e~ verdadera) en Ja prueba para la proporción hinomial. Los mismos conceptos son aplicables a la prueba: de esta sección,

372

9

PRUEBAS O CONTRASTES DE HIPOTESIS

pero el cálculo de f3 es algo más que la simple suma de probabilidades binomiaks. Como modelo utilizaremos el ejemplo de la~ cujas de cereal. Recuerde que para H0 : µ - Ji>, Hu: µ < 16. <1 =O 1. n - 25 } a= O.OS, la región de rechazo fue z < - 1.645. P::ira calcular el riesgo de un error tipo JI (la probabilidad de aceptar incorrectamen· te 11 ). debemos suponer algún \alor paraµ bajo Hu. Nuevamente, el valor de {3 depende Jel supuesto valor deµ en H.,. Específicamente, supongamos que µ = 15.92; esto corresponde a un peso inferior en un 0.5° o respecto del peso marcado. ¿Cuál es la probabilídad de que la oficina detecte esta reducción en el peso? Es más fácil entender el cálculo si la región de rechazo se establece en términos de Ja media muestra! y en vez del estadístico z. Si la región de rechazo es z < - 1.64.5, rechazamos H0 : µ = 16 para valores de .v que se encuentren al menos 1.645 des\'iaciones estándar por debajo de µ = 16; es decir, rechazamos H 0 si .v S 16 - 1645 <11../n =1.5.9671. Silavcrdaderamediaesµ= 1.5.92,laprobabilidad {3 de que la media muestra! no se encuentre dentro de ln región de rechazo es

/J

= P(Y_ >

15.96711µ

= 1.5.92)"" P

(Y - 15.92 r.;;

.1/ ..;25

>

159671 15.92) r.;; .l/..;2.S

= P(: > 2.355} ~ .01

f3 pua un a prucha d e una cola

Este cálculo se ilustra en la figura 9.5. Tales cálculos se pueden llevar a cabo en cualquier situación de pruet>a, y se pueden resumir en uno fórmula general. Si µ 0 es el valor limite de µ bajo H0 y µ" es In media seleccionada como hipótesis alternativa, se puede demostrar que para una prueba de una cola

fJ =

P(:

> -:. +

lµ;;}nºI)

En el ejemplo de los cereales, - za= -z0 os= -1.645, mientras que

1µ. - µol .,. 11.5.92 - 161 al.fo

.1

.08 = 4 .02

¡J25

(Recuerde que" ¡"indica el valor absoluto, o magnitud de un número sin tomar en consideración el signo.) Por consiguiente, ji= P(: > -1.645

+ 4)

Plz > 2.355}.::; .01

Es así que la oficina tiene una pequeifa probabilidad ({J - 0.01) de no poder recha1..Jr H0 en coi.o de que el pc~o medio del llenado de las cajas sea 0.5°;o inferior a las 16 onzas establecidas. En otrJS palabras, con este procedimiento de prueba hay una probabilidad muy alta ( 1 {3 O. 99} de descubrir el llenado defectuoso en un o.si¡.o si éste se da. Para las pruebas de dos colas se puede realizar un cálculo similar. El gerente de producción de la compai'lía de cereales tenía una región de rechazo (con a= 0.05) de z ~ -t.96 o z ~ 1.96, o lo que es lo mismo, -

y~

16 - 1.96(.1) s 96 1 r.;; =I ..,¡ 25

o

_ 16 y~

+ t.96(. 1) r:;-;

..,¡ 25

o~

:: 16. .19

9 '4

La probablhdad

/J

373

para las pruebas z

15.92

15 9671

(a)

15.9671

16 (b)

FIGURA 9.5

Cálculo de fJ para una prueba z de una cola: d1stnbuc1on muestra! de Yba,o (a) H.,: µ = 15.92; (b) H0 : µ = 16.00 Si 15.961 < .V < 16.039. H 0 no se rechaza. Así, si la 'crdadera media es l S. 92, Ja probabilidad de aceptar incorrectamente H 0 es

/1 = P(l5.961

= P(


l5.961 - 1592

.11Jii

16.039 - 15.92)

<1<----- -

.11J2s

""' P12.05 < z < 5.95) Observe que el limite superior S.95 {que corresponde al límite superior de y::: 16.039) no tiene prácticamente ningún efecto, pues P(z ~ 5.95) es cero con muchas cifras decimales. Por consiguiente, el valor de /3 es P(2 .05 < z < 5.95) -= P(z > 2.05) = 0.02. En la figura 9.6 se ilustra este cálculo. Afonunadamente, se c uenta con una versión abreviada de estos cálculos. Recuerde que Jlo denota el valor límite de µ bajo H0; análogamente, denote con µ 0 cualquier \alor seleccionado deµ dentro de la hipótesis alternativa. El cálculo abreviado de f3 se muestra en el siguiente recuadro:

Cálculo de fJ para una prueba z

Prueba de dos colas: en la prueba de una cola, reemplace -=rr con ~zC!G



374

9

PRUEBAS O CONTRASTES DE HIPOTESIS

15.92 (a)

15.961

15 961

16

16.039

(b)

FIGURA 9 .6

EJEMPLO 9. 11

Solución

Cálculo de {J para una prueba z de dos colas: distribución muestra! de Y bajo (a) H0 : µ = 15.92; (b) H0 : µ = 16.00 Calcule probabilidades fJ para las pruebas de una cola del ejemplo 9.8. Suponga que la 'erdadera media es 25 .O. Como

{l

a 0.01 µ =25.0. JJo = 22.6. a= 6.1 0

= P(z ~ ... P(:

~

- 2.326 + 125.0 6.1/-;61) 60 .72) = .2358

y

n - 60,



En el capitulo 8 se utilizaron los intervalos de contianw para determinar de tama1'0 debería ser la muestra. Otra allemativa es utilizar las pruebas de hipóte!.I!. para !.cleccionar el tamaño. Por ejemplo, una cadena de restaurantes económicos especializados en carnes asadas obtiene gran parte de MIS ganancias de los "platos extra" platos que no se incluyen en el menú y que se cobran por separado. En promedio, los extra suponen 4.24 dólares por cuenta, C"~ una desviación estándar de 2.00 dólares. Se está considerando un programa de incentivos paro Jos meseros y las meseras con la idea de vender más platos extra (i.e., incrementar la media). No obstante, se tiene la preocupación de que el programa sea contraproducente y conduzca a una reducción real. El objetivo es una media de 4.50 dólares ¡,Cuántas cuentas deberla in<:luir una prueba que se llevase a cabo bajo el esquema de los incentivos? Como se tiene la preocupación de que el programa sea contraproducente, se debe utthmr una hipótesis bilateml. Para calcular el tamafto requerido de Ja muestra es necesario especificar tanto a como {J. Suponga que enunciamos la hipótesis

~ué

9 '4

la probati.hdad

Pp1r11 lu pruebas z

375

nula como H0 : µ: $4.24 y especificamos que a - 0.05 y f3 = 0.1 O. Tomamos µ 0 = $4.50 como media objetivo y suponemos que (J sigue siendo igual a $2.00. Podríamos proceder por ensayo y error. Suponga que ensayamos n - 400. En este caso

,,= p(z> fl

4.241) l 96+ 14.50 - r-:-:= 2.00/.j400

= P(: > .64) = .5000 -

2389 - .2611

La probabilidad fJ es mayor de lo que se quiere; se necesita una muestra más grande. Siguiendo este procedimiento. podríamos llegar a encontrar la n requerida. Afonunadamente, es posible calcular directamente dicho valor.

Tamaño muestral requerido para un a y un {J predeterminados (z

Prueba de una cola: n

+ ..

¡2q2

= {µ. • - ·-µo) 2

Prueba de dos colas: en la prueba de una cola. reemplace : 0 con =cr.-i



En el ejemplo de la cadena de restaurantes. tenemos una prueba de dos colas y a,,_ 0.05; por lo tanto, utilii.a.mos Zan = ro.oS/2 = 1.96 y z/J = z0. 10 = 1.28: - ( 1.96 + 1.28) 2 (2.00) 2 n(4.50 - 4.24) 2

-

6

2

1.1

6

Para asegurar que la probabilidad /3 no es mayor que 0.1 O, debemos redondear hacia arriba a n dándole el valor 622.

EJEMPLO 9. 12

Una compatlía que fabrica panes para máquinas de poca potencia (para trabajos ligeros) utiliza en ocasiones obreros temporales que contrata a travé<; de una agencia. Estos trabajadores tienen una producción media de 2250 artlculos por día y una desviación estándar de 260 artículos por día. Los gerentes de la compai\ia quieren obtener una muestra de trabajadores temporalc!. de una agencia diferente (una que proclama tener nom1as más rigurosas) para ver si se incrementa la productividad. Piensan realizar una prueba de una cola con a - 0.01. Si la productividad media (poblacional) en el limite de los trabajadores temporales de la nueva agencia es de hecho 2380 (media desviación estándar más alta). los gerentes quieren que la prueba tenga una potencia de 0.95 . ¿Cuántos tr.ibJJadore!. temporales se deben incluir en la prueba?

Solución

Suponemos que la desviación estándar de los trabajadores temporales de la nueva agencia es la misma que la de la anterior, a saber, <J - 260. La hipótesis nula es que los trabajadores temporales de la nueva agencia no son mejores que los de la anterior; H 0 : µ = µ 0 = 2250. Tomamos µ 0 = 2380. De la tabla 3 del apéndice, =o.oi - 2.33 y z0 .D5 ::. 1.64 o 1.65; digamos 1.645. Asi

376

9

PRUEBAS O CONTRASTES DE HIPOTESIS

n

Redondeando hacia arriba. encontramos que los gerentes necesitan una muestra de

64 trabajadores temporales. Observe que puede ser muy dificil obtener una muestra aleatoria; para ganarse al nuevo cliente, la agencia podría enviar a sus trabajadores más productivos.

SECCIONES 9.3 Y 9.4 9 19



EJEROCIOS El gerente de una organización pan la conservación de la S3lud ha fijado como ob· Jetlvo que aquellos pacientes que no acudan por alguna emergencia esperen menos de 30 minutos para ser atendidos. En un control por sondeos. el gerente encuentra los 1iempos de espera de 22 pacientes; éstos se seleccionan aleatonamente en diferentes dia.s. Suponga que la desviación estándar de la población de tiempos de espera es de 10 minutos. a. ¿Cuál es el parámetro relevante para la prueba? b. Formule las hipótesis nula y alternativa. c. Determine el estad1stico de la prueba y la región de rechazo correspondiente a 0 .05. En el ejercicio 9 .19, suponga que el tiempo de espera medio para los 22 pacientes es de 38.1 minutos. ¿Puede rechazarse H0? Par.i el procedimiento de prueba del ejercicio 9 .1 9, encuentre Ja probabilidad de que no se rechace 110 , suponiendo que la verdadera media del tiempo de espera es de 34 minutos. Haga lo mismo para otros \.alorcs de µ, y trace una curva para /l En el ejercicio 9.19 se dijo que los 22 pacientes fueron seleccionados en días diferentes. ¿Por qu~ no serla conveniente escoger a los 22 pacientes en un solo día tomado al vM'> Una estnción de radio quiere controlar el tiempo destinado a Jos anuncios gratuitos de servicio público. Si ha} demasiados anuncios de este tipo, la estación pierde ingresos; si hay muy pocos, la estación pierde puntos en Ja Comisión Federal de Comunicaciones. El objetivo es un promedio de 1.5 minutos de estos anuncios por hora. Una muestra de 18 horas proporciona los siguientes tiempos (en minutos) destinados a los anuncios gratuitos de servicios públicos:

ª ""

9 .20

9.:! 1

9 .22

9.23

.O 1S

9 24 9.25

.O 2.0

.O 2O

.O 2.S

.o 3.0

.o .s .s .s 6.5

1.0

l.S

(media - 1 278)

Suponga que la desviación estándar poblac1onal es 1.60. Determine todas la.s partes de una prueba z de H0 : µ l .S ¿Ocbcrfa 5er 11., de una o dos colas? l tihce a= 0.05. Remítase al ejercicio 9.23. Calcule probabilidades fJ paraµ - 1.0, 1.2, 1.4, 1.6, 1.8 y 2.0. Trace una curva para /l La teoria subyacente a la prueba del ejercicio 9.23 supone que Y tiene una distribución aproximadamente ñonnal. Con base en el aspecto de los datos. ¡,cree usted que la apro,imación es huena para este problema?

9 .S

9.5

El valor

377

p ~ la prueba de una h1p6tes1s

EL VALOR p PARA LA PRUEBA DE UNA HIPÓTESIS_

valor p

En los problemas de prui=bas de hipótesis hasta aquí considerados siempre llegarnos a un::i Jecisión dd tipo rechazo-no rechazo, sin tomar en cuenta el peso de las evidencias. En la práctica esta es una simplificación exagerada. En el ejemplo de la comparación de productos de la sección 9. 1, especificamos H0 : 1r = O.SO, H.,: 1r > O.SO y n - 100, y escogimos a = O.OS. La región de rechazo correspondiente era y~ 59. Formalmente, y- 59 nos lleva justo a la misma conclusión que y 99. Evidentemente, mientras más se adentra el estadístico de la prueba en la región de re· chazo, más concluyente es el rechazo de la hipótesis nula. ¿Cómo podernos medir el peso de la evidencia que nos proporciona la muesU'a para rechazar una hipótesis nula en favor de una hipótesis de investigación? El peso de la evidencia, o indice de evidencia, para rechazar una hipótesis nula se llama valor p o nivel de significación alcanzado. El valor p es la probabilidad (suponiendo H 0 ) de obtener un valor del estadístico de la prueba a una distancia mayor o igual que la del valor observado. A medida que el e~tadístico de la prueba se aden1.ra en la región de rechazo, el peso de la evidencia para rechazar la hipótesis nula se hace más decisivo y el valor p se hace más pequeño. En el ejemplo de la comparación de productos, 5Uponga que el valor observado y es 59. La región de rechazo es Y ~ 59, de modo que noso1.ros (apenas) rechazamos formalmente la hipótesis nula. Podemos calcular la probabilidad de obtener el valor de y que obtuvimos , 59, u otro más extremo (mayor, en este caso) utiliuindo probabilidades binomiales con n = 100 y 1r =O.SO. P(Y ~ 59jn

= .50) =

0159

+ .0108 + ··· +

0001

= .0444

Ahora suponga que el valor y es 65, más adentro de la región de rechazo. El valor = 100 yp =o.so.

p para este resultado se encuenl.ra sumando probabilidades binomiales con n

P( Y ~ 65 l n = .50)

= .0009 + .0005 +

0002

+ .0001 + 0001

= .0018

que es un valor mucho rnás pequeño. Cuanto más 5e inteme el estac.lístico de la prncba en la región de rcchaLO, más pequei'lo 5Crá.el valor p , y de mayor peso la evic.lcn· cía que tendremos para rechazar la hipótesis nula y apoyar la hipótesis altcmati va. Los valores p muy pequei\os indican una fuerte evidencia, tal vez decisiva, para rechazar la hipótesis nula. La razón es que un valor p indica que el dato observado es muy poco probable. suponiendo que la hipótesis nula es verdadera. En el ejemplo de la comparación de productos, un valor observado y de 65 (p - 0.0018) sería mucho más decisivo que un valor observado y e.le 59 (p =0.0444). Aunque ninguno hipótesis nula se puede refutar de manera absoluta, un valor p muy pcquefio nos conduce a su rccha10 y a la aceptación de la hipótesis altcrnati· 'a más allá de toda dudn.

EJEMPLO 9. 13

En el ~jemplo 9.1, encuentre el valor psi en una muestra de 50 tiendas se encuentra que I 8 de ellas se han quedado sin pan.

Solución

Las hipótesis nula y alternativa son H0 : 1r ~ 0.20 y H 0 : 1r > 0.20. Utilizando las ta· hlas binomiales con n - 50 y probabilidad de éxito (carencia de pan) 1r = 0.20,

378

9

PRUEBAS O CONTRASTES DE HIPÓTESIS

~ 18) - 0.0062. El valor pes aún más pequel'lo que O.O 1, indicando que H0 se puede rechazar decididamente. •

P (Y

"

Cuando la región de rechazo de la prueba tiene dos colas. el cálculo del valor p se debe modificar ligeramente. Un valor aún más extremo que el del estadístico de

u lo r p de do'! colas

la prueba puede estar en la misma cola o en la cola opuesta. Si la distribución muestra! del estadístico de la prueba es simétnca (como casi siempre sucede en el caso de las pruebas de dos colas) el ,·a lor p de dos cola'! se puede calcular duplicando el valor de una cola. En el ejemplo de la comparación de productos. el valor p de una cola correspondiente a y= 59 es 0.0444; si H., '>C hubiese considerado como bilateral, H0 : 1t ~O.SO, el valor p sería 0.0888 El cálculo de los valores p es también muy simple para las pruebas z. En el ejemplo de las cajas de cereal, para probar el peso medio del llenado, la oficina de pesas} medidas utilizó una prueba de una cola con H 0· µ 16 y H., Jl < 16. El valor observado del estadístico z fue 8.5 . Dado que la última entrada de la tabla 3 del apéndice, 3.09, corresponde a un área de la cola igual a 0.001. el valor p, P(: ~ 8.5 1 µ = 16), es más pequel'lo que 0.001 paro. esta prueba de una cola. Para una prueba de dos colas, como la correspondiente a H0 : µ = 16, H0 : µ ;oi!' 16 en el ejemplo de las cajas de cereal, el valor p, P(z $ - 8.5 o z ~ 8.5 1 µ = 16), es menor que 0.002. Las tablas z más detalladas indican que el valor p de una cola es menor que 0.0000000001, una posibilidad en 10,000 millones. Con base en los datos de la muestra, la oficina puede decididam~nte rechazar H 0 . El cálculo de los va lores p basados en el estadístico z se hace de la siguiente manera:

Valores p para la prueba z 1. Si Hª: µ > JJt¡. valor p = P(z > =~"-ido) 2. S1 Ha: µ < JJt¡, valor p = P(z < =ob'>CMdo) 3. Si Ha: µ -F JJt¡, valor p =2P(z > .Zobs~ado) Análogamente. los valores p de una prueba para 1t utilizando el estadístico z se calculan como aqui se indica, reemplazando a µ por rr para las pruebas de una y dos colas. El valor calculado del estadístico: se denota con =oi..mado·



La mayoría de los paquetes estadísucos para las computadoras calculan automáticamente los valores p. Un Hlor p muy pcquci'io indica que la hipótesis nula se debe rechazar con cualquier valor a razonable; un valor p muy grande, tal como 0.4 o 0.6, índica que la hipótesis nula no :.e debería rechazar con valores razonables de a. Un principio muy general relaciona los valores p con a; el principio es tan general que merece ser llamado región de rechazo universal.

Región de rechazo universal Si se ha especificado a. rechace la hipótesis nula si y sólo si el valor pes menor que el valor a.

9 S

EJEMPLO 9.1 4

379

El valOf" p para la prueba de una h1p6tes1s

Mucho~ programas de cómputo para el análisis estadístico calculan rutinariamente valores p. usualmente en la fonna de dos colas.

a . Paro la siguiente salida, encuentre el valor p de una cola. b. Verifique el cálculo del valor p utilizando tablas:. c . ¿Se puede rechazar la hipótesis nula con a= 0.05? HTB > ztest of

mea~

• 150 asst.1T11ng slQft'lll • 20 data in •oata '

TEST OF HU • 150.000 VS MU N.E . 150.000 THE ASSUMEO SIGIU. a 20.0 Oata

Solución

C\t:1tJl4'ticamcntc !IÍJ!nificath o

N 25

MEAN 156.'80

STDEV 22.515

SE MEAN 4.000

l

1.62

P VALUE

o.,,

a . El valor p (de dos colas) es 0. 11. El valor p de una cola es la mitad de él, aproximadamente 0.0515. b. El estadístico: es 1.62. Con base en las tablas normales. el área a la derecha de 1.62 es 0.5000 - 0.4~ 74 "" 0.0526. c. Como el valor p no es menor que 0.05, no podemos rechazar H0 con a= 0.05, aunque nos podemos acercar. Observe también que el valor p, 0.0526. no es menor que 0.05 aunque esté próximo a serlo. • Como ya dijimos, al valor p se le llama nivel de significación alcanzado de una prueba estadística. Los resultados de una prueba estadística con frecuencia se re:,umen diciendo que el resultado es e~tadísticamente si~nific:ati\'O para el valor p especificado. Por ejemplo, en el caso de la comparación de productos, un valor y igual a 59 es estadísticamente significativo con p = 0.0444 cuando se utiliza una prueba de una cola. En el ejemplo del peso de los cereales, z = -8.5 es estadísticamente significativo con p = 0.0000000001 . Mientras más pcquei'lo es el valor p. más decisivo es el rechazo de la hipótesis nula. La frase es10díst1camente significativo es desafortunada. La palabra significa~ ti\'O sugiere "importancia", "interés" y "grandeza". La significación estadística no necesariamente implica importancia, relevancia o utilidad práctica. Sólo quiere decir que la hipótesis nula se puede rechazar con un riesgo de error muy bajo. Una mejor frase sería estadíslicamente percep11ble Decir que una diferencia es estadísticamente significativa o estadísticamente perceptible significa que los resultados observados no se pueden atribuir razonablemente a la mera variación aleatoria: en este punto viene al caso el problema del peso de los cereales. Con un valor z de -8.5, la prueba es estadísticamente significativa al nivel p S 0.0000000001 . Esto permite a la oficina concluir, con toda confianza. que la compai'lía tiene la culpa de llenar las cajas con menos peso, aunque el peso medio mueslral de 15 83 onzas es sólo 1° o menor que el peso nominal de la coja. Sera pequei'lo, pero queda demostrado concluyentemente que los paquetes se llenon con menos cereal del e~pecificado. Debemos reconocer que rara vez es exactamente verdadera la hipótesis nula. Por esta razón, con un tamaño muestra! suficientemente grande, casi cualquier hipótesis nula se puede rechazar. ¿Qué significa esto? Cuando se rechaza la hipótesis nula, s1gn1fica que se ha establecido una diferencia decisiva, aunque nn se haya hecho juicio alguno acerca de la importancia o el significado de la diferencia encontrada.

380

9

PRUEBAS O CONTRASTES DE HIPÓTESIS

A Ja inversa. un resultado muestra( con un valor p asociado > O 05 (considerado por algunos como una indicación de "no estadísticamente significatl\ o .. ) po· dría se~ mas quizá no sería. el resultado de una fluctuación aleatoria: es decir. aun cuando el valor p sea mayor que O.OS, puede haber un efecto 1mplíc1to. El problema es que no lo hemos determinado más allá de toda duda. Con todo. usted debería tener cuidado de no atribuir demasiada imponancia a la significación estadística. El valor p da el peso de la evidencia de la muestra para rechazar la hipótesis nula. Quien realiza el experimento debe juzgar el significado practico de los resultados observados que se dice son estadísticamente significativos.

SECCIÓN 9.5

-------- EJERCICIOS 9.26 9.27

9 28 9.29

Encuentre el valor p para la prueba en el ejercicio 9.20. Una compailfa financiera encuentra que el 15% de sus clientes se retrasan en sus pagos. Se pone a prueba un plan de préstamos re\is:ido con una mucstr.i aleatoria de 50 clientes. Si 4 de ellos se retrasan en sus pagos, dé un valor p para la prueba esta· dística de H0 : tr • 0.15 contra H.: tr < 0. 15. L tillce tablas normales en el ejercicio 9.27 para encontrar un valor p aproximado. Un gerente de ventas cree que los agentes de ventas de la compañia deberían estar de viaje cerca del 40% de los dias de trabajo. Si el tiempo que pas:in de viaje es mucho menor, declinan las solicitudes de compra y, tanto el servicio de los agentes como la recopilación de infonnación. no ron adecuados. Por el contrario. si pasan viajando mucho más del 40• o del tiempo. los gastos consumen el aumento en las ganancias. Un estudio de los últimos 5 me~c s ( 11 O dlas de trabajo) índica los siguientes datos (número de días que ha viajado cada agente) 32

(y

36 41 45 48 48 47.6. ·' = 9.65. n • 10)

51

54

57

M

A continuación se muestra una salida de la computadora para estos datos (b:isados en una supuesta desviación estándar poblacional de 10 .0) MTB > z t est of mean • 44 assu111ng sigm11 • 10 da ta In 'Oeta ' TEST Of MU • 44.000 VS MU N. E. 44.000 THE ASSlMEO SI CM.4 : 10.0 N

Data

10

"EAJI 47.600

STOEV 9.652

SE " EAN l.162

z

1.14

P VAL UE 0.26

a. Identifique el valor del estadístico z. b. Identifique el \alor p . c. ¿ F.s m:is comeniente para este problem:i un 'alor p de dos cola., o de un:i cola'> 9.30 El gereote de ventas del e1erc1c10 9.29 conclu} e que la d1scrcpanc1a entre el promedio ohservado de 47.6 y el promedio deseado de ~4 O no es e'iuidisticamente signi· ficall\.O, debido a lo c ual el estudio demuestra que Ja situación de los días de viaje de lrJb:ijo está bajo control. a. <. t-stá usted de acuerdo en que el resultado no es estadisticamente significativo (con los usuales niveles a)? b. <.e stá usted de acuerdo en que el estudio demuestra que la situación de los días de viaje de traba10 está bajo control?

96

Pruebas e h1pdusls con la drstnbuaón t

9.31

Se s upone que la pila eléctrica de una calculadora de mano puede realizar 20,000 d cálculos antes de que se le tenga que 1,.ol"er a cargar. Una prueba de 114 pilas el~tricas da un promedio de 19.695 cilculos y una desviación est:indar de 1103. a. Formule las hipótesis nula y alternativa. ~' b. Calcule el estadístico de la prueba y el valor p apropiados. -. 9.32 c:.Es estadísticamente significativo el resultado del ejercicio 9.31 con los niveles usuales «!¿Diría usted que el resultado es significativo en la práctica?

9.6

PRUEBAS E HIPÓTESIS CON LA DISTRIBUCIÓN t

-------·

Las modificaciones hechas a los procedimientos(.:) nonnales para obtener intervalos de confianza con la distribución/ también se aplican a las pruebas de hipótesis. Una vez más, sustituimos G con s y usamos las tablas ten vez de las tablas z. En esta sección resumimos el procedimiento y hacemos hincapié en algunas pequel'las diferencias en el método. El procedimiento básico para cualquier método de prueba de hipótesis requiere que se formulen las hipótesis nula y alternativa (H0 y H), se seleccione un es· tadistico de la prueba (E.P.), se defina una región de rechazo (R.R.). se calcule el valor E.P. y se llegue a una conclusión. Por ahora nuestro interés se centra en la prueba de hipótesis acerca de la media poblacional; seguimos sosteniendo la hipótesis matemática fo1mal de que la dist.ribución de la población es exactamente nonnal.

Prueba de hipótesis para µ con muestras pequeñas Ho : µ=µo Ha : l. µ>/Jo 2. µ<µo J. µ:,t. /Jo

E.P.: t

y- Jlo = s/Jn

R. R.: Para una probabilidad dada a de un error tipo l. rechace H 0 si l. r > c. 2. 1 < -r. 3. ltl ~ '•fl donde ta tiene una cola derecha con área (a) en una distribución t con 1 g.I.

11 -

EJEMPLO 9. 1S

Una aerolínea establece un sistema de "única lila" en la línea de espera de sus ventanillas a fin de reducir el tiempo de espera. En el sistema anterior el tiempo de espera medio bajo condiciones especificas era de 6.1 minutos. Se toma una muestra de 14 tiempos de espera; los tiempos se miden en momentos suficientemente distantes entre sí para eliminar la posibilidad de observaciones dependientes. La media de la

9

382

PRUEBAS O CONTRASTES DE HIPOTESIS

muestr3 es 5.043 y la desviación estándar 2.266. Ponga a prueba la hipótesis nula de ningún cambio contra la hipótesis alternativa apropiada, utilizando a.: 0.1 O. Suponga qee la pobl3ci6n de tiempos de espera es aproximadamente normal.

Solución

FI parámetro poblacional
= 6.1

H. : µ< 6.1

E.P.: t = 5.04J -ó.I 2.266 / Jf4 R R.: Para

= - l. 75

a; 0.10 y g.1. = 13, rechace H0 cu:mdo I

~

- 1.350

Como el valor observado de t, -1.75, es menor que - 1.350, rechawmos H 0 y concluimos que la reducción aparente en el tiempo de espera med10 (de 6.1 a casi 5 minutos) no es una mera casuali
,·a lor p pa r a una prueba t

EJEMPLO 9. 16

Solución

Al principio de este capítulo introdujimos el valor p como un índice del grado de apoyo que proporciona un conjunto de datos a la hipótesis alternativa En ese ca<;O pudimos utilizar las tablas z para calcular los valores p. Ahora debemos recurrir a las tablas I que son menos extensas; dados los gr.idos de lilxrud, una tabla t proporciona sólo unos cuantos valores, pudiéndose en oc:is1ones obtener sólo un \ alor p aproximado (aunque la mayoría de los paquetes estadísticos d:in valores p muy precisos). La aproximación se basa en el hecho de que el ... alor p cs el menor \alor a que nos permite rechazar la hipótesis nula. Si la hipótesis nula se puede rechazar en un nivel panicular a. el valor p debe ser menor que a. Si la hipótesis nula no se puede rechazar en un nivel particular a, el valor p debe ser mayor que e~c a. Por lo tanto, con frecuencia podemos acotar el valor p entre dos números. Todo lo que se necesita es ubicar el estadístico t que se haya observado entre dos valores Itabulados. Los limites para el valor p se pueden leer directamente. Encuentre limites paro el valor p en el ejemplo 9.15. Fn el ejemplo 9.15 vimos que corno I = -1. 75 es menor que t0 10• " ' ' '"'- 1.350, • se puede rechazar H0 con a - O. l O. Por lo tanto, p < 0.1 O. Cuando lo intentamos con a - O.OS, encontramos que no podemos rechazar H0 ; el valor t tabulado es -1.os. 131 1. = - 1.771. Por consiguiente, p > 0.05. Podcmo<; sintetizar el valor p aproximado como 0.05 < p < 0.1 O. •

• Se ut1li1an también como form3s de notación 1011(13). o hien tr1 111 (N. J,• lo

R T.)

9 6

EJEMPLO 9 .1 7

383

PruebaJ de h1pótes1s con la d1stribuc16n t

Un ajustador de seguros utiliza dos talleres distintos para mandar a reparar los automóviles extranjeros que sufren d
Taller 1 faller 2 Diferencia., d

1

2

3

7.6 7.3

I0.2 9.1 1.1

9.5

4 1.3

84 1.1

15 - .2

.J

5 30

6 63

2.7

5 !I

.3

.s

7 5.3 49 .4

Estimación de la reparación (en cientos de dólares) i\utomóvil

Taller 1 Taller 2 Diferencia., d

Solución

8

9

6.2

2.2

5.J .9

2.0

JO 48 42

.2

.6

11 11.3 11.0

.3

12 12.1 11 .0 1.1

13 6 ')

6. 1 .8

14 7.6 6.7

l! 4

.9

.9

15

7.5

La h1¡>ó1em nula es que la verdadera diferencia media µel es O Como no se ha especificado ninguna dirección particular para la hipótesis alternativa, tome Hª : µJ ~O. Basamos la prueba en las diferencias (que, en este caso, son designadas con den vez de y). El estadístico de Ja prueba es

J-o

r---

s,/J;

y se hasa en n - 1 =14 g.1. Un cálculo rutinario nos da modo que

d = 0.613 y sd"" 0394, de

.613 - 603 r. .394/..¡ 15 El ma)Or valor tabulado t para 14 g.1. es 2.977, el cual corTespondc a un área de una cola de 0.005. Así, aun para un a (de dos colas) igual a O.O 1, H0 se puede rechazar f:ícilmente. El valor p debe ser menor que 0.01; de hecho, sospechamos que el valor pes mucho más peque~o que 0.01. Formalmente, concluimos que los dos talleres tienen diferentes estimaciones medias. Es bastante claro que el taller l tiene estimaciones medias más altas que el taller 2. • -

1-

La evaluación de f3 ) de la potencia es más difü:il para las pruebas t que para las pruebas z. El método para calcular f3 que se introdujo en la sección 9.4 es válido sólo para las pruebas z, pero se puede utilit.ar como una aproximación en las pruebas r Como el esi.adístico tes más variable que el c!.tadíst1co z, la fórmula tiende a subestimar f3 y. por consiguiente, a sobrestimar Ja potencia. La forma más fácil de utilizar el método es especifica: un valor para

184

9

PRUEBAS O CONTRASTES OE HIPÓTESIS

y un valor para a. Por ejemplo. suponga que se realiza una prueba t utilizando O 05 (de do!. colas))' que suponemo!. que la verdadera media poblacional c:.tJ-0 ~ dci.\iacioncs cMándar por encima de la media de la hipótesis nula:

n = 25) <X

µ. - JJo

= .8

"

En este caso,

p = P(z >

-z912 +

lµ;¡fnol)

P(z > - 1.96 + I/...¡·~) 2S - P(: > 2.04)

= .0207

aproximadamente. Se deduce que, bajo estas condiciones, la potencia es aproximadamente 1 - 0.0207 =0.9793. Como ya lo hemos sei!alado, el cálculo subestima f3 y sobrestima la potencia, así que ésta no es tan buena como el cálculo indica.

EJEMPLO 9. 18

En una simulación por computadora, se toman 1000 muestras de tamar'\o 30 de una población normal que tiene media S5 y desviación estándar 1O. Con base en cada muestra se prueba la hipótesis nula de que la media poblacional es 50. Se obtienen los siguientes resultados: Mu 55.000

al pt\1

o. 100 0.050 0.025

0.010

0.005

Si!llM

10.0000

n

30

nurt>cr of times HO: 11111ten 1s "llll!an > 50 11 "meen < 50" o 919 856 o o 7!;2 o 624 541 o

5011 is re jecte<:I in favor of

tot1l (alptle dcx.Cle<:I)

919

856 7!;2 624 541

Los valores a que se indican son para pruebas de una cola, mientras que el tola! que se muestra en la salida corresponde a una prueba de dos colas. Como se ve, el valor a debería ser el doble. ¿Qué probabilidad ~e e~tá aproximando con la frac· ción 919 1000? ¿Cuánto se acerca la aproximación a la probabilidad teórica calculada con la fórmula?

Solución

En esta simulación la bipotcs1s nula es foil.a;µ es 55. no 50. La fracción 919 1000 aproxima la probabilidad de que la prueba rechace a la hipótesis nula cuando es falsa. Por Jcfimción, dicha probabthdad es 1 - /J, la potencia de Ja prueba. Podemos calcular el valor teórico fJ coo la fórmula. Para una prueba de una cola y ex= 0.1 O, el valor tabulado es z0. 10 = 1.28; #Jo= SO, µ""' SS, a; 0.1O y n = 30. Por lo tanto,

11

= P( z > =- 0721

- 1.28 +

1ss -J3o so1) = PI: > 10/ 30

1.46)

~cc16n 9

6

385

E1erctc1os

De modo que la potencia es 1 - 0.0721 - 0.9279. El valor simulado, 0.919, es bas· tante próximo a la potencia calculada. •

SECCIÓN 9.6

EJERCICIOS

----~~~~~~~~~~~~~

9.33

L'n dic;tribu1dor de papel reciclado coloca contenedores \acios en \ ano<; lugJrc-., c~­ llenan gradualmente con IM periódico'! viejoq y matmale-. c;imilarc" que traen varios indi\.iduo<; Los contenedores se recogen() se reempla1an con olm\ \ac1oc;) siguiendo distintos itinerarios. 1-n uno de tales tra)ectos se hace la rccolccc1ón c,1da dos semanas. Este plan es aconsejable si la cantidad media de papel reciclado en cada periodo de dos semanas es mayor que 1600 pies cúbicos. Distintos re~istros correspondientes a 18 periodos de dos semanas mucc;tran los siguientes volúmenes (en pies cúbicos) para un lugar particular: IO'i ~e

1820 15Q() 1~40 1700 1900 !MIO 1.i' - 171!1.3. .~ - 13711) 16(1()

1730 1770

1570

lti!Hl

17~0

1720

1900

2010

1~80

1620

1690

Supongt1 que esta<; cifras rcprcsenian los resultados de una muestra aleatoria. ¿Apo)'an la h1pó1cc;1c; alternativa de que µ > 1600, utiliJ'ando a -= O. 1O? Escriba todas las ,.,artes del proccd1m1ento de prueha'i de hipótesis. 9.34 f'n el ejercicio 9 H , determine una. cota -;upcnor parad 'alor p ¿Diria usted que se apo) a claramente que µ .,. 1600? 9.35 Un organismo de conirol federal está investigando uoa afirmación publicilaria de que cierto disposiuvo reduce el con,umo de gasolina en los automóviles. Se han comprado e instalado siete dispos11ivos en autos que pertenecen a la institución. Para comparar los rendimientos en condiciones estándar, se miden las millas que cada aulomóvil recorre con un galón de gasolina en la., dos situaciones. antes y desputs de la instalación.

AutoMóvll Mpg antes Mpg desputs Cambio

2

,)

..

17 6 18.7 1.1

19 1

199

200

237

9

38

5

6

7

W2

23 5

26 ll

21.7

22 J

238 3

19 ~ -7.6

24 6

2. 1

29

La diferencia media en el rendimiento e~ de 0.50 millas por galón y la den•i:ición e~tándar de 3.77. a. Formule las hipótesis nula y altemaliva apropiadas. b. ¿Es apo)ada la afirmación publícitana con a .. O.OS? Lleve a cabo los pasos de una prueba de hipótesis. 9.36 Utilice los datos del ejercicio 9.35 para construir un intervalo de confian1a al 90°0 para la diferencia media. Sobre la base de este interYalo, ¡,puede uno rechvar la hipótesis de que no hay cambio en el rendimiento? (Obsenc que el inter\alo de confouv.a bil1teral al 9oe.1. corresponde a una prueba de una cola con a• O.OS.) 9.37 ¿Oírla usted que el or¡anismo de control federal de los ejercicios 9 .35 ) 9.36 ha comprob:ido concluyentemente que el dispositivo no llene ningún efecto en ti rendimiento de los automóviles? ¿Qut tiene que ver la amplitud del interulo del ejercicio 9.36 con la respuesta'? 9.38 lln fabricante tiene que elegir entre enviar Ja mcrcancla a través del servicio postal o por medio de una compai\ía privada. Como prueba se eligen 10 dc'ltmos y se

386

9

PRUEBAS o CONTRASTES oe HIPOTESIS

envían paquetes a cada uno de ellos por ambas rutas. Los tiempos de entrega, en días. son los siguientes: ,¡

Destino

Servicio postal 3 Transportista privado 2 D1ferenci:1

2

3

4

5 3 2

2 2

5

6

4

8

5

4

9 6

7 9

-1

4

)

-2

4

4

7

9

10

10

~

9

(i

7 2

6

8

J

a Calcule la media} la desviación est:índar de lai; difertncias. b Ponga a prueba la hipótesis nula de 4ue no hay ninguna diferencia media en los tiempos de cntttga contra la hipótesis alternativa de que el tiempo de entreg:i del transpon1sta privado es menor. Utilice a 0.01.

9.7

EL EFECTO DE LA N O NORMALIDAD DE LA POBLACIÓN

_.

En la sección 8 6 se analizó el efecto de la no normalidad de la población sobre los intervalos de confianza t. Exactamente las mism:is conclusiones se aplican :i las pruebas t. El valor nominal a y el valor p son razonahlemente precisos si la población es '>imétrtca aunque con colas más pesadas o más ligeras en relac1l>n con la distrihución normal. En este caso, una prueba 1 puede ser mefic1cme La ineficiencia en términos de las prueb:is de hipótesis significa que alguna otra prueba (tal como la prueb:i del signo (median:i) analizada en la siguiente sección) tiene una ma)or potencia con el mismo nivel a. Ilustramos estos efectos de Ja no normalidad con' arios estudios :.imulados.

EJEM PLO 9. 19

En un estudio s imulado se tomaron 1000 muesm1s de tamaño JO de una pobl:ici6n de Laplace, simétrica y moderadamente propensa a los valores atf picos. Se obtuvieron los siguientes resultados: Cheüing Alpha Stll\Jlet1on of One Saftl>lt t·test (1000 Sal!"f>les) Populat1on shape 1s moderately outlier prone. Sigma 10.0000

Hu 50.000

n

30

one·ta1 l :

nvit>cr of t i-s HO:

alpha o. 100 0.050 0.025 0.010 0.005

"mean > 50" 104 51

average

t

28

"niean is "mean < 50" 95

51

24

7

6

'

3

is 0.0077 wi th va riance of

is r e ¡ected in favor of

total (alpha 199 102 52 13 7

1.086943

~led)

98

Pruebu acera de la mediana de 11 población

387

¿Qué hipótesis es verdadera en la simulación? ¿Es muy serio el efecto de la propensión a los valores atípicos de la población de Laplace?

Solu ción

La s::ilida de la computadora indica correctamente que H0 esµ 50, pues la media poblacional es 50. Por lo tanto a, la probabilidad de un error tipo l. está aproximada por f rocciones como 10411000. Éstas sólo son aproximaciones porque están basadas en 1000 muestras, no en un número infinito de ellas Observe que todas las fracciones son muy cercanas a los valores nominales a. Por ejemplo, con un a de una cola de 0.025, las fracciones observadas son 0.028 y 0.024. •

EJEMPLO 9.20

Olro estudio simulado comprende muesU"aS de tam~o JO tomadas de una población de Laplace. En este estudio la media es 55, de modo que H0 : µ 50 es falsa. A continuación mostramos los resultados de una prueba t y de una prueba del signo (una prueha para la mediano, que tombién es 55 debido a la simetría de la población de Laplace): Results fer t test Mu Si~ 55.000 10.0000

n 30

of times HO: "mean is 5011 is rejacted in favor of total 50" ucnean < 5011 o 913 913 831 o !31 745 o 745 o 629 629 537 537 o

~r

alpha 0.100 0.050 0.025 0.010 0.005

S1nul1tion of Sign Test ClOOO

s~les)

St"'-llat1on results uslng the nor11111l approx11N1t1on nurbcr of times HO: "IM 5011 "median< 50 11 total (al pna doubled) 0.100 956 o 956 0.050 905 o 905 0.025 816 o 816 0.010 686 o 686 0.005 519 o 519

En general, ¿qué prueba parece tener una mayor potencia?

Solución

9.8

Recuerde quc la potencia es la probabilidad de que la hipótesis nula sea rechazada i.uponiendo que es falsa. Observamos que para cada cr, excepto para 0.005 (de una cola), la prueba del signo rechaza la hipótesis con más frecuencia que la prueba t. Por consiguiente, la prueba del signo parece ser, en general, más poderosa para esta • población moderadamente propensa a los valores atlpicos.

PRUEBAS ACERCA DE LA MEDIANA DE LA PO BLACIÓ N

__

..

La mediana es más robusta que la media. Los valores específicos que alcanzan las pocas observaciones muy grandes o muy pequei'las afectan considerablemente a la media, pero no a la mediano. En algunas situaciones, la mediana de

388

9

prueba dr 1:1 mcdi:m:.1 en términos de un:1 d b lribuci{m binomial

EJEMPLO 9.21 Solución

PRUEBAS O CONTRASTES DE HIPÓTESIS

la población es una descripción más útil del valor central de una distribución que la media poblacional. Al igual que con los intervalos de confianza para la mediana. las pruebas de hipótesis acerca de este estadístico no siguen el fonnato eslándar de las inferencias acerca de la media. En vez de ello. el problema se puede refonnular para reducirlo a una !>ltuación binomial. Para esclarecer estas ideas, suponga que la hipótesis nula es que IJ calificación media en una prueba de aptitude!> para la progrJmac1ón es 60. con una hipótesis alternativa de que la mediana es mas peque"ª La idea t:s que cada ob'>el'\'ac1ón de una muestra aleatoria sea comparada con la mediana h1potet1ca de 60. Después, calificando como éxito a cada observación por encima de 60 ) como fracaso a cada observación por debajo de 60, • el problema relativo a la mediana de Ja población se traduce en uno relativo a una variable aleatoria binomial. Por definición de la mediana. Ja hipótesis nula nos da una probabilidad de éxito de 0.5. Si la hipótesis alternativa es verdadera, la probabilidad de éxito es algo menor que 0.5. Por lo tanto, se puede aplicar la prueba binomial descrita con anterioridad en este capítulo. Realice una prueba para la mediana con los datos del ejemplo 9.17. fornamos H0 : la diferencia en la medrana es cero, contra una H., bilateral. Llame éxito a cualquier diferencia mayor que cero. Como ninguna diferencia es igual a cero, n = 15 y el número total de éxitos, Y. en los 1S ensayos es y - 14. Consultando una tabla binomial con n = 15 y tr= 0.5, P.,J...v ~ 14)•0.0005. Para una prueba de dos colas sumamos las dos probabilidades P.,J...v ~ 1) y Pr(y ~ 14) para obtener un valor p igual a 0.0010. Nuevamente, H 0 se puede rechazar con toda seguridad .



EJEMPLO 9.22

RcmítO de una población propensa a los valores atípicos?

Solue16n

Como ya indicamos en el ejemplo 9.20, la potencia de la prueba (signo) para Ja mediana es en general mejor para los datos propensos a los valores atípicos. •

Remítase a los datos del ejercicio 8.27 . a. Trace un histograma o un diagrama de tallo y hojas de los datos. b. ¿Hay alguna razón obvia para dudar que la aproximación del nivel de l.'.onfi;inz.a al 95% sea corrccta? 9.40 Nos referimos nuevamente a los datos del ejercicio 8.27. a. Ponga a prueba Ja hipótesis nula de que el precio medio es ele 315 dólares contra una Hu bilateral. EncuenlrC cotas para el valor p. 9.39

• Si hay wlof'CS txaciamentr 1gmlcs a i.. nxdiana hipol'bca, no podemos decir si se les consldc:n J>Of encima o J>OC' debajo de ella La JOluc:ión mú fkil a este problema, adopada rn 11 mayoría de los paquetes de computo, es dc:scanar 11ks valores y redL.1C1r nen el número descartado.

99

Prueba pani lli ¡.ol'()porción de una poblaciÓll utihundo la aproximac16n normal

389

b. Ponga a prueba l:i h1pótem nula de que la mediana de los precios es de 315 dólares contra una 11., bilateral Encuentre cotas para el valor p. c. <-Hay gran diferencia entre las conclusiones de los incisos (a) y (b)? 9.41 U11lw1ndo los datos del ejercicio 8.27, encuentre un intervalo de confian~ al 95% para la verdadera mediana de los precioc; 9 42 Remítase a los datos del ejercicio 8.25. a. Realice una prueba I de /10 • µ <;; 45 contra H.,:µ> 45. U1ilice a• 0.05. b. fracc un:a gráfica de los dato:.. ¿lhl) alguna rwón para lomar con e'!cept1c1'1mO In conclusión alcanzada en el 1nc1so (a)? 9.43 Nos referimos nuevamente al CJercicio 8.25. a. Pons- a prueba Ja hipótesis nula de que ta verdadera mediana es menor o igual a 45. Utiliceª"' O.OS. b. "lla) alguna diferencia de importancia entre las conclusiones que acaba usted de obtener)' la!> que obtuvo en el ejercicio 9.42? S1 la ha). ¿cómo ~e explica la mi~ma'> 9.44 Se toman mue~tras nleatorias de tamni'lo 30 de una poblJc1ón normal que uene media 55 y desviación estándar 1O. Se realizan una prueba t y una prueba para la mediana (prueba del signo), y ~ obtienen los siguientes resultados:

Si 111Jlation o f Onc: Mu

55.000 ~ rof

e l phe o. 100

o.oso

0.025 0.010

o.oos

S~le

Sigma

10.0000

t·test <1000 n 30

ti N s HO: "111ean is 0 ttan < 50"

"mean > 50" 91 9 856 752 624 S41

s~ l es)

o o o o o

50" is re j ect f'd in f avor of tota l (al pha ~t41d) 9 19 856

752 624 541

Si111.1t•t1on of Sign Test (1000 s•Jl1)tes) Mu

SS.000

s 1gtl\11 10 . 0000

n

30

S1111.1lation resutts usi ng b1nomi1l Pf"obabilities l"IU!'C>cr of t lines HO:

elph• 0.100 0.050 0.025 0.010 0.005

"medi an > 50" 698 698 564 409 256

"mecli•n Is 50" ta re ¡ected 1n f avor of totel (at pha doubl ed) "medi en < 50" 698 o o 698 o 564 409 o o 256

a. ¿Qué probabilidades se están aproximando en esta simulación? b. ¿Qué indican los resultados acerca de l
9.9

PRUEBA PARA LA PROPORCIÓN DE UNA POBLACIÓN UTILIZANDO LA APROXIMACIÓN NORMAL ~-------En Ja primera sección de este capitulo llevamos a cabo Ja prueba de una proporción poblacional utilizando t.ablas binomiales. El problema práctico consiste en que no

390

9

PRUEBAS O CONTRASTES DE HIPOTESIS

siempre se tienen a mano tablas binomiales completas, ) en caw de que las haya, éstas son fastidiosas y necesariamente limitadas. Por ejemplo, ¿cómo probaría la hi· pótesis nula de que tr - 0.373 con n ""277? Aun con un buen programa de computadora, las probabilidades hinomiales son relativamente lentas y su cálculo es costoso. La aproximación a la distribución binomial por medio de la distribución normal permite realizar pruebas aproximadas; el méto<.lo es muy parecido al de la sección 9.3 para una prueba estadística relativa aµ. El método ~e puede ilustrar con el ejemplo de la comparación de productos de la sección 9.1 . La hipótesis nula es H0 : rr """ 0.50 y Ja hipótesis altern::itiva H11 : tr..,. 0.50. En consecuencia, queremos una prueba de una cola. En el capítulo 5 mostramos que si n es grande y rr no es muy cercano a Oo a 1, un estadístico:: para la variable aleatoria binomial Y, ~

z=----y-

117(

.Jmr( 1 - x)

es aproximadamente normal estándar (tabulado). Este:: se puede utilizar como el estadlstico de Ja prueba en vez de y; el valor relevante para tres el \alor de la hipótesis nula (límite), Tro ""' 0.50. Al igual que con la prueba estadística paraµ, la región de rechazo de una cola para a=- 0.05 es z > 1.645 . Un o de álgebra nos muestra que z > 1.645 es equivalente a y > ntro + 1.645 n.tr0 {I - JT0 ). o, en el problema de comparación de productos, y~ 58.225. En rntu
y-

11n 0

J nrr 0 (1 - n 0 }

68 - 50

= "

100(.5)(.5}

- 3.6

De aquí que rechacemosH0 : tr= 0.50 para a : 0 .05 (Y para a = 0 .01). A continuación presentamos un resumen del procedimiento aproximado para probar una proporción de la población utilizando un estadístico



Síntesis de la prueba de una proporción poblacional cuando se ut iliza la aproximación normal Ho : n ::a llo H., : l. n > 1f0 2. n <no 3. n ~ lfo E.P.: z

=

y - nno Jnn0 (1-n0 )

. l

9 1O

Relac16n entre las pruebu de h1pótes11 y los intervalos de confianza

R.R.: Para la probabilidad de un error atipo 1, rechace H0 si

1. z >za 2. z < - za 3. z > zcúl o z < -zcúl Nota:

391

\\•

n¡, es el valor 1ímite de la proporción poblacional 1C en la hipótesis nula.

Hay otra fonna de escribir el estadístico de la prueba::. Si ii es la proporción de la muestra (es decir, i ;;;: yi n), entonces z se puede escribir como 1t -

lto

z = ---;::=====

J1t0 ( 1 -

n 0 )/n

En el ejemplo de la comparación de productos, ir =68/J 00 = 0 .68 y nuevamente = 3.6. Las dos fonnas de;: son algebraicamente iguales, de modo que siempre dan la misma respuesta. Dijimos que la prueba;: para 1f es aproximada y trabaja mejor cuamlo n es grande y iru no es demasiado próximo a Oo a 1. Surge entonces la pregunta: ¿cuándo la podemos utilizar? Hay varias reglas para dar una respuesta, mas ninguna de ellas se debe considerar sagrada. Después de muchos estudios que se han realizado, nuestro criterio es el siguiente: si ntr0 o n( 1 - lru) es menor que 2, trate los resultados de una prueba z con escepticismo. Si ntr0 y n(I - tr0) son al menos 5, la prueba z debería ser razonablemente precisa. Para el mismo tamaño muestra!, las pruebas basadas en valores extremos de iru (i.e., 0.001 ) son menos precisas que las pruebas para valores de n:0 tales como 0.05 o O. JO. Por ejemplo. una prueba de H 0 : 1f = 0.0001 con nn0 = 1.2 es mucho más dudosa que una para H 0 : re = O. 1O con nrc0 = 50. Si el problema es delicado, lo mejor es interpretar los resultados con escepticismo.

z

estipulación del tamaño muestra!

9.10

RE!J\CIÓN ENTRE !J\S PRUEBAS DE HIPÓTESIS Y LOS INTERVALOS DE CONFIANZA



Tenemos ahora dos formas de inferencia: los intervalos de confianza y las pruebas de hipótesis. Ambas se pueden llevar a cabo con los mismos datos. ¿Cómo se relacionan entre sí? En el ejemplo de las cajas de cereal, un intervalo de confianza al 95% para el verdadero peso medio esµ± l .96av. Sustituyendo y = 15.83. n = 25 y a ~ 0.1, tenemos que 15.83 - 1.96

(.l)

¡-;:;; .S:

v25

Jt S 15.83

+ l.96

(.1)

¡;;e

v25

o

15.791 ~ µ ~ 15.869

En nuestra prueba estadística de H 0 : µ ~ 16, el valor limite Jl{J =16 no se encuentra dentro del intervalo de confianza al 95%, por lo que parece razonable rechazar H 0 . ¿Cuál es la probabilidad de un error tipo J para una prueba estadística basada en un intervalo de confianza al 95%? En general, un valor particular de la hipótesis nula, digamos 60, de cualquier parámetro de la población 9 se puede rechazar con una probabilidad a de un error tjpo 1 si y s61o si 90 no se encuentra dentro del intervalo de confianza al ( 1 a) 100% paro Por ejemplo, como el intervalo de confianza 15.791 S µ $ 15.869 al 95% no incluye a µ 0 - 16, podemos rechazar H0 : µ"' 16 con base en a - 0.05. De hecho,

e.

392

9

PRUEBAS O CONTRASTES DE HIPOTESIS

este es un m~todo general para construir intervalos de confianza; un intervalo de confianLa al 95°0 c;e puede definir como el conjunto de valores de· la hipótesis nula que no.:;e pueden rech:u.ar (a = 0.05). Verbigracia. en una prueba de dos colas. un valor particul:ir µno se rechaza utilizando a 0.05 si el estadiMico;: se encuentra en el intef'\ alo 1.96

.s y - /!: $

1 96

u/v" Un poco de álgebra nos muestra que esto es equivalente a (J

(1

J - 1.96--;:= $

JI S

f' + 1.96-r

""

'\)11

que es el intervalo de confianza al 95"" par.i µ. (Hay un pequeño prohlema cuando se utiliz;i < o$. Sin embargo. la probabilidad de que= c;ea exactamente igual a 1 96 es tan pequcf\a te6ncamente es cero- que no nos pn..>oCupamos por dio ) Fn este sentido. los intervalos de conlianL.a >' las pruebas de hipótesis dan resultadoc; equivalentes. El intervalo de confianza más usual es bilateral. Como en el caso anterior, dichos intervalos de confianza corresponden a pruebas de dos colns. No existen intervalos de confianza de una cola. La región de no rechazo con a= O.OS para una prueba de una cola izquierda es

y - µ > -1 645 a/J;. . Si se despeja µ, el resultado es -

(J

µ$y+ l.645r= ...¡n

intcnalo de confia1uu unilateral

que es un intcn alo de confianza unilateral En el ejemplo de las cajas de cereal, este intervalo esµ< 15.863; en vista de que el valor limite '11) - 16 no c;e encuentra dentro de este intervalo, H0 : µ = 16 se puede rechazar utiliz.ando a - O.OS, de un3 cola. En lo que resta del texto utilizamos intervalos de confianza bilaterales, que sirven para probar hipótesis alternativas bilaterales.

EJEMPLO 9.23

Para los datos del tiempo dedicado a ver la televisión del ejemplo 9.8, utilice un intervalo de confianza al 99% para poner a prueba H0 : µ = 22.6 contra Hu:µ.~ 22.6.

Solución

La hipótesis alternativa bilateral implica que podemos utilizar un intervalo de confianza bilateral para poner a prueba la hipótesis nula. En el ejemplo 9.8, y =25.2, n = SO y se supone que cr es 6. l. El intervalo de confianza al 99% es 6.1

25.2 - 2.576 (;";:\ vflJ

$

µ

~

25.2

6.1

+ 2.576 r;:r.

O

2J.~ ,S

JI $ 27.2

..¡60

Como el valor de µ bajo H 0 , 22.6, no se encuentra dentro del intervalo, rechazamos H0 utilizando a= 0.01. Por supuesto, en el ejemplo 9.8 se obtuvo la misma conclusión. •

393

Sección 9 10 E¡eraGI09

intervulo de confiann y {J

Cuando la hipótesis nula no se rechaza. los mtervalos de confianza permiten dar una medida aproximada del riesgo oc un error tipo IJ. A grandes rasgos, un amplio intervalo de confianza aJ 95% indica un alto grado de incertidumbre y por lo tanto una alta probabilidad fJ de un error tipo 11. (Desde luego, la confianz.a al 95% fija a en 0.05.) Por ejemplo, suponga que un vendedor de lámparas de alta intensidad para cámaras de tele\.isión portátiles afirma que la vida media de las lámparas es de 40 horas y que una muestra de 1O de ellas proporciona un intervalo de confianza al 95% de 28.0 S µ S 44.0. En este caso la afirmación del vendedor no se puede rechaz.ar utilizando un nivel de a - O.OS. Observe, también. que el intervalo es muy amplio; el límile inferior de 28.0 está un 30% por debajo del valor afirmado. Si la diferencia encre la vida media de 40 horas y, digamos, una vida media de 30 horas fuese decisiva par.i realizar la compra o no, el comprador no se sentiría cómodo al aceptarµ 40. La probabilidad de un error tipo 11 correspondiente aµ 30 \cría indudablemente muy grande

SECCIÓN 9. 1O EJERCICIOS 9.45

En el ejercicio 2.66 consideramos las reclamaciones (en miles de dólares) hechas a cierta compaiHa de seguros como pa¡¡o por los dai\os sufndos por automóviles accidentados. En la figura 9.7 se mues1ta un diagrama de caja paro los datos CU)O anílisis, realizado con el paquete Statgraphics, es el siguiente:

Orw -S~le

Analysis Results cla 1lftS Ue

S~le

Stetistics :

N~r

of Obs .

olver-ve Variance Std. Oevi at ion Median

187 5.1m4 27. 9194 5.28368 3.5

Conf idence lntervel for Mean: 5811'ple 1

95 Percent 4.41509 5.93999

Conf1dence lntervel far Variance: S~le 1

9S

Hypothes1s Test for HO : Mean • 4 .62 vs Alt: NE et Alpha z 0.05

C~ted t statistlc : 1.44293 Sl g . level • 0. 150723 so do not re ject HO.

Percent 23.0123 34 . 5919

186 D.F. ~86

O.F.

a. La companía afirma que Ja medi:i de las reclamaciones, a nivel nacional, es de 4.62 (en miles de dólares). Los da1os provienen de una ciudad particular del medio oeste. ¿Indica el intervalo de confianza para la media que la media de la ciu· dad puede ser Ja misma? b. Un miembro del departamento de reclamaciones dijo 4uc la desviación con respecto a 4 62 no era estadis1icamen1e significativa, de modo que la companla po· di3 suponer con segundad que la media para esta ciudad también era de 4.6:?. " Fs esta una m1erpretac1ón \ahda de los resultados'>

394

9

PRUEBAS O CONTRASTES DE HIPOTESIS Diagrama de caja

______, co

(1).

o )1(

o

10

20

30

40

Monto de la reclamación FIGURA 9.7

Diagrama de e.aja para los datos de las reclamacio nes de daños por colis16n

9.46

El diagrama de caja de los datos de reclamaciones por dai'los de la figura 9.7 muestra alguna asimetría. ¿Significa esto que las probabilidades afirmadas parn la prueba de la media están equivocadas? 9.47 En el ejercicio 9.23 probamos la hipótesis nula de que el número medio de anuncios comerciales de servicio público era, en el Hmite, de 1.50. La prueba tenía como base una muestra de 18 observaciones con una media muestra! de 1.278; 'e 'upu~o que la desviación e~tándar pohl:lc1onal era 1.60. La hipote5is nula no fue rcch.w1.<1,1 con a 0.05. a. Calcule un intcn-alo de confianLa JI 95º o para la media pohlacional (media en el limite). Bajo Ja suposición de que se conoce (j, utilice la tabla:. b. Demuestre que este intervalo de confianza es consistente con la conclusión del ejercicio 9.23 . 9.48 La hipótesis nula del ejercicio 9.29, que el número medio de dfas de 'iaJC para IJ po hl:lcíón de representantes de ventas era de 44, apenas se pudo apo)aJ con ex O 20. La media muestra! era 47.6; el tamailo de la muest~ 10, y la (jSupuest.a, 10.0. a. Calcule un intervalo de confianza al 80% para la media poblacional; el valor z0 10 es 1.28.

b. ¿De qu~ mancr:i índica este inter\'alO de confianza que no debe rechuarse la hipótesis nula? c. ¿De q~ manera indica que H 0 apenas se puede retener? 9.49 En el eJcrcic10 Q 31 pusimos a prueba la afirmación de que la' ida media de una pila ran calculadora~ era de 20,000 opernc1ones. En una muestra <: recha.73r la hipótesi<> nula de que la media

es 20,000. c. ¿Serla razonable decir que, en vista del fuerte rechazo de 110 , la vida medía debe ser mucho más baja que 20,000? 9.50 El principal camino de acceso a un centro comercial suburbano sufre en ocasiones severos congestionamientos (atascos). Entre semana, excluyendo Jos dlas festivos. el numero promedio de vehículos que van hacia el centro comercial entre las 9 A.M . y las 7 P.M., registrados por un coni.idor electrónico, es de 11,260. El departamento de tránsito trató de mejorar el ílujo vehicular cambiando los ciclos de los semáforos y mejorando los carriles para dar vuelta. Durante los primeros cinco días no festivos entre semana, los volúmenes fueron 10,690, 11,452, 12,316. 12,297 y 12,647. La media de esta muestrn es 11,880.4 y Ja desviacióo estándar 798.68. a. Calcule un intCT\alo de confianza al 95% para la media (poblacional) en el límite. b. Demucstn: que con a 0.05 se debe retener la hipótesis nula de que la media sigue siendo 11,260.

9. 11

9.51

9.52 9.53

9.54 9.55

9.11

Prueba~

la desviao6n

n~ar

395

Un polltico local revisó los resultados del ejercicio 9.50, >dijo que los datos demostraban que no había habido ninguna mejora en el volumen de tráfico. ¿Es esta una interpretación razonable Jel inlenalo de confian1_a? Se hace una lista de los datos del ejercicio 9.50 en orden temporal. ¿Hay indicios de alguna tendencia o dependencia a lo largo del tiempo? Un fabricante de ropa compra la tela en rollos y la cona. En el proceso, ciena cantidad de tela se desperdicia. Con los métodos estándar, el desperdicio es de 9.26%. Un productor de máquinas controladas por computadora le permitió probar una de sus máquinas con una muestra de 762 eones distintos. En la muestra, el desperdicio medio fue de 9.11 % y la desviación estándar 1.07%. a. Calcule un inten alo de contiani'.:i al 99°~ para el desperdicio medio cuando se utiliza la máquina controlada por computadora. b. Utilizando a - 0.01, demuestre que ha habido un camhio e\ladísticamemc perceptible (significativo) en la media. En el ejercicio 9.53, ¿puede el fabricante de la máquina decir Jc:g111mamcntc que las pruebas estadí~ticas muestran que ésu reduce mucho el porcentaje de desperdicio? Los datos en el ejercicio 9.53 eran asimétricos debido a la prc~cnci:i de algunos casos con un gran desperdicio. ¿Invalida este hecho el intervalo de contian1a y la prueba del ejercicio 9.53?

PRUEBA PARA LA DESVIACIÓN ESTÁNDAR

-~----- ·

Al inicio de este capítulo contrastamos una proporción y después nos ocupamos de las pruebas de hipótesis para promedios (medias o medianas). Se pueden aplicar los mismos principios a pruebas de hipótesis acerca de la desviación estándar. Tales pruebas son particularmente relevantes en las situaciones de control de la calidad. Una manera de mejorar Ja calidad es reduciendo la variabilidad. Poner a prueba una desviación escándar es una forma de ver si la innovación en el Jiscilo o en el proceso ha traído, de hecho, un cambio en la \'ariabilidad También mostraremos que las pruebas de hipótesis y Jos intervalos de confianza para una del>\ iación estándar se relacionan entre sí de la misma forma que lo hacen las media!.. Una prueba para la des\ iac1ón estándar de una población o de un proceso se basa en la distribución la cual. como se vio en Ja sección 8.8, también es cierta para el intervalo de confianza de una desviación estándar. El estadístico de la prueba es x2 -=- (n l) s 2 con n 1 g.I. Instituimos el procedimiento de prueba en términos de varianzas; como es usual, se puede convertir a des\ iaciones estándar tomando las raíces cuadradas pertinentes.

r.

1rr.

Prueba de hipótesis para a 2 Ho·u 2

=o-5

H. : t. n2 > t1~ 2. n 2 < (J 5 3. '1 1 #: t1b

E.P.: Xl

=(n

l)sl/02

396

9

PRUEBAS O CONTRASTES DE HIPOTESIS

R.R.: l. Rechace H0 sí X2 > ,; 2. Rechace H0 si X2 < ¡f • . 2 2 2 2 3R . ec1lace H o SI l > l.. 2 O l < l 1 at l donde tiene una cola derecha con un área con n - l g.I.

x,;

Q

en la distribución x2

Por ejemplo, una compañía de transportes especializada en lotes pcqucilos quiere cargar los camiones con un peso de 20 toneladas (40,000 libras). La variatlllidad es costosu, las cargas que son muy ligeras no 5<>n económicas y las que son mu} pesadas son ilegales ) son causa de multas. El sistema actual de carga proporciona una media de 36.60 miles de libras y una desviación estándar de 3.01 O miles de libras. Se ensaya un sistema de carga computadoriz.ado con un::i muestra de 1O1 fletes. El peso medio es 36.81 miles de libras; la desviación estándar es 2.064 . ¿Hay alguna evidencia concluyente de que la desviación estándar utilizando el sistema computadorizado será diforente de la que proporciona el sistema actual? La hipótesis nula es que u - 3.010 es la misma para el sistema computadorizado; en vista de que lo que buscamos es un cambio. tomamos una H 0 bilateral. El estadístico de la prueba es x2 .. (101 - 1)(2.064) 2 (3 .010) 2 47.02. La conclusión dependerá de la elección de a; para a= O.OS y una prueba de dos colas con 101 - 1 =100 g.I., la R.R es x2 < 74.22 o > 129.56. Como 47.02 < 74.22, rechazamos 110 > concluimos que hay una buena cvidcnci;:i de que el sistema compu· tadorizado proporcionará una desviación cstánJar diferente (y. en la práctica, más pequeila). Aun escogiendo a = 0.002 (por ser a 12 - 0.001 el área más pequeña en nuestra tabla z2 ), rechazaríamos H 0, pues 47.02 < 61.92, el \.alor tabulado. Dado que el valor p es menor que 0.002. el límite de la región de rechazo universal (rechace H0 siempre y cuando el valor p < a). la evidencia es concluyente. Otra fonna de realizar Ja misma prueba es utilizando un intervalo de confianza. Como en Ja sección 9 1O. rechazaremos la hipótesis nula si este valor no se encuentra dentro del intervalo de confianza. El intervalo de confianza x2 al 95% para la varianza poblacional es

i

(101 - 1)(2.064) 1 129.56 ~

l

ª

(101 - 1)(2.064) 1 ~ 74.22

o 3.288 S a2 S 5. 740. El intervalo de confianza al 95% para la desviación estándar es 1.81 Su S 2.40, que se obtiene extrayendo ralees cuadradas. Este intervalo no incluye al valor de H 0 , .3.010, de modo que una vez más rechazamos H 0 con a = O.OS (correspondiente a una confianza del 95%).

EJEMPLO 9.24

Solución

Suponga que una compañia farmacéutica quiere que Ja desviación estándar de las potencias en cualquier lote de tabletas no sea mayor que 1.40. ¿Se puede rechazar esta H0 para a= 0.1O si una muestra de 30 tableuis tiene una varianza de 2.1583? Los elementos de la prueba estadística para H 0 : a 1 ""'(1.4) 2 H. : a 2 > 1.96

= 196

u3- son

397

Scco6n 9 11 E1ercoeios

E.P.: l

1

s2

_

- (n - 1) ~

0

_ -

29(2.1583) _ 1. - 31 934 96

z!

R.R.: El valor tabulado para a = O. IO y g.1. "'29 es 39.09, de modo que no hay evidencia suficienl.e para rechazar H 0 . En este problema se tiene un buen argumento para decir 4ue Cr H.,·
i

En la sección 8.8 dijimos que los métodos para Ja varianza eran muy sensibles a la no normalidad. Si tomamos una muestra de una población o proceso no nonnal, la probabilidad a y Jos valores p serán incorrectos, quizá dbrnratados, independientemente del tamaño de la mueslta. Para reali1.ar pruebas de h1potesis más creíbles en casos de no normalidad, se ruede recurrir al método ¡tu.kkmfe que se describió en la sección 8.8. Una prueba muy sencilla de este tipo consiste en rechazar H 0 si este valor no se encuentra en el intervalo de confianz.:ijaclclmife.

SECCIÓN 9.11 EJERCICIOS 9.56

Se toma una muestra de 25 ohservacioncs de una población con mediaµ desconocida y varianza u1 Defina 1

l

(11 -

...

l)s 2 ,,.1

I;ncuentre las siguientes probahilid:i.des:

a. P(x. 1 > 124) b. P(x. 2 < 36.4) c. P(9 89 < x. 2 < 45.56) 9.57

F.n una línea de envasado se llenan tarros de Jugo de tomate con un contenido nominal de 32 onzas y una media real de 32.30 ontas. ti proceso debería tener una des\ iación est6ndar menor que 0.15 on1as por tarro (una desviación c<;tándar mayor conduce a tener muchos taJTos con un peso deficiente> otros con un peso excesivo). Para prob:ir el proceso se toman regularmente muestras de 61 tarros. Una de ellas dio una media muestra! de 32.28 onzas > una desviación estándar de 0.132 on1as. ¡,Es esta una indicación de que C1 <. 0.15 (utilizando a = 0.05)? Realice: una prueba formal de hipótesis. 9 58 Suponga que la hipótesis alternativa en el ejercicio 9.57 se formula como <:J > 0.15 . ¿ fiende a ser esta reformulación mb o menos generosa en términos de los resultados de la muestra que ocasionan que ~e suspenda el tnabajo en la linea de en1.asado pJrJ rcali1ar a1u,tes? 9.59 Cierta parte para un pequei'o en\amhla1e dcbena tener un d1.lmctrn de 4 000 m1hme1ros, permitiendo la especificaciones una dcniación estándar máxima de 0.011 milunetros Los siguientes diámetros se tomaron en una muestra aleatoria de 26 partes:

3 952 4 000 4 010

3 978 4 000 4.012

3 979 4 000 4.023

3 984 4 001 4 041

3 987 4 001

l991 4 002

3 995 4 002

3.997 4 001

3 999 4 004

H99 3 999 4 ()()6 4 009

398

9

9 .60 9.61

9.62

9.63

9.12

PRUEBAS O CONTRASTES DE'HIPÓTESIS

a. Calcule l:i media muestra! ) la desviación estándar. b. ¿Se puede apoyar la hipótes is alternativa de que a >O.O 11 (con a= 0.05) con es- tos datos? De1ennine todas las panes de una prueba estadística de hipótesis. Calcule intervalos de confianza al 90° • para la verdadera varian7a ) la .. erdadera desviación eslándar con los datos del ejercicio 9.59. Trace una gráfica con los datos del ejercicio 9.59. ¿Sugiere la grilica alguna violación de las hipótesis subyacentes a las rcspuestAS que dio en los ejercicios 9.59 y 9.60? ¿Tendría una violación de ese tipo un efecto severo en la validez de sus respuestas? Las pelotas de béisbol varían en su coeficiente de dureza de rebote. Una "bola muerta" tiene un coeficiente relativamente bajo, mientras que una "bola viva" 1iene un coeficiente muy alto. Se ha desarrollado una prueba estándar. Un comprador de grandes cantidades de pelotas necesita que el valor medio sea 85 y que la desviación es1.indar sea menor que 2 unidades. Se pone a prueba una muestra de 81 pelotas. El \alor medio es 84.91 y la desviación estándar es 1.80. ¿Se puede sostener la hipótesis alternativa de que <J < 2 utilizando a = 0.05? Desarrolle todos los pasos de una prueba fonnal de hipótesis. Acote el valor p en el ejercicio 9.62.

LAS PRUEBAS DE HIPÓTESIS COMO MÉTODO DE DECISIÓN



En este capitulo se han presentado las pruebas de hipótesis como un método para aceptar o rechazar hipótesis alternativas. Tales hipótesis no tienen por qué relacionarse direct.amente con la toma de una decisión. No obstante, hay situaciones como la que se presenta en el ejemplo de las lámparas de alta intensidad para las e<ímaras de televisión de la sección 9. 1O, en las que se incluye una decisión como la de si se reali1,a o no una compra. En tales casos se acostumbra llamar hipótesis alternativa• a la hipótesis de investigación: el problema consiste más hien en decidir entre dos hipótesis, no en aceptar o rechazar la hipótesis de investigación. Por lo general, estas hipótesis corresponden d irectamente a dos acciones posibles El problema de las lámparas de alta intensidad para las cámaras de televisión ilustra cómo utilizar una prueba estad1stica para tomar dec1s1ones. La hipótesis nula se puede tomar como µ ~ 40. Supongamos que la estación de televisión estaría de acuerdo en comprar las lámparas si la h1pótes1s nula e., verdadera. La alternativa relevante es H.,·µ< 40; si la verdadera\ ida media es sustancialmenlc menor que 40 horas, es de s uponerse que la estación no querría comprar las lámparas. Suponga que el comprador planea observar una muestra de 8 lámparas anh!S de tomar una decisión. Suponga, además. que C1 ; 1O horas. (Obviamente, en la práctica desconoceríamos C1 y por consiguiente necesitaríamos una n más grande para sustituir s en vez de <1 en el estadístico z.) Si la estación determina a - 0. 1O, la región de rechazo para una prueba estadística de H0 : µ ~ 40 y H11 : µ < 40 es=~ 1.282. Asi, en términos de un procedimiento de decisión, la esi.ación compraría las lámparas si z > 1.282 y no lo haria si z ~ - 1.282. En tal caso, un error tipo 1 consiste en no comprar las lámparas cuando la afirmación (H0 : µ ~ 40) es correci.a. Suponga que una vida media de 30 horas hiciese caras a las lámparas. Un error tipo 11 en esta situación consistiría en comprar lámparas que son costosas. La esi.ación de televisión tendría interés en el riesgo fJ. De acuerdo con la fórmula de la sección 9 .4, • Ésr.a es la razón por la quie utiliumos el slmbolo H. en vez de, quizJ,. H,.

399

{J30 = p ( : > - 1.282

==

probabilidades a

401) + 130- lo 10/..¡8

P(: > l.S5) ::::: .06

De este modo. aun una muestra de tamailo 8 es suficiente para proporcionar riesgos de error razonablemente bajos (a - 0.1 O, {3,0 = 0.06), ya que µ 0 - 30 y ~ = 40 se encuentran mu) alejados el uno del otro. l:.I problema de decidir si comprar o no, con base en los resultados de Ja muestra, se puede interpretar como un problema de prueba de hipótesis. La dificultad práctica de este enfoque es la elección de riesgos aceptables a y {J. Por supuesto. nos gustaría que ambos riesgos fuesen muy pequei\os. No obstante, por lo general la única manera de hacer esto es tomando un:i muestra muy grande, lo 1.1ue no siempre es costeable o posible. Como }a lo hemos seilalado previamente, para un tamai'lo fijo de la mucslra, sólo se puede reducir a incrementando {3. Con frecuencia es dificil saber cuál es la elección correcta. fata depende no sólo de los costos relativos de los errores, sino también de la relativa posibilidad de las hipótesis. Si el costo de las lámparas defectuosas es alto y la pérdida por dejar pasar la oportunidad de comprar lámparas de buena calidoo es baja, un error tipo 11 es mó~ costoso que un error tipo l. De este mo
priori

SECCIÓN 9.12 EJERCICIOS El contrato de un molino harinero con un \endcdor de granos estipula que el conlenido de proteína promedio del trigo de in' iemo debe ser al menos de 13.5%. En el molino se anali?an varias muestras de cada embarque de granoc;. S1 el contenido es inferior a 13.5% (en un porcentaje cc;tadlsticamcnte sign1ficat1\.0). el molino deduce del pago una cmtidad como castigo para el vendedor a. Formule las hipótesis nula > altcmativa para este problema. b. ¿Qué acciones se siguen del rechazo y del no rechazo de la hipótesis nula? c. ¿Cuál seria la consecuencia de fijar a en un valor muy peque/lo? 9.65 Suponga las siguientes condiciones en el ejercicio 9.64: i. Imponer un castigo puede llevar a acciones legales; si se aplica un castigo y posterionnente se encuentra que el embarque sausface el estándar de proteína, el molino puede tener que pagar indemniuciones sustanciales. ii. S1 todo el embarque es deficiente en proteínas, el molino puede complementar el contenido proteínico a un bajo costo. iii. El embarque pro\.iene de un vendedor bien establecido >esti formado por granos provenientes de una cosecha excelente. ¿Que implican estas consideraciones respecto de ta elección apropiada de los va.l o·

9.64

resay¡J?

400

9

PRUEBAS O CONTRASTES OE HIPÓTESIS

9.66 Un antiguo com1!>ionado de la Food and Drug A.dmm1strat1on (FlJA) comenta que el Congreso se queja con mucha energía siempre que la FDA permite equivocadamente que un medicamento inseguro o inefectivo sea lanzado al mercado. pero ja6iá<; dice una palabra cuando no se permite que un medicamento efectivo > seguro no se comercialice. Si tomamos como hipótesis altemati\a "el medicamento es seguro y efectivo", ¿qué implica el comentano del ex comisionado :icerc:i de los costos relativos de los erron:s tipo 1 y tipo 11?

Resumen

• Las pruebas de hipótesis son un medio para que los gerentes decidan si un resuludo aparente en una muestra es probablemente una indicación de que hay un efecto real en la población o proceso subyacente, o si el resultado es tal ve7. una casualidad de Ja muestra particular. Fonnalmente. las pruebas de hipóte~i!. se utilizaron para "contradecir" una hipótesis nula negativa que por lo común decía que no había ningún efecto real. La hipótesis nula se "contradice", suponiendo que es verdadera, si los datos muestralcs son poco probables. Las pruebas de hipótesis se pueden llevar a cabo en cinco pasos: especificación de la hipótesis nulo, c!ipecificación de la hipútesis alternativa (pudiendo ser ésta unilateral o bilateral), elección del estadístico de Ja pnacba, especificación de una región de reeha7o y conclusi6n con base en los datos reales. La especificación de una región de rechazo requiere de la consideración de posibles errores falsos positivos (tipo 1) y falsos negativos (tipo 11). Lo común es especificar la probabilidad a de un error tipo 1y utilizarla para determinar 1íl región de rechazo (R.R.). 1 a probabilidad JJ de un error tipo 11 (o potencia, el complemento de la probabilidad {J) se puede calcular dada la R.R. y un valor particular de la hipótesis de investigación La técnica básica se introdujo en el contexto de una prueba binomial pjlra una proporción, principalmente porque los cálculos eran fáciles en ese caso. Los mismos pasos esenciales se aplican a la prueba z para una media con desviación estándar poblacional conocida y :i una prueba t para una media con desviación estándar poblacíonal desconocida, así como a la prueba ji cuadrado para la desviación estánd:ir. El valor p, ampliamente referido en los paquetes estadisticos y revistas profesionales, es un indice de la evidencia de una prueba estadística. Mientras más pequeM es el valor p (el nivel de significación alcanzado), los datos apoyan con mayor finneL.a la hipótesis alternativa. La significación estadística, estimada con el valor p, mide el carácter concluyente de la prueba, pero no implica necesariamente que haya un resultado práctico en los datos. Las pruebas de hipótesis y los intervalos de confian.w son fonnas de inferencia relacionadas entre si. Un intervalo de confianza da lugar de inmediato a una prueba de hipótesis: rechace Ja hipótesis nula en el nivel indicado, siempre y cuan· do el valor de Ja hipótesis nula no se encuentre en el intervalo de confianza. Un intervalo de confianza mu) extenso indica una prueba de h1pótes1~ mu) pobre (de baja potencia) y por lo tanto indica que ha} muy poca C\ idcncia en un sentido u otro. Si las pruebas de hipótesis se \an a utilizar como método de decisión, un gerente no sólo debe considerar las probabilidades de los dos tipos de error, sino también el costo relativo de dichos errores y la credibilidad a priori de las dos hipótesis.

401

R.sumen

Si Ja hipótesis nula es muy razonable o si su falso rechv.o es muy costoso, ento~es se necesil.3 una fuene evidencia (un valor p muy pequei\o) para hacerlo.

FÓRMULAS PRINCIPALES: Pruebas estadísticas o contrastes de hipótesis 1. Prueba paraµ, <J conocida Hipótesis nula: µ = l'o . . de 1a prueba: z E~ta d 1st1co

y - "º = ---¡::: a /...¡ n

2. Prueba paraµ, a desconocida, /1 2! 30: El procedimiento es el mismo que ¡:uando <J es conocida, excepto que .~ rcempla7,.a a <J en la fónnula para el csmdístico de la prueba. 3. Cálculo de

/3 para una prueba sobreµ

a. ParJ una prueba de dos colas:

/J

~ P(z > -z.,l + lµ;;'}nº 1)

b. Para una prueba de una cola:

p=

P(z > -z. + lµ;¡J;º')

4. Tamaño de la muestra requerido para un a y un

/3 estipulados

a. Prueba de una cola: n -

-

(z. + z )2 a 2 I

(µ. - µo)l

b. Prueba de dos colas: reemplace zªcon;a12 5. Prueba para la mediana: elija como estadístico de la prueba a Y= número de valores de la muestra que exceden del valor de la mediana en la hipó- • tesis nula. Contraste H 0: tr =0.50. 6. Prueba para tr, aproximación normal Hipótesis nula:

1f

= TC0

Estadístico de la prucb.:i: z =

y - nn0 -;:::==== Jrut0 ( l - 1t0 )

7. Valores p para pruebas:: a. H.,:µ> l'o (o tr> .71".o).

P "' P<.z >

b. H.,:µ< JJ.o (o rr< 1Gi). c. H0 : µ ~ l'o (o 1f '#- .71".o).

P"' !'<.= < zobwrvlldo) p = 2P(: > izobs.tl'Ylldol)

ZobKrva.do)

402

9

PRUEBAS O CONTRASTES DE HIPÓTESIS

8. Prueba para


• . Estad1suco de la prueba:

CAPÍTUL09

xz =

1n - l ls l n

1

con n - 1 g ..

EJERCICIOS 9.67

9.68 9.69

9. 70

9.71 9.72

9.73

9. 74

9.75

9.76

Un fabricante de productos de) ogur 1mpnme una fecha límite de venta en cada envase. Los productos que no se venden al cumplimiento de esa fecha deben desecharse. Corno comprobación del sistema de fechado, 50 productos se conservan 8 días más después de la fecha impresa en el envase. el tiempo máximo que el yogur deheria conscn.arse en un refrigerador casero. Bajo condiciones tan se\ eras, el fabricante está d1~pue~to a consentir que el 1O~o de lo:. produc1os estén echados a perder. Un porcentaje más alto indicaría la necesidad de cambiar la política de las fechas límite de venta. Suponga que 9 de los 50 productos están echados a perder. Lleve a cabo una prueba estadística usando tablas binomiales y a= 0.05. Encuentre el va!or p en el ejercicio 9.67. La F.PA (Envmmmental Prote<:tion Agenc:v) de E~tados Unidos obtiene: valores nominales de los rendimientos por galón de todos los modelos de automóviles que se venden en el país. Uno de estos valores pretende representar la distancia en millas que pueden conducirse si se manej a tanto en c3mpo como en ciudad. Suponga que un grupo realiza pruebas de manejo con 8 automóviles de un modelo con un rendimiento nominal EPA de 28.2 millas por galón. Si H0 esµ= 28.2, ¿qué argumento nos llevarla a una hipótesis alternativa unilateral? ¿Cuál nos llevaría a una hipótesis alternativa bilateral? En el ejercicio 9. 79, suponga que la desviación estándar poblacional es 2.1 y que el rendimiento medio para los 8 automóviles es 26.7. ¿Se puede aceptar la hipótesis alternativa hilateral con a= O.O 1? Encuentre el valor p en el ejercicio 9.70. Un oficial del grupo de consumidores interpreta los resultados del ejercicio 9.70 como carentes de s1gnificac1ón estadística. Por con~igu1ente. conclu)e que se puede suponer con toda confiaru~ que la verdadera media cs Je 28.2. ¿t-stá usted de acuerdo'> l:.n el ejercicio 9.70. calcule un intenalo de confianza al 99~o para el 'erdadcro rendimiento medio. Utilice este intervalo para confinnar el resultado que i.e obtuvo antes. ¿Qué podemos suponer con "confian1a" acerca del \Crdadero rendimiento medio? En una encuesta de opinión por todo Estados Unidos, basada en una muestra aleatoria de 2417 personas, una pregunta es: "¿cómo califica usted la ética de los dirigentes comerciales de las grandes compailías?" Una calificación de 3 significa "ni mejor ni peor que la de la mayoría de la gente". Una calificación de 1 es "mejor que la de la mayoría de la gente", y 5 es "peor que la de la mayoria de la gente". La calificación media es 3.05 y la desviación cs!Andar es 0.62. a. Calcule un intervalo de confian7...a al 95% para la calificación media poblacional. b. ¿Se puede rechazar H0 : µ = 3.00 con a 0.05 (comparada con una alternativa bilateral)? Un periódico que informa acerca de la encuesta del ejercicio 9.74 indica que "los respondcntes calificaron la ética de los grandes negocios significativamente peor que el promedio". a. ¿Es cierta esta afirmación en el sentido estadístico? b. ¿Piensa usted que podría confundir al público en general? ¿Qué se puede decir acerca del valor p del ejercicio 9.74?

403

E¡erc1c101

9.77

En el ejercicio 8.58, el departamento de policía de una ciudad obtu\lo datos de Jos tiempos de respuesta a las denuncias de delitos que no son emergencias. A continullción reproducimos los datos y la salida de Minitab. MTB > pr int •resptime' respt 1me 24 2S 12 26 14 23

18 16 17

25 19

1S 12

11 21

11 12

19 12

36 18

29

13

11

19

21 16

MTB > describe 'res pt iM ' res pt imr

N 29

MEAN 18 .31

MEOIAN 18 .00

TllMEAN 17.93

MIN 11.00

MAX

respt1-

36.00

Q1 12.00

23. 50

STOEV 6.29

SEMEAN 1.17

Q]

a. El depanamento quiere tener una evidencia concluyente de que Ja media es menor que 20 minutos. Fonnule esta meta como una hipótesis alternaliva. ¿Cuál es la hipótesis nula correspondiente? b. Suponga q!.le la dislribución de los licmpos de rcspucsla es aproximadamente normal y que la verdadera Jesviación estándar (poblacional o del proceso) es de 6.0 minutos. ¿Cuál es el esladlstico apropiado de Ja prueba? c. Escriba las cinco partes de una prueba formal de hipótesis, utilizando a - 0.05. 9.78 ¿Cuál es el ~alor p para los datos del ejercicio 9.77? 9.79 Trace un diagrama con los datos del ejercicio 9.77. digamos un diagrama de tallo) hojas. ¿l lay alguna clara indicación de una distribución no normal? Si así es, ¿invalida esto por completo sus respucslas al ejercicio 9.77? 9.80 En el ejercicio 9. 77 supusimos una desviación estándar poblacional de 6.0 mmulos. Pruebe la hipólcsis alternativa de que la media poblacional es menor que 20 minutos, utifüando a - O.OS y sin hacer dicha suposición. MTB > dcSCl'I be 'respti111e'

9.8 l

respt imr

N 29

MEAN 18.31

ME DIAN 18. 00

TRMEAN 17.93

HIN 11.00

KAX

r espti111e

36 .00

Qt 12.00

03 23.50

STOE V 6 . 29

SEHEAN 1. 17

En el ejercicio 8.60, en un criadero de peces existia preocupación de que el peso medio {poblacional) de los peces puestos en libertad podría ser distinto de 1O.O onzas. Las diferencias en cualquier dirección eran indeseables. A continuación reproducimos los datos. 9.3 10.0 98 102 10. 1 9.7

media

11.7 8 !( 9.0

9. 1 10 2 104

11.0 9.J 10.7 11.0 88 91

9.8 9.2

93 94 9.3 9.7

10.I 81 9.6

9.7 10.3 10.7

9.6803, desviación estándar

89 9.9 IOA 12.I 10 7 106

8.7 94

9.5

94

9K

98 108

7.1

8.3

7.5

10 8 10 J 98 8.J 90

8.7 9 !( 9.2

10.J 10 1

7.6 9.5 11 .0 106 9.2

0.95983

a. Formule una hipótesis alternativa y una hipótesis nula. b. Suponga que la desviación estándar poblacional es de 1.0 onz.a. Escriba un estadístico de la prueba.

12 24

404

9

PRUEBAS O CONTRASTES DE HIPÓTESIS

c. Lleve a cabo l:is cinco partes de una prueba estadística con a - 0.1 O. Enuncie cuidados:imente la conclusión. 9.82 Determine un valor p para el ejercicio 9.81. ¿Debería ser de una cola o de dos colas? 9.83 tn el ejercicio 9.81 obtuvimos, con una muestra de 61 peces. un peso medio mues· tral de 9.6803 onzas y una desviación estándar muestra! de 0.95983 ona. Utilice estos resultados para probar la hipótesis alternativa de que el peso medio poblacional no es igual a 10.0 onzas. No haga ninguna ~uposíción :icerca de la des,iación estándar poblacional. 9 84 Determine cotas para un valor p de dos colas en el ejercicio 9.83. 9 85 Una muestra de 61 peces produjo en el ejercicio 9.81 una desviación estándar muestral de O. 95983 on.l.'.1. Utilizando a - 0.1 O. pruebe la hipótesis alternativa de que la desv1ac1ón estándar poblacional no es 1.0 on1a. 9.86 En el ejercicio 8.67, un fabricante de mallas metálicas estaba preocupado porque en una sección de malla metálica de dos pies de longitud, el número medio de defec tos podría. exceder de 2.5. Se tomó una muestra nleatoria de 24 secciones con los siguientes resultados:

3

4

3

o

6

4

4

3

4

5

o 2

media mediana

n ~4

2 917

lOOO

2

1

o

5

3 2

4

4

3

6

desviación estándar

1.792

a. Util11ando u O.O 1. desarrolle lo~ cmco paso~ de un proced1m1cnto formal de pruc· has de hipotes1s. Considere sí la hipotesis ahemati":i dehena ser unilateral o bilateral,} ~¡ la des\ i:ición estándar indicada se refiere a 1.1 muestra o a la población b. ¿F~ ra.t-Onablc concluir que la prueba demuestra que la media no es mnyor que 2.5'! 9.87 ¿Qué se puede decir en el ejercicio 9.86 acerca del tamallo del valor p? 9.88 Demuestre que un intel"alo de conli3JU.:i al 99°/o para la media poblacional lleva a la conclusión alcanzada en el ejercicio 9.86. (Si usted quiere comprobarlo. dicho inter· valo se calculó en el ejercicio 8.86.) ¿Cómo se relaciona la longitud de este intc!"·a· lo con la respuesta al inciso (b) del ejercicio 9.86? 9.89 Un fabncante de discos flexibles para computadoras personales probó una muestra de 36 discos buscando sectores dañados cu:indo se les formateaba en una PC. S1 hay una clara evidencia de que el tamaoo medio de los sectores dat\:ldos excede de 7 5 K. se realizará una prueba más extensa. a. Formule "rcali7.ar una prueba más extensa" como una hipótesis esladlstica alternativa. b. La media muestra! fue 9.49 y la desviación estándar de la muestra fue 10.02. ¿Hay un incremento estadísticamente significativo (a = 0.05) en el tamano de los sectores dañados, por encima de 7.5 K? 9.90 ¿Qué se puede decir acerca del tamaño del valor p en el ejercicio 9.89? 9 .91 El siguiente es un dingrama de tallo y hojas de los datos del ejercicio 9 .89.

o

o

00011 1-¡ 3"144444

55SS667777K 02:?~4

57 :! 2 66

3 1 3 4 4

8

405

9.92

¿Indica este diagrama que las probabilidades determinadas en los ejercicios 9.89 y 9. 90 pueden ser erróneas? En vista del crecimiento de la televisión por cable, las redes de televisión que transmiten por sei'lal aérea y sus anunciantes se han preocupado por la cantidad de tiempo que el auditono al que quieren llegar pasa viendo l:i televisión con· vencional. Durante una scm:ina, se registró, con una precisión de media hora, el tiempo que una muestra de personas, tomada de un grupo objetivo particular, dedican a "er la tele"isión convencional. 1:.1 siguiente es un diagrama de tallo y bojas hecho con Statgraphics: Steftl·and·leaf display for hrswatched: 1r1it • 0.1

112

represents 1.2

LOl215,22S 4 5

24ol55 25• 10 5 25ol 7 26*1 00 9 26ol55 15 21· 1000000 21 270(555555 <5> 28*100000 18 2801555 15 29*)0000 ,1 290155 9 30•10 Hll330,335,335,335,33S,390,415,435 a ¿Qué indican las entradas LO) 111 acerca de la forma de los datos? b. ¿Serla correcto decir que los datos parecen tener una distribución casi normal? 9.93 l·n la figura 9.8 se muestra un diagrama de prohabilidad normal de los datos del ejercicio 9. 92. (Observe que los datos están en el eje horizontal y que los registros teóricos para 13. distribución normal están en el eje vertical, al contrario de los otros diagramas normales que se muestran en este texto.) ¿Considera usted que los datos se aproximan a la linea recta indicada? Si no, ¿qué clase de no normali· dad está presente? 9.94 De acuerdo con una encue-;ta mu) c>;tcnsa real11ada hace dos ai'lo~. para la población objetivo del ejercicio 9.92, la media() la mediana) obsel"\ ad.i de las horas fue 30.4. Los datos del ejercicio 9.92 se anal11:1Jon con el paquete Statgraphics. con los si· guientes resultados: One·S~le An1lysis Results S.,,..:¡le Statistlcs: Nl.6Tbcr of Obs. Average Var1ance Std. Oeviat1on Median

hrswa tched 44 2s.s9n 18.4486

4.29518 28

Conf1dence tnterval for Mean: Saq>le 1

90 Percent 27.809 29.9865

Conf1dence Jnterval for V1rianc:e: Saq>le 1

Percent 90 13.376! 27.3881

• Nora llrswotcMd • horas dedicadas a 11cr la telc11isi6n convencional.

43 O.f.

4l O.f.

06

9

PRUEBAS O CONTRASTES DE HIPOTESIS

Díagrama de probabilidad normal 99.9

99

95

ee se 28 o o

5

D

o

1

o

e.1 21

26

29

33

3"1'

41

46

hrswatched FIGURA 9.8

Diagrama de probabilidad normal: horas dedicadas a ver la telev1s16n

a. De acuerdo con el intervalo de confianza para la media, ¿hay alguna evidencia convincente de que Ja media observada de las horas ha cambiado desde la encuesta anterior? b. Los di:igramas de los ejercicios 9.92 y 9.93 sellalan que los datos no tienen una d1stnbuci6n normal. ¿Indica este hecho que el nivel de la confiana del intervalo para la media es considerablemente incorrecto? 9.95 La :aparente no normalidad de los datos del ejercicio 9.92, ¿tiene algún efecto en la corrección del intcl"\'alo de confianza para la varian1.a que se muestra en el ejercicio 9.94? En caso de que asl sea. ¿es dicho efecto más o menos serio que el efecto sobre el intervalo de confianza para la media? 9.96 La salida de Statgraphícs del ejercicio 9.94 también incluyó el siguiente resultado de una prueba formal de hipótesis:

= 30.4 Alt: l l at Alpha • 0. 1

Hypothes ls Test for HO:

M~an

VS

CQll'9Jt~ t

st at lst1c • ·2. 32003 Si9. Level • 0.0125765 so reject HO.

a. O~ acuerdo con el estadístico t calculado, ¿se puede recha1.ar la hipótesis nula utili1.ando a - 0.10 y una prueba de dos colas? La salida indicó 43 g.I.

407

E1ercic1os

b. ¿Es consistente su respuesta con la que dio al inciso (a) del ejercicio 9.94? c. ¿Cómo es el valor p que se muestra en la s:llida? ¿Indica este valor que la hipótesis nula se debería rechal.élr utih.iando a • 0. 1O? 9.97 Una compal\ía de comunicaciones tiene un programa de "incentivos" por medio del c u:il los gerentes o empleados con ideas comerciales reciben bonos anuales basados en la productividad de sus ideas. Los premios no son mu) grandes; el último ai\o, el promedio fue de 3550 dólares. Este .mo se concedieron 144 honos. El director del programa tenia la preocupacion de que el 'alor medio de los bonos decrecería a medida que se utilizaran las ideas más evidente<;> pro,echo-;a <;. Se anali7..aron los datos con Statgrorhics (expresados en miles de dólJrc' por premio), produciéndose la sig uiente salida: Cine-San-ple An.lysis Results

·······-·--··············---·--········ ···-·---·-················-----·· ewerd 144

So,,..:>le Statistics: NUTt>c r of Obs. Ave rage Veriance Std. Oeviatíon Median

3.218~

6. 12042 2.47395 2.5

Conf1dence Jnterval for Mean: S81f1)l e 1

9S

Perccnt 2.811 t4 3.62636

t43 D.F.

Conf1dence lnterval for Varience: Sa!Tl>le 1

95 Percent 4.91695 7.82963

143 D.F.

Hypothes1s Test for HO: Mean s 3.55 vs Alt: lT et Alphe • 0.05

COll'pJted t st1tist1c • · 1.60674 Sig. level • 0.0551582 so do not rejec:t HO.

a. Ut1li1ando a "' O.OS, demuestre que la salida indica que no ha habido una dismt· nución estadísticamente significativa en el valor medio de los premios. b. 1-.1 gerente interpretó la salida como una prueba de que no habla disminuido el valor medio de los premios. ¿Es ésta una interpretación \'álid:i? 9 98 En la figura 9.9 se muestra un diagrama de caja producido con Statgraphics de los datos del ejercicio 9.97.

Diagrama de caja

[ __,.__ _.__ __,1------.;...._-,

e

2

4

6

o

e

incentivo

FIGURA 9.9

Diagrama de caja de los incentrvos otorgados

p

a

12

408

9

PRUEBAS O CONTRASTES DE HIPOTESIS

9.99

9.100

9. 101

9.102

9. l 03

9. 104

9.105

a. ¿Qué forma de no normalidad indica el diagrama de caja? b. ¿Indica esta no normalidad que las probaliilidades que se muc~tran en la ~alida ~ (que supone una población normal) son erróneas? a. Utilice la salida del ejercicio 9.97 para calcular un inter\'alo de confianza al 95% para la dcwiación estándar. b. ¿Es correcto decir que cualquier no normalidad en el proceso de incentivos no afecta la corrección del intervalo de confian1.a en virtud de que el tamailo mues· tral es muy grande? Los datos del ejercicio 9.97 son lodos los incentivos que Ja compailla otorgó en ese ai\o. ¿En qu~ sentido, si es que lo hay. se pueden considerar los datos como una muestra? Un servicio de entrega de paquetes adoptó un nue'o sistema de distribución tratan· do de reducir la distancia total que recorre su ílola de camiones para hacer las entre· gas. El nuevo sistema valdría Ja pena si lograse reducir la distancia en más de un 5% de su nivel actual de 2420 mill:is diarias {i.e., reducirla a menos dt: 2299 millas por día). Las millas recorridas en cada uno de los 49 días de ensayo del nuevo sistema están registradas en la columna 1 del archivo '019CI .DAT' en el disco de datos; el número del dla est.á registrado en la columna 2. Cargue los datos en la computadora con algún paquete estadístico. a. Obtenga la media y la desviación estándar de los datos relativos a las dislanci:is. b. Pruehc la hipótesis de investigación de que la media en el límite será menor qut: 2299, utili1ando, de ser posible, el paquete de cómputo. Obtenga un valor p . (Nota: muchos paquetes pondrán a prueba una hipótesis nula de que la media es cero. Para convertir el prohlema a dicha forma, reste 2299 de cada observación.) c. 1,Hay alguna evidencia concluyente de que el nuevo sistema si vale la pena'? a. Obtenga un diagr3m3 de tallo ) hojas de los datos sobre las distancias del e1crcicio 9 101 (,lla) alguna r.vón para pensar que ha) un problema de no nonnalidad'' b. Los datos son una serie de tiempo. Obtenga un diagrama de las distancias en re· lación con el número del día. ¿Hay evidencia de alguna tendencia? ¿Se trata de ciclos. lo que 1nd1caría una dependencia entre los datos y los días? Un restaurante económico especializado en carnes as:idas obtiene la mayor p:irte de sus ganancias con la venta de platillos que no se incluyen en el menú, los cuales son sugeridos a los clientes por los meseros. Como experimento, el propietario del res· 1aurante premia a cada mesero con el 10% del precio de cada platillo que venda. Después de 1O dfas, el propietario calculó el valor de los platillos especiales vendi· dos por cliente para cada uno de los 41 meseros Los datos están almacenados en la columna 1 del archivo 'Cll9C2.DAT' en el disco de datos; el número del mesero está registrado en la columna 2. Cargue los datos en un paquete para computadora. a. Obtenga la media y la desviación estándar de los datos del valor de los platillos. b. 1 a polit1c3 de incentivos será provechosa si la cantidad media es mayor que 2.40 dolares por cliente <.l la) alguna fuerte evidencia en los datos de que ésta será en realidad prm ec ho~a ? a. Obtenga un diagrama de caja de los datos sobre e1 número de 'en tas del ejercicio 9. 103 . ¿liay valores atípicos? b. Obtenga un diagrama normal de los datos. ¿Qué tipo de no normalidad, si es que la hay, parece estar presente? FI director de recursos humanos de una compai'lía puso a prueba una político. de incenti.,.os para tratar de reducir el número de días de permiso que se toman los cm· picados. /\ los elementos de una muestra de 50 de ellos (tomada de varios cientos

Es~udio de

aso pruebas de hipótesis

409

que hay en la compallia) les ofrecieron bonos ~i el número promedio de dios de permiso se podía reducir del nivel actu31 de 5 7 por empl~do por ai'lo. Después de un ai'lo, se calculó el número de días de permiso p:ira cada uno de ellos Lus datos están almacenados en la column:i 1 del 3rchívo 'Cll9C3.DAI.. en el disco de d3los. En la columna 2 se encuentra el número de 1dent11icación del empleado C;irgue los datos en cualquier paquete estadístico que pueda utili7.ar. a. Obtcng3 13 media, la mediana y la desviación estándar de los dias de permi~o que se tomaron. ¿Qué sugiere esta información acerca de la asimetría de los datos? b. Obtenga un diagrama de tallo y hojas o un histograma de los dato<;. ¿Confirma el diagrama su impresión :icerc:i de Ja asimetrla de los datos·~ 9.106 a. Ponga a prueba con la computadora 13 hipótesis nula de que la media de los di3s de permiso sigue siendo 5.7. Posiblemente tendrá que reslar 5.7 de todos los datos para probar la hipótesis de que 13 media es O. b. Obtenga un \3lor p para la prueba. ¿Qué cipo de valor calcula la compuladora: unil31eral o bilateral'? ¿Cuál prueba considera es mis apropiada en esta situación: una unilateral o una bilateral?

ESTUDIO DE CASO:

pruebas de hípótesis

Un fabricante de muelles de lámina de trabajo pc'>ado para c:imiones comienza por hacer las piezas fundida!> básicas. El factor má!> importante en l::i calidad de una rieza fundida es su longitud. Idealmente, la pie1.a debería medir 8.05 pulgada'> (A la pieza fundida se le da un tenninado con una longitud de 8.00 pulgada.,.) Aun si el proceso trabaja adecuadamente, hay una variación sustancial en la long11ud de l::is piezas, debido a la variación de la temperatura exterior. la humedad y a lac; variaciones en la calidad del acero que se utiliza como materia prima. La experiencia indica que, cuando el proceso de fundición trabaju bien. la desvi::ición cstánd::ir de las longitudes de las piezas fundidas es aproximadamente igual a 0.180 pulgadas. Los problemas que de manera sistemática tienden a manifestarse en el proceso son los rcl:itivos a una longitud media incorrecta, antes que un incremento de la variabilidad. Por consiguiente, se mide la longitud de cada pieza fundida. Después de cada 16 piezas se c:ilcula la longitud promedio. Si la media de cualquier muel>tra de 16 piezas esti muy lejos de la media buscada. 8.05 pulgad:is, el proceso de fundición se detiene y se lleva a c:ibo un largo procedimiento de reajuste (moder.idamente caro) para volver el proceso a la normalidad. Definir lo que se entiende por "demasiado lejos" de 8.05 pulgadas, es un problema dificil. El director del proceso de fundición quiere establecer limites de 7.915 y 8.185 pulgadas. pero el gerente del proceso de ac::ibudo prefiere limites de 8.000 y 8. 100 pulgadas. Arnbos están de acuerdo con la meta oficial que establece que la mediu en el límite (lomada sobre varios miles de piezas fundidas) se dehe mantener dentro del rango de 7 95 a 8.15 pulgadas; en lo que no están de acuerdo es en las implicaciones de esta meta para las muestras de 16 piezas Escnba un infonne a amboc; directores~ e'phquc las implicaciones de la elección de los límitt.'S. Indique cuáles parecen ser los puntos irn¡iort:intcs y que! otros factores se deben investigar para alcanzar una conclusión razonable Ninguno de los directores sabe mucho acerca de la teoría estadística. de modo que trate de explicar las ideas técnicas con mucho cuidado.



410

9

PRUEBAS O CONTRASTES DE HIPÓTESIS



EJERCICIOS DE REPASO PARA LOS CAPÍTULOS 7-9 R52

Una compai\ia que produce programas para computadora adquirió un nuevo editnr para que éste fuese ulilizado p<>r una muestra aleatoria de sus programadores. Una vez que los programadores habían aprendido a utilizarlo razonablemente, la compailia midió el número de lineas de código depurado (i.e., libre de errores) que cada uno de ellos produce. (Las tareas de programación lenian un grado de dificultad comparnble.) Los datos fueron

178 232 250 28.t

RS3

R54

R55 R56 R57

R58

RS<>

R60 R6 I

R6:?

183 232 251 285

199

233

264 286

101 233 266 289

204 235 270 289

210 238 271 298

218

2 llC

139

241 273 306

:!71 303

219 241 275 315

220 2-U 276 315

:?25 24t> 277 345

227 247 279

:!.'I

249 2X.'

El tamailo de la muestra es 50, la media muestra) es 253.32 y la desviación estándar de la mueslra es 36.1. a. La dc:sviaci6n estándar poblacional para el editor anlerior era 35.4. Suponga que esta desviación estándar poblacional se aplica igualmenle al nuevo editor. Calcule un intervalo de confianza al 99% para la media poblacional correspondiente al nuevo edilor. b. ¡,llay una clara evidencia en los datos de que la media muestra! es probablemente un estimador ineficiente: de la media poblacional? Remílase al inlervalo de confian1..a que se calculó en el inciso (n) del ejercicio R52. La media poblacional correspondiente al viejo editor era 230.2. Con base en el intervalo de confianza, ¿podemos rechazar la hipótesis nula de que la media para el nuevo editor es 230.2, utilízando a = O.O 1? Con los datos del ejercicio R52, lleve a cabo una prueba formal de In hipótesis nula de que la media poblacional sigue siendo 230.2, comparada con la hipótesis nlternativa de que no es igual a 230.2. Utilice a O.O1 ) suponga que la desviación estándar poblacional es 35.4. Para la prueba de tlipótesis que realizó en el ejercicio R 5~. det.:rmine un valor p. " Dehc ser este unilateral o bilateral? Vueha a desarrollar los ejercicios R52- R55 sin la hipótesis de que la desviación eslán· dar de la población es 35A. ¿Cambia sustancialmente alguna de sus conclusiones? Con los datos del ejercicio R52, calcule un intervalo de confianza al 99% para la media poblacional. Con base en este intervalo, ¿podemos rechazar la hipótesis nula de que la medía poblacional es 230, con a= O.O 1? ¿Cuál de los intervalos de confianw al 99% tiene mayor amplitud, el que se calculó en el ejercicio R56 o el que se calculó en el ejercicio R57? ¿Qué sugiere su respuesta acerca de la eficiencia de la media muestra! comparada con la mediana muestra! en este caso particular? Se afirma que el 45% de todos los clientes potenciales que acuden a las oficinas de una compañía de bienes raices compran eventualmente una casa a tra\·és de ella. Para probar la afirmación, se considera a los siguientes 100 clientes como una muestra aleatoria. Determine una prueba formal de la hipótesis alternativa de que la proporción de la pohlación es menor que 0.45, utilizando a 0.05. (.Cómo cambia la región d.: rechazo en el ejercicio R59 si la máxima a permisible se fija en O.O 1? Suponga que la gerencia de la oficina de bienes raíces del ejercicio R59 determina que el 32% de los clientes potenciales que acuden a las oficinas eventualmente compran casas a través de ella. ¿Apoya este hecho a la hipótesis //u, si a se fija en 0.05? El resultado que se indica en el ejercicio R61, ¿lleva al rechazo de H0 , si a se lija en O.O1? ¿Qué indica su respuesta acerca del valor p para los datos?

11 E¡erc1cios de

R63

R64

R65

R66

~paso

Un silvicultor necesita probar un nuevo metodo para culti\'ar pinos maderables, disei'lado rara minimizar las pérdidas debi
135 185 231 247 322 324 328 335 (j .. 314 16. $ = 64.0)

R67

R68 R69

.411

para Jos capítulos 7-9

262 362

285 366

300

304

368

370

"º 384

312

384

313 385

319 40 1

322

¿Cuál es la conclusión de la prueba especificada en el ejercicio RM? Remítase a los ejercicios R64 y R66. Encuentre la probabilidad de que, dada una media poblacional de 272.6, la media muestra) sea mayor o igual que 314.16. ¿Cuál es el nombre técnico de esta probabilidad'? Trace un diagrama c on los datos del c1emplo R66 <.!lay alguna ra.rón para creer que 13 media muestra! no es el mejor estimador de la media poblacional? Una compañia de in"estigac aó n de mercados trata de estimar la proporcion de clientes de un centro comercial suburbano que son lectores regulares de dos periódicos específicos, a fin de juzgar los méritos relativos de las dos publicaciones como vehículos publicitarios. Se ha instruido a lo~ empleados de la compai'lía para que tomen muestras aleatorias de los clientes hasta que encuentren a un lector de ambos periódicos; una vez hecho lo anterior, se registra el valor de X número de otros clientes interrogados. Bajo hipótesis ra1onables, la distribución de probabilidades de X es geom~trica: f(xl - 11(1 - 111• para x = 0. 1, 2•... ,

R70

R 71

Suponga que se han registrado seis valores de X: x 1 5, .r2 = 8, .x3 = 2, .x4 = 9, .rs = O y .l6 ~ 6 . Calcule la verosimililud de estos valores dando a n valores desde 0 .2 hasta 0 .5. Al ohscrvar los resultados numéricos, ¿cuál parece ser la mejor estimación de TT'! a. En relación con los datos del ejercicio R69, utilice el cálculo diferencial para encontrar el estimador de máx ima \erosimihtud. b. Generalice el método derivado en el inciso (a) a valores arbitrarios x 1, .. . , x,,. Se puede demostrar que el promedio en el limite (sobre muchas muestras) del esti· mador que se encontró en el ejercicio R70 es mayor que n, aunque dicho promedio decrece rápidamente hacia TC a medida que el tamallo de la muestra se incrementa. ¿Que propiedad deseable de un e stimador es violada (ligeramente) por este estimador particular?

412

9

R72

R73

R74 R75

R76

R77

PRUEBAS O CONTAASTES DE HIPOTESIS

Un centro de cómputo que presta servicios, entre otros clientes. 3 pequeftas asociaciones de cr~dito y ahorro. nea:sita saber la proporción de trabajos de estos negocios ~e requieren de la inrervención del operador de la computadora. En una muestra aleatoria de 133 trabajos, 22 requirieron la intervención del operador. Calcule un intenalo de confianza al 95% para la proporción poblac1onal de trabajos que requieren intervención. Suponga que el mtcnalo de confiana del e1erc1c10 R72 se considera demasiado am· pho Calcule el ramafto de la muestra requerida para ohtencr un inter\Jlo de conli3n1.a al 95% con una amplitud de 0.06 (un lérmtno ± de 0.03) bajo cada una de las siguientes suposiciones: a. Suponiendo que la proporción muestra! sigue siendo igual a 221133. b. Suponiendo que la proporción muestra) puede tomar cualquier valor. En los ejercicios R72 y R 73 se utilizó una apro>.1mac16n normal al responder. ¿Podemos tener confianta de que la :iprox1maci6n es buena? Un auditor quiere verificar los registros de las transacciones de una compa1'ía que están dispuestos en un orden aleatorio. Uno de sus ayudantes conserva una copia acumulativa de las cantidades de las transacciones en dólares; cada vez que el total supera un incremento de 100,000 dólares (es decir. cuando el total pasa de SI00,000, $200.000. S300,000. etc.). la transacción se separa para su verificación. Muestre que este proceso no proporciona una muestra aleatoria de las transacciones El proceso del ejercicio R 75 proporciona 241 transacciones El tamailo medio de éstas es de 5381 dólares y la des.,iación estánd:ir de 2271. Cuando se tra1.a una gráfica de las cantidades, mueslran una asimetría sustancial hacia la derecha. a. Calcule un supuesto intervalo de confiani.a al 95% par.a el tarnafto medio poblacional de las transacciones. b. Explique por qué es poco probable que este intervalo incluya el verdadero tamai'to medio poblacional de las transacciones. Un fabricante de productos químicos que realíu un estudio píloto sobre los rendimientos, obtiene los resultados de una muestra de 26 lotes Los rendimientos, expres:idos como porcentajes del máximo teórico, son 67.6 812

74.7 77.6 784 1114 81.5 82.5 (y ... 80 37. l = 4.37)

R 78 R79

R80

R8 I

R82 R83

68.5 814

79.3 82.5

79.5 82.9

803 829

803 83.8

807 844

808 84-4

1108 1154

1109 860

Calcule un inten.alo de confian7.a al 900 o para la media pohlacional del rendimienlo. IJlllice los datos del ejercicio R77 para calcular un in ter" alo de confianza al 90% de la medía poblacional. Comp:ire la amplitud de los inten alos de los ejercicios R 77 >R78. ¿Que indican éstas acerca de la eficiencia relativa de utililar la media muestra! frente a la mediana muestra! en esta situación? ¿Indica lo mismo un diagrnma de los datos? Utilice los datos del ejercicio R77 para probar la hipótesis nula de que la media poblactonal es 82.0 contra una hipótesis alternativa bilateral. Determine cotas para el

~~~

l:.I estudio piloto completo del ejercicio R 77 comprende eventualmente una muestra de 150 lotes. Suponiendo que la desviación estándar poblac1onal es próxima a 4.4, y que la media poblacional es 80A, encuentre la probabilidad de que H0 : media poblacional 82.0 sea rechazada. Suponga un a de 0.05. La prob:ibilidad que se calculó en el ejercicio R8 I no es un valor p. Explique por qué no lo es. En ocasiones la función de densidad de Pareto se utiliza como un modelo, sobre todo en reclamaciones de seguros, donde puede haber muchas peticiones de pago

E1ercic1os de repuo para los capitulos 7- 9

413

pequenas y unas pocas peticiones de pago enormes. Una de las formas que adopta la función de densidad de Pareto es 1

/(y) = O(y

R85

1

,.

para y > O

Encuentre una buena estimación de 8, para una muestra de valores con y 1=2.730, 0.798 e y 4 = 36.215. En el ejercicio R83, encuentre un buen estimador del parámetro 8 para valores arb1trariC1s y 1, .. . , y,,. El estimador del ejercicio R84 tiene las siguientes propiedades: su valor medio en el limite es 8, y entre todos los estimadores con un 'alor medio igual a 8, tiene el me· nor error estándar. ¿Qué indican estas propiedades acerca del estimador'?

.v2 = 5.124, y 3 = R84

+ W 1-

Related Documents

Estadistica Hildebrand
March 2021 0
Estadistica
February 2021 1
Estadistica
March 2021 0
Estadistica
March 2021 0
Estadistica
January 2021 1
Estadistica
January 2021 4

More Documents from "FABIAN ALBERTO ZARABANDA SANCHEZ"