ESTADÍSTICA II
Claudio Álvaro Cerrón Landeo
Cada autor es responsable del contenido de su propio texto. De esta edición: © Universidad Continental S.A.C 2012 Jr. Junin 355, Miraflores, Lima-18 Teléfono: 213 2760 Derechos reservados Primera Edición: Enero 2014 Tiraje: 500 ejemplares Autor: Claudio Álvaro Cerrón Landeo Oficina de Producción de Contenidos y Recursos Impreso en el Perú - Rebelars S.A.C Jr. Los Bosques 555 - El Tambo - Huancayo Fondo Editorial de la Universidad Continental
Todos los derechos reservados. Esta publicación no puede ser reproducida, en todo ni en parte, ni registrada en o trasmitida por un sistema de recuperación de información, en ninguna forma ni por ningún medio sea mecánico, fotoquímico, electrónico, magnético, electroóptico, por fotocopia, o cualquier otro sin el permiso previo por escrito de la Universidad.
ÍNDICE INTRODUCCIÓN
7
PRESENTACIÓN DE LA ASIGNATURA
9
COMPETENCIA DE LA ASIGNATURA
9
UNIDADES DIDÁCTICAS
9
TIEMPO MÍNIMO DE ESTUDIO
9
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
11
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD i
11
ORGANIZACIÓN DE LOS APRENDIZAJES
11
Tema N° 1: Thomas Hobbes
13
1
Definiciones básicas
12
2
Tipos de muestreo probabilístico
14
Lectura Seleccionada N° 1
28
¿Funciona la terapia de contacto? Mario Triola. pp. 319
28
ACTIVIDAD N°1
29
Tema N° 2: ESTIMACIÓN Y TAMAÑOS DE MUESTRA
29
1 Estimación de la proporción poblacional
31
2 Estimación de la media poblacional
31
3 Estimación de la varianza poblacional 4 Determinación del tamaños de muestra
35 37
CONTROL DE LECTURA N° 1
39
glosario DE LA UNIDAD I
39
bibliografía DE LA UNIDAD I
40
AUTOEVALUACIóN DE LA UNIDAD I
40
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
43
Diagrama de presentación de la Unidad Ii
43
ORGANIZACIÓN DE LOS APRENDIZAJES
43
Tema N° 1: PRUEBA DE HIPÓTESIS
44
1 Definiciones básicas 2 Prueba de aseveración para la media
44 47
3 Prueba de aseveración para la proporción
49
4 Prueba de aseveración para la varianza
Tema N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS
51
52
1 Inferencia acerca de dos medias, proporciones para muestras independientes
52
2 Inferencia a partir de datos pareados
56
3 Comparación de la variación de dos muestras
57
Tema N° 3: ANÁLISIS DE VARIANZA
59
1 ANOVA de un factor
60
2 ANOVA de dos factores
64
Lectura Seleccionada N° 1
67
La paradoja del cumpleaños Blog Estadística para todos
ACTIVIDAD N° 1
68
ACTIVIDAD N° 2
68
TAREA ACADÉMICA Nº 1
68
GLOSARIO DE LA UNIDAD II
69
BIBLIOGRAFÍA DE LA UNIDAD II
69
AUTOEVALUACIÓN de la unidad ii
69
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
73
Diagrama de presentación de la Unidad
73
ORGANIZACIÓN DE LOS APRENDIZAJES
73
Tema N° 1: PRUEBA DEL SIGNO
74
1 Prueba del signo
75
2 Prueba de rangos con signo de Wilcoxon para datos apareados
81
3 Prueba de la suma de rangos con signo de Wilcoxon para muestras independientes
85
Tema N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA 1 Bondad de ajuste
2 Independencia y homogeneidad
Tema N° 3: PRUEBAS NO PARAMÉTRICAS 1 Prueba de Kruskal-Wallis
2 Prueba de correlación de rangos 3 Prueba de rachas
88 91
96 96 98 101
Lectura Seleccionada N° 1
105
¿Los estudiantes clasifican a las universidades de la misma manera que el U.S. News and World Report? Mario Triola. pp. 675.
ACTIVIDAD N°1
106
ACTIVIDAD N°2
106
CONTROL DE LECTURA Nº 2
106
glosario DE LA UNIDAD III
106
Bibliografía de la Unidad III
107
AUTOEVALUACIóN DE LA UNIDAD III
107
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
111
Diagrama de presentación de la Unidad
111
ORGANIZACIÓN DE LOS APRENDIZAJES
111
Tema N° 1: CORRELACIÓN Y REGRESIÓN
112
1 Correlación y regresión lineal
117
2 Correlación y regresión múltiple
120
3 Elaboración de modelos de regresión
122
Tema N° 2: CONTROL ESTADÍSTICO DE PROCESOS 1 Gráficos de control para la media y varianza 2 Gráficos de control para atributos
126
Lectura Seleccionada N° 1
127 128
132
¿Podemos predecir el momento de la siguiente erupción del géiser Old Faithful? Mario Triola. pp. 515
ACTIVIDAD N° 1
133
Actividad Nº 2
133
TAREA ACADÉMICA Nº 2
133
glosario DE LA UNIDAD IV
134
Bibliografía de la unidad IV
136
AUTOEVALUACIóN DE LA UNIDAD IV
137
ANEXO: Claves de las autoevaluaciones
140
6
INTRODUCCIÓN
T
odos los conceptos y aplicaciones vertidos en el curso
Es importante manejar adecuadamente los procedimientos y
anterior de Estadística I tales como tablas de frecuen-
métodos que utiliza la estadística inferencial pues no debemos
cia, gráficos, cálculo de medidas descriptivas se pueden
olvidar que sus resultados serán utilizados por diferentes enti-
resumir dentro de un término general que vendría a ser ESTA-
dades y personas quienes se basarán en ellos para poder tomar
DÍSTICA DESCRIPTIVA, debido que a través de ellos podemos
decisiones y nosotros tenemos la obligación moral de entregar la
describir, presentar y resumir esencialmente el comportamiento
información lo más clara y entendible posible sin necesidad de
de una serie de datos que han sido recolectados con algún pro-
tergiversarla ni modificarla.
cedimiento adecuado.
El presente Manual Autoformativo de ESTADÍSTICA II está
Si embargo a través de la ESTADÍSTICA DESCRIPTIVA no se
diseñado para que el lector pueda adquirir los conocimientos
puede aclarar interrogantes acerca de una población cuando
necesarios para poder ejecutar los procesos relacionados con la
no se dispone de ella y solo se tiene parte de ella, o sea de una
estimación y prueba de hipótesis estructurados en cuatro unida-
muestra. Por ejemplo si sabemos que el rendimiento promedio
des. En la primera unidad aprenderemos a realizar los distintos
de una muestra de automóviles de cierto modelo y marca es de
métodos de muestreo que validen nuestro trabajo y el cálculo de
55 km. por galón, ¿qué podremos concluir acerca de todos los
intervalos de confianza a través de las estimaciones, en la segun-
automóviles producidos de dicha marca y modelo?
da unidad aplicaremos las pruebas de hipótesis a través de los
Para poder dar una conclusión acerca de la población, la Esta-
métodos paramétricos, en la tercera unidad continuaremos con
dística dispone de una serie de procedimientos y métodos que
las pruebas de hipótesis pero utilizando métodos no paramé-
se resumen en un término general que es el de ESTADÍSTICA
tricos y finalizaremos la cuarta unidad desarrollando el análisis
INFERENCIAL, la cual determina específicamente la probabili-
de correlación y regresión el cual nos permitirá realizar algunos
dad de que una conclusión obtenida a partir de una muestra sea
pronósticos sobre el comportamiento de alguna variable.
válida para toda la población de la cual proviene, basados todos
Agradecemos a quienes de antemano tuvieron paciencia y com-
ellos en la Estimación y Prueba de Hipótesis que serán motivo de
prensión en la elaboración del presente manual y a aquellos
estudio en las páginas siguientes.
alumnos con quienes pudimos optimizar el uso de la información presente en esta primera edición.
8
Desarrollo de contenidos
PRESENTACIÓN DE LA ASIGNATURA ESTADÍSTICA II Diagrama
Objetivos
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Inicio
COMPETENCIA DE LA ASIGNATURA
Desarrollo de contenidos
Actividades
Lecturas seleccionadas
Glosario
Autoevaluación
Conoce, aplica, analiza e interpreta eficientemente métodos y técnicas de la estadística inferencial y de pronóstico y los utiliza como herramienta para la toma de decisiones, valorando reflexivamente su importancia en los diversos campos de la ciencia, demostrando ética en el manejo de la información. Bibliografía
UNIDADES DIDÁCTICAS Recordatorio
Anotaciones
UNIDAD Nº I
Muestreo y estimación de parámetros
UNIDAD Nº II
Prueba de hipótesis y análisis de varianza
UNIDAD Nº III Estadística no paramétrica
UNIDAD Nº IV Correlación, regresión y control estadístico de procesos
TIEMPO MÍNIMO DE ESTUDIO UNIDAD Nº I
UNIDAD Nº II
1a y 2a Semana
3a y 4a Semana
16 horas
16 horas
UNIDAD Nº III 5a y 6a Semana 16 horas
UNIDAD Nº IV 7a y 8a Semana 16 horas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
9
10
Desarrollo de contenidos
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
Desarrollo de contenidos
Actividades
Autoevaluación
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD I
Lecturas seleccionadas Diagrama
Glosario
Bibliografía
Objetivos
Inicio
CONTENIDOS
Recordatorio Desarrollo de contenidos
Anotaciones Actividades
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
ACTIVIDADES
EJEMPLOS
Autoevaluación
AUTOEVALUACIÓN
BIBLIOGRAFÍA
Bibliografía
ORGANIZACIÓN DE LOS APRENDIZAJES Diagrama
Objetivos
Inicio
CONOCIMIENTOS Desarrollo Actividades Autoevaluación deTema contenidos N°1: Diseño y técnicas de
muestreo probabilístico 1. Definiciones básicas 2. Tipos de muestreo probabiLecturas Bibliografía lístico Glosario seleccionadas Lectura seleccionada N°1 ¿Funciona la terapia de contacto? Mario Triola. pp. 319 Recordatorio
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
PROCEDIMIENTOS
ACTITUDES
1. Define los conceptos básicos de muestreo e identifica los diversos métodos de muestreo.
1. Valora la importancia de la estimación de parámetros y la determinación del tamaño de muestra y comprueba las hipótesis para la toma de decisiones.
2. Aplica las técnicas de muestreo en distintas situaciones. Actividad N° 1
Anotaciones
Tema N° 2: Estimación y tamaños de muestra 1. Estimación de la proporción poblacional. 2. Estimación de la media poblacional. 3. Estimación de la varianza poblacional. 4. Determinación del tamaño de muestra.
Autoevaluación de la Unidad I
3. Utiliza datos muestrales para estimar parámetros poblacionales. Actividad N° 2 Control de Lectura Nº 1
Bibliografía
11
12
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
TEMA N° 1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO 1 DEFINICIONES BÁSICAS11 Anotaciones
1.1. Unidad elemental Es el elemento o unidad base de la población o de la muestra que permite obtener información o datos referidos a ciertas características o variables que nos interesan para explicar determinado fenómeno. También es llamada unidad de observación, unidad de análisis, unidad estadística, caso o elemento. Por ejemplo, en estudios de satisfacción del cliente en una tienda de retails, la unidad elemental es cada consumidor. 1.2. Población muestreada Es el conjunto de todas las unidades de elementales posibles que podrían extraerse en una muestra; es decir, es la población de donde se extrae la muestra. 1.3. Unidad de muestreo Es la unidad estadística que se selecciona para constituir la muestra. La elección de la unidad de muestreo más eficiente es una consideración importante en el diseño de una muestra. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de todos los individuos que pertenecen a la población objetivo. En vez de eso, la unidad de muestreo es cada familia y la unidad elemental es cada individuo que vive en una familia. 1.4. Marco muestral Es una lista de las unidades de muestreo que están disponibles para la elección. Por ejemplo para seleccionar a los trabajadores y estudiar su nivel de ingresos podríamos utilizar el directorio de la Hoja Resumen de Planillas que presentan las empresas en el mes de junio de cada año al MTPE, complementado con directorios de otros gremios empresariales importantes de los cuales se toma a todas las empresas con 10 y más trabajadores del régimen laboral de la actividad privada. 1.5. Censo Es una investigación estadística que consiste en el recuento de la totalidad de los elementos que componen la población a investigar. Es necesario que se especifique el espacio y el tiempo al que se refiere el recuento. 1.6. Muestreo Conjunto de métodos y procedimientos estadísticos destinados a la selección de una o más muestras. Es la técnica elegida para seleccionar a la muestra. El objetivo principal de un diseño de muestreo es proporcionar procedimientos para la selección de muestras que sean representativas de la población en estudio. El muestreo comprende por lo menos dos etapas: La selección de las unidades El registro de las observaciones. FICHA TÉCNICA Título del estudio: Encuesta de Opinión en Lima Metropolitana Noviembre 2009 Objetivos del Estudio: Evaluación y opinión sobre la situación económica Encuestadora: Pontificia Universidad Católica del Perú Nº de registro: 0108 REE/JNE 1 Estadística. Mario Triola 10°Ed.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Universo o población objetivo: Hombres y mujeres mayores de 18 años, habitantes de 31 distritos de Lima Metropolitana. Recordatorio
Marco muestral: La selección de manzanas se hizo utilizando como marco muestral la cartografía digital del INEI del 2004 para los 31 distritos de Lima Metropolitana. Los distritos que no forman parte del marco muestral son: Chaclacayo, Lurigancho, Cieneguilla y los distritos balnearios del Sur y del Norte de la Ciudad. Representatividad: En los distritos que forman parte del universo y que están incluidos en el marco muestral se encuentra el 95.88% de la población electoral total de la provincia de Lima. Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana. Error y nivel de confianza estimados: ±4.32% con un nivel de confianza del 95%, asumiendo 50%-50% de heterogeneidad, bajo el supuesto de muestreo aleatorio simple. Distritos que resultaron seleccionados en la muestra: La selección aleatoria de manzanas del marco muestral determinó que la encuesta se aplicara en 28 distritos de Lima Metropolitana (Cercado de Lima, Ate,Barranco, Breña, Carabayllo, Chorrillos, Comas, El Agustino, Jesús María, La Molina, La Victoria, Lince, Los Olivos, Magdalena del Mar, Pueblo Libre, Miraflores, Puente Piedra, Rímac, San Borja, San Juan de Lurigancho, San Juan de Miraflores, San Martín de Porres, San Miguel, Santa Anita, Santiago de Surco, Surquillo, Villa El Salvador y Villa María del Triunfo). Procedimiento de muestreo: Se realizó una muestra probabilística polietápica. Dentro de Lima se estratificó la muestra de acuerdo con grandes zonas de la ciudad, cono norte, cono este, cono sur, centro, cono oeste-suroeste, y en cada estrato se seleccionó una muestra simple al azar de manzanas. Posteriormente se realizó un muestreo sistemático de viviendas en cada manzana seleccionada y se aplicaron cuotas de sexo y edad para la selección de personas al interior de las viviendas. Ponderación: En Lima Metropolitana los datos se ponderaron en función del peso de los estratos en la población total. Técnica de recolección de datos: Mediante entrevistas directas en las viviendas seleccionadas. Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas. Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de 2009. Financiamiento: Pontificia Universidad Católica del Perú. Página web: http://www.pucp.edu.pe Email:
[email protected] 1.7. Plan de muestreo Se denomina “plan de muestreo” a la combinación de factores que determinan mínimamente el tamaño de la muestra y el procedimiento de muestreo. Un plan de muestreo está asociado a técnicas específicas, fórmulas y tablas. El plan de muestreo más conocido y sencillo se denomina “muestreo simple al azar”.
Anotaciones
Bibliografía
13
14
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
1.8. Muestreo probabilístico y no probabilístico Anotaciones
El muestreo se puede dividir en “probabilístico” y “no probabilístico”, también denominados “estadístico” y “no estadístico”, o “al azar” y “no al azar”, respectivamente. El hecho de extraer una muestra no significa azar o aleatoriedad. En ello es determinante la fase mecánica de selección de las unidades de muestreo que conformarán la muestra. La diferencia fundamental entre estos tipos de muestreo radica en que en el muestreo probabilístico se puede medir el riesgo que se asume al muestrear, mientras que en el muestreo no probabilístico ello no es posible. En el estadístico, la fundamentación es teórica y las conclusiones pueden ser cuantitativas y precisas; mientras que en el no estadístico, la fundamentación es práctica y las conclusiones pueden ser cualitativas y, en el mejor de los casos, razonables, además de perder ante determinados casos la posibilidad de ser extrapolables. Ante estas diferencias, ¿por qué recurrir al muestreo no probabilístico? En algunas circunstancias sucede que no es posible por falta de tiempo, por escasez de recursos, por limitaciones para acceder a la población u otras dificultades operativas llevar a cabo un muestreo probabilístico. Será preferible, entonces, acudir a determinadas pruebas específicas, para los que habrán de tenerse en cuenta ciertos cuidados mínimos y necesarios para sostener fundadamente las opiniones vertidas en un informe. 2 Tipos de Muestreo probabilístico En el muestreo probabilístico, la selección de cada elemento de la muestra se hace siguiendo reglas matemáticas de decisión. Todos los elementos de la población tienen una probabilidad real y conocida de ser seleccionados. 1.1. Muestreo aleatorio simple También llamado irrestrictamente aleatorio. Es un método de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Por conveniencia, este método puede ser reemplazado por una tabla de números aleatorios cuando una población es infinita. Se aplica cuando los datos son casi homogéneos. Pasos a seguir para seleccionar una muestra aleatoria simple 1.
Enumere las unidades del marco muestral con números sucesivos.
2.
eleccione tantos elementos del marco muestral como sea el tamaño requeS rido de la muestra, usando una tabla de números aleatorios.
El muestreo aleatorio simple presenta dos propiedades: Representativa: Cada unidad tiene las mismas posibilidades de ser escogida. Independencia: La selección de una unidad no influye en la selección de otras unidades. Limitaciones • Requiere de una lista precisa de las unidades de muestreo, que puedan identificarse y numerarse. Se puede, tal vez, numerar cada expediente de un procedimiento de compras, pero no se puede enumerar ni identificar exhaustivamente a los pacientes ambulatorios que van a atenderse a un hospital público en determinado momento. • Cada unidad de muestreo debe tener la misma probabilidad de ser elegido que cualquier otra unidad. • Es poco económico frente a determinadas circunstancias, como cuando llevar a cabo un procedimiento de auditoría implica la destrucción de la unidad muestreada. En estos casos, el muestreo aleatorio simple ofrece tamaños de muestra mayores que otros métodos más específicos.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
Figura Nº 01: MUESTREO ALEATORIO SIMPLE2
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Ejercicio 1 Una empresa de alimentos tiene registrado en el cuadro siguiente, información acerca del ingreso mensual (en nuevos soles) y años cumplidos en la empresa de cada uno de sus 150 trabajadores. Cuadro N°01: Trabajadores Registrados Ingreso
Años en la
Nivel
(en soles)
emp.
educativo
1
2600
16
Secundaria
2
1700
0
Secundaria
3
2500
12
Secundaria
4
1700
3
Secundaria
5
2400
17
Secundaria
6
2400
16
Secundaria
7
1900
7
Secundaria
8
1700
1
Secundaria
9
2100
6
Secundaria
10
2000
5
Secundaria
11
2000
3
Secundaria
12
2500
13
Secundaria
13
1700
0
Secundaria
14
2500
19
Secundaria
15
1700
3
Secundaria
16
2600
19
Secundaria
17
1600
1
Secundaria
18
1800
6
Secundaria
19
2100
10
Secundaria
20
1700
0
Secundaria
21
2400
16
Secundaria
22
2600
17
Secundaria
23
2100
10
Secundaria
24
2100
8
Secundaria
NO
2 tomado del libro de Mario Triola 10ª Ed. Capítulo 1.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
15
16
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
25
2400
17
Secundaria
26
1700
1
Secundaria
27
2600
20
Secundaria
28
2400
16
Secundaria
29
2700
17
Secundaria
30
2100
12
Secundaria
31
1600
0
Secundaria
32
2100
15
Secundaria
33
1900
5
Secundaria
34
2100
12
Secundaria
35
2200
12
Secundaria
36
2400
13
Secundaria
37
1800
4
Secundaria
38
2600
17
Secundaria
39
2700
20
Secundaria
40
2500
16
Secundaria
41
2500
16
Secundaria
42
1900
6
Secundaria
43
2100
15
Secundaria
44
1700
9
Secundaria
45
1500
0
Secundaria
46
1800
18
Secundaria
47
2100
10
Secundaria
48
2700
19
Secundaria
49
1800
9
Secundaria
50
2100
1
Secundaria
Ingreso
Años en la
Nivel
(en soles)
emp.
educativo
51
1700
0
Técnica
52
1600
2
Técnica
53
2600
17
Técnica
54
2500
13
Técnica
55
2500
16
Técnica
56
2700
17
Técnica
57
1700
1
Técnica
58
1600
1
Técnica
59
2400
11
Técnica
NO
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
60
1900
3
Técnica
61
1800
5
Técnica
62
1800
3
Técnica
63
2400
14
Técnica
64
2600
16
Técnica
65
2700
18
Técnica
66
2100
11
Técnica
67
2300
14
Técnica
68
1700
0
Técnica
69
2200
13
Técnica
70
2900
20
Técnica
71
1800
5
Técnica
72
2100
16
Técnica
73
2000
12
Técnica
74
2000
12
Técnica
75
2900
20
Técnica
76
2300
5
Técnica
77
2800
11
Técnica
78
2400
4
Técnica
79
2500
2
Técnica
80
2300
3
Técnica
81
2100
2
Técnica
82
1700
2
Técnica
83
2000
0
Técnica
84
2200
7
Técnica
85
2100
4
Técnica
86
1700
0
Técnica
87
2500
2
Técnica
88
2800
13
Técnica
89
2400
9
Técnica
90
1700
1
Técnica
91
2400
9
Técnica
92
2200
10
Técnica
93
2200
4
Técnica
94
2300
10
Técnica
95
2800
11
Técnica
96
2100
7
Técnica
97
1700
1
Técnica
98
2500
6
Técnica
99
2400
9
Técnica
100
2700
17
Técnica
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Bibliografía
17
18
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
Ingreso
Años en la
Nivel
(en soles)
emp.
educativo
101
2800
20
Técnica
102
1800
3
Técnica
103
1700
5
Técnica
104
1700
4
Técnica
105
1700
0
Técnica
106
1700
1
Técnica
107
2100
6
Técnica
108
2600
17
Técnica
109
2400
9
Técnica
110
2600
19
Técnica
111
1900
7
Superior
112
1600
0
Superior
113
1900
3
Superior
114
2100
14
Superior
115
1700
0
Superior
116
2100
15
Superior
117
1700
1
Superior
118
2300
14
Superior
119
2500
16
Superior
120
2600
18
Superior
121
1900
3
Superior
122
2500
19
Superior
123
1800
6
Superior
124
1700
2
Superior
125
2000
10
Superior
126
2100
13
Superior
127
2100
9
Superior
128
1800
1
Superior
129
2000
9
Superior
130
2100
10
Superior
131
1900
4
Superior
132
2000
10
Superior
133
2300
11
Superior
134
2000
7
Superior
135
1700
1
Superior
136
1900
6
Superior
137
2000
9
Superior
NO
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
138
2400
17
Superior
139
1700
0
Superior
140
1700
2
Superior
141
2400
17
Superior
142
2500
13
Superior
143
2600
16
Superior
144
2100
14
Superior
145
1900
7
Superior
146
2000
9
Superior
147
1800
7
Superior
148
2100
10
Superior
149
2300
12
Superior
150
2700
2
Superior
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
a. S eleccione una muestra de 15 trabajadores usando muestreo simple aleatorio. Use las columnas
C4, C8, C12 y C16 de la tabla de números aleatorios.
b. Seleccione una muestra de diez trabajadores usando muestreo simple aleatorio. Use las columnas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
C5, C9, C13 y C15 de la tabla de números aleatorios.
Cuadro N°2: TABLA DE NÚMEROS ALEATORIOS (UPC, 2010)
C1
C2
C3
C4
C5
C6
C7
C8
C9
C10
C11
C12
C13
C14
C15
C16
C17
C18
C19
C20
4 9 0 9 1 2 6 1 4 0 7 4 6 9 1 0 3 9 5 8 0 9 6
8 2 2 6 6 9 1 3 5 0 2 9 1 3 8 2 6 4 9 1 5 7 9
2 9 1 0 4 0 2 1 8 3 4 3 2 4 7 1 3 6 9 8 3 1 5
4 8 3 8 1 5 9 8 1 6 5 4 8 0 1 4 4 7 8 8 8 4 9
6 1 3 3 6 5 5 9 1 9 4 4 1 8 3 7 1 6 4 2 0 2 4
6 4 9 5 5 0 0 9 4 6 1 2 3 1 4 5 9 7 4 3 4 7 9
3 4 1 6 2 8 4 0 5 5 2 4 3 3 3 7 8 9 5 9 3 5 1
5 1 6 6 7 4 0 1 6 0 4 5 2 3 9 3 1 1 9 1 9 5 8
4 9 2 6 7 8 9 2 7 6 4 9 0 7 3 1 0 2 1 4 4 2 2
5 8 9 4 2 7 8 6 9 4 6 0 2 3 1 1 9 2 5 2 6 8 0
6 5 7 0 9 4 2 3 9 7 9 8 6 2 7 9 0 7 4 4 0 6 2
0 1 1 8 9 6 0 7 9 9 2 7 0 4 8 3 1 2 7 9 8 6 5
5 1 2 6 9 2 2 1 2 8 6 4 7 8 3 3 1 3 3 1 8 3 3
2 9 6 3 9 1 6 9 1 1 6 8 2 6 7 8 0 9 0 4 3 5 9
6 7 6 4 7 7 8 6 3 2 6 4 7 7 3 7 9 3 6 0 8 5 1
9 9 0 8 4 0 7 1 2 4 5 2 9 9 3 4 3 4 8 6 7 9 2
8 8 7 1 1 1 0 7 3 4 2 1 1 0 0 8 6 6 1 0 1 9 0
0 5 5 8 5 5 1 9 7 8 0 2 4 6 8 0 8 9 6 3 2 0 3
0 9 6 5 4 8 9 9 7 3 0 5 6 2 3 2 6 8 8 2 2 6 0
9 0 4 4 9 7 7 8 9 6 4 4 5 8 5 5 0 1 1 8 3 8 8
Bibliografía
19
20
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
7 3 9 4 8 4 6 9 1 3 9 1 2 6 3 0 4 7 2 2 5 9 8 1 5 8
4 8 9 8 6 7 5 2 3 3 9 7 7 0 3 1 7 8 2 6 1 0 6 9 6 6
9 1 9 1 7 1 5 0 7 2 9 5 1 9 6 9 1 9 3 6 9 5 1 1 0 9
1 2 7 5 3 4 8 9 9 5 8 4 7 2 3 7 5 9 3 4 0 8 9 0 6 9
4 2 8 8 6 0 8 8 4 6 2 0 8 6 4 9 3 6 1 1 3 4 2 9 1 8
8 4 0 5 1 3 4 2 8 7 8 9 8 1 9 7 7 8 8 4 9 9 5 7 3 0
8 0 0 5 7 6 3 8 3 6 8 5 3 5 6 9 0 5 1 8 1 2 0 5 3 8
6 1 9 1 1 2 4 3 7 1 1 7 8 1 4 4 9 6 9 1 6 2 0 1 5 1
6 4 3 4 1 4 8 4 0 6 9 8 6 2 4 4 2 8 8 0 1 3 7 2 2 8
8 5 2 9 3 4 9 3 8 6 1 7 9 3 9 1 5 1 4 6 7 9 9 7 1 2
5 7 7 6 5 4 0 2 6 1 6 5 9 1 8 6 2 9 2 0 8 8 0 1 0 6
9 7 0 4 5 4 6 8 6 7 2 0 2 8 5 6 1 2 8 1 8 5 0 9 1 6
4 4 5 4 7 0 7 9 6 6 7 8 7 1 7 7 0 7 5 3 2 9 7 4 9 8
8 0 0 4 4 3 6 4 8 5 5 6 4 2 3 7 0 5 2 4 8 5 4 8 2 4
5 4 2 7 4 6 0 8 4 8 1 6 5 0 3 0 4 1 8 0 0 7 5 4 8 0
7 8 7 4 7 3 0 7 1 1 8 2 9 8 4 7 0 7 1 9 7 8 4 8 0 7
7 9 8 5 6 4 8 9 1 6 6 5 5 6 2 9 4 0 7 1 8 4 8 9 2 8
9 4 7 7 7 1 6 4 3 2 1 3 6 4 3 8 6 1 6 2 4 9 6 6 6 2
6 7 3 5 2 2 8 9 1 2 4 2 6 4 2 6 8 5 4 8 8 9 2 6 6 5
7 0 6 0 8 8 4 4 3 7 4 3 6 0 8 8 8 5 6 6 0 4 3 9 3 1
3
1
6
1
0
5
7
5
7
0
6
3
0
4
1
4
0
3
0
8
1.2. Muestreo sistemático (Triola, 2009) Es un método sumamente intuitivo para relevar padrones, y cómodo para casos en los que la información no está digitalizada. La aplicación del método consiste básicamente en calcular “n” como en el muestreo aleatorio simple, calcular el intervalo de muestreo “k”=N/n, y elegir al azar la primera unidad de muestreo “A” llamada arranque dentro del primer intervalo de muestreo “i”. Luego se extrae cada enésima unidad “k.i+A”. Limitaciones •E s equivalente a un muestreo agrupado del que se extrae un solo grupo, por lo que pierde robustez en cuanto a la representatividad esperada. Para intentar neutralizar este efecto, su puede elegir más de un grupo (en términos prácticos, habrá de elegirse una unidad “A” situada entre 1 y k, y al menos una unidad “B” ≠ “A”, también situada entre 1 y k y seguir el procedimiento de extracción a partir de “A” y de “B”). No obstante, esto atenta contra la eficiencia del plan ya que implica un derroche de recursos frente al muestreo aleatorio simple. •N o permite identificar periodicidad oculta. Por ejemplo, frente a mayores ventas los primeros sábados del mes, o asignaciones de planes sociales antes de fin de mes. •N o permite identificar sistematicidad oculta. Por ejemplo, considérese un diente defectuoso en un engranaje, y que ese diente incida sobre cierto lote de productos.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
FIGURA N°02: MUESTREO ALEATORIO SISTEMÁTICO (Triola, 2009) Ejemplo Se tiene una población de 40 personas y se desea elegir a cinco de ellas mediante un muestreo sistemático. ¿Cuál es el arranque aleatorio para este ejemplo? Seleccione la muestra indicando la posición de cada elemento elegido. Ejemplo Se tiene información de 40 alumnos del curso de Estadística II del ciclo regular. Obtenga una muestra aleatoria de ocho personas usando el muestreo sistemático y elabore una tabla con los elementos seleccionados. Cuadro N° 03: Individuos Registrados Nº
Sexo
Edad
Estatura
1
Mujer
15
154
2
Hombre
16
154
3
Hombre
21
156
4
Mujer
31
184
5
Hombre
21
173
6
Mujer
24
170
7
Hombre
32
176
8
Hombre
26
188
9
Mujer
21
169
10
Mujer
22
173
11
Hombre
18
177
12
Hombre
25
181
13
Mujer
29
164
14
Hombre
25
159
15
Mujer
19
178
16
Mujer
30
163
17
Hombre
29
180
18
Mujer
25
174
19
Hombre
29
137
20
Hombre
25
153
21
Mujer
16
168
22
Hombre
31
161
23
Hombre
18
270
24
Hombre
21
173
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
21
22
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
25
Hombre
31
187
26
Mujer
28
161
27
Mujer
19
172
28
Hombre
31
162
29
Hombre
33
147
30
Hombre
17
167
31
Mujer
34
69
32
Mujer
20
76
33
Mujer
26
74
34
Hombre
25
90
35
Mujer
23
164
36
Hombre
20
164
37
Mujer
34
176
38
Hombre
35
188
39
Mujer
30
155
40
Mujer
29
141
Ejercicio 2 Una empresa de alimentos (la misma del ejercicio 1) tiene un total de 150 empleados y ha registrado en la tabla que se muestra a continuación información acerca de las variables: ingreso mensual (en soles), nivel de educación y años cumplidos en la empresa. Aplique el muestreo sistemático para seleccionar una muestra de ocho empleados. Elabore un listado con la muestra seleccionada. 1.3. Muestreo estratificado Es un muestreo en el que bajo el requisito de tener que arribar a resultados globales, la población es previamente estratificada en grupos homogéneos, asegurando simultáneamente que todos los estratos estén representados, como por ejemplo por niveles educativos, género o edad. Los estratos pueden tener idéntica proporción de muestra, o se le puede dar mayor peso relativo a estratos significativos desde el punto de vista del análisis. El objetivo de estratificar la población es buscar representatividad en cada uno de los estratos, por lo que se pueden mencionar algunas razones importantes para aplicar el muestreo estratificado: - Con una estratificación adecuada se puede ganar precisión en las estimaciones de los parámetros de la población. - Se puede lograr reducciones en el costo de captura de la información. - Cuando se desea obtener estimaciones de precisión conocida para cada estrato de la población objetivo. Pasos a seguir para seleccionar una muestra estratificada 1. D ivida a la población en estratos que sean mutuamente excluyentes. Esto es, que incluyan a todos los elementos de la población y que cada elemento pertenezca solamente a un estrato. 2. Calcule la cantidad de elementos a seleccionar en cada estrato. 3. Seleccione muestras aleatorias simples para cada uno de los estratos.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
FIGURA N°03: MUESTREO ESTRATIFICADO (Triola, 2009)
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Recomendaciones para el uso de muestras estratificadas Si se tiene que usar más de una variable para formar los estratos, cuidar que estas no estén relacionadas entre sí. No se deben considerar la formación de muchos estratos, generalmente se usan entre tres y ocho estratos. Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto pueden no ser considerados. Limitaciones Cálculos complejos para estimar la precisión. Ejemplo La empresa embotelladora DEL VALLE tiene 120 empleados de los cuales tiene información de las variables: ingreso en soles, tipo de profesión y años en la empresa. Cuadro N° 04: REGISTRO DE TRABAJADORES Nº
INGRESO EN SOLES
TIPO PROFESION
AÑOS EN LA EMPRESA
1
2100
C.EMPRESA
5
2
1700
C.EMPRESA
11
3
2300
C.EMPRESA
4
4
2500
C.EMPRESA
2
5
2600
C.EMPRESA
3
6
1900
C.EMPRESA
2
7
2500
C.EMPRESA
2
8
1800
C.EMPRESA
0
9
1700
C.EMPRESA
7
10
2000
C.EMPRESA
4
11
2400
C.EMPRESA
0
12
1700
C.EMPRESA
2
13
2500
C.EMPRESA
13
14
1700
C.EMPRESA
9
15
2400
C.EMPRESA
1
16
2400
C.EMPRESA
9
17
1900
C.EMPRESA
10
18
1700
C.EMPRESA
4
19
2100
C.EMPRESA
10
Bibliografía
23
24
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
20
2000
C.EMPRESA
11
21
2000
C.EMPRESA
7
22
2500
C.EMPRESA
1
23
1700
C.EMPRESA
6
24
2500
C.EMPRESA
9
25
1700
C.EMPRESA
17
26
2600
C.EMPRESA
0
27
1600
C.EMPRESA
2
28
1800
C.EMPRESA
17
29
2100
C.EMPRESA
13
30
1700
C.EMPRESA
16
31
2400
INGENIERÍA
11
32
2600
INGENIERÍA
14
33
2100
INGENIERÍA
0
34
2100
INGENIERÍA
13
35
2400
INGENIERÍA
20
36
1700
INGENIERÍA
5
37
2600
INGENIERÍA
16
38
2400
INGENIERÍA
12
39
2700
INGENIERÍA
12
40
2100
INGENIERÍA
20
41
1600
INGENIERÍA
13
42
2100
INGENIERÍA
9
43
1900
INGENIERÍA
1
44
2100
INGENIERÍA
9
45
2200
INGENIERÍA
10
46
2400
INGENIERÍA
4
47
1800
INGENIERÍA
10
48
2600
INGENIERÍA
11
49
2700
INGENIERÍA
7
50
2500
INGENIERÍA
1
51
2500
INGENIERÍA
1
52
1900
INGENIERÍA
6
53
2100
INGENIERÍA
17
54
1700
INGENIERÍA
9
55
1500
INGENIERÍA
19
56
1800
INGENIERÍA
7
57
2100
INGENIERÍA
0
58
2700
INGENIERÍA
3
59
1800
INGENIERÍA
14
60
2100
INGENIERÍA
0
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
61
2300
INGENIERÍA
15
62
2800
INGENIERÍA
1
63
2400
INGENIERÍA
14
64
2500
INGENIERÍA
16
65
2300
INGENIERÍA
18
66
2100
INGENIERÍA
3
67
1700
INGENIERÍA
19
68
2000
INGENIERÍA
6
69
2200
INGENIERÍA
2
70
2100
INGENIERÍA
10
71
1700
INGENIERÍA
16
72
2500
INGENIERÍA
0
73
2800
INGENIERÍA
12
74
2400
INGENIERÍA
3
75
1700
INGENIERÍA
17
76
2400
INGENIERÍA
16
77
2200
INGENIERÍA
7
78
2200
INGENIERÍA
1
79
2300
INGENIERÍA
6
80
2800
INGENIERÍA
5
81
2100
C.SOCIALES
3
82
1700
C.SOCIALES
13
83
2500
C.SOCIALES
0
84
2400
C.SOCIALES
19
85
2700
C.SOCIALES
3
86
1700
C.SOCIALES
19
87
1600
C.SOCIALES
1
88
2600
C.SOCIALES
6
89
2500
C.SOCIALES
10
90
2500
C.SOCIALES
0
91
2100
C.SOCIALES
16
92
2300
C.SOCIALES
17
93
1700
C.SOCIALES
10
94
2200
C.SOCIALES
8
95
2900
C.SOCIALES
17
96
1800
C.SOCIALES
1
97
2100
C.SOCIALES
20
98
2000
C.SOCIALES
16
99
2000
C.SOCIALES
17
100
2900
C.SOCIALES
12
101
2100
C.SOCIALES
0
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Bibliografía
25
26
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
102
2100
C.SOCIALES
15
103
1800
C.SOCIALES
5
104
2000
C.SOCIALES
12
105
2100
C.SOCIALES
12
106
1900
C.SOCIALES
13
107
2000
C.SOCIALES
4
108
2300
C.SOCIALES
17
109
2000
C.SOCIALES
20
110
1700
C.SOCIALES
16
111
1700
C.SOCIALES
16
112
2100
C.SOCIALES
6
113
2600
C.SOCIALES
15
114
2400
C.SOCIALES
9
115
2600
C.SOCIALES
0
116
1900
C.SOCIALES
18
117
1600
C.SOCIALES
10
118
1900
C.SOCIALES
19
119
2100
C.SOCIALES
9
120
1700
C.SOCIALES
15
Aplique el muestreo estratificado para seleccionar una muestra de 24 empleados. Use como variable de estratificación el tipo de educación recibida de cada trabajador. Elabore un listado identificando el número de dato seleccionado. Solución Se divide a la población en estratos que sean mutuamente excluyentes, luego los estratos 1, 2 y 3 son: C.Empresa, Ingeniería y C.Sociales, respectivamente. Para cada uno de los estratos, seleccionamos muestras aleatorias simples. Cuadro N° 06: Ejemplo de Muestreo Estratificado
Estratos
1. C.Empresa
Números de elementos en el estrato Nh
N1 = 30
Posiciones
Cantidad seleccionada por estrato
(desde – hasta)
1 – 30
2. Ingeniería
N2 = 50
31 – 80
3. C.Sociales Total
N3 = 40 N = 120
81 – 120
Nh
n = n1 = n2=
N1
N xn
N N2
= N
xn
=
xn
30
50
x24 =6 120
x24 = 10 120
n3 = N 3 xn 40 x24 = =8 N 120 n = 24
Para cada estrato, realizamos un muestreo aleatorio simple usando las columnas de la tabla de los números aleatorios. Ejercicio 3 La siguiente tabla muestra a los 120 alumnos de la facultad de Ingeniería, a quienes se les preguntó por su emisora radial preferida y por la cantidad de horas a la semana que la escucha.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
Lecturas seleccionadas
Cuadro N°07:Registro de Radios P
Radio
Horas
P
Radio
Horas
P
Radio
Horas Recordatorio
1
Panamericana
4
41
Estudio 92
3
81
Estudio 92
2
2
Panamericana
8
42
Estudio 92
7
82
Estudio 92
4
3
Panamericana
5
43
Estudio 92
9
83
Estudio 92
2
4
Panamericana
2
44
Estudio 92
4
84
Estudio 92
5
5
Panamericana
3
45
Estudio 92
4
85
Estudio 92
8
6
Panamericana
6
46
Estudio 92
6
86
Estudio 92
8
7
Panamericana
7
47
Estudio 92
7
87
Oxígeno
5
8
Panamericana
6
48
Estudio 92
9
88
Oxígeno
6
9
Panamericana
8
49
Estudio 92
10
89
Oxígeno
3
10 Panamericana
9
50
Estudio 92
5
90
Oxígeno
7
11 Panamericana
3
51
Estudio 92
8
91
Oxígeno
4
12 Panamericana
3
52
Estudio 92
9
92
Oxígeno
2
13 Panamericana
4
53
Estudio 92
12
93
Oxígeno
11
14 Panamericana
2
54
Estudio 92
8
94
Oxígeno
2
15 Panamericana
6
55
Estudio 92
4
95
Oxígeno
3
16 Panamericana
4
56
Estudio 92
6
96
Oxígeno
8
17 Panamericana
9
57
Estudio 92
7
97
Oxígeno
6
18 Panamericana
5
58
Estudio 92
3
98
Oxígeno
7
19 Panamericana
2
59
Estudio 92
7
99
Oxígeno
9
20 Panamericana
7
60
Estudio 92
8
100
Oxígeno
4
21 Panamericana
4
61
Estudio 92
6
101
Oxígeno
8
22 Panamericana
6
62
Estudio 92
9
102
Oxígeno
7
23 Panamericana
7
63
Estudio 92
2
103
Oxígeno
7
24 Panamericana
8
64
Estudio 92
5
104
Oxígeno
9
25 Panamericana
9
65
Estudio 92
1
105
Oxígeno
6
26 Panamericana
10
66
Estudio 92
4
106
Oxígeno
7
27 Panamericana
5
67
Estudio 92
7
107
Oxígeno
9
28 Panamericana
4
68
Estudio 92
6
108
Oxígeno
8
29 Panamericana
7
69
Estudio 92
7
109
Oxígeno
3
30 Panamericana
8
70
Estudio 92
8
110
Oxígeno
11
31 Panamericana
4
71
Estudio 92
4
111
Oxígeno
13
32
Estudio 92
6
72
Estudio 92
5
112
Oxígeno
14
33
Estudio 92
7
73
Estudio 92
3
113
Oxígeno
9
34
Estudio 92
5
74
Estudio 92
6
114
Oxígeno
8
35
Estudio 92
8
75
Estudio 92
5
115
Oxígeno
6
36
Estudio 92
9
76
Estudio 92
8
116
Oxígeno
5
37
Estudio 92
4
77
Estudio 92
7
117
Oxígeno
7
38
Estudio 92
5
78
Estudio 92
9
118
Oxígeno
3
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
27
28
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
39
Estudio 92
2
79
Estudio 92
10
119
Oxígeno
6
40
Estudio 92
9
80
Estudio 92
3
120
Oxígeno
5
Anotaciones
Seleccione una muestra aleatoria de tamaño 12 mediante muestreo estratificado. Use la variable radio de su preferencia como variable de estratificación. Solución: Posición
n 11 = N h xn
Estrato
Nh
Panamericana
N1=
N1=
Estudio 92
N2=
N2=
Oxígeno
N3=
N3=
(desde – hasta)
h
N
TOTAL Diagrama
Objetivos
Inicio
Luego, para cada estrato realice un muestreo aleatorio simple utilizando la tabla de números aleatorios. Desarrollo de contenidos
Actividades
Autoevaluación
LECTURA SELECCIONADA N° 1 Lecturas seleccionadas
Glosario
Bibliografía
¿FUNCIONA LA TERAPIA DE CONTACTO? Estadística. Mario Triola. Pág. 319 Muchos pacientes pagan de $25 a $50 por una sesión de terapia de contacto en la que el Recordatorio Anotaciones terapeuta coloca sus manos a unos centímetros del cuerpo del paciente, sin tener realmente contacto físico. El objetivo es curar una amplia variedad de problemas médicos, incluyendo cáncer, SIDA, asma, enfermedades cardiacas, dolores de cabeza, quemaduras y fracturas óseas. La teoría básica plantea que un terapeuta de contacto capacitado profesionalmente puede detectar un mal alineamiento en el campo de energía del paciente y generar un equilibrio energético que incrementa el proceso de curación. Cuando Emily Rosa, una niña de nueve años, estaba en cuarto grado, eligió el tema de la terapia de contacto para el proyecto de una feria de ciencias y convenció a 21 terapeutas de contacto experimentados para que participaran en una prueba sencilla de su capacidad para detectar el campo de energía humana. Emily utilizó un cartón con dos agujeros para introducir las manos. Cada terapeuta de contacto pasaba sus dos manos a través de los agujeros, y Emily colocaba su mano por arriba de una de las manos del terapeuta; luego, se le pedía al terapeuta que identificara la mano que Emily había elegido. La niña lanzaba una moneda para seleccionar al azar la mano sobre la que colocaba la suya. Esta prueba se repitió 280 veces. Si los terapeutas de contacto realmente tenían la habilidad de percibir un campo energético humano, debían identificar la mano correcta mucho más del 50% de las veces. Si no tenían tal capacidad y sólo hacían conjeturas, debían acertar alrededor del 50% de las veces. Emily obtuvo los siguientes resultados: de los 280 ensayos, los terapeutas de contacto identificaron la mano correcta 123 veces, es decir, tuvieron una tasa de éxito del 44%. Emily, con la ayuda de su madre, un especialista en estadística y un médico, envió sus hallazgos para publicarlos en el prestigioso Journal of the American Medical Association. Después de una cuidadosa y detallada revisión del diseño experimental y de los resultados, se publicó el artículo "A Close Look at a Therapeutic Touch" (Journal of the American Medical Association, vol. 279, núm. 13). Emily se convirtió en la investigadora más joven en publicar un artículo en esa revista. Además, ganó el primer premio de la feria de ciencias por su proyecto. Consideremos los principales resultados del proyecto de Emily. En los 280 ensayos, los terapeutas de contacto acertaron 123 veces. Tenemos una proporción muestral con n = 280 y x = 123. Los argumentos en contra de la validez del estudio podrían incluir la
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
Lecturas seleccionadas
aseveración de que el número de ensayos es demasiado pequeño para ser significativo, o que los terapeutas de contacto tuvieron un mal día y que, debido al azar, no tuvieron tanto éxito como la población de todos los terapeutas de contacto. En este capítulo analizaremos estos temas. Recordatorio También es importante señalar que el proyecto de Emily Rosa fue relativamente sencillo. Recuerde que ella realizó el estudio cuando cursaba el cuarto grado de primaria. Su proyecto es el tipo de actividad que cualquier estudiante de un curso de introducción a la estadística podría llevar a cabo. Después de comprender los conceptos que se enseñan en el curso de introducción a la estadística típico, los estudiantes tienen la habilidad para realizar trabajos significativos e importantes. Diagrama
Objetivos
Desarrollo de contenidos
Actividades
Lecturas seleccionadas
Inicio
ACTIVIDAD N° 1: Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Glosario
Bibliografía
TEMA N°2: ESTIMACIONES Y TAMAÑOS DE MUESTRA3 Recordatorio
Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará Anotaciones basada en un estadístico muestral, es decir, en la información proporcionada por la muestra (formalmente definimos un estadístico como una función de las observaciones muestrales). La elección del estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal estadístico se denomina estimador. Observamos que es necesario tener claro algunos conceptos y características importantes de la inferencia estadística, detalles que permitirán que realicemos sobre todo una buena interpretación. Estimación puntual Es una medida descriptiva numérica aplicada a las características en las unidades de la muestra, calculada con ciertos procedimientos establecidos por indicadores estadísticos conocidos como estimadores o estadísticos. Estimación por intervalo Es la estimación de parámetro a través del cálculo de un intervalo de valores determinando un límite inferior y uno superior dentro del dual estará comprendido el verdadero valor o parámetro. Intervalo de confianza Es un intervalo de valores dentro de los cuales se espera que esté comprendido el parámetro con un nivel de confianza dado o con un error conocido. Nivel de confianza Expresa la probabilidad de alcanzar la precisión deseada entre el valor estimado y el parámetro. Se representa como: 1Nivel de riesgo Expresa la probabilidad de no alcanzar la precisión deseada, también es conocido como nivel de significancia. Se representa con: La estimación estadística se divide en dos grandes grupos: la estimación puntual y la estimación por intervalos. La estimación puntual consiste en obtener un único número calculado a partir de las observaciones muestrales, y que es utilizado como estimación del valor del parámetro θ. Se le llama estimación puntual porque a ese número, que se utiliza como estimación del parámetro θ, se le puede asignar un punto sobre la recta 3
Mario Triola. Estadística. 2009
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
29
30
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
real. En la estimación por intervalos se obtienen dos puntos (un extremo inferior y un extremo superior) que definen un intervalo sobre la recta real, el cual contendrá con cierta seguridad el valor del parámetro θ. El estimador del parámetro poblacional θ es una función de las variables aleatorias u observaciones muestrales y se representa por: θ= g ( X1, X2,..., Xn) Para una realización particular de la muestra ( x1 , x2 ,..., xn ) se obtiene un valor específico del estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por : =g(
x1 , x2 ,..., xn )
Vemos pues que existe diferencia entre estimador y estimación. El estimador es un estadístico y, por tanto, una variable aleatoria y el valor de esta variable para una muestra concreta ( x1 , x2 ,..., xn ) será la estimación puntual. El estimador θ tendrá su distribución muestral.
En el cuadro se muestra diferentes parámetros poblacionales, sus estimadores y sus estimaciones. Cuadro N°08: PARÁMETROS POBLACIONALES
Estrato Media μ
Proporción p ó n
(desde – hasta) n
µˆ = X = Varianza ó
Posición
Nh
σˆ 2 = S 2 = pˆ =
∑X i =1
n
i
n
x=
∑x
i
i =1
n
1 n 1 n (Xi − = X )2 s2 ∑ xi − x ∑ n − 1 i =1 n − 1 i =1
X númeroéxitos = n númeropruebas
(
pˆ =
)
2
x n
Para la elección de estos estimadores puntuales nos hemos basado, principalmente en la intuición y en la posible analogía de los parámetros poblacionales con sus correspondientes valores muestrales, pero éste no será el método más adecuado para la obtención de estimadores puntuales, aunque en este caso se obtienen estimadores satisfactorios para los parámetros poblacionales. En general, el problema de obtener estimadores puntuales no será tan sencillo, por ello tenemos que dar propiedades que serían deseables que se cumplieran por los diferentes estimadores puntuales obtenidos, aunque no existe un mecanismo o método único que nos permita obtener el mejor estimador puntual en todas las circunstancias. Nuestro objetivo ahora será dar algunas propiedades deseables de los estimadores puntuales, con el fin de poder conocer la bondad de los mismos, pues cuantas más propiedades verifiquen los estimadores puntuales mejores serán. Propiedades de los estimadores (Mata, 2013) Un estimador debe ser: Insesgado: Si tenemos un gran número de muestras de tamaño n y obtenemos el valor del estimador en cada una de ellas, sería deseable que la media de todas estas estimaciones coincidiera con el valor de μ. Se dice que un estimador es insesgado si su esperanza matemática coincide con el valor del parámetro a estimar. Eficiente: Se dice que los estimadores son eficientes cuando generan una distribución muestral con el mínimo error estándar es decir, entre dos estimadores insesgados de un parámetro dado es más eficiente el de menor varianza.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Consistente: Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor del parámetro a medida que aumenta el tamaño de la muestra. Es decir, la probabilidad de que la estimación sea el verdadero valor del parámetro tiende a 1.
Suficiente: Se dice de un estimador que es suficiente cuando es capaz de extraer de los datos toda la información importante sobre el parámetro.
1 ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL Si p representa la proporción de éxitos en una muestra aleatoria de tamaño n suficientemente grande y q=1-p, entonces un intervalo de confianza aproximado para la proporción poblacional p al nivel de confianza del (1-α)% viene dado por:
ˆ − zα p 2
ˆ qˆ p ˆ + zα ,p n 2
ˆ qˆ p n
Donde la variable aleatoria Z sigue una distribución N(0,1). Si el muestreo es sin reemplazo y la fracción de muestreo , los límites de confianza se calculan con la siguiente fórmula.
p ˆ − Z 1−α / 2
p ˆ qˆ n
N −n ≤ p≤ p ˆ + Z 1−α / 2 N −1
p ˆ qˆ n
N −n N −1
Ejemplo El dueño de un diario se interesa en la proporción de reporteros varones que cometen errores al momento de entregar el reporte final. Al seleccionar una muestra aleatoria de 100 reporteros varones encontró que 24 cometían errores. Calcule e interprete un intervalo de confianza del 99% para la verdadera proporción de reporteros varones que cometen errores al momento de entregar el reporte final. Solución
i) La estimación puntual de p es pˆ = 24 = 0,24 y Z 0,995 = 2,58 100 ii) 0,24 − (2,58)
(0,24)(0,76) (0,24)(0,76) ≤ p ≤ 0,24 + (2,58) 100 100
0,13 ≤ p ≤ 0,35
Interpretación: Existe un 99% de confianza que entre 0,13 y 0,35 se encontrará la proporción poblacional de reporteros varones que cometen errores al momento de entregar el reporte final. 2 ESTIMACIÓN DE LA MEDIA POBLACIONAL 2.1.Intervalo de confianza para la media de una población normal, con varianza conocida. Supongamos que tenemos una muestra aleatoria de n observaciones de una distribución N(μ, ó). Si ó es conocida, y la media muestral observada es x , entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del (1-α)% viene dado por:
Bibliografía
31
32
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
σ σ , x + zα / 2 x − zα / 2 n n Anotaciones
Donde la variable aleatoria Z sigue una distribución N(0,1).
n ≥ 0,05 Si el muestreo es sin reemplazo y la fracción de muestreo N estándar será:
σx =
σ n
x − Z1−α / 2
el error
N − n y los límites de confianza se calculan con la siguiente fórmula. N −1
σ n
σ N −n ≤ µ ≤ x + Z1−α / 2 N −1 n
N −n N −1
Ejemplo Un artículo publicado en un diario local indica que el tiempo promedio empleado por los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. es de 7,75 horas. Suponga que el tiempo tiene una distribución aproximadamente normal con desviación estándar de 3,45 horas. Para corroborar dicha afirmación un grupo de estudiantes selecciona una muestra de 180 hogares de L.M. y obtuvo que el tiempo promedio fue de 7,42 horas por semana. ¿Será cierta la afirmación publicada por el diario local al 96% de confianza? Solución: i) La estimación puntual de μ es x =7,42 siendo n=180 ii) 1-α = 0,96 » α = 0.04 entonces: como: x − Z 1−α / 2
iii)
σ n
Z 1−α / 2
≤ µ ≤ x + Z 1−α / 2
IC ( µ ) = 7,42 − (2,05)
= Z(0.98) = 2,05
σ n
3,45 3,45 ≤ µ ≤ 7,42 + (2,05) 180 180
6,8928 < μ < 7,9472 Interpretación: Con un 96% de confianza entre 6,8928 y 7,9472 horas por semana se encontrará la media del tiempo empleado por todos los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. por lo tanto es cierta la afirmación publicada en el diario local. Ejemplo Se tienen 50 000 trabajadores de construcción civil empadronados en el Ministerio de Trabajo, de los cuales se tomó una muestra aleatoria de 400 y se analizó el ingreso diario. Si la media de los trabajadores encuestados es de 74 soles diarios con una desviación estandar de 10.68 soles, construya un intervalo de confianza del 90% para el ingreso diario de todos los trabajadores de construcción civil. Solución i)
x
=74; n=400; N=50 000 y s=10.68
ii) 1-α = 0,90 » α = 0.1 entonces:
Z 1−α / 2
= Z(0.90) = 1.645
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
σ iii) x − Z 1−α / 2
n
σ N −n ≤ µ ≤ x + Z1−α / 2 N −1 n
N −n N −1
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
iv)
IC ( µ ) = 74 − (1.645)
10.68 50000 − 400 10.68 50000 − 400 ≤ µ ≤ 74 + (1.645) x x 50000 − 1 50000 − 1 400 400
v) IC ( µ ) = 73.13 ≤ µ ≤ 74.87
2.2.Intervalo de confianza para la media de una población con varianza desconocida siendo n<30. Supongamos que tenemos una muestra aleatoria de n<30 observaciones de una distribución N(μ,ó). Si ó es desconocida, y la media y la desviación típica muestral observadas son x y s, respectivamente, entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del (1-α)% viene dado por:
s s x − t , x + t α /2 α /2 n n α y la variable donde tα /2 es tal que P [t > t ] = n −1 α /2 2
tn −1 sigue una distribución
t-
Student con n-1 grados de libertad. Si el muestreo es sin reemplazo y la fracción de muestreo, n ≥ 0,05 el error N estándar será: s N − n y los límites de confianza se calculan con la siguiente fórmula: n N −1
x − tα / 2,n −1
s n
N −n s ≤ µ ≤ x + tα / 2,n −1 N −1 n
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
N −n N −1
Distribución t-Student Cuando se tienen muestras pequeñas y no se conoce la desviación estándar poblacional pero la población se distribuye normalmente se puede utilizar como estadístico de prueba el valor crítico t de la distribución t de Student la cual tiene las siguientes características: - Es simétrica y tiene forma de campana. - Se extiende de - a + - Los extremos la distribución t está por encima de la normal estándar. - El centro la distribución t está por debajo de la normal estándar. - Cada valor de grado de libertad determina una distribución t distinta. - Cuando los grados de libertad son altos, los valores de la distribución t se asemejan con los valores de la distribución normal estándar (n > 29). - En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas distribuciones tienen forma de campana. Sin embargo, la distribución t tiene mayor área en los extremos y menor en el centro, a diferencia de la distribución normal.
Bibliografía
33
34
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
FIGURA N°04: Ejemplo de gráficos de la distribución t-Student para diferentes tamaños de muestra (Triola, 2009) Ejemplo El jefe del área de prensa de un diario desea evaluar la habilidad de su equipo de trabajo en el digitado de una misma noticia. Para realizar dicho estudio selecciona al azar una muestra aleatoria de redactores obteniendo los siguientes resultados (en minutos): 3,2 4,8 5,3 9,1 6,3 8,2 6,5 9,6 10,3 8,6 6,3 7,9 8,2 7,9 6,9 9,3 8,6 6,8 10,1 9,0 Asumiendo que los tiempos se distribuyen normalmente. Halle e interprete un intervalo del 95% de confianza para el tiempo medio utilizado en el tipeado de una noticia. Solución: i) La estimación puntual para μ es =7,645 siendo s= 1.8597 ii) Como el nivel de confianza es 95%, tα /2;n −1 = 2.0930 iii)
IC ( µ ) = 7,645 − 2,0930
(1,8597) (1,8597) ≤ µ ≤ 7,645 + 2,0930 20 20
6.7746 y 8.1130 Interpretación: Con un 95% de confianza entre 6.7746 y 8.1130 minutos se encontrará la media del tiempo utilizado por todos los redactores en el digitado de una noticia. Ejemplo Pamela, estudiante de estadística para Ciencias de la Empresa piensa que el gasto promedio semanal en fotocopias de los estudiantes de su facultad es de 3.5 soles. Para verificar si es cierto lo que está pensando ha elegido al azar una muestra de 9 estudiantes de un total de 120 estudiantes que llevan el curso de estadística para comunicadores, resultando los siguientes gastos: 3,5 2,5 1,9 1,7 2,5 3,4 2,9 1,6 1,5 Si la variable aleatoria objeto de estudio sigue una distribución normal. Con un intervalo de confianza del 96% para la media del gasto semanal en fotocopias por estudiante ¿será cierto lo que piensa Pamela? Solución: i) n=9; N=120; 1-α=0.96
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
ii) =2.3889 siendo s= 0.7639 y n/N=0.0758>0.05
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
iii) =2.44898 iv)
(N − n ) α n −1; (N − 1) 2 (0,7639) (120 − 9) = 2,3889 ± (2,44898) (120 − 1) 9 s n
IC ( µ ) = x ± t
= 1,7866 ≤ µ ≤ 2,9912
Conclusión: Con un nivel de confianza del 96% se puede decir que el gasto promedio semanal en fotocopias de los estudiantes de su facultad es menor a 3.5 soles, por lo que podríamos decir que lo que piensa Pamela no es cierto. 3 ESTIMACIÓN DE LA VARIANZA POBLACIONAL Supongamos una muestra aleatoria de n observaciones de una distribución N(μ,σ). Si σ es desconocida y la varianza muestral observada es entonces el intervalo de confianza para la varianza poblacional al nivel de confianza del 100(1-α)% viene dado por:
donde
α
χ n2−1,1−α /2es tal que
χ n2−1,α /2
es tal que
y la variable aleatoria de libertad.
y P χ n2−1 ≤ χ n2−1,1−α / 2 = 2 α P χ n2−1 ≤ χ n2−1,α / 2 = 1−
χ n2−1
2
sigue una distribución
χ 2 de Pearson
con n-1 grados
FIGURA Nº05: VALORES CRÍTICOS DE LA DISTRIBUCIÓN CHI-CUADRADO (Triola, 2009)
- Para obtener el valor crítico 2.7 ubicar el 9 en la columna de grados de libertad y 1-0.025=0.975 (área hacia la derecha del
χ2
) en la parte superior horizontal.
- Para obtener el valor crítico 19.023 ubicar el 9 en la columna de grados de libertad y 0.025 (área hacia la derecha del Ejemplo
χ2
) en la parte superior horizontal.
Bibliografía
35
36
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
Un fabricante de baterías para automóviles afirma que sus baterías durarán, en promedio, tres años con una varianza de un año. Si cinco de estas baterías tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años, construya un intervalo de confianza del 95% para σ y decida si la afirmación del fabricante de que σ = 1 es válida. Suponga que la población de duraciones de las baterías se distribuye de forma aproximadamente normal. 2
2
Solución i) s2 = 0,815, n=5 2
2
ii) El valor 1- /2 , es un valor con = 5-1 grados de libertad, que deja un área de 2 0,025 a la izquierda y por lo tanto un área de 0,975 a la derecha, es 0,975 = 0,484; de 2 2 la misma forma, el valor /2 es igual a 0,025 = 11,143. iii) (5 − 1)(0.815) (5 − 1)(0.815) < σ2 < 11.143 0.484
iv) 0 .3 < σ 2 < 6 .7
Interpretación: Con 95% de confianza entre 0,3 y 6,7 se encontrará la varianza de la duración de las baterías. Sí es posible considerar como válida la afirmación del fabricante porque el intervalo hallado contiene a la unidad. Ejemplo Se desea estimar la varianza de la longitud de ciertos cables. En una muestra de 25 cables se encuentra que la longitud tiene una media de 80 m y una desviación de 3 m. Hallar un intervalo con una confianza del 95%, para la varianza de las longitudes de los cables. Solución i)
n = 25 : x = 80 , s = 3 , s 2 = 9 ii)
N .C. = 0.95 = 1 − α →
α 2
= 0.025, 1 −
α 2
= 0.975
iii)
χ (20.025, 24) = 12.4011 , χ (20.975, 24) = 39.3641 iv)
24 × 9 24 × 9 ≤σ2 ≤ 39.3641 12.4011 v)
5.49 ≤ σ 2 ≤ 17.42 vi)
2.34 ≤ σ ≤ 4.17 Interpretación: Se puede afirmar con un 95% de confianza que la desviación estandar de la longitud de dichos cables se encuentra entrea 2.34 m y 4.17m.
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
4 DETERMINACIÓN DEL TAMAÑO DE MUESTRA
Lecturas seleccionadas
Existen tres factores que determinan el tamaño de una muestra; ninguno tiene alguna relación directa con el tamaño de la población. Estos son:
Recordatorio
- El grado de confianza elegido. - El máximo error permitido. . La variación de la población. 4.1. Para estimar la media poblacional Población infinita
n=
zσ E2 2
Población Finita
2
n=
z 2σ 2 N E ( N − 1) + z 2σ 2 2
Ajuste de Tamaño de muestra para población finita
n=
n0 n 1+ 0 N
Donde: E: Es el error permitido; Z: El valor estándar normal asociado con el grado de confianza elegido,
s: La desviación de la población, obtenida de estudios anteriores, experiencias previas o se puede estimar la desviación estándar muestral mediante un estudio piloto no: Tamaño de muestra calculada de una población infinita N: Tamaño de población Se dice que una población es finita si la relación n/N > 5% 4.2. Para estimar la proporción poblacional Población infinita
n=
z 2 pq E2
Población Finita
n=
z 2 pqN E ( N − 1) + z 2 pq 2
Donde: E: Es el error permitido; Z: El valor estándar normal asociado con el grado de confianza elegido, P: La proporción de éxito de la población, obtenida de estudios anteriores, experiencias previas o se puede estimar la proporción de éxito muestral mediante un estudio piloto. q: La proporción de fracaso de la población se obtiene por complemento de p: q =1–p N: Tamaño de población Ejemplo Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable aleatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg. Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
37
38
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
Solución i) e=0.1; σ = 0.5; α = 0.05 Anotaciones
ii) Z 1−α 2 = 1,96 iii) n = (0,5)(1,96 ) = 96,4 2
0,1
Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamaño de muestra sería de 97. Ejemplo La Dirección Regional de Trabajo planea realizar un estudio con el objetivo de conocer el promedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una población de 10000 mujeres que figuran en los registros del seguro social y de las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el tamaño muestral requerido? Solución i) e=0.1;
σ = 9.648; α = 0.05
ii) Z 1−α = 1,96 2
iii) n = (9.648)(1,96 ) = 3706 2
0,1
iv) Como 10000<3706x(3706-1), se corrige el tamaño de muestra
n=
3706 = 2704 3706 1+ 10000
Ejemplo En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la media de la capacidad en centímetros cúbicos de los mismos. A través de un premuestro de tamaño 35 se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión 0.25 cm3, y un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? Solución i) e=0.25 cm3;
σ = 2cm 3 ; α = 0.05
ii) Z α = 1,96 1− 2
iii) n =
iv) n =
N .σ 2 Z α2 2
Ne + σ 2 Z α2 2 8000(2) 2 (1.96) 2 8000(0.25) 2 + (2) 2 (1.96) 2
s
s
o
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
v) n = 122931.2 = 239 515.37 Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo válidos. Ejemplo En una investigación, se desea determinar en que proporción los niños de una región toman leche en el desayuno. Si se sabe que existen 1500 niños y deseamos tener una precisión del 10 %, con un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? Solución i) N=1500; e=10%=0.1; α = 0.05 ii) p = 0.5 y q = 0.5 iii) Z 1−α = 1,96 2 iv) n =
v) n =
N . p.q.Z α2 2 N .e 2 + p.q.Z α2 2
1500(0.5)(0.5)(1.96) 2 1500(0.1) 2 + (0.5)(0.5) / 1.96) 2
n = 90
vi)
Se deben muestrear 90 niños.
Cuadro N°09: Distintos niveles de confianza utilizados en la práctica Nivel de Confianza
99.73%
99%
98%
96%
95.45%
95%
90%
80%
Valores de Z
3.00
2.58
2.33
2.05
2.00
1.96
1.645
1.28
Diagrama
Objetivos
Desarrollo de contenidos
Actividades
Inicio
ACTIVIDAD N° 2: Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Actividades
Autoevaluación
Recordatorio
Glosario
Anotaciones
Bibliografía
CONTROL DE LECTURA N° 1 Esta actividad puede consultarla en su aula virtual. Anotaciones
Bibliografía
Bibliografía
39
40
Inicio UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
ollo nidos
Actividades
Autoevaluación
Diagrama
Objetivos
as nadas
Glosario
Bibliografía
Desarrollo de contenidos
Actividades
Autoevaluación
Bibliografía
Anotaciones
Lecturas seleccionadas
Glosario
torio
BIBLIOGRAFÍA DE LA UNIDAD I
Triola, M. (2012). Estadística. México : Pearson Educación Berenson, M. y Levine, D. (2010). Estadística Básica en Administración, Conceptos y aplicaciones. México: Prentice Hall
Recordatorio
Anotaciones
Diagrama
Objetivos
Inicio
Desarrollo de contenidos
Actividades
Autoevaluación
Lecturas seleccionadas
Glosario
AUTOEVALUACIÓN DE LA UNIDAD I
Recordatorio
Resuelva el siguiente cuestionario, marcando la respuesta correcta en cada caso, para fijar los conceptos e ideas fundamentales tratados en la Unidad: 1. Correlacione: Bibliografía Población Finita
CONCEPTO
Es una técnica en el que el sujeto no sabe si está recibiendo el tratamiento
Muestreo estratificado
Los miembros de una población se seleccionan de forma que cada miembro individual tenga la misma posibilidad de ser elegido
Muestreo sistemático
3
Selecciona directamente los individuos de la población para la muestra
Muestra aleatoria
4
Se selecciona un punto de partida, después se elige cada k-esimo elemento de la población
1
Anotaciones
2
5
Subdividimos a la población en al menos dos subgrupos diferentes, cada subgrupo posee gran homogeneidad respecto alguna característica.
Muestreo de conveniencia Estudio a ciegas
a) 3,4,5,2,1 b) 5,4,3,2,1 c) 3,5,4,2,1 d) 5,4,2,3,1 e) 5,3,2,1,4 2. Una de sus obras más importantes de Maquiavelo fue: a) 0.014 b) 0.015 c) 0.897 d) 0.028 e) 0.196 3. El siguiente intervalo de confianza se obtiene de una proporción poblacional,
p: 0.883
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
4. Condiciones para hacer un intervalo de confianza usando la distribución normal estándar: I. La distribución de la población no puede ser normal si n>30. II. Se conoce el valor de la desviación estándar poblacional. III. Se emplea para n<30 si la población tiene una distribución normal IV. Se conoce el valor de la media poblacional V. La muestra es una muestra aleatoria simple. a) II, III y IV b) I, II, y V c) I, IV y V d) II y IV e) III, IV y V 5. El ancho de un intervalo de confianza para una proporción sería: a) Más angosto para un nivel confianza de 99% que para un nivel confianza de 95%.
b) Más amplio para una muestra de tamaño 100 que para una muestra de tamaño 50. c) Más amplio para una desviación estándar de 3.56 que para un nivel de confianza de 90% d) Más amplio cuando la proporción de la muestra sea 0.50 que cuando la proporción de la muestra sea 0.20. e) Más amplio a nivel de confianza 99% que al de 95% 6. Un grupo de consumidores desea estimar el monto de las facturas de energía eléctrica para el mes de marzo para las viviendas unifamiliares del distrito de Hualhuas. Con base en estudios realizados en otras ciudades cercanas a ésta, se determinó una desviación estándar de 25 dólares. El grupo desea estimar el monto promedio para marzo dentro de ± 5 dólares del promedio verdadero con 99% de confianza. Calcule el mejor tamaño de muestra
a) 205 b) 167 c) 135 d) 68 e) 152 7. Un amplio intervalo de confianza indica que: I. Existe mayor probabilidad de estimar parámetro con el estimador II. Hay una variabilidad considerable en los datos muestrales III. La estimación puntual obtenida de la muestra no puede estar cerca del verdadero valor del parámetro poblacional IV. Hay poca variabilidad el estimador es cercano al parámetro V. La estimación por intervalo no es válida Son verdaderos: a) I, III y IV b) III y V c) IV y V d) II y III e) I y IV
Bibliografía
41
42
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS
8. Con la siguiente información: n = 15,
s2 = 2.53,
α = 0.01
Defina el intervalo de confianza para la desviación estándar: Anotaciones
a) 1.039 < α < 2.775 b) 1.131 < α < 8.693 c) 1.299 < α < 7.162 d) 1.063 < α < 2.948 e) 2.069 < α < 6.332 9. Un empresario potencial estudia la posibilidad de comprar una lavandería con máquinas operadas con monedas. El dueño actual asegura que en los últimos 5 años el promedio de ingresos diarios ha sido 675 dólares con una desviación estándar de 75 dólares. Una muestra de 30 días revela un ingreso promedio diario de 625 dólares. ¿Existe evidencia de que la aseveración del dueño actual no es válida? (use un nivel de significancia de 0.01). Determine el valor del estadístico de prueba y si se aprueba o no la hipótesis nula. a) -3.651; se rechaza Ho b) -2.381, se acepta Ho c) 2.381, se rechaza Ho d) -4.724, se acepta Ho e) -1.452, se acepta Ho 10. Las Razones por las que no se debe usar la distribución “t” I. La desviación estándar de la población es conocida. II. La distribución de la población es normal III. El tamaño de la muestra es mayor a 30 IV. La muestra es aleatoria simple V. El tamaño de muestra es menor a 30 a) II y IV b) III y V c) I d) IV e) III
Desarrollo de contenidos
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
Desarrollo de contenidos
Actividades
Autoevaluación
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD II
Diagrama Lecturas seleccionadas
Desarrollo de contenidos Recordatorio
Objetivos Glosario
Inicio Bibliografía
Actividades
Autoevaluación
CONTENIDOS Glosario
Recordatorio
Anotaciones
ACTIVIDADES
EJEMPLOS
Anotaciones
Lecturas seleccionadas
Bibliografía
AUTOEVALUACIÓN
BIBLIOGRAFÍA
ORGANIZACIÓN DE LOS APRENDIZAJES Diagrama
Objetivos
Inicio
CONOCIMIENTOS Desarrollo de contenidos
Actividades
PROCEDIMIENTOS
ACTITUDES
1. Conoce y practica los procedimientos de la prueba de hipótesis para distintas aseveraciones acerca de la media, proporción y varianza
1. Valora la importancia de la estimación de parámetros y la determinación del tamaño de muestra y comprueba las hipótesis para la toma de decisiones.
Autoevaluación
Tema N° 1: Prueba de hipótesis 1. Definiciones básicas 2. Prueba de aseveración para la media 3.Lecturas Prueba de aseveración para la Glosario Bibliografía seleccionadas proporción 4. Prueba de aseveración para la varianza Tema Nº 2: Inferencia a partir Anotaciones de dos muestras 1. Inferencia acerca de dos medias, proporciones para muestras independientes 2. Inferencia a partir de datos pareados 3. Comparación de la variación de dos muestras
Recordatorio
Tema Nº 3: Inferencia a partir de dos muestras 1. ANOVA de un factor 2. ANOVA de dos factores Lectura seleccionada N°1 La paradoja del cumpleaños Blog Estadística para todos Autoevaluación de la Unidad II
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Actividad N° 1 2. Compara dos conjuntos de datos muestrales y aplica la prueba de hipótesis acerca de sus características poblacionales 3. Aplica el análisis de varianza de un factor y de dos factores Actividad N° 2 Tarea Académica Nº 1
Bibliografía
43
44
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
TEMA N° 1: PRUEBA DE HIPÓTESIS Los métodos estudiados en la Unidad anterior usan la información proporcionada por los estadísticos muestrales para estimar con cierta probabilidad el valor de un parámetro poblacional. En éste Unidad se introducirá la prueba de hipótesis que supone a priori el valor del parámetro y sobre la base de la información obtenida en una muestra se somete a prueba la suposición, para luego tomar con cierta probabilidad, la decisión de rechazar o no rechazar la hipótesis. En éste punto es importante señalar que la expresión “no rechazar” pudiera ser sustituida por “aceptar”, sin embargo antes de hacerlo es necesario atender cuidadosamente algunas explicaciones que se darán más adelante. La prueba de hipótesis también conocida como docimasia o contrastación de hipótesis es uno de los métodos estadísticos más usados en las ciencias naturales por ser un procedimiento que le proporciona al investigador un criterio objetivo para tomar decisiones con base a un número limitado de observaciones. Esta proposición que finalmente es aceptada o rechazada recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, ciencias de la salud, ciencias sociales, administración, economía, etc., pueden formularse como problemas de prueba de hipótesis.
1 DEFINICIONES BÁSICAS1 1.1. Hipótesis Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. 1.2. Hipótesis estadística Cualquier afirmación o conjetura que se hace a cerca de la distribución de una o más poblaciones Ejemplo: El promedio ponderado de los alumnos de UCCI en el semestre 2013-I es superior a 14. 1.3. Hipótesis simple Cualquier hipótesis estadística que especifica completamente la distribución de la población, especifica la forma de la distribución y el valor de su parámetro. Ejemplo: El ingreso mensual promedio de los empleados de cierta empresa es de 900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviación estándar de 30. 1.4. Hipótesis compuesta Cualquier hipótesis estadística que NO especifica completamente la distribución de la población Ejemplo: El ingreso mensual promedio de los empleados de cierta empresa es SUPERIOR a 900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviación estándar de 30. 1.5. Hipótesis nula (h0) Es la hipótesis que es aceptada provisionalmente como verdadera y cuya validez será sometida a comprobación 1.6. Hipótesis alternativa (h1) Es una hipótesis contraria a la hipótesis nula, se acepta en caso que la hipótesis nula sea rechazada. 1 Mario Triola. Estadística. 2009
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
Lecturas seleccionadas
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: Recordatorio - Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. - Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. - Cuando el valor del parámetro proviene de consideraciones externas tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. 1.7. Planteamiento de hipótesis Es importante tener en cuenta que el signo igual siempre debe ir vinculado a la hipótesis nula. 1) H0: θ = θ0
H1: θ ≠ θ0
2) H0: θ ≤ θ0
H1: θ > θ0
3) H0: θ ≥ θ0
H1: θ < θ0
Donde θ0 es el valor del parámetro desconocido θ 1.8. Prueba de hipótesis estadística Proceso para la toma de decisiones de aceptar o rechazar la Hipótesis Nula H0 en contraposición de la hipótesis alternativa H1 basándose en los resultados de una muestra. 1.9. Tipos de pruebas de hipótesis Depende de la hipótesis alternativa
Prueba de Hipótesis unilateral o Prueba de una cola
Prueba de Hipótesis Bilateral o Prueba de dos colas
H0: θ = θ0 y H1 : θ > θ0
H0: q = θ0 y H1 : q ≠ θ0
H0: θ = θ0 y H1 : θ < θ0
1.10. ERROR TIPO I Y II DECISIÓN
H0 VERDADERA
H0 FALSA
ACEPTAR H0
CORRECTO
ERROR TIPO II
1-a
b
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
45
46
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
RECHAZAR H0
Anotaciones
ERROR TIPO I
CORRECTO
a
(1-b)
Nivel de Significación (α) Es la probabilidad de cometer un error de tipo I α = P(error tipo I) α = P(rechazar H0 cuando es verdadera) Potencia de una Prueba Es la probabilidad de cometer un error de tipo II β = P(error tipo II) β = P(aceptar H0 cuando es falsa) 1.11. Regla de decisión Es la división de la distribución muestral del estadístico de la prueba en dos partes mutuamente excluyentes: Región Crítica (RC): región de rechazo de H0 Región de Aceptación (RA): región de no rechazo de H0 Depende de la hipótesis alternativa H1 del nivel de significación y la distribución muestral del estadístico Prueba de Hipótesis Bilateral o Prueba de dos colas. H0: θ = θ0 y H1 : θ ≠ θ0
Prueba de Hipótesis unilateral o Prueba de una cola. H0: θ = θ0 y H1 : θ < θ0
Prueba de Hipótesis unilateral o Prueba de una cola. H0: θ = θ0 y H1 : θ > θ0
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
1.12. Procedimiento de la prueba de hipótesis La prueba de hipótesis estadística consta del siguiente procedimiento: 1. Planteamiento de las hipótesis. Establezca la aseveración que desea ser probada y exprésela en forma simbólica, H0 y H1. El signo igual siempre debe ir vinculado con la H0. 2. Establecimiento del nivel de confianza. De acuerdo a la gravedad de cometer el error tipo I se establece el valor a. Es usual considerar los valores 0.05 y 0.01. Este valor nos permitirá calcular el valor crítico de la prueba que puede ser z, t o chi cuadrado. 3. Cálculo del estadístico de prueba. Se identifica el estadístico pertinente para la prueba realizada y su respectiva distribución, luego se realiza el cálculo del mismo al cual usualmente se le denomina valor calculado. Se realiza un gráfico de la distribución que incluya el valor crítico, el estadístico de prueba y las regiones de rechazo o crítica y de aceptación. 4. Establecimiento de la regla de decisión. Rechace la H0 si el estadístico de prueba se encuentra en la región de crítica o de rechazo. Acepte la H0 si el estadístico de prueba se encuentra en la región de aceptación. 5. Toma de decisión. Establezca la conclusión indicando si existe evidencia muestral suficiente para aceptar la H0 (EEEAH0) o los datos muestrales no sustentan la aseveración de la H0 por lo que no hay evidencia estadística para aceptar H0 (EEERH0) 2 Prueba de aseveración para la media Supongamos que de una población normal con media desconocida μ y varianza conocida s2 se extrae una muestra de tamaño n, entonces de la distribución de la media muestral X se obtiene la prueba estadística o estadístico:
Z=
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
X − µo ó X −µ t n −1 = s/ n σ/ n
Ejemplo 2 Fumar cigarros de la marca X produce en promedio 0.6 mg de nicotina. El departamento de ingeniería del fabricante propone un filtro nuevo que supuestamente reducirá la producción de nicotina. Se toma una muestra de 50 cigarros con el nuevo filtro y se encuentra que el promedio de nicotina es de 0.55 mg. Con una desviación estándar de 0.56. ¿Debe aceptarse la aseveración del departamento de ingeniería con un nivel de significación de 2.5 por ciento? Solución i) El parámetro de interés es la media de la población , se desea probar: H0: μ = 0.60 H1: μ < 0.60 Donde μ es la verdadera media de la nicotina producida por los cigarros de la marca X. La prueba es unilateral izquierda. ii) Como se conoce la desviación estándar muestral y el valor de n es 50 se utiliza el 2 Tomado de Estadística aplicada a la Administración y Economía, Alfredo Díaz Mata, Capítulo 9, pág. 279. Primera Edición.
Bibliografía
47
48
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
valor crítico z, el cual es al 0.025 acumulado desde la izquierda igual a -1.96.
iii) El estimador es z calculado: Z=
X − µo
σ/ n
0.5 − 0.60 Z= = −0.6313 0.56 / 50
iv) El valor calculado o estimador -0.6313 se encuentra a la derecha del valor crítico 1.96, o sea se encuentra en la región de aceptación. v) Por lo tanto existe evidencia estadística para aceptar la hipótesis nula y se concluye que los nuevos filtros no reducen la nicotina que producen los cigarros de la marca X. Ejemplo 3 Los científicos han citado al benceno, un disolvente químico de uso común en la síntesis de plásticos como un posible agente causante de cáncer. Ciertos estudios han demostrado que las personas que trabajan con benceno durante más de cinco años tienen una incidencia de leucemia 20 veces mayor que la de la población en general. En consecuencia el gobierno recomienda que el nivel máximo permisible de benceno en dicho lugar de trabajo se baje de 10 partes por millón (ppm) a 1 ppm. Supongamos que una fábrica de artículos de acero, que expone diariamente a sus trabajadores al benceno, está siendo investigada por una certificadora de calidad, para ello se examinan 20 muestras de aire tomadas durante un período de un mes para determinar el contenido de benceno, obteniendo en el análisis una media de 2.1 ppm y una desviación estándar de 1.7 ppm. ¿La fábrica de artículos de acero estaría haciendo caso omiso a la recomendación? Utilice un nivel de confianza del 0.95. Solución i) El parámetro de interés es la media de la población , se desea probar: H0:
µ =1
H1:
µ >1
La certificadora quiere corroborar la hipótesis de investigación de que el nivel medio de benceno en la planta de fabricación excede a 1 ppm. Donde es la verdadera media. La prueba es unilateral derecha. ii) El nivel de significancia es a=0.05, lo que nos permite calcular el valor crítico t (desviación estándar muestral conocida y n<30) y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral derecha.
3 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 441. Cuarta Edición.
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
iii) El estimador es t calculado:
t=
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
X − µo
s/ n
2.1 − 1 t= = 2.89 1.7 / 20
iv) El valor calculado t o estadístico de prueba 2.89 se encuentra a la derecha de 1.729 en la región crítica o de rechazo. Existe evidencia estadística para rechazar la Ho. v) La certificadora de calidad por lo tanto llega a la conclusión que >1 ppm y que la panta está violando las normas gubernamentales con una confiabilidad asociada de a=0.05. 3 Prueba de aseveración para la proporción Supongamos que de una población de tamaño N de la cual se obtiene una muestra de tamaño n, existen x elementos favorables a la característica que se está analizando. x . Siendo π el valor presente en la hipóEntonces la proporción muestral es: pˆ = tesis nula. n El estadístico de prueba es:
Z=
pˆ − π HIPOTESIS π HIPOTESIS (1 − π HIPOTESIS ) n
El tamaño de muestra de muestra debe ser lo suficientemente grande para que la prueba sea válida. Como regla práctica: npˆ ≥ 4, nqˆ ≥ 4 y pˆ + qˆ = 1 . Ejemplo 4
El empleo de acero intemperizado en la construcción de puentes para autopistas ha sido tema de considerable controversia. Los críticos han citado temas de corrosión graves del acero intemperizado y están tratando de convencer a las autoridades de que prohíban su uso en la construcción de puentes. Por otro lado las corporaciones acereras aseguran que estas acusaciones son exageradas y dicen que 95% de todos los puentes de acero intemperizado en operación tienen un buen desempeño, sin daños graves por corrosión. A fin de probar esta aseveración, un equipo de ingenieros expertos de la industria del acero evaluaron 40 puentes de acero intemperizado seleccionados al azar y encontraron que 36 de ellos mostraban un buen desempeño. ¿Hay pruebas con a=0.05 de que la verdadera proporción de puentes de acero intemperizado que presentan un buen desempeño sea menor que 0.95 que es la cifra citada por las corporaciones? Solución i) El parámetro de interés es una proporción de la población , se desea probar: H0: π = 0.95 H1: π < 0.95 Donde es la verdadera proporción de todos los puentes de autopista de acero intemperizado que muestran un buen desempeño, siendo la prueba unilateral izquierda. ii) El nivel de significancia es α=0.05, lo que nos permite calcular el valor crítico z y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral izquierda.
4 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 465. Cuarta Edición.
Bibliografía
49
50
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
iii) Anotaciones
54 x = 0.9 pˆ = , por lo que utilizando los datos del problema: pˆ = 60 n
iv) El estadístico de prueba es: Z=
pˆ − π HIPOTESIS π HIPOTESIS (1 − π HIPOTESIS ) n
Z=
0.9 − 0.95 = −1.78 0.95.(1 − 0.95) 60
v) Se puede rechazar la hipótesis nula con α=0.05, ya que el valor calculado o estimador -1.78 cae a la izquierda del -1.645 lo que indica que se encuentra en la región de rechazo. vi) Por lo tanto, existe evidencia estadística para sustentar la hipótesis de que la proporción de puentes de autopista de acero intemperizado que tienen buen desempeño es menor que 0.95. Ejemplo5 Un estudio realizado a fumadores que intentaban dejar el hábito con terapia de parches de nicotina reveló que 39 de ellos continuaban fumando un año después de iniciado el tratamiento y 32 habían dejado de fumar (según datos de "High-Dose Nicotine Patch Therapy", de Dale et al, Journal of the American Medical Association, vol. 274, núm. 17). Utilice un nivel de significancia de 0.10 para probar la aseveración de que, de los fumadores que intentaban dejar el cigarrillo, la mayoría continúa fumando un año después de iniciar el tratamiento. ¿Sugieren estos resultados que la terapia de parches de nicotina es ineficaz? Solución i) El parámetro de interés es una proporción de la población π , se desea probar: H0: π = 0.50 H1: π > 0.50 Donde es la verdadera proporción de todos los que continúan fumando un año después de iniciar el tratamiento, siendo la prueba unilateral derecha. ii) El nivel de significancia es α=0.1, lo que nos permite calcular el valor crítico z y ubicarlo en la gráfica:
iii)
x pˆ = , por lo que utilizando los datos del problema: n
pˆ =
39 = 0.5 39 + 32
iv) El estadístico de prueba es: Z=
Z=
pˆ − π HIPOTESIS π HIPOTESIS (1 − π HIPOTESIS ) n 0.5 − 0.5 = 0.84 0.5.(1 − 0.5) 71
v) El estadístico de prueba 0.84 cae a la izquierda del valor crítico 1.645 en la región de aceptación, por lo que existe evidencia estadística para aceptar la hipótesis nula. vi) Como el 50% o menos deja de fumar, la terapia de parches no es eficaz.
5 Tomado de Estadística, Mario Triola, Capítulo 8, pág. 416. 10° Edición.
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
4 Prueba de aseveración para la varianza
Lecturas seleccionadas
Supongamos que de una población de tamaño N de la cual se obtiene una muestra de tamaño n, existen x elemento
Recordatorio
Para aplicar una prueba de hipótesis relativa a la varianza de una población se debe asumir que la distribución Ji-cuadrada se da siempre y cuando se trate de poblaciones normales y el estadístico de prueba es la variable Ji-cuadrada con (n-1) grados de libertad y que se expresa como:
χ2 =
(n − 1)s 2 σ2
El proceso que sigue una prueba de hipótesis para la varianza es el mismo que utilizamos en las anteriores secciones, es muy usual aplicar esta prueba cuando se require comprobar el grado de variabilidad de un proceso. Ejemplo 6 Se sabe que el contenido en gramos de un producto fabricado por una compañía, no reúne las especificaciones si la varianza de un lote de producción se aleja demasiado hacia arriba o hacia debajo de 6.5. Comprobar si un gran lote de producción reúne las especificaciones, si una muestra aleatoria de 20 unidades extraída aleatoriamente de dicho lote arrojó una varianza de 7.3. Utilizar un nivel de significación del 5%. Se sabe que el contenido del producto se distribuye normalmente. Solución i) H0 :
2
= 6.5
Hα :
2
6.5
ii) La prueba es bilateral con un nivel de significación: cuadrado es:
= 0.05, el valor crítico ji-
iii) El criterio de decisión será el siguiente: “Si el valor de 2 calculado es menor que 8.90652 o mayor que 32.8523, se rechaza la hipótesis nula de que la varianza sigue siendo de 6.5, con un nivel de significación del 5%”. iv) El estadístico de prueba se calcula teniendo en cuenta n=20, s2=7.3 y utilizando la fórmula:
χ2 =
(n − 1) s 2
σ2
=
(20 − 1).x7.3 = 21.34 6.5
v) Como el estadístico de prueba 21.34 se encuentra en la región de confianza o de aceptación. Entonces con podemos afirmar con un nivel de significancia del 5% que existe evidencia estadística para aceptar que la varianza del contenido del producto es el mismo. Ejemplo 7 Un supervisor de control de calidad en una enlatadora sabe que la cantidad exacta contenida en cada lata varía, pues hay ciertos factores imposibles de controlar que afectan la cantidad de llenado. El llenado medio por lata es importante pero igualmente importante es la variación 2 de la cantidad de llenado. Si 2 es grande, algunas latas contendrán muy poco y otras, demasiado. Las agencias reguladoras especifican que la desviación estándar de la cantidad de llenado debe ser menor que 0.1 onzas. El supervisor de control de calidad muestreó n=10 latas y midió la cantidad de llenado en cada una. Los datos se reproducen a continuación.
6 Tomado de Estadística, Hugo Gómez Giraldo, Capítulo 8, pág. 238. 7 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 474. Cuarta Edición.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
51
52
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
7.96 7.9 7.98 8.01 7.97 7.96 8.03 8.02 8.04 8.02
Anotaciones
¿Esta información proporciona con un nivel de significancia del 0.05 pruebas suficientes de que la desviación estándar de las mediciones de llenado es menor que 0.1 onzas? Solución i) H0 : Ha :
2 2
= 0.1
< 0.1
ii) La prueba es unilateral izquierda, con α = 0.05, por lo que el valor crítico es: iii) El estadístico de prueba se calcula utilizando la desviación estándar de la muestra s=0.043 y n=10.
χ2 =
(n − 1) s 2
σ2
=
(10 − 1) x 0.043 2 = 1.6 0.12
iv) Como el estadístico de prueba 1.66 es menor que 3.325 y cae en la región de rechazo, existe evidencia estadística para rechazar la hipótesis nula. Entonces el supervisor puede llegar a la conclusión con un nivel de significación del 0.05 de que la varianza de la población de todas las cantidades de llenado es menor que 0.01, o sea <0.1.
TEMA N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS 1 INFERENCIA ACERCA DE DOS MEDIAS, PROPORCIONES PARA MUESTRAS INDEPENDIENTES. (Triola, 2009) En la práctica, se presenta una diversidad de problemas en la industria y en las ciencias sociales que nos sugieren confrontar cual de dos procesos es mejor que el otro a la luz de la media que arroja cada uno de ellos. Se nos podría ocurrir por ejemplo: a) verificar si el consumo de gasolina entre dos marcas de vehículos se puede considerar idéntico o por el contrario una marca es más económica que otra, b) Verificar si los salarios de la industria metalúrgica se pueden considerar o no superiores a los salarios de la industria textil en una región, c) Verificar si el contenido de determinada sustancia en una artículo fabricado por una compañía A es inferior o no al contenido de dicha sustancia en el mismo artículo fabricado por una compañía B de la competencia. etc. En cuanto a la distribución en el muestreo de la diferencia de medias, recordemos los siguientes tres casos: - Si las dos poblaciones son normales, las diferencias de las medias muestrales también se distribuirán normalmente cualquiera sea el tamaño de las muestras. No obstante, si no se conocen las desviaciones estándar poblacionales ( 1 y 2), éstas pueden ser remplazadas por la desviaciones estándar de las muestras (s1 y s2), si los tamaños de las muestras son mayores que 30 (n1 >30 y n2 >30 o n1 +n2 >60). - Según el teorema central del límite, si las dos poblaciones no son normales o no sabemos si se cumple o no éste comportamiento, las diferencias de las medias muestrales se distribuirán aproximadamente como una distribución normal, si los tamaños de las muestras son mayores que 30 (n1 >30 y n2 >30 o n1 +n2 >60) - Si las dos poblaciones son normales o están muy cerca de éste comportamiento
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
Lecturas seleccionadas
y por otra parte no conocemos la desviaciones estándar poblacionales y además los tamaños de las muestras son menores que 30 (n1 <30 y n2 <30 o n1 +n2 <60), entonces, las diferencias de las medias muestrales se distribuirán de acuerdo a la ley t-student. Recordatorio Con el fin de resolver las pruebas de hipótesis para la diferencia de medias, debemos tener en cuenta el mismo procedimiento y las mismas reglas que seguimos para las pruebas de hipótesis para la media. 1.1 Inferencia acerca de dos medias Es la división de la distribución muestral del estadístico de la prueba en dos partes mutuamente excluyentes: Cuadro N° 11: ESTADÍSTICOS PARA DOS MEDIAS. PRUEBA
ESTADÍSTICO
μ1 – μ2 = d0 1
y
2
z=
conocidas
μ1 – μ2 = d0 1=
t=
2 desconocidas
(x 1 − x 2 ) − d 0 σ 12 σ 22 + n1 n 2
( x1 − x 2 ) − d 0 sp
1 1 + n1 n2
s 2p =
(n 1 − 1)s 12 + (n 2 − 1)s 22 n1 + n 2 − 2
Ejemplo Una compañía de transportes requiere comprar un gran lote de buses para el transporte urbano con el fin de reemplazar su parque automotor y para tal fin desea comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma una muestra aleatoria de 35 vehículos marca A y encuentra que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar de 8 kilómetros/galón, mientras que una muestra de 32 vehículos marca B presenta un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros / galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de significación del 5%? Solución i) Las desviaciones estándar se asumen conocidas puesto que los tamaños de muestra son mayores que 30; por lo cual según el teorema central del límite, las diferencias de las medias muestrales, se distribuirán aproximadamente como una distribución normal. ii) H0 : μ A -- μ B = 0 Ha : μ A -- μ B = < 0 La prueba es unilateral a la izquierda. iii) El nivel de significancia es 0.05 por lo que z=1.645. iv) El criterio de decisión será el siguiente: “Si el valor de z calculado es menor que –1.64 se rechaza la hipótesis nula de que el rendimiento en ambas marcas es igual” v) Para calcular el estadístico de prueba se tiene: nA =35; =18; SA =8; nB =32; =22 y SB =3.
z=
(x 1 − x 2 ) − d 0 σ12 σ 22 + n1 n 2
=-2.75
vi) Como el valor de z calculado (-2.75) se encuentra en la zona de rechazo, entonces, con un nivel de significación del 5%, debemos rechazar la hipótesis nula de que el ahorro en ambas marcas es igual y en éstas condiciones debemos aceptar la hipótesis alternativa de que la marca A es menos ahorradora de combustible que la marca B.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
53
54
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
Ejemplo
Anotaciones
Una compañía de transportes requiere comprar un gran lote de buses para el transporte urbano con el fin de reemplazar su parque automotor y para tal fin desea comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma una muestra aleatoria de 13 vehículos marca A y encuentra que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar de 8 kilómetros/galón, mientras que una muestra de 15 vehículos marca B presenta un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros / galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de significación del 1%? Solución i) Se sabe que las poblaciones se distribuyen aproximadamente a la ley normal, pero ambos tamaños de muestran son menores que 30 y no se conocen las desviaciones estándar poblacionales; por lo cual, las diferencias de las medias muestrales, se distribuirán según a la ley t-student. ii) H0 : μ A -- μ B = 0 Ha : μ A -- μ B = < 0 La prueba es unilateral a la izquierda. iii) Nivel de significación: α = 0.01, por lo que el valor crítico t con 26 grados de libertad es -2.479. iii) El criterio de decisión será el siguiente: “Si el valor de t calculado es menor que –2.479, se rechaza la hipótesis nula de que el rendimiento en ambas marcas es igual”. iv) Para calcular el estadístico de prueba se tiene: nA =13; =18; SA =8; nB =15; =22 y SB =3.
sp =
( x1 − x 2 ) − d 0 (n1 − 1) s1 + (n2 − 1) s 2 = −1.80 = 5.86 y t = 1 1 n1 + n2 − 2 sp + n1 n2
v) Como el valor de t calculado (-1.80) se encuentra en la zona de aceptación, entonces, con un nivel de significación del 1%, debemos aceptar la hipótesis nula de que el ahorro en ambas marcas es igual y en éstas condiciones debemos rechazar la hipótesis alternativa de que el rendimiento es menor en la marca A que en la marca B. Ejercicio El jefe de personal de una gran empresa afirma que la diferencia de los promedios de antigüedad entre los obreras y obreros de la compañía es de 3.5 años. El presidente de la compañía considera que ésta diferencia es superior. Para comprobar dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45 obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7 años. Comprobar la hipótesis con un nivel de significación del 5%. Ejercicio Se está investigando la resistencia de dos alambres, con la siguiente información de muestra. Alambre
1
Resistencia (ohms)
0.140
0.141
0.139
0.140
0.138
0.144
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
2
0.135
0.138
0.140
0.139
-
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
-
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse respecto a la resistencia media de los alambres? Ejercicio Se están investigando dos métodos para producir gasolina a partir de petróleo crudo. Se supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes datos de rendimiento se han obtenido de la planta piloto. Proceso
Rendimiento %
1
24.2
26.6
25.7
24.8
25.9
26.5
2
21.0
22.1
21.8
20.9
22.4
22.0
¿Hay alguna razón para creer que el proceso 1 tiene un rendimiento medio mayor? 1.2 Inferencia acerca de dos proporciones Cuadro N°12: ESTADÍSTICO DOS PROPORCIONES PRUEBA p1= p2
ESTADÍSTICO z=
(pˆ 1 − pˆ 2 ) 1 1 pˆqˆ + n1 n 2
y p ˆ=
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
x1 + x 2 n1 + n 2
Ejemplo Una compañía asegura que el mercado para su producto X tiene una aceptación de iguales proporciones en la ciudad A que en la ciudad B. Un especialista en mercado pone en duda dicha afirmación y para tal fin tomó una muestra aleatoria de 500 amas de casa en la ciudad A y encontró que el 59.6% de las mismas prefería el artículo X. Por otra parte tomó una muestra aleatoria de 300 amas de casa en la ciudad B y encontró que el 50% de las mismas preferían el artículo X. ¿Existe una diferencia real entre las dos ciudades? Nivel de significación 5% Solución i) H0 : PA =PB , Ha : PA ≠ PB; La prueba es bilateral, puesto que el especialista en mercado no está afirmando que ciudad tiene más proporción que la otra. ii) Nivel de significación = 0.05, por lo que z=±1.96 iii) Como las diferencias de las proporciones muestrales se distribuyen normalmente y la prueba es bilateral entonces el criterio de decisión será “Si el valor z es mayor que 1.96 o menor que -1.96 se rechaza la hipótesis nula de que la proporción es idéntica en ambas ciudades”. iv) Con los datos n1 =500, p1 =0.596, n2=300, p2 =0.50 se puede calcular el estadístico de prueba:
Bibliografía
55
56
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
x1=0.956x500 ; x2=0.5x300
x + x2 pˆ = 1 = 0.56; =0.44 y n1 + n2
Anotaciones
z=
( pˆ 1 − pˆ 2 ) 1 1 pˆ qˆ + =2.56 n n 2 1
iv) Como el valor de Z calculado (+2.65) se encuentra en la zona de rechazo, entonces, con un nivel de significación del 5%, debemos rechazar la hipótesis nula de que las proporciones en ambas ciudades son iguales.
Ejercicio La fracción de productos defectuosos producidos por dos líneas de producción se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿Es razonable concluir que la línea de producción 2 produce una fracción más alta de producto defectuoso que la línea 1? Use
α = 0.01
2 Inferencia a partir de datos pareados Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de comparación. En una prueba de comparación pareada, la reducción en la variabilidad experimental puede permitir la detección de pequeños movimientos en los datos. A pesar de que los grados de libertad sean reducidos, porque ahora el tamaño de muestra corresponde al número de comparaciones. Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo de inspección para determinar si existe alguna diferencia significativa entre los equipos. Las hipótesis de prueba en torno a la igualdad µ1 y µ 2 pueden realizarse efectuando una prueba t de una muestra en µ D . Específicamente, probar H : µ = µ 0 1 2 contra H : µ ≠ µ es equivalente a probar: 1
1
2
H0 : µD = 0 H1 : µ D ≠ µ0
La estadística de prueba apropiada es: t 0 Dónde: D
=
∑D n
j
y SD =
(D
j
=
D SD
n
− D)
2
n −1
Rechazaríamos H 0 : µ D = 0 si t 0 > tα 2 , n −1 o si de un lado se tratarían de manera similar.
t 0 < −tα 2,n −1 . Las alternativas
Ejemplo Un fabricante desea comparar el proceso de armado común para uno de sus productos con un método propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho trabajadores de la planta de armado y se les pidió que armaran las unidades con ambos procesos. Los siguientes son los tiempos observados en minutos. Cuadro N° 13: TIEMPOS OBSERVADOS EN MINUTOS. trabajador
proceso actual
proceso PROPUESTO
1
38
30
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
2
32
32
3
41
34
4
35
37
5
42
35
6
32
26
7
45
38
8
37
32
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
En α = 0.05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso actual es mayor que el del método propuesto por más de dos minutos? Solución i) Las hipótesis so:
H 0 : µ D = 2 H1 : µ D > 2
ii) Calculando las diferencias: trabajador
proceso actual
proceso PROPUESTO
Dj
(Dj-d)^2
1
38
30
8
10.5625
2
32
32
0
22.5625
3
41
34
7
5.0625
4
35
37
-2
45.5625
5
42
35
7
5.0625
6
32
26
6
1.5625
7
45
38
7
5.0625
8
37
32
5
0.0625
4.75
95.5
iii) D =
∑D n
j
= 4.75 y S D =
(D
j
− D)
2
n −1
iv) El estadístico de prueba sería: t 0 =
= 3.69
D SD
n
=
4.75 − 2 = 2.107 3 .69 8
v) Finalmente, tα ,n −1 = t .05, 7 = 1.895 , debido a que 2.107 > 1.895 rechazamos H0, y aceptamos la H1: el tiempo de armado para el proceso actual es mayor en dos minutos que el método propuesto. 3 Comparación de la variación de dos muestras. Supóngase que son dos las poblaciones de interés, por ejemplo X1 y X2, donde µ1,σ 12 , µ 2 , σ 22 , se desconocen. Deseamos probar hipótesis relativas a la igualdad
de las dos varianzas, H 0 : σ 12 = σ 22 . Considérese que se disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño n2 de la población 2, y sean S12 yS 22 las varianzas de muestra. Para probar la alternativa de dos lados:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22 S2 Utilizamos el hecho de que la estadística F0 = 12 se distribuye como F, con n1-1 y S2 n2 –1 grados de libertad.
> Fα 2,n1 −1,n2 −1 o si F0 < F1−α 2,n1 −1,n2 −1 y F1−α 2 , n1 −1, n2 −1son los puntos porcentuales superior e infe-
Rechazaríamos H0 si F0
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Donde Fα 2 , n1 −1, n2 −1 rior de la distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona
Bibliografía
57
58
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
sólo los puntos de la cola superior de F, por lo que para determinar debemos emplear
Anotaciones
F1−α 2,n1 −1,n2 −1
1
F1−α 2,n1 −1,n2 −1
= Fα 2,n1 −1,n2 −1 .
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un lado. La hipótesis alternativa de un lado es:
H 0 : σ 12 = σ 22
H 1 : σ 12 > σ 22 Si
F0 > Fα ,n1 −1,n2 −1
, rechazaríamos H 0 : σ 1 = σ 2 . 2
2
Ejemplo Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos tipos diferentes.
1
63
81
57
66
82
82
68
59
75
73
2
64
72
83
59
65
56
63
74
82
82
Pruebe la hipótesis de que las dos varianzas sean iguales. Use Solución i)
α = .05
H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22
ii) Nivel de significancia
α = 0.05
y como n1=10 y n2=10, el valor Fα 2 , n1 −1, n2 −1 = F0,25,9,9= 4.03. Del mismo modo: F1−α
2 , n1 −1, n2 −1
=0.248
iii) La región de confianza está dada por [0.248; 4.03]. Si el F calculado cae fuera del intervalo dado entonces se rechaza la hipótesis nula. iv) Con los datos:
X 1 = 70.6 X 2 = 70
S12 = 88.71 S 22 = 100.44 Calculamos
F0 =
S12 S 22
88.71
= 100.44
= 0.877
v) Como F calculado cae dentro del intervalo dado por la región de confianza o zona de aceptación, entonces se acepta que las varianzas son iguales.
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
Lecturas seleccionadas
TEMA N° 3: ANÁLISIS DE VARIANZA
Cuando se requiere hacer inferencias acerca de las medias de distintas poblaciones a partir del análisis de las muestras de ellas, se aplica un estudio denominado AnálisisRecordatorio de Varianza (ANOVA). En un ANOVA (Mata, 2013) se aplican tratamientos a entidades denominadas unidades experimentales. El atributo de las entidades que se desea medir recibe el nombre de factor. En dicho estudio puede aplicarse modelos de efectos fijos o aleatorios. En un modelo de efectos fijos, se seleccionan tratamientos específicos o se fijan antes del estudio (determinísticamente). En un modelo de efectos aleatorios, los tratamientos utilizados en el estudio se seleccionan aleatoriamente. Estas técnicas se pueden utilizar en muchos campos tales como: - Un gerente de compras de un supermercado puede interesarse en comparar la durabilidad de ciertas baterías en el almacén de 3 o más proveedores. - Un gerente de producción puede analizar el rendimiento de tres o más procesos para determinar si hay diferencia entre ellos. - Un analista financiero desea saber si hay diferencias en el margen de operación de diversas empresas. Ejemplo8 Una pequeña empresa que elabora botanas (papas fritas, cacahuates, etc.) tiene 4 rutas para el reparto de sus productos dentro de la ciudad. Para cubrir estas rutas tiene 4 conductores básicos y uno complementario, el conductor complementario sirve para cubrir las ausencias o vacaciones o enfermedad de los otros 4 y se le ocupa para otros menesteres si no se le requiere como conductor. El puesto de conductor complementario se rota entre todos los choferes sobre una misma base mensual. Es importante tanto desde el punto de vista de eficiencia, como de justicia, que todas las rutas tengan la misma duración, también es importante que todos los conductores sean igualmente eficientes en todas las rutas para que los conductores puedan sustituirse el uno al otro sin pérdida de tiempo, por ello la gerencia de distribución implementó un programa de capacitación para que los conductores se familiaricen con todas las rutas. Al cabo de esta capacitación se hicieron recorridos de prueba con el objetivo de investigar, por una parte, si todas las rutas se recorrían en el mismo tiempo y por otra parte si los conductores eran igualmente eficientes en todas. La gerencia de distribución desea saber si el tiempo medio de las cuatro rutas es igual y si la eficiencia de todos los conductores en las rutas es igual. La información de los recorridos y los conductores se da a continuación: Cuadro N°14: Conductores vs Recorridos. Conductor/Ruta
Ruta A
Ruta b
Ruta c
Ruta d
Antúnez
224
227
237
248
Becerra
242
235
262
250
Cervantes
225
240
235
261
Dominguez
232
253
259
255
Escamilla
232
245
257
261
En este ejemplo se tienen datos se clasifican de acuerdo con dos variables: el conductor y la ruta que son, entonces, los 2 factores. Aquí las hipótesis que se prueban son: Para las rutas: Ho:
µ A = µ B = µC = µ D
H1: Por lo menos una de las medias poblacionales de los tratamientos no es igual las otras. 8 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFRED DÍAZ MATA, CAPÍTULO 12, PÁG. 347.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
59
60
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
En donde las diferentes medias son las medias de las 4 rutas. Para los conductores: Anotaciones
Ho:
µ1 = µ 2 = µ 3 = µ 4
H1: Por lo menos una de las medias poblacionales de los bloques (conductores) no es igual las otras. En donde las diferentes medias son las medias de los 5 conductores. En este ejemplo, el tratamiento son las diferentes rutas y a la variable del conductor, cuyos datos están en los renglones, se le conoce como grupos, a su vez, tratamientos y grupos son los dos factores a los que se refiere el nombre de esta técnica de análisis de varianza de dos factores. Un detalle que vale la pena tener presente respecto a este ANOVA de 2 factores es que se tiene un solo dato para cada conductor y para cada ruta, ya que el análisis de varianza de este par de factores, se refiere también a conjuntos de datos clasificados de acuerdo con 2 variables, pero en este caso, con cuando menos 2 observaciones para cada par de factores. SUPUESTOS DE UN ESTUDIO ANOVA Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son: -
Las poblaciones son normales.
-
Las varianzas poblacionales son iguales
- Las muestras están seleccionadas independientemente.
1 Anova de un factor. Como el ANOVA de un criterio es una generalización de la prueba de t para dos muestras, los supuestos para el ANOVA de un criterio son: - Todas las poblaciones k son normales. -
σ 12 = σ 22 = σ 32 = ..... = σ k2 (= σ 2 )
El método de ANOVA con un criterio o factor requiere del cálculo de dos estimaciones independientes para 2
σ2 2
, la varianza poblacional común. Estas dos estima2
ciones se denotan por s b y s w . s b se denomina estimación de la varianza entre muestras y se denomina estimación de la varianza al interior de las muestras. El es-
sb2 F= 2 tadístico tiene una distribución muestral resultando: sw
. El valor crítico para
la prueba F es: Fα ( k − 1, k ( n − 1) , donde el número de grados de libertad para el
numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia siendo k = número de muestras. PROCEDIMIENTO9 1. Determinar si las muestras provienen de poblaciones normales. 2. Proponer las hipótesis. 3. Encontrar las medias poblacionales y las varianzas. 4. Encontrar la estimación de la varianza al interior de las muestras y sus grados de libertad asociados glw. 5. Calcular la gran media para la muestra de las medias muéstrales. 6. Determinar la estimación de la varianza entre muestras y sus grados de libertad asociados.
9
Tomado de Estadística. Richard C.Weimer. CECSA. Segunda Edición.2000
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
7. Hallar el valor del estadístico de la prueba F.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
8. Calcular el valor crítico para F basado en glb y glw. 9. Decidir si se rechaza H0. Para ello se utilizan las siguientes fórmulas: Suma de cuadrados total (SST o SCT)
Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr) r
SCTR = ∑ rj ( X j − X ) 2 j =1
Suma de cuadrados del error (SSE o SCE) r
SCE = ∑ i =1
c
∑(X j =1
ij
− X j )2
O también SCE = SCT – SCTr Grados de libertad Gl. Totales = n – 1 Gl. Tratamientos = c -1 Gl. Error = n – c Cuadrados medios (MS o CM) PCT = SCT / Gl. SCT PCTr = SCTr / Gl. SCTr PCE = SCE / Gl. SCE Estadístico calculado Fc Fcalculado = PCTr / PCE Regla de decisión Si Fcalculado es mayor al Fcrítico se rechaza Ho indicando que los efectos de los diferentes niveles del factor tienen efecto significativo en la respuesta. La tabla de ANOVA final queda como sigue: Cuadro N°15: Tabla ANOVA GRADOS DE
CUADRADO
CUADRADOS
LIBERTAD
MEDIO
Entre muestras (tratam.)
SCTR
c-1
PCTR
Dentro de muestras (error)
SCE
n-c
PCE
Variación total
SCT
n-1
PCT
FUENTE DE VARIACIÓN
SUMA DE
VALOR F PCTR/PCE
Regla: No rechazar si la F de la muestra es menor que la F crítico para cierto nivel de significancia.
Bibliografía
61
62
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
Ejemplo10
Anotaciones
Una empresa ensambla cuadros para un solo modelo de bicicleta. La planta trabaja 3 turnos: el matutino, el vespertino y el nocturno. Los trabajadores se rotan cada uno de los turnos, por lo que, al cabo de un trimestre, todos ellos laboraron los tres turnos. El director de producción quisiera saber si existe diferencia entre la producción promedio de los 3 turnos, ya que la fábrica trabaja a plena capacidad desde hace más de un año y no hay variaciones significativas en el número de empleados, en la maquinaria, ni en los procesos productivos; el director considera que con un análisis de varianza puede contestar esta pregunta; para ello obtiene una muestra aleatoria de la producción de 6 días de cada turno. Los datos se muestran a continuación: TURNO MATUTINO
VESPERTINO
NOCTURNO
129
138
118
141
142
120
128
140
132
145
149
118
135
129
136
144
148
138
Solución i) Las hipótesis son: Ho:
µ1 = µ 2 = µ 3
H1: Por lo menos una de las medias poblacionales de los bloques (conductores) no es igual las otras. ii) X 1 = 137; X 2 = 141; X 3 = 127 , siendo la media global
X Global =
129 + 141 + ... + 138 = 135 18
iii) Se obtiene la suma de cuadrados totales:
SCT = (129 − 135) 2 + ... + (144 − 135) 2 + (138 − 135) 2 + ... + (148 − 135) 2 + (118 − 135) 2 + ... + (138 − 135) 2 SCT=1608 iv) Se obtiene la suma de cuadrados de las variaciones entre los tratamientos:
SCTR = 6(137 − 135) 2 + 6(141 − 135) 2 + 6(127 − 135) 2 = 624 v) Se obtiene la suma de cuadrados de la variación aleatoria también llamada suma de cuadrados del error, y es la variación dentro del tratamiento.
SCE = (129 − 137) 2 + ... + (144 − 137) 2 + (138 − 141) 2 + ... + (118 − 127) 2 + ... + (138 − 127) 2 = 984 Aquí es importante resaltar el modelo en el que se basa el diseño completamente aleatorizado de un factor que se ilustra con el ejemplo. vi) Con las sumas encontradas hasta aquí se puede verificar la igualdad:
SCT = SCTR + SCE 1608 = 624 + 984 vii) Se obtiene el promedio de los cuadrados entre tratamientos PCTR, para ello se divide SCTR entre los grados de libertad de los tratamientos gtratamientos . Éste es el primer promedio de cuadrados (varianza). 10 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFRED DÍAZ MATA, CAPÍTULO 12, PÁG. 349
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
PCTR =
624 = 312 2
Lecturas seleccionadas
viii) Se obtienen la media de los cuadrados del error PCE, para ello se divide SCE Recordatorio entre los grados de libertad totales gtotales. Éste es el segundo promedio de cuadrados.
PCE =
984 = 65.6 18 − 3
ix) Se obtiene el valor empírico de F, o sea el F calculado, que es el cociente de estos dos últimos promedios de cuadrados.
FCalculado =
PCTR 312 = = 4.76 PCE 65.6
x) El valor F crítico se busca en la tabla correspondiente a la distribución F, para el nivel de significancia correspondiente 0.05 con 2 grados de libertad para el numerador y 15 grados de libertad y 15 grados de libertad para el denominador.
Fcrítico = 3.68
xi) La regla de decisión; se rechaza la Ho si el Fcalculado es mayor que el Fcrítico. Por lo tanto como 4.76 es mayor que 3.68 rechazamos la hipótesis nula y concluimos que por lo menos una de las medias no es igual a las otras. Para el director de producción de la fábrica la conclusión indica que no todos los turnos trabajan igual, sino que existen diferencias entre ellos. La misma serie de datos trabajada en el Excel arroja lo siguiente:
Haciendo click en Análisis de datos, luego en Análisis de Varianza de un factor y seleccionando las celdas donde se encuentra la serie de datos se tiene:
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
63
64
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
Donde encontramos el valor calculado y valor crítico para tomar la misma decisión. Ejercicio11 Se diseñaron 4 tipos diferentes de examen para evaluar el aprovechamiento en un curso de capacitación y, para probar si existen diferencias significativas en el diseño de los exámenes se eligió un conjunto de 40 trabajadores en capacitación y se les asignó uno de los 4 exámenes al azar, los tratamientos. Los resultados se muestran a continuación y se incluyen los promedios de cada tratamiento:
EXÁMENES A
B
C
D
71
84
79
92
72
94
92
70
80
77
73
74
70
84
86
70
85
96
82
74
77
84
98
85
79
86
98
70
95
99
82
75
63
96
91
62
80
86
64
90
77.2
88.6
84.5
76.2
PROMEDIO Como los exámenes se asignaron aleatoriamente a los trabajadores, se pensaría que las diferencias entre los promedios de las calificaciones en los 4 subconjuntos se deben a diferencias entre los propios exámenes, salvo diferencias aleatorias o errores normales de muestreo que en este caso pueden deberse a diferencias personales entre los examinados. Verifique Ud si hay diferencias entre las medias de los 4 exámenes. 2 ANOVA de dos factores Cuando en un experimento, dos factores pueden influenciar las unidades experimentales, se usa un análisis de varianza de dos vías denominado diseño de bloque 11 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFREDO DÍAZ MATA, CAPÍTULO 12, PÁG. 350
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
aleatorizado, en el cual se comparan k tratamientos ubicados en columnas con bloques que se basan en un factor ubicado en r filas. Cuadro N°16: ANOVA DOS FACTORES TRATAMIENTOS
A
1
2
3
MEDIAS (HORIZONTAL)
BLOQUES
1 2 3 MEDIAS (VERTICAL)
MEDIA GLOBAL
En este caso la desviación cuadrática total puede ser desdoblada en tres sumandos debido a razones intergrupales (por efectos del tratamiento) simbolizada como DCT, en un sumando debido a razones intergrupales (por efectos de errores aleatorios) DCE y en otro sumando debido a razones de bloque DCbloque. La desviación cuadrática intrabloque DCbloque es similar a la desviación cuadrática de los tratamientos sólo que en vez de trabajar a nivel de los términos de una fila, se trabaja a nivel de los términos de una columna. De manera análoga, el cuadrado medio intrabloque es similar al cuadrado medio intragrupo sólo que en vez de trabajar a nivel de los términos de una fila se hace a nivel de los términos de una columna. El cuadrado medio de los errores se define como: CME = Se generan entonces las siguientes razones:
Ftrat =
CMtrat CMerr
Fbloques = Fcalculado = y
El criterio de decisión es: si hipótesis nula.
DCE
(r − 1)(k − 1) CMbloque CMerr
Fcalculado < Fα ,k −1,( k −1)( r −1)
, no rechazar la
Ejemplo La tabla que se presenta a continuación corresponde a una muestra aleatoria del proceso de producción de una empresa metal mecánica que registra la producción obtenida durante cinco días consecutivos. Los bloques corresponden a los cinco días de la semana y los tratamientos a la producción en unidades físicas obtenidas de cada máquina. Para un nivel de significancia del 5% se requiere determinar si las diferencias entre la producción de las máquinas son significativas. DIAS
MÁQUINAS
DIAS
Prof. 1
2
3
4
1
30
31
32
33
2
30
35
34
36
3
28
32
35
37
4
29
36
37
35
5
30
34
34
33
Solución i) La solución la realizaremos íntegramente utilizando el Excel, para ello copiamos la tabla dada a una hoja de Excel, vamos a Datos…Análisis de Datos…y Análisis de Varianza de dos factores con una sola muestra por grupo. ii)
Bibliografía
65
66
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
iii) Luego:
Se observa que Fcalculado=12,89895 el cual es mayor que el por lo que se rechaza la hipótesis nula y se concluye que la producción media de las máquinas tienen diferencias significativas. Ejercicio El Jefe de Departamento de la universidad está desarrollando un programa de evaluación de docentes que debe ser efectuado por los alumnos. Para estos efectos se seleccionó aleatoriamente a 5 alumnos de un salón de clases y se pidió que evalúen a sus cuatro profesores del ciclo que está a punto de concluir. La calificación de los docentes sobre un escala vigesimal se presenta en el siguiente cuadro:
DIAS
TRATAMIENTO
ALUMNOS
Prof. 1
Prof. 2
Prof. 3
Prof. 4
1
13.2
15.0
18.6
15.8
2
12.1
13.2
17.5
15.1
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
3
9.3
9,6
15.2
10.2
4
12.8
16.1
19.1
16.2
5
11.7
10.9
16.2
10.3
Diagrama
Objetivos
Inicio
Desarrollo de contenidos
Actividades
Autoevaluación
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Efectúe un estudio ANOVA e interprete los resultados. Considere un nivel de significancia del 0.05.
LECTURA SELECCIONADA N° 1 Lecturas seleccionadas
Glosario
Bibliografía
LA PARADOJA DEL CUMPLEAÑOS ¿Cómo dirías que es la probabilidad de que en un grupo de 23 personas dos de ellas Recordatorio Anotaciones celebren su cumpleaños el mismo día? Pues ahora calcúlala. ¿Coincide tu intuición con lo que dicen las matemáticas? La paradoja del cumpleaños establece que si hay 23 personas reunidas hay una probabilidad del 50,7% de que al menos dos personas de ellas cumplan años el mismo día. Para 60 o más personas la probabilidad es mayor del 99%. Obviamente es casi del 100% para 366 personas (teniendo en cuenta los años bisiestos). En sentido estricto esto no es una paradoja ya que no es una contradicción lógica; es una paradoja en el sentido que es una verdad matemática que contradice la común intuición. Cuando se propone este problema por primera vez y se pide una estimación sobre el tamaño mínimo que debería tener un grupo para que sea más probable que improbable que dos personas compartan el día del cumpleaños, la mayoría de las personas se equivoca por completo. La respuesta intuitiva que se da a menudo es 183, es decir 365 dividido entre dos. La cantidad correcta no es algo a lo que la gente pueda llegar fácilmente y, ciertamente, no por intuición. Es bastante extraño que las primeras estimaciones sean inferiores a 40. Y sin embargo la respuesta es 23. La clave para entender estas "sorprendentes" recurrencias es pensar que hay muchas posibilidades de encontrar parejas que cumplan años el mismo día. Un análisis superficial asume que 23 días (cumpleaños de las 23 personas) es una fracción demasiado pequeña del posible número de días distintos (365) para esperar repeticiones. Y así sería si esperáramos la repetición de un día dado. Pero las repeticiones, en el caso supuesto, pueden darse entre dos días cualesquiera, con lo que éstas pueden combinarse entre sí de un número de formas que aumenta rápidamente con el número de elementos a considerar. Así: • Entre dos personas C1 y C2 sólo cabe una posibilidad de repetición de cumpleaños: Cl=C2. •
Con tres ya hay tres posibilidades (Cl=C2; Cl=C3; C2=C3)
•
Con cuatro ya habría seis, (4x3)/2=6
•
Con un grupo de 10 personas, (10x9)/2=45 posibilidades
• Con 23 personas, hay (23×22)/2 = 253 parejas distintas, cada uno de ellas es una candidata potencial para cumplir la paradoja • Y así sucesivamente, en uno de 40, ya son 780 las parejas, y 1770 si juntamos 60 personas. No hay que malinterpretar lo que nos dice esta paradoja: Si entramos en una habitación con 22 personas, la probabilidad de que cualquiera cumpla años el mismo día que usted, no es del 50%, es mucho más baja, sólo hay un 6% de probabilidades. Esto es debido a que ahora sólo hay 22 parejas posible y se necesitan 253 personas para que haya más de un 50% de probabilidades de que esto ocurra. El problema real de la paradoja del cumpleaños consiste en preguntar si el cumpleaños de cualquiera de las 23 personas coincide con el cumpleaños de alguna de las otras personas. Ejemplos de coincidencias •
En los jugadores del Osasuna (liga 2005/06) hay coincidencias de cumpleaños
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
67
68
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
• De un total de sólo 19 monarcas españoles desde los reyes Católicos, coinciden Carlos II con Carlos IV (11 de noviembre) y José I con Juan Carlos I (5 de enero). • De los 40 presidentes de USA hasta Reagan: Polk y Harding nacieron un 2 de noviembre. Puedes creer que esto puede ser casualidad o si eres mal pensado que está preparado, por eso nada mejor que hacer un estudio probabilístico riguroso de esta paradoja Estimación de la probabilidad ¿Cuál es la probabilidad de que en un grupo de n personas, por lo menos dos de ellas coincidan en su cumpleaños?, desechamos los años bisiestos y los gemelos, y asumimos que existen 365 cumpleaños que tienen la misma probabilidad. Solución Utilizando la regla de Laplace y la combinatoria: El truco es calcular primero la probabilidad de n personas tengan cumpleaños diferentes Sea el suceso: A = {"al menos dos personas celebran su cumpleaños a la vez"} y su complementario: Ac = {"no hay dos personas que celebren su cumpleaños a la vez"} Caso particular: n=5 El número de casos posibles de celebración de cumpleaños, suponiendo el año de 365 días, es: 3655 = 6,478 × 10 12 El número de casos favorables : como la primera de las personas puede haber nacido uno de los 365 días del año, la siguiente unos de los 364 días restantes y así sucesivamente, resultan365 × 364 × 363 × 362 × 361 = 6,303 × 10 12 casos de que no existan dos personas que hayan nacido el mismo día . Aplicando la regla de Laplace P(Ac) =casos favorables/casos posibles =6,303 / 6,478 = 0,973 p(A) = 1 - p(Ac) = 1 - 0,973 = 0,027 El problema puede generalizarse para una reunión de n personas. La probabilidad de que al menos dos de ellas cumplan años el mismo día es:
Para n = 23, 30 y 50 la probabilidad mencionada es: 0.51, 0.71 y 0.97 respectivamente. Como se ve, para n = 23 existe, aproximadamente, una probabilidad a la par que por lo menos coincidan dos cumpleaños, y cuando n= 50, tenemos casi la certeza de que ocurrirá la coincidencia Diagrama
Objetivos
Desarrollo de contenidos
Actividades
Inicio
ACTIVIDAD N° 1 Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Bibliografía
Desarrollo de contenidos
Actividades
ACTIVIDAD N° 2 Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Diagrama Recordatorio
Objetivos Anotaciones
Inicio
Lecturas seleccionadas
Glosario
Bibliografía
Desarrollo de contenidos
Actividades
Recordatorio
Lecturas seleccionadas
TAREA ACADEMICA N° 1 Autoevaluación
Esta actividad puede consultarla en su aula virtual Anotaciones
Glosario
Bibliografía
os
s
o
s
s
o
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
Objetivos
Inicio
Actividades
Autoevaluación
Glosario
Bibliografía
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
BIBLIOGRAFÍA DE LA UNIDAD II:
Triola, M.(2012). Estadística. México: Pearson Educación
Anotaciones
Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicaciones. Mexico: Prentice Hall Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuarta Edición. Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera Edición
Objetivos
Inicio
Actividades
Autoevaluación
AUTOEVALUACIÓN DE LA UNIDAD II
Glosario
Anotaciones
En los últimos años se han registrado un gran número de lavadoras de ropa, tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos Bibliografía de reparación en soles. Se sabe que el número de fallas tiene distribución normal. N°
1
2
3
4
5
6
7
8
9
10
11
Electrónico
178
161
194
204
185
179
173
172
108
181
185
Mecánico
128
89
150
191
188
209
53
131
184
97
112
A un nivel de significación del 5%, ¿los costos de reparación de ambos tipos de lavadoras son homogéneos? Respecto a la resolución del problema marque lo incorrecto. A) Ho:
2
1
H1:
=
2
2
≠ S 12
2
1
B) Fexp =
2
2
= 0,2491
S 22
C) F1 = 0,2688 D) F2 = 3,72 E) = 615,87273 2.- En los últimos años se han registrado un gran número de lavadoras de ropa, tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos de reparación en soles. Se sabe que el número de fallas tiene distribución normal. N°
1
2
3
4
5
6
7
8
9
10
11
Electrónico
178
161
194
204
185
179
173
172
108
181
185
Mecánico
128
89
150
191
188
209
53
131
184
97
112
¿El costo de reparación de las lavadoras electrónicas es significativamente superior al costo de reparación de las lavadoras mecánicas? Utilice un nivel de significación del 5%. Respecto a la resolución del problema marque lo incorrecto. A) Ho: H1: B)
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Texp
1
2
> 1
2
(x − x )− (µ − µ ) = 1
2
1
S12 S 22 + n1 n2
2 o
= 2,10512
Bibliografía
69
70
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
C)
v=
S12 S 22 + n2 n1 S12 n1
2
n1 − 1
+
2
S 22 n2
2
≈ 16
n2 − 1
D) Tcrítico= 1,75305 E) A un nivel de significación del 5%, se puede afirmar que el costo de reparación de las lavadoras electrónicas es significativamente superior al costo de reparación de las lavadoras mecánicas. 3.- El ingeniero de control de calidad de la fábrica M, afirma que la resistencia de cierto material que producen es mayor que la resistencia del mismo material producido por la fábrica N. Un laboratorio particular realiza un experimento sobre estos materiales y los resultados (en ohmios) se muestra a continuación: Fábrica M
0,140
0,138
0,143
0,142 0,144 0,141 0,137
Fábrica N
0,135
0,140
0,136
0,142 0,138 0,135 0,140
Asuma poblaciones normales. Con un nivel de significancia del 5%, indique lo correcto. a) F calculado = 0.9622 b) F crítico = 6.82 c) t calculado= 1.8695 d) t critico = 1.98229 e) Se rechaza lo que afirma el ingeniero. 4.- Un fabricante de impresoras desea estimar la vida media de sus margaritas de impresión. La estimación ha de estar dentro de 2 horas en torno a la media y tener un nivel de confianza del 90%. Si una muestra piloto revela una desviación típica de 25 horas, ¿cuál debe ser el tamaño de la muestra? a) 164 b) 423 c) 24 d) 115 e) 625 5.- En los últimos años se han registrado un gran número de lavadoras de ropa, tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos de reparación en soles. Se sabe que el número de fallas tiene distribución normal. N°
1
2
3
4
5
6
7
8
9
10
11
Electrónico(1)
178
161
194
204
185
179
173
172
108
181
185
Mecánico(2)
128
89
150
191
188
209
53
131
184
97
112
A un nivel de significación del 5%, respecto a la homogeneidad del costo de reparación de ambos tipos de lavadoras, no es correcto: a) Fexp= 0.2491 b) F crítico=0.2688 y 3.72 c) Varianza (1)=615.87 d) Varianza (2)=2572.42 e) El costo de reparación es homogéneo 6.- Varios accidentes de automovilísticos menores ocurrieron en varios cruces de alto riesgo en un distrito urbano a pesar de los señalamientos de tránsito (semáforos). El departamento de tránsito afirma que una modificación en el tipo de semáforo
Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos
Lecturas seleccionadas
reducirá los accidentes. Los integrantes de la junta municipal han acordado realizar un experimento que se ha propuesto. Se eligieron aleatoriamente ocho cruces y se modificaron los semáforos correspondientes. Utilice un nivel de significación del 1% para analizar si la junta logró su objetivo, si el número de accidentes de tránsito Recordatorio durante un período de seis meses antes y después de las modificaciones fue: N°
Cruces A
B
C
D
E
F
G
H
Antes de la modificación
5
7
6
4
8
9
8
10
Después de la modificación
3
7
7
0
4
6
8
2
a)
= 0.005
b) Tcalculado=2.3152 c) T critico = 2.798 d) Sd = 2.8277 e)
d
= 2.5
7. Relacione las columnas: a) Probabilidad de aceptar la hipótesis nula dado que es falsa. ( )Probabilidad de rechazar la hipótesis nula dado que es verdadera. b) Prueba de independencia poblaciones.
( )Enunciado acerca del parámetro de una o más
c) Probabilidad del error de tipo I
( )Analiza la asociación entre variables.
d) Hipótesis ( )Probabilidad de error tipo II a) cdba b) cbda c) acbd d) acdb e) dcba 8.- El proyecto académico de un ingeniero es el diseño de un experimento a fin de determinar el rendimiento de 4 variedades de papa sin tener en cuenta la influencia de la fertilidad de las tierras de cultivo. Las 20 parcelas de igual fertilidad que le fueron asignadas las dividió en 4 grupos de 5 parcelas cada una. A cada grupo de parcelas le asignó una variedad distinta de papa escogida al azar, resultando un diseño completamente aleatorizado. Los rendimientos medidos en kilogramos de las cinco variedades por parcela se dan en la tabla que sigue. VARIEDADES DE PAPA V1
V2
V3
V4
55
52
53
52
53
58
55
50
60
50
57
51
52
60
51
49
53
52
54
53
Al nivel de significación del 5% ¿se puede inferir que existen diferencias significativas entre las producciones medias de las 4 variedades de papa? Luego señale lo incorrecto. a) α=0.05 b) Ho: µ1 = µ 2 = µ 3 = µ 4 c) SCA=42.6 d) SCT=189 e) Fcrítico=3.16
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
71
72
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA
9.- La empresa de transportes “DEL VALLE” va a adquirir una de 4 marcas de neumáticos que hay en el mercado. El ingeniero de pruebas de la empresa diseñó un experimento escogiendo al azar seis neumáticos de cada marca de características similares. En el laboratorio de pruebas, con una carga específica simulada, observó la duración de cada neumático hasta que se deteriore. Los datos redondeados en miles de kilómetros se dan en la tabla siguiente. MARCAS DE NEUMÁTICOS N1
N2
N3
N4
55
63
48
59
53
67
50
68
50
55
59
57
60
62
50
66
55
70
47
71
65
75
61
73
Al nivel de significancia del 5% ¿indican estos datos que las marcas de neumáticos producen efectos significativos en el rendimiento? Luego marque lo incorrecto. a) Fcalculado=6.77 b) SCT=1550.96 c) SCA=781.46 d) SCE=769.5 e) Fcrítico=3.10 10.- Una empresa de confecciones textiles realiza un estudio para determinar el mejor de tres métodos de montaje de una prenda específica. Con este fin diseñó un experimento para comparar los tres métodos seleccionando cinco operarios que se supone son de velocidad homogénea para reducir la variación debido a los operarios, asignando a cada operario los tres métodos por tiempos iguales. El número de prendas terminadas por cada operario y con cada método en el tiempo fijado se da en la tabla que sigue. MÉTODO OPERARIO
I
II
III
1
3
9
5
2
4
8
6
3
3
7
8
4
5
9
7
5
4
6
9
Al nivel de significancia del 5% ¿existirá alguna diferencia entre los métodos de montaje de las prendas? Marque lo incorrecto. a) SCA=44.8 b) SCE=16.533 c) SCT=69.9 d) FB=0.377 e) FA=13.714
Desarrollo de contenidos
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICAS
Desarrollo de contenidos
Actividades
Autoevaluación
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD III
Lecturas seleccionadas Diagrama
Glosario
Bibliografía
Objetivos
Inicio
CONTENIDOS
Recordatorio Desarrollo de contenidos
Anotaciones Actividades
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Diagrama
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
ACTIVIDADES
EJEMPLOS
Autoevaluación
AUTOEVALUACIÓN
BIBLIOGRAFÍA
Bibliografía
ORGANIZACIÓN DE LOS APRENDIZAJES Objetivos
Inicio
CONOCIMIENTOS
PROCEDIMIENTOS
ACTITUDES
Tema N° 1: Pruebas de signos 1. Prueba del signo 2. Prueba de rangos con signo de Wilcoxon para datos apareados Glosario Lecturas Bibliografía seleccionadas 3. Prueba de la suma de rangos con signo de Wilcoxon para muestras independientes
1. Aplica la prueba del signo y rangos con signo para series de datos dependientes e independientes
1. Valora reflexivamente la importancia de las pruebas no paramétricas, de los modelos de predicción y métodos de control de procesos estadísticos para la toma de decisiones
Tema Nº 2: Experimentos mulAnotaciones tinomiales y tablas de contingencia 1. Bondad de ajuste 2. Independencia y homogeneidad
3. Realiza las pruebas no paramétricas a series de datos dependientes e independientes.
Desarrollo de contenidos
Actividades
Autoevaluación
Recordatorio
Tema Nº 3: Pruebas no paramétricas 1. Prueba de Kruskal – Wallis 2. Prueba de correlación de rangos. 3. Prueba de rachas Lectura seleccionada N°1 ¿Los estudiantes clasifican a las universidades de la misma manera que el U.S. News and World Report? Mario Triola. Página 675 Autoevaluación de la Unidad III
2. Analiza distintas series de datos aplicando las pruebas de bondad, independencia y homogeneidad
4. Valida la aleatoriedad de una muestra aplicando la prueba de rachas Actividad N° 1 Actividad N° 2 Control de Lectura Nº 2
Bibliografía
73
74
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
TEMA N° 1: PRUEBAS DE SIGNOS Como has podido observar la mayoría de las pruebas que hemos realizado se refiere al análisis del parámetro poblacional como la media, varianza y proporción para lo cual se hicieron supuestos sobre las poblaciones a quienes pertenecían las muestras, dichos supuestos por ejemplo era que provenían de poblaciones con comportamiento normal. Pero en la práctica no siempre las poblaciones son normales por lo que ya no podríamos aplicar los métodos anteriormente estudiados, se necesita para ello algún método alternativo que requiera dicha suposición. Estos métodos son conocidos como Pruebas no paramétricas o sin distribución, los cuáles nos permiten realizar inferencias en situaciones donde no conocemos el comportamiento probabilístico de la variable en análisis. Su gran ventaja respecto a los métodos paramétricos es que utiliza cálculos que no son tan laboriosos además de no tener en cuenta la forma de la distribución (función de probabilidad). Hay que tener en cuenta que las pruebas no paramétricas se ven limitadas por la pérdida de información al trabajar sólo con los rangos por lo que a menudo no son tan claras o eficientes pero esto se ve recompensado por la sencillez, rapidez y necesidad de utilizar poca información. En realidad existe una gran cantidad de pruebas de las cuáles desarrollaremos las más conocidas y utilizadas, de las cuáles podemos observar su eficiencia respecto a las pruebas paramétricas: Cuadro Nº 16: TIPOS DE PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS1
APLICACIÓN
PRUEBA PARAMÉTRICA
Datos apareados de los datos muestrales
Prueba t o prueba z
Dos muestras independientes
PRUEBA NO PARAMÉTRICA
TASA DE EFICIENCIA DE LA PRUEBA NO PARAMÉTRICA CON POBLACIÓN NORMAL
Prueba del signo
0.63
Prueba de rangos con signo de Wilcoxon
0.95
Prueba t o prueba z
Prueba de la suma de rangos de Wilcoxon
0.95
Varias muestras independientes
ANOVA( prueba F)
Prueba de KruskalWallis
0.95
Correlación
Correlación lineal
Prueba de correlación de rangos ordenados
0.91
Aleatoriedad
Prueba no paramétrica
Prueba de rachas
Sin bases para comparación
Para las pruebas de signos y alguna otra prueba no paramétrica, al lugar que ocupa cada dato ordenado de menor a mayor se le conoce como rango, y si hay algún empate entre los rangos se utiliza la media de dichos rangos en cada uno de los datos, de la siguiente forma: Serie de datos inicial: 3;6;6;6;11;14;14 y 16 Análisis de rangos:
1
Dato
3
6
6
6
11
14
14
16
Posición
1
2
3
4
5
6
7
8
RANGO
1
3
3
3
5
6.5
6.5
8
Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 677.
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
1 PRUEBA DEL SIGNO
Lecturas seleccionadas
La prueba no paramétrica más sencilla es el contraste de signos, la que se utiliza principalmente para contrastar la hipótesis sobre la posición central (mediana) de Recordatorio una distribución poblacional o para analizar datos de muestras pareadas o enlazadas de una población. Al igual que la media, la mediana es una medida de centralización, en este caso referida a la ubicación, por ello también se le conoce a la prueba de signo como prueba de ubicación. Por ejemplo, el contraste de hipótesis de signo se utiliza mucho en los estudios de mercados para analizar la preferencia de los consumidores entre dos productos, para verificar si un nuevo sistema de producción aumenta la eficiencia de los trabajadores, para analizar el nivel de aceptabilidad entre dos directivos de una misma empresa, etc. El procedimiento de la prueba del signo se resume en el siguiente diagrama. Por razones de simplicidad utilizaremos como estadístico de prueba (x) al número de veces en que ocurre el signo menos frecuente. Es importante indicar que como toda prueba no paramétrica no existe el supuesto de normalidad respecto a la población, pero si requiere que la muestra sea aleatoria para darle validez. Se supone que se tienen datos antes y después para una muestra y se desean comparar estos conjuntos de datos correspondientes. Se hace restando las observaciones por pares, y se anota el signo algebraico resultante. No es importante la magnitud de la diferencia, sino solo si resulta un signo más o un signo menos. DIAGRAMA Nº 01 : PRUEBA DEL SIGNO2
2
Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 679
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
75
76
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si esto es cierto, entonces un signo más y un signo menos son igualmente probables. La probabilidad (π) de que ocurra cualquiera es de 0.50. Una prueba de dos extremos es: H0: m = p o Med1=Med2 H1: m ≠ p o Med1≠Med2 Donde m y p son los números de signos menos y de signos más, respectivamente. Del mismo modo utilizando la probabilidad π: H0: π1 = 0.5 H1: π1 ≠ 0.5 Una prueba de un solo extremo es: H0: m = p H1: m > p ó H0: m = p H1: m < p Lo que quiere decir que si dos conjuntos de datos tienen medianas iguales, entonces el número de signos positivos debe ser aproximadamente igual al número de signos negativos. Ejemplo3 Se le pidió a un grupo de 20 alumnos que calificaran el desempeño de 2 profesores, de acuerdo con varios criterios y en una escala de 1 a 10. Se obtuvieron los resultados que se muestran a continuación: CALIFICACIÓN ALUMNO
PROFESOR A
PROFESOR B
1
7
9
2
5
6
3
8
5
4
9
8
5
3
4
6
8
5
7
10
10
8
8
9
9
3
6
10
5
4
11
7
10
12
9
6
13
5
3
14
4
4
15
7
9
16
10
10
17
10
9
18
5
8
19
5
4
20
6
6
3 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFREDO DÍAZ MATA, CAPÍTULO 17, PÁG. 521
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Probar a un nivel de significancia de 0.05 la hipótesis de que no existe diferencia entre las calificaciones asignadas por los alumnos a los dos profesores. Solución i) Planteamos las hipótesis: H0: Med1 = Med2 H1: Med1 ≠ Med2 o de manera equivalente: H0: π1 = 0.5 H1: π1 ≠ 0.5 ii) Hallamos los signos de las diferencias restando x1-x2: ALUMNO
PROFESOR A (X1)
PROFESOR B (X2)
Signo de (X1-X2)
1
7
9
-
2
5
6
-
3
8
5
+
4
9
8
+
5
3
4
-
6
8
5
+
7
10
10
0
8
8
9
-
9
3
6
-
10
5
4
+
11
7
10
-
12
9
6
+
13
5
3
+
14
4
4
0
15
7
9
-
16
10
10
0
17
10
9
+
18
5
8
-
19
5
4
+
20
6
6
0
iii) Al encontrar las diferencias igual a cero, eliminamos sus respectivos pares por lo que el nuevo tamaño de muestra es n=16. Importante recordar que el cero no tiene signo, por lo que no se le puede asignar el signo positivo. iv) El estadístico de prueba x es el número de veces que se repite el signo menos frecuente, por lo que x=8. v) Contrastando con la tabla de valores críticos para la prueba del signo de Mario Triola, el valor crítico con un nivel de significancia de 0.05 y n=16, es: 3. La tabla de valores críticos se presenta a continuación. vi) Se rechaza la hipótesis nula si el estadístico de prueba es menor o igual que el valor crítico. Por lo tanto, al ser el estadístico de prueba mayor que el valor crítico, se acepta la hipótesis nula, por lo que existe evidencia estadística para aseverar que no hay diferencia en la opinión de los alumnos respecto a las calificaciones de los dos profesores. Es importante notar que la tabla de valores críticos para la prueba del signo evita que usemos un análisis adicional utilizando la distribución de probabilidad bino-
Bibliografía
77
78
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
mial con P=0.5 y n=16 y comparar la probabilidad acumulada generada por la muestra y el nivel de significancia. CUADRO Nº 17: VALORES CRÍTICOS PARA LA PRUEBA DEL SIGNO4 n
o
.005
.01
.025
.05
(una cola )
(una cola )
(una cola )
(una cola )
01
02
05
.10
(dos colas)
(dos colas)
(dos colas)
(dos colas)
1
*
*
*
*
2
*
*
*
*
3
*
*
*
*
4
*
*
*
*
5
*
*
*
0
6
*
*
0
0
7
*
0
0
0
8
0
0
0
1
9
0
0
1
1
10
0
0
1
1
11
0
1
1
2
12
1
1
2
2
13
1
1
2
3
14
1
2
2
3
15
2
2
3
3
16
2
2
3
4
17
2
3
4
4
18
3
3
4
5
19
3
4
4
5
20
3
4
5
5
21
4
4
5
6
22
4
5
5
6
23
4
5
6
7
24
5
5
6
7
25
5
6
7
7
Notas 1. * Indica que no es posible obtener un valor en región crítica 2. Rechace la hipótesis nula si el número del signo menos frecuente (x) es mejor que o igual al valor en la tabla 3. Para valoresde n mayores que 25, se utiliza una aprox. normal con :
Z=
(x+0.5) - n 2 n 2
4 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 743
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
Ejemplo
Un analista de mercado desea medir la efectividad de una campaña promocional del producto de su empresa. Antes de la campaña, selecciona 12 tiendas minoristas y registra las ventas del mes. Durante el segundo mes se termina la campaña promoRecordatorio cional y se registran de nuevo las ventas. El cuadro siguiente muestra los niveles de ventas, del primer y segundo mes. Se desea probar con un nivel de significancia de 0.05 que la campaña promocional incrementó las ventas. TIENDA
ANTES
DESPUES
1
$4200
$4000
2
$5700
$6000
3
$3800
$3800
4
$4900
$4700
5
$6300
$6500
6
$3600
$3900
7
$4800
$4900
8
$5800
$5000
9
$4700
$4700
10
$5100
$5200
11
$8300
$7200
12
$2700
$3300
Solución i) Planteamos las hipótesis: H0: m = p H1: m > p Se entiende que para que la promoción sea exitosa se requiere que el número de diferencias negativas sea pertinentemente grande, o sea interesa que el número de signos menos sea mayor que el número de signos positivos. Planteando de otra manera utilizando la probabilidad: H0: π1 = 0.5 H1: π1 > 0.5 ii) Hallamos los signos de las diferencias: TIENDA
ANTES X1
DESPUES X2
Signo de (X1-X2)
1
$4200
$4000
+
2
$5700
$6000
-
3
$3800
$3800
0
4
$4900
$4700
+
5
$6300
$6500
-
6
$3600
$3900
-
7
$4800
$4900
-
8
$5800
$5000
-
9
$4700
$4700
0
10
$5100
$5200
-
11
$8300
$7200
+
12
$2700
$3300
-
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
79
80
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
iii) Eliminando los ceros, el valor de n=10. El estadístico de prueba es x=3 iv) Utilizando la tabla de valores críticos para la prueba del signo al 0.05 en una cola el valor crítico es 1. Anotaciones
v) Como el estadístico de prueba es mayor que el valor crítico no se rechaza la hipótesis nula. Por lo tanto existe evidencia estadística para aceptar la hipótesis nula, y se concluye que la campaña promocional no fue exitosa. Valor de Z para prueba del signo con muestras grandes (n ≥ 25)
Z= Ejemplo
x + 0.5 − 0.5n 0.5 n
Se ha pedido a una muestra aleatoria de 100 niños que comparen dos nuevos sabores de helado: mantequilla de maní y fresa. Cincuenta y seis miembros de la muestra prefieren el helado de mantequilla de maní, 40 el de fresa y 4 no manifiestan ninguna preferencia. Averigüe si existe una preferencia general por cualquiera de los dos sabores con un nivel de significancia de 0.05 Solución i) Sea P la proporción de la población que prefiere el helado de fresa, por lo que x=40, siendo el valor de n=96 H0: P = 0.5
H1: P≠0.5
ii) El valor del estadístico de prueba es:
Z=
40 + 0.5 − 0.5.x96 =-1,53 0.5 x 96
iii) Analizando el valor crítico:
iv) Como el estadístico de prueba cae en la región de aceptación, existe evidencia estadística para aceptar la hipótesis nula, entonces se concluye que no hay preferencia de los niños por alguno de los dos sabores de helados. Ejercicio Los siguientes datos muestran los índices de trabajo defectuoso de los empleados antes y después de un plan de capacitación. Compare los dos conjuntos de datos siguientes para ver si el plan de capacitación disminuyó las unidades defectuosas producidas. Utilice el nivel de significancia de 0.10. antes
8
7
6
9
7
10
8
6
5
8
10
8
después
6
5
8
6
9
8
10
7
5
6
9
8
Ejercicio Un taller de reparación para CPUs de computadoras cambió el método de pago de salario por hora a salario por hora más un bono calculado sobre el tiempo requerido para desmontar, reparar y volver a ensamblar el CPU. Los siguientes son datos recabados para 25 CPUs antes del cambio y 25 después para el número de horas requeridas. A un nivel de significancia de 0.10, ¿el nuevo plan incrementó la productividad?
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
antes
29
34
32
19
31
22
28
31
32
44
41
23
34
después
32
19
22
21
20
24
25
31
18
22
24
26
41 Recordatorio
antes
25
42
20
25
33
34
20
21
22
45
43
31
después
34
27
26
25
31
19
22
32
31
30
29
20
Ejercicio Se ha examinado una muestra de 50 empresas peruanas que compraron franquicias el año 2012. Los rendimientos de las acciones en torno a la fecha de compra fueron positivos 31 veces, negativos 12 y cero 3. Contraste la hipótesis de que hay una mayor probabilidad de rendimientos positivos alrededor de la fecha de compra de una franquicia. 2 PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA DATOS APA-
READOS. Uno de los inconvenientes de la prueba del signo es que no maneja mucha información, sólo el signo de las diferencias, sobre todo cuando la muestra es muy pequeña. La prueba de rangos con signos de Wilcoxon además del signo de las diferencias incorpora la magnitud de las mismas por lo que refleja mejor el comportamiento de las muestras. En el análisis de muestras por pares, cada una genera una observación. Las diferencias entre los pares de dichas observaciones nos permiten analizar las diferencias entre las poblaciones. Por ejemplo, en una gran empresa de alimentos se quiere analizar los tiempos que dos métodos de producción distintos requieren para obtener un producto, los operadores de las máquinas serán elegidos aleatoriamente de manera que cada uno obtiene dos registros. Luego de realizar la diferencia entre dichos registros de cada trabajador se tiene el siguiente razonamiento: Una diferencia positiva de los tiempos utilizados por cada método indica que el primero requiere un tiempo mayor, y una diferencia negativa indica que el segundo requiere de más tiempo. Entonces, ¿los datos obtenidos indican que los métodos son significativamente diferentes respecto al tiempo requerido por cada uno? Cada método genera una población de tiempos utilizados para obtener el mismo producto, por lo que podemos establecer las siguientes hipótesis: H0: Las poblaciones son idénticas H1: Las poblaciones no son idénticas No existe el requisito de que los datos provengan de una distribución normal. El procedimiento lo podemos resumir de la siguiente manera: - Se ordenan las observaciones relacionadas en dos columnas y se resta el segundo del primero. - Se descartan los pares donde la diferencia es cero. - A las n diferencias absolutas restantes se les asigna los rangos analizando los valores de menor a mayor, es decir, el menor valor absoluto tendrá rango 1, el siguiente rango 2, hasta llegar al mayor valor. - En caso de empates el rango asignado es la media de los rangos que ocupan en la ordenación de menor a mayor. - Se calculan las sumas de los rangos correspondientes a las diferencias positivas y negativas, siendo T la más pequeña de las dos sumas. - Si n≤30, el valor crítico T se encuentra en la tabla de valores críticos para la Prueba de rangos con signo de Wilcoxon. Cuando plantee la conclusión, rechace la hipótesis nula si los datos muestrales le llevan a un estadístico de prueba que se ubica en la región crítica, esto es, cuando el estadístico de prueba sea menor o igual que el valor (o los valores) crítico(s).
- Si n>30, el estadístico de prueba es: Z = tabla de valores críticos z.
n(n + 1) 4 n(n + 1)(2n + 1) 24 T−
y el valor crítico en la
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
81
82
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
Cuadro N°18: VALORES CRÍTICOS T PARA LA PRUEBA DE RANGOS CON SIGNO Valores críticos de T para la prueba de rangos con signo de wilcoxon5 Anotaciones
no
.005
.01
.025
.05
(una cola )
(una cola )
(una cola )
(una cola )
01
02
05
.10
(dos colas)
(dos colas)
(dos colas)
(dos colas)
5
*
*
*
1
6
*
*
1
2
7
*
0
2
4
8
0
2
4
6
9
2
3
6
8
10
3
5
8
11
11
5
7
11
14
12
7
10
14
17
13
10
13
17
21
14
13
16
21
26
15
16
20
25
30
16
19
24
30
36
17
23
28
35
41
18
28
33
40
47
19
32
38
46
54
20
37
43
52
60
21
43
49
59
68
22
49
56
66
75
23
55
62
73
83
24
61
69
81
92
25
68
77
90
101
26
76
85
98
110
27
84
93
107
120
28
92
102
117
130
29
100
111
127
141
30
109
120
137
152
Notas 1. * Indica que no es posible obtener un valor en región crítica 2. Rechace la hipótesis nula si el estadístico de prueba T es menor que o igual al valor crítico que se encontró en esta tabla. No rechace la hipotesis nula si el estadístico de prueba T es mayor que el valor crítico que se encontro en la tabla.
Ejemplo Una pizzería cercana al campus universitario está considerando la posibilidad de utilizar una nueva receta para hacer la salsa que echa a las pizzas. Se elige una muestra aleatoria de ocho estudiantes y se pide a cada uno que valore en una escala de 1 a 10 su opinión sobre la salsa original y sobre la salsa propuesta. El cuadro siguiente muestra las puntuaciones obtenidas en la comparación; los números más altos indican que gusta más el producto. ¿Indican los datos una tendencia general a preferir la nueva salsa a la original?
5 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 744
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
PUNTUACIÓN estudiante
salsa original
salsa propuesta
A
5
7
B
3
8
C
4
3
D
7
6
E
2
8
F
5
8
G
6
6
H
4
8
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Solución i) Planteamos las hipótesis: H0: P = 0.5 (No hay preferencia por alguna de las dos salsas) H1: P < 0.5 (Existe preferencia por el nuevo producto) La hipótesis nula puede concebirse como la hipótesis de que la mediana poblacional de las diferencias es 0. Si la hipótesis nula fuera verdadera, nuestra secuencia de diferencias + y - podría concebirse como una muestra aleatoria extraída de una población en la que las probabilidades de + y - son 0,5 cada una. En ese caso, las observaciones constituirían una muestra aleatoria extraída de una población binomial en la que la probabilidad de + es 0,5. Siendo P la verdadera proporción de la población que prefiere la salsa original (o sea que las puntuaciones de la salsa original son mayores, por eso al contrastar con la preferencia con la nueva salsa debe haber menos signos positivos P<0.5). Si se llegara a rechazar la hipótesis nula indicaría que hay una mayor preferencia por la nueva salsa. ii) Hallamos las diferencias y asignamos los rangos correspondientes. PUNTUACIÓN DIFERENCIA estudiante
salsa original
salsa propuesta
(ORIGINAL-NUEVO)
A
5
7
-2
B
3
8
-5
C
4
3
1
D
7
6
1
E
2
8
-6
F
5
8
-3
G
6
6
0
H
4
8
-4
iii) Luego hallamos los rangos de los valores absolutos de las diferencias y DIFERENCIA
VALOR
(ORIGINAL-NUEVO)
ABSOLUTO
RANGOS
CON SIGNO
RANGO
-2
2
3
-3
-5
5
6
-6
1
1
1.5
1.5
1
1
1.5
1.5
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
83
84
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
-6
6
7
-7
-3
3
4
-4
0
0
--
--
-4
4
5
-5
Suma de rangos (+): 3 Suma de rangos (-): 25 El estadístico de prueba T es 3. iv) El valor crítico se busca en la tabla de valores críticos para la prueba de rangos con signos de Wilcoxon, con n=7 y 0.05 en una cola. Tcrítico=4. v) Como el estadístico de prueba T=3 es menor que el valor crítico se rechaza la hipótesis nula, es decir que es probable que las puntuaciones del nuevo producto sean mayores. Ejemplo En un estudio se compararon empresas que tenían sofisticados métodos de postauditoría y empresas que no tenían métodos de ese tipo. Se examinó una muestra de 31 pares de empresas. Se calculó el cociente entre la valoración de mercado y los costes de reposición de los activos de cada una y se utilizó como medida de los resultados de las empresas. En cada uno de los 31 pares, una de las empresas utilizaba un sofisticado método de postauditoría y la otra no. Se calcularon las 31 diferencias entre los cocientes y se ordenaron las diferencias absolutas. La menor de las sumas de los rangos, 189, correspondió a los pares en los que el cociente era mayor en el caso de la empresa que carecía de sofisticados métodos de postauditoría. Contraste la hipótesis nula de que la distribución de las diferencias entre los cocientes está centrada en 0 frente a la hipótesis alternativa de que tiende a ser menor en las empresas que carecen de sofisticados métodos de postauditoría. Solución i) Como la muestra es n=31, y T=189, calculamos el estadístico de prueba con la fórmula:
n(n + 1) 4 n(n + 1)(2n + 1) 24 T−
Z calculado =
ii)
Z calculado =
31(31 + 1) 4 31(31 + 1)(2.31 + 1) = -1.16 24 189 −
iii) La prueba es de una sola cola, por lo que Zcrítico=1.645
iv) Al ser el Zcalculado menor que el Zcrítico, no existe evidencia estadística para rechazar la hipótesis nula. Ejercicio Se pide a una muestra aleatoria de 10 estudiantes que valoren en una cata a ciegas la calidad de dos marcas de cerveza, una nacional y una importada. Las valoraciones se basan en una escala de 1 (mala) a 10 (excelente). La tabla adjunta muestra los resultados. Utilice el contraste de Wilcoxon para contrastar la hip6tesis nula de que la distribución de las diferencias pareadas está centrada en 0 frente a la hipótesis alternativa de que la población de todos los estudiantes bebedores de cerveza prefiere la marca importada. ESTUDIANTE
A
B
C
D
E
F
G
H
I
J
NACIONAL
2
3
7
8
7
4
3
4
5
6
IMPORTADA
6
5
6
8
5
8
9
6
4
9
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
Ejercicio
De 721 usuarios de Internet elegidos al azar, se descubrió que 358 de ellos usan Internet para planear viajes (según datos de una encuesta local). Utilice un nivel de significancia de 0.02 para probar la aseveración de que, de los usuarios de Internet, Recordatorio menos del 50% utiliza este medio para planear viajes. ¿Los resultados son importantes para los agentes de viajes? 3 PRUEBA DE LA SUMA DE RANGOS DE WILCOXON PARA MUESTRAS
INDEPENDIENTES. (Mata, 2013) Uno de los inconvenientes de la prueba del signo es que no maneja mucha información, sólo el signo de las diferencias, sobre todo cuando la muestra es muy pequeña. La prueba de rangos con signos de Wilcoxon además del signo de las diferencias incorpora la magnitud de las mismas por lo que refleja mejor el comportamiento de las muestras. En el aná La prueba de la suma de rangos de Wilcoxon utiliza los rangos de los valores de dos conjuntos independientes de datos muestrales para probar la hipótesis nula de que las dos poblaciones tienen medianas iguales. La prueba de rangos con signo de Wilcoxon estudiada en la sección anterior utiliza datos apareados, pero la prueba de suma de rangos de Wilcoxon de la presente sección utiliza dos muestras independientes que no están relacionadas ni asociadas o apareadas. El fundamento de la suma de rangos de Wilcoxon es el siguiente: si dos muestras se obtienen de poblaciones idénticas y los valores individuales se acomodan en rangos como un conjunto combinado de valores, entonces el rango alto y el bajo deberían caer de manera uniforme entre las dos muestras. Si los rangos bajos se encuentran predominantemente en una muestra y los rangos altos se encuentran predominantemente en la otra muestra, sospechamos que las dos poblaciones tienen medianas diferentes. Asumamos que se dispone de la muestra de tamaño n1 de la primera población y la muestra de tamaño n2 de la segunda. Se juntan las dos muestras y se ordenan las observaciones en sentido ascendente, asignando, en caso de empate, la media de los puestos correspondientes. Sea T la suma de los puestos de las observaciones de la primera población (T en el contraste de la suma de puestos de Wilcoxon es igual que R1 en el contraste U de Mann-Whitney). Suponiendo que la hipótesis nula es verdadera, el estadístico de la suma de puestos de Wilcoxon, T, tiene la media:
µT =
n1 (n1 + n2 + 1) 2
y la varianza:
σ T2 =
n1 n2 (n1 + n2 + 1) 12
Por lo que cuando n1≥10 y n2≥10 la distribución normal es una excelente aproximación a la distribución de la variable aleatoria:
Zcalculado =
T − µT
σT
Ejemplo En un estudio que pretendía comparar los resultados de empresas que revelan las predicciones de la dirección sobre los beneficios con los resultados de las que no las revelan, se tomaron muestras aleatorias de 80 empresas de cada una de las poblaciones. Se midió la variabilidad de la tasa de crecimiento de los beneficios en los 10 periodos anteriores en cada una de las 160 empresas y se ordenaron estas variabilidades. La suma de los puestos de las empresas que no revelan las predicciones de la dirección sobre los beneficios era 7287. Contraste la hipótesis nula de que las posiciones centrales de las distribuciones poblacionales de las variabilidades de los beneficios son las mismas en los dos tipos de empresas frente a la hipótesis alternativa bilateral.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
85
86
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
Solución
Anotaciones
i) Como T=7.287, calculamos los demás indicadores, siendo n1=80 y n2=80 n1 (n1 + n2 + 1) 80(161) = = 6440 ii) µ T = 2 2 iii) σ 2 = n1 n 2 ( n1 + n 2 + 1) = 80.x80(161) = 85867 T
12
12
iv) Calculamos entonces el estadístico de prueba:
Zcalculado =
7287 − 6440 = 2.89 85867
v) Al ser el estadístico de prueba 2.89 mayor que el valor crítico al 0.05 de significancia 1.645, podemos concluir que existe evidencia estadística para rechazar la hipótesis nula. Lo que quiere decir que estos datos constituyen, pues, una prueba contundente en contra de la hipótesis de que las posiciones centrales de las distribuciones de las variabilidades poblacionales de las tasas de crecimiento de los beneficios de las empresas que revelan las predicciones de los beneficios son iguales que las de las empresas que no las revelan. Ejemplo La tabla siguiente muestra el número de horas semanales que los estudiantes afirman que dedican a estudiar las asignaturas de introducci6n a la economía financiera y a la contabilidad. Los datos proceden de muestras aleatorias de 10 estudiantes de economía financiera y 12 de contabilidad. ¿Indican los datos la existencia de una diferencia en el numero mediano de horas semanales que dedican los estudiantes a estudiar las asignaturas de introducci6n a la economía financiera y a la contabilidad? NÚMERO DE ASIGNATURA
HORAS
ECONOMÍA
SEMANALES
DEDICADAS
A
ESTUDIAR
10
6
8
10
12
13
11
9
5
11
13
17
14
12
10
9
15
16
11
8
POR
FINANCIERA CONTABILIDAD
9
7
Solución i) Planteamos las hipótesis. Ho: Med(1)=Med(2) Los estudiantes dedican la misma cantidad de tiempo para ambas asignaturas. H1: Med(1)≠Med(2) Los estudiantes no dedican la misma cantidad de tiempo para ambas asignaturas. ii) Unimos en un solo conjunto a las dos muestras y ordenamos los datos de forma ascendente, luego en el cuadro inicial indicamos los rangos al lado de cada dato. ECONOMÍA F.
RANGOS
CONTABILIDAD
RANGOS
10
10
13
17.5
6
2
17
22
8
4.5
14
19
10
10
12
15.5
12
15.5
10
10
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
13
7.5
9
7
11
13
15
20
9
7
16
21
5
1
11
13
11
13
8
4.5
9
7
7
3
SUMA DE
SUMA DE
RANGOS = 93.5
RANGOS = 159.5
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Donde n1=10, n2=12 y T=93.5 iii) µ T =
n1 (n1 + n2 + 1) 10(10 + 12 + 1) = = 115 2 2
2 iv) σ T =
n1 n2 (n1 + n2 + 1) 10 x12(10 + 12 + 1) = = 230 12 12
v) Calculamos entonces el estadístico de prueba:
Zcalculado =
93.5 − 115 = −1.42 230
vi) Por lo que podemos concluir que existe evidencia estadística para aceptar la hipótesis nula, o sea que no se puede establecer diferencias en el tiempo dedicado al estudio de ambas asignaturas. Ejercicio Se pregunta a una muestra aleatoria de 50 estudiantes de una facultad que sueldo debería estar dispuesta la universidad a pagar para atraer a la persona idónea para hacerse cargo de la Coordinación Académica. Se hace la misma pregunta a una muestra aleatoria independiente de 50 profesores. A continuación, se juntan las 100 cifras sobre el sueldo y se ordenan (asignándose 1 al sueldo más bajo). La suma de los rangos de los profesores es 2024. Contraste la hipótesis nula de que no existe ninguna diferencia entre las posiciones centrales de las distribuciones de los sueldos propuestos por los estudiantes y por los profesores frente a la hipótesis alternativa de que en conjunto los estudiantes propondrían un sueldo más alto para atraer al Coordinador Académico. Ejercicio Un estudio utilizó tomografía computarizada (TC) por rayos X para reunir datos de volúmenes cerebrales de un grupo de pacientes con trastorno obsesivo-compulsivo y un grupo de control de personas saludables. La lista adjunta presenta los resultados muestrales (en mililitros) para volúmenes del hemisferio derecho (según datos de “Neuroanatomical Abnormalities in Obsesive-Compulsive Disorder Detected with Quantitative X-Ray Computed Tomography”, de Luxenberg et al., American Journal of Psychiatry, vol. 145, núm. 9). Utilice un nivel de significancia de 0.01 y pruebe la aseveración de que los pacientes obsesivo-compulsivos y las personas saludables tienen la misma mediana de volúmenes cerebrales. Con base en este resultado, ¿podemos concluir que el trastorno obsesivo-compulsivo tiene una base biológica?6 PACIENTES OBSESIVO COMPULSIVOS
GRUPO DE CONTROL
0.308
0.210
0.304
0.344
0.519
0.476
0.413
0.429
0.407
0.455
0.287
0.288
0.501
0.402
0.349
0.594
0.463
0.334
0.340
0.305
0.334
0.483
0.460
0.445
6 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 700
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
87
88
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
TEMA N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA 1 BONDAD DE AJUSTE (Triola, 2009). A menudo la toma de decisiones requiere que se pruebe alguna prueba de hipótesis a cerca del comportamiento que tiene la distribución poblacional desconocida, o si dicha distribución se comporta de manera similar a alguna otra distribución conocida como la normal, la de Poisson, u otras. Podríamos plantear entonces las siguientes hipótesis:
Ho: La distribución poblacional tiene comportamiento normal.
Hi: La distribución no tiene comportamiento normal.
La prueba de bondad de ajuste por lo tanto es aquella que determinará si la distribución en cuestión tiene o se ajusta a la distribución particular planteada en la hipótesis (en el ejemplo la distribución normal), utilizando datos muestrales tomados a partir de la población que representan constituyéndose estos en evidencia. El estadístico de prueba para la prueba de bondad es: k
χ2 = ∑
(Oi − Ei )2
i =1
Ei
donde: O representa la frecuencia observada de un resultado. E representa la frecuencia esperada de un resultado. k representa el número de categorías diferentes o resultados. n representa el número total de ensayos. Es importante indicar que los valores críticos se calculan en la tabla de distribución chi-cuadrada utilizando k-1 grados de libertad. Todas las pruebas son de cola derecha. DIAGRAMA N°02: PRUEBAS DE BONDAD DE AJUSTE 7
El estadístico de prueba x2 se basa en las diferencias entre valores observados y esperados, de manera que una concordancia cercana entre los valores observados y esperados conducirá a un valor de x2 pequeño y un valor P grande. Una discrepancia grande entre los valores observados y esperados conducirá a un valor de x2 grande y un valor P pequeño. De esta forma, las pruebas de hipótesis de esta sección siempre son de cola derecha, puesto que el valor crítico y la región crítica se localizan en el extremo derecho de la distribución. Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 11, página 594 7 Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 11, página 594
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
Ejemplo
El gerente de ventas de una empresa concesionaria de varias marcas de automóviles, tiene la responsabilidad de controlar el nivel de existencias para cuatro tipos de automóvil vendidos por dicha empresa. En el pasado, ha ordenado nuevos automóRecordatorio viles bajo la premisa de que los cuatro tipos son igualmente populares y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más difíciles de controlar, y considera que debería probar su hipótesis respecto a una demanda uniforme. ¿Qué podemos concluir acerca de los datos observados? Marca de auto
Unidades vendidas
Kía
15
Toyota
11
Hyundai
10
Chevrolet
12
Solución i) Planteamos las hipótesis. H0: La demanda es uniforme para los cuatro tipos de autos.
H1: La demanda no es uniforme para los cuatro tipos de autos. ii) Como el total de ventas es 48, si la demanda es uniforme se espera de que cada marca debe vender 12 unidades, por lo que nuestro tablero quedaría: Marca de auto
Unidades vendidas (fo)
Unidades esperadas (fe)
Kía
15
12
Toyota
11
12
Hyundai
10
12
Chevrolet
12
12
iii) Calculamos el estadístico de prueba utilizando las frecuencias observadas y las frecuencias esperadas. k
χ2 = ∑
(Oi − Ei )2 Ei
i =1
χ2 =
(15 − 12)2 + (11 − 12)2 + (10 − 12)2 + (12 − 12)2 12
12
12
12
= 1.17
iv) Ubicamos el valor crítico en la tabla de valores críticos de chi cuadrado, utilizando k-1 grados de libertad, siendo k=4, por lo que los grados de libertad son 3 y un nivel de significancia del 0.05.
χ 02.05,3 = 7.815 v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente:
" No rechazar si χ 2 ≤ 7.815. Rechazar si χ 2 > 7.815"
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
89
90
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
vi) Como 1.17 < 7.815, la hipótesis de que la demanda no es uniforme no se rechaza. Ejemplo Un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y desea verificar sobre la base de los datos que siguen, los números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10 y . Número de unidades
Número de muestras
con defecto 0
138
1
53
2 ó más
9
Solución i) Planteamos las hipótesis: Ho: La población es binomial Ha: La población no es binomial ii) Hallamos las frecuencias esperadas utilizando la distribución binomial:
f ( x) =
( )π n x
x
(1 − π ) n − x , con n = 10 y π = 0.05
iii) Reemplazando los valores:
f (0) = f (1) =
( )0.05 10 0
( )0.05 10 1
1
0
(1 − 0.05)10 −0 = 0.599
(1 − 0.05)10 −1 = 0.315
y la probabilidad de 2 ó más = 1.0 - 0.599 - 0.315 = 0.086 iv) Con estos valores podemos encontrar las frecuencias esperadas: 200 (0.599) = 119.8 200 (0.315) = 63 200 (0.086) = 17.2 v) El tablero quedaría de la siguiente manera: Número de unidades
fo
fe
0
138
119.8
1
53
63
2 ó más
9
17.2
con defecto
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
vi) Aplicamos la fórmula para el estadístico de prueba:
χ2 =
(138 − 119.8) 2 (53 − 63.0) 2 (9 − 17.2) 2 + + 119.8 63 17.2
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
χ = 8.26 2
vii) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente:
" No rechazar si χ 2 ≤ 5.99. Rechazar si χ 2 > 5.99"
viii) Como 8.26 es mayor que 5.99, rechaza la hipótesis nula con un nivel de significancia de 0.05. Por lo que se concluye que el verdadero porcentaje de neumáticos con defecto no es el 5%. Ejercicio Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 2, 3, 4 y 5 caras se muestra en la siguiente tabla.
Número de caras
Número de series (frecuencia observada)
0
38
1
144
2
342
3
287
4
164
5
25
Total
1000
Ajuste los datos a una distribución binomial con un nivel de significancia del 0.05. Use n=5. Nota: Para hallar π recuerde que luego divídala entre n.
µ = nπ
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
, entonces primero halle la media y
2 INDEPENDENCIA Y HOMOGENEIDAD Los datos categóricos representan atributos o categorías, cuando en un análisis se consideran dos variables categóricas, entonces los datos se organizan en tablas llamadas tablas de contingencia o tablas de clasificación cruzada. Primero se discute la relación entre las variables que definen las filas y las columnas de tablas de contingencia y luego las medidas que dan una idea del grado de asociación entre las dos variables categóricas.
Bibliografía
91
92
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
Las hipótesis de independencia son: Ho: No hay asociación entre las variables A y B (hay independencia) Ha: Sí hay relación entre las variables A y B Anotaciones
Las hipótesis de homogeneidad son: Ho: Las proporciones de cada valor de la variable A son iguales en cada columna. Ha: Al menos una de las proporciones para cada valor de la variable A no son iguales en cada columna. Importante notar que la prueba de homogeneidad es una generalización de la prueba de igualdad de proporciones, del mismo modo el análisis se realiza en una tabla de contingencia con la siguiente estructura: Cuadro N°19: CONDUCTORES DE MOTOCICLETA8
2.1 Frecuencias esperadas en la tabla de contingencia suponiendo independencia
Ei =
(Total del renglón i )(Total de la columna j ) Tamaño de la muestra
El procedimiento de prueba para comparar frecuencias observadas con las frecuencias esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de basados en las frecuencias observadas y esperadas se calcula como sigue: k
χ2 = ∑ i =1
(Oi − Ei )2 Ei
Oi = Valor observado en la i-ésimo celda. Ei = k =
Valor esperado en la i-ésimo celda. Categorías o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene una distribución ji cuadrada con (n – 1).(m – 1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia proseguimos con el cálculo de la estadística de prueba ji cuadrada. En situaciones como las siguientes, se puede estar interesado en determinar si dos variables están relacionadas: ¿Están relacionados los hábitos de lectura con el sexo del lector? ¿Es independiente la opinión sobre la política exterior de la política partidista? ¿Es independiente el sexo de una persona de su preferencia en colores? ¿Son independientes el tamaño de una familia y el nivel de educación de los padres? ¿Está relacionado el desempleo con el incremento de la criminalidad? ¿El precio está asociado con la calidad de un producto electrodoméstico? ¿El estado nutricional está asociado con el desempeño académico?
8 Tomado de Estadística, Mario Triola, 10°Ed., Cap.11, página 606
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
Ejemplo
Se seleccionó una muestra aleatoria de 100 jóvenes para estudiar la dependencia entre la práctica de algún deporte y la depresión, con los siguientes resultados: Recordatorio Número de unidades
Sin depresión
Con depresión
con defecto Deportista
38
9
No deportista
31
22
Solución i) Planteamos las hipótesis: Ho: Hay independencia entre la depresión y la práctica de algún deporte Ha: No hay independencia entre la depresión y la práctica de algún deporte ii) Completamos el cuadro y luego calculamos las frecuencias observadas utilizando la fórmula:
Ei =
(Total del renglón i )(Total de la columna j ) Tamaño de la muestra
Número de unidades
SIN depresión
Con depresión
con defecto Deportista
38
9
47
No deportista
31
22
53
69
31
100
iii) Calculamos las frecuencias esperadas: Número de unidades
SIN depresión
Con depresión
con defecto Deportista
=69x47/100
=31x47/100
47
No deportista
=69x53/100
=31x53/100
53
69
31
100
Número de unidades
SIN depresión
Con depresión
con defecto Deportista
32.43
14.57
47
No deportista
36.57
16.43
53
69
31
100
iv) Calculamos el estadístico de prueba:
χ2 =
(38 − 32.43)2 + (31 − 36.57 )2 + (9 − 14.57 )2 + (22 − 16.43)2 32.43
36.57
14.57
16.43
χ 2 = 5.8227 v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente: Grados de libertad= (2-1).(2-1)=1 Nivel de significancia=0.05
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
93
94
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
vi) Como el valor calculado 5.8227 es mayor que el valor crítico 3.8414 se rechaza la hipótesis nula de independencia de las variables por lo que se concluye que la práctica de algún deporte disminuye la depresión. Ejercicio La oficina de Recursos Humanos de la universidad quiere determinar si la satisfacción en el trabajo es independiente del puesto de trabajo. Para ello realizó un estudio entre los docentes administrativos y encontró los resultados mostrados en la tabla siguiente. Con un nivel de significancia de 0.05, pruebe si son dependientes la satisfacción en el trabajo y el puesto de trabajo. Marca de auto
Satisfacción en el trabajo
Unidades vendidas (fo)
Profesor
Profesor
Profesor
Instructor
asistente
asociado
tiempo parcial
Mucha
40
60
52
63
Regular
78
87
82
88
Poca
57
63
66
64
Ejercicio En un experimento para estudiar la dependencia de la hipertensión de los hábitos de fumar, se tomaron los siguientes datos de 180 individuos: Unidades vendidas (fo) No fumadores
Fumadores moderados
Fumadores empedernidos
Con hipertensión
21
36
30
Sin hipertensión
48
26
19
Pruebe la hipótesis de que la presencia o ausencia de hipertensión es independiente de los hábitos de fumar. Utilice un nivel de significancia de 0.05. 2.2 Tablas de Contingencia para probar Homogeneidad La utilización de la tabla de contingencia probar la independencia entre dos variables de una muestra tomada de una población de interés, es sólo una de las aplicaciones de los métodos de tablas de contingencia. Otra aplicación común se presenta cuando existen r poblaciones de interés y cada una de ellas está dividida en las mismas c categorías. Luego se toma una muestra de la iésima población, y los conteos se introducen en las columnas apropiadas del i-ésimo renglón. En esta situación se desea investigar si las proporciones son o no las mismas en las c categorías de todas las poblaciones. La hipótesis nula de este problema establece que las poblaciones son homogéneas con respecto a las categorías, entonces la prueba de homogeneidad es en realidad una prueba sobre la igualdad de r parámetros binomiales. El cálculo de las frecuencias esperadas, la determinación de los grados de libertad y el cálculo del estadístico
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
ji-cuadrado para la prueba de homogeneidad son idénticos a los de la prueba de independencia. Ejemplo
Recordatorio Un estudio sobre caries dental en niños de seis ciudades con diferentes cantidades de flúor en el suministro de agua, ha proporcionado los resultados siguientes:
Nº niños
Nº niños
sin caries
con caries
Huancayo
38
87
Cercado de lima
8
117
Cajamarca
30
95
Ica
44
81
Arequipa
64
61
Trujillo
32
93
Comunidad
Se desea saber si la incidencia de caries es la misma en las seis ciudades. Solución i) Planteamos las hipótesis: Ho: Hay homogeneidad en la incidencia de caries en las seis ciudades Ha: No hay un comportamiento homogéneo en la incidencia de caries en las ciudades analizadas. ii) Calculamos las frecuencias esperadas. Nº niños
Nº niños
sin caries
con caries
Huancayo
38
87
125
Cercado de lima
8
117
125
Cajamarca
30
95
125
Ica
44
81
125
Arequipa
64
61
125
Trujillo
32
93
125
216
534
750
Comunidad
Nº niños
Nº niños
sin caries
con caries
Huancayo
216x125/750=36
534x125/750=89
Cercado de lima
36
89
Comunidad
Cajamarca
36
89
Ica
36
89
Arequipa
36
89
Trujillo
36
89
iii) Calculamos el estadístico de prueba:
χ2 =
(38 − 36)2 + (8 − 36)2 + (30 − 36)2 36
36
36
+ ... +
(93 − 89)2 89
χ 2 = 65.85 iv) El valor crítico lo podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente: Grados de libertad= (6-1).(2-1)=5
Anotaciones
Bibliografía
95
96
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
Nivel de significancia=0.05
v) Como el estadístico de prueba 65.85 es mayor que el valor crítico 11.07 hay evidencia estadística para rechazar la hipótesis nula. Se concluye entonces que el contenido de flúor en el agua puede ser la causa de la diferencia en la incidencia de caries en las ciudades analizadas. Ejercicio Un investigador estudia la efectividad de tres remedios R1, R2 y R3 para aliviar cierta enfermedad. Para esto escogió tres muestras aleatorias de tamaños 50, 70 y 60 de pacientes con dicha enfermedad, suministrando a la primera el remedio R1, a la segunda el remedio R2 y a la tercera el remedio R3 midiendo la efectividad de los remedios en tres niveles: Sin alivio, cierto alivio y alivio total. Los resultados del experimento se presentan en la tabla siguiente: Nº niños
Nº niños
Nº niños
sin caries
con caries
con caries
Efectividad
R1
R2
R3
Sin alivio
10
20
15
Comunidad
Cierto alivio
30
20
20
Alivio total
10
30
25
¿Puede usted inferir con un nivel de significancia del 0.01, que los tres remedios para la alergia son igualmente efectivos?9
TEMA N° 3: PRUEBAS NO PARAMÉTRICAS 1 PRUEBA DE KRUSKAL – WALLIS (Mata, 2013) Es una prueba que compara tres o más poblaciones para determinar si existe una diferencia en la distribución de las poblaciones. Es análoga a la prueba F utilizada en las pruebas ANOVA. No importa la restricción de que las poblaciones tienen que estar distribuidas normalmente. Las hipótesis son: H0: Todas las k poblaciones tienen la misma distribución. H1: No todas las k poblaciones tienen la misma distribución. Estadístico de prueba Kruskal- Wallis: K=
donde
12 Ri2 ∑ − 3( n + 1 ) n( n + 1 ) ni
ni es el número de observaciones en la i-ésima muestra n es el número total de observaciones en todas las muestras. 9 Tomado de Estadística Aplicada, Manuel Córdova Zamora, 1°Ed., Cap.7, página 349
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
Ri es la suma de los rangos de la i-ésima muestra.
La distribución de K es aproximada por una distribución chi-cuadrada con k – 1 grados de libertad. Si K excede el valor crítico de chi-cuadrada, se rechaza la hipótesis nula. Recordatorio Ejemplo Un nuevo gerente de un proveedor de supermercados debe comparar el tiempo que toma a tres clientes pagar por los productos entregados. Se seleccionan aleatoriamente varias compras de cada cliente, junto con el número de días que cada uno se tomó en liquidar su cuenta. Los resultados aparecen en la tabla siguiente: COMPRA
CLIENTE 1
CLIENTE 2
CLIENTE 3
1
28
26
37
2
19
20
28
3
13
11
26
4
28
14
35 31
5
29
22
6
22
21
7
21
Solución i) Planteamos las hipótesis: H0: Los tiempos en que las empresas utilizan para pagar sus cuentas son iguales. H1: Por lo menos uno de los tiempos es diferente ii) Asignamos los rangos a los datos: CLIENTE 1
RANGO
CLIENTE 2
RANGO
CLIENTE 3
RANGO
28
13
26
10.5
37
18
19
4
20
5
28
13
13
2
11
1
26
10.5
28
13
14
3
35
17
29
15
22
8.5
31
16
22
8.5
21
6.5
21
6.5 R1=62
R2=34.5
R3=74.5
iii) Calculando el estadístico K, con n=18, se tiene:
K=
(62 )2 (34.5 )2 (74.5 )2 12 + + − 3(18 + 1) = 8.18 18( 18 + 1 ) 7 6 5
El primer trabajo emprendido para resolver las dudas que me azotaban, fue una revisión crítica de la filosofía hegeliana del derecho, trabajo cuya introducción apareció en 1844 en los “Anales franco alemanes”, que se publicaban en París. Mi in El desplome de la URSS y sus consecuencias en el pensamiento marxista por Daniel Bengoechea: Han pasado más de diez años desde el colapso de los regímenes stalinistas de Europa Oriental. 1989 es recordado por la ola de protestas y huelgas que se expandió plementadas desde arriba. iv) El valor crítico de chi-cuadrado dados 3-1 = 2 grados de libertad es χ 0.05 , 2 . 2
= 5.99
v) Regla de decisión: No rechazar si k 5.99. Rechazar si k > 5.99 vi) Como k=18.8 > 5.99, se rechaza la hipótesis nula de que no hay diferencia en el tiempo que toma a tres clientes pagar sus cuentas Ejercicio Se obtuvieron datos de experimentos de choques realizados por la National Trans-
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
97
98
ollo nidos
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
portation Safety Administration de USA. Se compraron automóviles nuevos, se impactaron contra una barrera fija a 35 mi/h y se registraron las mediciones en un maniquí en el asiento del conductor. Utilice los datos muestrales listados abajo para probar las diferencias en las mediciones de heridas en la cabeza (de acuerdo con el Head Injury Criterion, HIC) en cuatro categorías de peso. ¿Existe evidencia suficiente para concluir que las mediciones de heridas en la cabeza para las cuatro categorías de peso de automóviles no son las mismas? ¿Sugieren los datos que los automóviles más pesados son más seguros en un choque?10 2 PRUEBA DE CORRELACIÓN DE RANGOS Cuando se requiere probar la asociación entre dos variables con datos apareados se utiliza la prueba de correlación de rangos utilizando los puestos o rangos de las observaciones en lugar de los valores, el contraste realizado es paramétrico, no requiere la normalidad de distribución de donde provienen los datos apareados. Las hipótesis para la prueba de correlación de rangos son: H0: , No existe correlación entre las dos variables. H1: , Existe correlación entre las dos variables. Si se tiene una muestra aleatoria (x1;y1), (x2;y2), …, (xn;yn) de n pares de observaciones, para calcular el coeficiente de correlación de rangos también conocido como coeficiente de correlación de Spearman, si no hay empates se utiliza la siguiente fórmula para calcular el estadístico de prueba:
rs = 1 −
6∑ d i
2
n(n 2 − 1)
Donde: n: número de pares de datos muestrales. di: son las diferencias entre los puestos de los miembros de los distintos pares. Si existieran empates, el estadístico de prueba se calcula con la siguiente fórmula:
rs =
(
n∑ xy − (∑ x )(∑ y )
)
n ∑ x 2 − (∑ x )
2
(
)
n ∑ y 2 − (∑ y )
2
10 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 706
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Figura N°03: PRUEBA DE CORRELACIÓN DE RANGOS11
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Los valores críticos son: - Para n≤30, los valores críticos se encuentran en la tabla de valores críticos para el coeficiente de correlación de rangos de Spearman. - Para n>30, los valores críticos se calculan con la fórmula: -
rs =
±z n −1
donde los valores z corresponden al nivel de significancia. Ejemplo Se toma una muestra de 11 operarios fabriles y se anotan las calificaciones de desempeño que les otorgan 2 supervisores con los resultados que se muestran a continuación: OPERARIO 1
CALIFICACIÓN
CALIFICACIÓN
SUPERVISOR A
SUPERVISOR B
81
78 83
2
83
3
90
92
4
98
72
5
78
74
6
74
80
7
85
84
8
90
79
11 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 709
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
99
ollo nidos
as nadas
torio
100
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
9
95
93
10
91
94
11
92
95
Anotaciones
Pruebe con un nivel de significancia del 5% si el coeficiente de correlación de Spearman es significativo.12 Solución i) Planteamos las hipótesis: H0:
ρs = 0
, No existe correlación entre las dos variables.
H1:
ρs ≠ 0
, Existe correlación entre las dos variables.
ii) Asignamos los rangos y luego calculamos las diferencias: OPERARIO
CALIFICACIÓN
RANGOS
CALIFICACIÓN
RANGOS
d
SUPERVISOR A
A
SUPERVISOR B
B
A-B
d2
1
81
3
78
2
1
1
2
83
4
83
5
-1
1
3
90
6.5
92
7.5
-1
1
4
98
11
72
7.5
3.5
12.25
5
78
2
74
1
1
1
6
74
1
80
4
-3
9
7
85
5
84
6
-1
1
8
90
6.5
79
3
3.5
12.25
9
95
10
93
9
1
1
10
91
8
94
10
-2
4
11
92
9
95
11
2
4
iii) La suma de las d2 es 47.5 iv) Calculamos el estadístico de prueba: = v) El valor crítico lo ubicamos en la tabla de valores críticos del coeficiente de correlación de rangos de Spearman, siendo 0.618. vi) Como el valor calculado es mayor que el valor crítico rechazamos la hipótesis nula y aceptamos que existe algún tipo de correlación entre las calificaciones de los dos supervisores. Ejercicio La tabla adjunta muestra el rendimiento porcentual de una muestra aleatoria de 20 fondos de inversión a largo plazo en un periodo de 12 meses y los activos totales (en millones de dólares). RENDIMIENTO
ACTIVOS
RENDIMIENTO
ACTIVOS
RENDIMIENTO
ACTIVOS
29.3
300
16
421
12.9
75
27.6
70
15.5
99
11.3
610
23.7
3004
15.2
756
9.9
264
22.3
161
15
730
7.9
27
22
827
14.4
436
6.7
71
19.6
295
14
143
3.3
719
17.6
29
13.7
117
Realice un contraste no paramétrico de la hipótesis nula de que no existe ninguna relación en la población entre las características analizadas.
12 Tomado de Estadística Aplicada a la Administración y la Economía, Alberto Díaz Mata, 1°Ed., Cap.17, página 541
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
CUADRO N°20: VALORES CRÍTICOS COEFICIENTE DE CORRELACIÓN DE
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
RANGOS DE SPEARMAN.13 no
α= 0.10
α= 0.05
α= 0.02
α= 0.01
5
.900
--
--
--
6
.829
886
943
--
7
.714
786
893
929
8
.643
738
833
881
9
.600
700
783
833
10
.564
648
745
794
11
.536
618
709
755
12
.503
587
678
727
13
.484
560
648
703
14
.464
538
626
679
15
.446
521
604
654
16
.429
503
582
635
17
.414
485
566
615
18
.401
472
550
600
19
.391
460
535
584
20
.380
447
520
570
21
.370
435
508
556
22
.361
425
496
544
23
.353
415
486
532
24
.344
406
476
521
25
.337
398
466
511
26
.331
390
457
501
27
.324
382
448
491
28
.317
375
440
783
29
.312
368
433
475
30
.306
362
425
467
Notas: 1. Para n >30, utilice r5= + z/ n - 1 donde z corresponde al nivel de significancia. Por ejemplo, si =0.05, then z=1.96. 2. Si El valor absoluto des estadístico de prueba r5 excede al valor crítico positivo, entonces rechace H0: p5 = 0 y concluya que existe una correlación. Basado en datos de "Biostatistical Analysis, 4th edition", 1999, de Jerrold Zar, Prentice Hall, Inc., Upper Saddle River, Nueva Jersey, y "Distribution of Sums of Squares of Ranl Differences to Small Numbers with Individuals", The Annals of Mathematical Statistics, vol. 9, núm. 2, con permiso del Institute of Mathematical Statistics. 3 PRUEBA DE RACHAS Cuando no existe aleatoriedad, muchas de las herramientas estadísticas en las cuales se confía son de poco uso o de ningún uso. Para comprobar la aleatoriedad se utiliza la prueba de rachas, que es una prueba no paramétrica de aleatoriedad en el proceso de muestreo. Una racha es una serie continua de uno o más símbolos, así se tiene una sucesión en que intervienen dos tipos de símbolos: AAAABBAAABBBAAAAAAABB Entonces definimos una racha como una sucesión de uno o más símbolos idénticos que están precedidos o seguidos por un símbolo diferente o por ninguno, siendo la 13 Tomado de Estadística, Mario Triola, 10°Ed., Apeéndice A, página 783
Bibliografía
101
ollo nidos
as nadas
torio
102
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
longitud de una racha el número de símbolos iguales que incluye. La sucesión anterior presenta 6 rachas, las cuales se pueden separar por barras verticales: AAAA/BB/AAA/BBB/AAAAAAA/BB
Anotaciones
Se observa entonces que hay una racha de longitud 4, 4(A), dos rachas de longitud 2, (2B), una racha de longitud 3, (3A), etc. Las hipótesis que se plantea en la prueba de rachas son: H0: Existe aleatoriedad en la muestra. H1: No existe aleatoriedad en la muestra. Para muestras pequeñas y α = 0.05 , siendo n1 ≤ 20 y n2 ≤ 20, el estadístico de prueba es el número de rachas G. Los valores críticos se encuentran en la tabla de valores críticos para el número de rachas G. Se rechaza la aleatoriedad si el número de rachas G es: • Menor o igual al valor crítico más pequeño encontrado en dicha tabla • Mayor o igual al valor crítico más grande encontrado en dicha tabla Para muestras grandes o α ≠ 0.05 y si n1 > 20 o n2 > 20, utilice el estadístico de prueba y los valores críticos siguientes: Estadístico de prueba:
Donde
y
Para los valores críticos de z, se utiliza la tabla de distribución normal trabajada anteriormente. NOTA: Para analizar datos numéricos, o sea la aleatoriedad por arriba o por debajo de la media o de la mediana, se prueba la aleatoriedad por la forma como los datos numéricos fluctúan por encima o por debajo de una media o mediana.
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
FIGURA N°04: PRUEBAS DE RACHAS14
14 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 718
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Bibliografía
103
ollo nidos
104
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
CUADRO N°21: VALORES CRÍTICOS PARA LA PRUEBA DE RACHAS15
Ejemplo El principal diario de la localidad mantenía un registro del sexo de las personas que llamaban a la oficina de circulación para quejarse de los problemas con la entrega de la revista sabatina. Para un sábado reciente, estos datos fueron los siguientes: M, F, F, F, M, M, F, M, F, F, F, F, M, M, M, F, M, F, M, F, F, F, F, M, M, M, M, M Usando el nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿Hay algo respecto a la naturaleza de este problema que nos lleve a la conclusión que una secuencia así no es aleatoria? Solución i) Planteamos las hipótesis:
H0: Existe aleatoriedad en la muestra. H1: No existe aleatoriedad en la muestra.
ii) Identificamos las rachas: M/FFF/MM/F/M/FFFF/MMM/F/M/F/M/FFFF/MMMMM Encontramos un total de G=13 rachas. iii) El estadístico de prueba es 13 y el valor crítico lo ubicamos en la tabla de valores críticos para la prueba de rachas con n1= 14 para los varones y n2=14 para las mujeres siendo de 9 a 21 rachas. iv) Como el estadístico de prueba se encuentra entre los valores críticos se acepta la hipótesis nula de existencia de aleatoriedad. Por lo que no hay evidencia para pensar que la secuencia no es aleatoria. 15 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 784, tabla A10
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
Ejemplo
Se asumen niveles de producción diarios en una mina de carbón seleccionada para un estudio estadístico, y éstos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32, 40, 37, y 60 toneladas. Se desea analizar dicha producción para verificar algún problema Recordatorio recurrente en las máquinas. ¿Habrá algún indicio para pensar que existe algún problema cíclico en las máquinas? Solución i) Siendo la mediana de 37, se utiliza como valor de referencia. ii) Las observaciones caen o por arriba (A) o por abajo (B) de 37, se representan de la siguiente manera: 31
57
52
22
24
59
25
29
27
44
43
32
40
B
A
A
B
B
A
B
B
B
A
A
B
A
37
60 A
iii) Identificamos las rachas: B/AA/BB/A/BBB/AA/B/AA Encontramos un total de ocho rachas, por lo tanto G=8. iv) Con n1=7 para B y n2 = 7 para A, la tabla de valores críticos para la prueba de rachas revela valores críticos de 3 y 13 rachas. v) Debido a que hay 8 rachas, se asume que hay aleatoriedad y no se rechaza la hipótesis nula, por lo que no habría razón para pensar que hay un problema cíclico. Ejercicio Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia de 0.05: A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, B, A, B, B, A, A, A, B, A, B, A, A Ejercicio La municipalidad provincial recibe diariamente solicitudes para matrimonios civiles. Un estudio registra las solicitudes de los últimos 30 días hábiles.
Diagrama
Objetivos
Inicio
3, 4, 6, 8, 4, 6, 7, 2, 5, 7, 4, 8, 4, 7, 9, 5, 9, 10, 5, 7, 4, 9, 8, 9, 11, 6, 7, 5, 9, 12 Con un nivel de significancia del 0.01 ¿existen motivos para pensar que la serie registrada proviene de alguna característica del entorno?
Desarrollo de contenidos
Actividades
Autoevaluación
LECTURA SELECCIONADA N° 1 Lecturas seleccionadas
Glosario
Bibliografía
¿LOS ESTUDIANTES CLASIFICAN A LAS UNIVERSIDADES DE LA MISMA MANERA QUE EL U.S. NEWS AND WORLD REPORT? RecordatorioTriola. Anotaciones Mario Página 675.
Cada año, la revista U.S. News and World Report publica una clasificación de universidades con base en estadísticos tales como las tasas de admisión, las tasas de graduación, el tamaño de los grupos, la razón entre profesores y estudiantes, los salarios de los profesores y las calificaciones de los administradores otorgadas por sus compañeros. Los economistas Christopher Avery, Mark Glickman, Caroline Minter Hoxby y Andrew Metrick usaron un método alternativo para analizar la selección de universidades de 3240 estudiantes del último año de preparatoria con alto rendimiento escolar. Examinaron las universidades que ofrecen admisión junto con las universidades que los estudiantes eligen. La tabla siguiente lista el orden de una pequeña muestra de universidades, así como también cierto acuerdo entre el orden de preferencia de los estudiantes y las calificaciones de la revista, aunque también indica cierto desacuerdo. Por ejemplo, de las ocho universidades consideradas, Harvard ocupó el primer lugar tanto para los estudiantes como para la revista U.S. News and World Report. Sin embargo, de las ocho universidades incluidas, la
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
105
ollo nidos
106
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
Universidad de Pennsylvania fue considerada en séptimo lugar por los estudiantes pero en tercer lugar por la revista. Consideremos el tema de una correlación entre la clasificación de los estudiantes y la clasificación de la revista. El coeficiente de correlación lineal r se utiliza para medir la asociación entre dos variables y requieren datos apareados, y los datos de la tabla están apareados. Sin embargo, existe una diferencia muy importante: los métodos de correlación y regresión tienen requisitos como las distribuciones normales, y los rangos como los que aparecen en la tabla no satisfacen estos requisitos. En dichos métodos no se pueden utilizar los datos muestrales presentados. En este capítulo se presentan varios métodos que se utilizan con datos que no satisfacen el requisito de una distribución normal. En particular, varios métodos de esta sección pueden emplearse con datos muestrales en el formato de rangos, como los de la tabla. En una de las secciones se estudiará un método para poner a prueba una correlación con datos apareados que no tienen el formato de rangos. Entonces, seremos capaces de analizar el grado de acuerdo y desacuerdo entre las clasificaciones de los estudiantes y de la revista, como aparecen en la tabla. Así, probaremos si existe una correlación entre las preferencias de los estudiantes y la clasificación de la revista, y podremos contestar la siguiente pregunta importante: ¿Los estudiantes coinciden con la revista?
Objetivos
Desarrollo de contenidos
Actividades
Inicio
ACTIVIDAD N° 1 Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Bibliografía
Desarrollo de contenidos
Actividades
Recordatorio
Diagrama
Diagrama
ACTIVIDAD N° 2 Autoevaluación
Esta actividad puede consultarla en su aula virtual. Anotaciones
Objetivos Lecturas seleccionadas
Inicio Glosario
Actividades
Autoevaluación
Bibliografía
CONTROL DE LECTURA N° 2 Desarrollo de contenidos
Recordatorio
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Anotaciones
Esta actividad puede consultarla en su aula virtual. Bibliografía
os
s
o
s
s
o
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Objetivos
Inicio
Actividades
Autoevaluación
Glosario
Bibliografía
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
BIBLIOGRAFIA DE LA UNIDAD III:
Triola, M.(2012). Estadística. México: Pearson Educación
Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicaciones. Mexico: Prentice Hall Anotaciones
Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuarta Edición. Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera Edición
Objetivos
Inicio
Actividades
Autoevaluación
AUTOEVALUACIÓN DE LA UNIDAD III 1. Dadas las siguientes proposiciones: Glosario
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
I. La prueba de signo implica averiguar si hay una cantidad desproporcionadamente mayor de uno u otro signo.
Bibliografía
II. La prueba de signo es una prueba paramétrica. III. La prueba de signo no es tan eficiente como una prueba paramétrica. Anotaciones
Son correctas: a) Sólo I y II b) Sólo I c) Sólo I y III d) Ninguna. e) I; II y III 2. Sean las afirmaciones: I. En la secuencia de ganancias (G) y pérdidas (P): GGGGPPPP, el número de rachas es 4. II. La prueba de rachas para detectar aleatoriedad se basa en el orden en que se presenta los datos. III. Una racha es una secuencia de datos que tienen la misma característica. Son correctas a) I; II y III b) Sólo I y II c) Sólo I d) Sólo II e) Sólo III 3. Se desea probar si la estatura de los empleados tiene distribución normal. Se toma una muestra aleatoria de 200 empleados a quienes se les pregunta su estatura en pulgadas. Los resultados obtenidos son: ESTATURA
57,5-63,5
63,5-69,5
69,5-72,5
72,5-78,5
No. EMPLEADOS
29
75
68
28
¿Con base en a ésta información se puede concluir que su distribución es normal? a) Los datos se distribuyen normalmente b) Los datos no se distribuyen normalmente con un nivel de confianza del 95% c) No se puede determinar porque no se tiene el nivel de confianza
Bibliografía
107
ollo nidos
as nadas
torio
108
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA
d) No se puede determinar porque son datos de intervalo de frecuencias e) No se puede utilizan la prueba debido a que son pocas clases Anotaciones
4. En un estudio realizado por Harris Interactive, Inc. se evaluaron las principales empresas de Internet y se evaluó también su reputación. En la lista siguiente se muestra el ranking de 10 empresas de internet en relación, por un lado, con su reputación y por el otro con el porcentaje de entrevistados que dijeron estar dispuestos a comprar acciones de esa empresa. Empresas
Micro- Intel Dell soft
Lucent
Texas
Cisco
Instrument
Systems
Packard
Hewlett IBM Moto- Yahoo rola
Reputación
1
2
3
4
5
6
7
8
9
10
Probable compra
3
4
1
2
9
5
10
6
7
8
Haga una prueba para determinar si existe una correlación por rangos significativa, emplee un nivel de significancia de 0.05,¿cuál es su conclusión? A) H0: rs=0, H1:rs≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. B) H0: s =0, H1: s ≠ 0, rs= -0.6727, VC=0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. C) H0: s =0.6727, H1: s ≠ 0, rs= 0.6727, VC ± 0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. D) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. No se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. E) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. 5. Las calificaciones dadas a tres productos por un panel de 15 consumidores son las siguientes: PRODUCTOS A
B
C
50
80
60
62
95
45
75
98
30
48
87
58
65
90
57
Use la prueba de Kruskal Wallis y un nivel de significancia del 0.05 para determinar si existe diferencia significativa entre las calificaciones dadas a los tres productos a) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos. b) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: No hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos.
Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos
Lecturas seleccionadas
c) H0: Hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=9.54, VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos. Recordatorio d) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=24.996, Conclusión: Se acepta H0 y se concluye que no hay diferencia entre las calificaciones dadas a los productos. e) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=2.575, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos.
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
Anotaciones
Bibliografía
109
110
Desarrollo de contenidos
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
Desarrollo de contenidos
Actividades
Glosario
Bibliografía
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD IV
Diagrama
Objetivos
Inicio
CONTENIDOS
Recordatorio
Anotaciones
Desarrollo de contenidos
Actividades
ACTIVIDADES
EJEMPLOS
Autoevaluación
AUTOEVALUACIÓN Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Diagrama
BIBLIOGRAFÍA
Bibliografía
ORGANIZACIÓN DE LOS APRENDIZAJES Objetivos
Inicio
CONOCIMIENTOS Desarrollo de contenidos
Actividades
Glosario
Autoevaluación
Recordatorio
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
PROCEDIMIENTOS
ACTITUDES
1. Formula modelos lineales y no lineales para pronosticar la relación de las variables
1. Valora reflexivamente la importancia de las pruebas no paramétricas, de los modelos de predicción y métodos de control de procesos estadísticos para la toma de decisiones.
Autoevaluación
Tema N° 1: Correlación y Regresión 1. Correlación y regresión lineal 2. Correlación y regresión múltiple Lecturas Glosario Bibliografía seleccionadas 3. Elaboración de modelos de regresión Tema N° 2: Control estadístico de procesos Anotaciones 1. Gráficos de control para la media y varianza 2. Gráficos de control para atributos
Recordatorio
Lectura seleccionada N° 1 ¿Podemos predecir el momento de la siguiente erupción del géiser Old Faithful? Mario Triola. Página 515. Autoevaluación de la Unidad IV
2. Realiza el control estadístico de procesos utilizando los gráficos de control. Actividad N° 1 Actividad N° 2 Tarea Académica Nº 2
Anotaciones
Bibliografía
111
ollo nidos
112
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
TEMA N° 1: CORRELACIÓN Y REGRESIÓN La regresión y la correlación son dos técnicas estrechamente relacionadas que comprenden una forma de estimación de una relación existente en la población. Este análisis, comprende el análisis de los datos muestrales para saber si se relacionan y cómo se relacionan entre sí dos o más variables de una población. El objetivo principal de la correlación es determinar la fuerza en que las variables están relacionadas y el objetivo principal de la regresión es descubrir el modo en que se relacionan. Una herramienta importante para el análisis de correlación y regresión es el diagrama de dispersión, el cual nos muestra visualmente la manera como las variables analizadas se relacionan, y a partir de ahí definir el tipo de análisis que se va a realizar. A continuación se presenta una serie de gráficos que nos ilustrarán las distintas maneras en que se relacionan dos variables. FIGURA N°05: DIAGRAMAS DE DISPERSIÓN PARA EL ANÁLISIS DE CORRELACIÓN1
Los diagramas de dispersión que acabas de ver te muestran las diferentes relaciones entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos señalar que si tanto los valores de X como los valores de Y tienden a seguir un patrón, entonces existe una correlación.
1
Tomado de Estadística, Mario Triola, 10°Ed., Cap.10, página
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Lecturas seleccionadas
1 Correlación y regresión lineal
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
1.1 Coeficiente de correlación El coeficiente de correlación lineal r mide la fuerza en que dos variables apareaRecordatorio das y cuantitativas se relacionan. Se conoce también como coeficiente de correlación de Pearson. Su fórmula para el cálculo es dadas las variables cuantitativas x y y:
r=
[n∑ x
n∑ xy − ∑ x ∑ y 2
][
− (∑ x ) n∑ y 2 − (∑ y ) 2
2
]
El coeficiente de correlación se interpreta de la siguiente manera:
Podemos observar lo siguiente: − El valor de r es un número que satisface la desigualdad –1 ≤ r ≤ 1. − Cuando la relación de dos variables es perfectamente positiva, o sea cuando al variar la primera, la segunda varía en las mismas proporciones y en la misma dirección, el coeficiente de correlación es + 1 (unidad positiva). − Cuando la relación de dos variables es perfectamente negativa, o sea cuando al variar la primera, la segunda varía en las mismas proporciones pero en dirección contraria, el coeficiente de correlación es – 1 (unidad positiva). − Cuando no existe relación entre las dos variables, o sea cuando al variar la primera, las variaciones de la segunda no reflejan dependencia o conexión alguna con las variaciones de la primera, el coeficiente de correlación lineal es cero. Ejemplo Se tiene los valores registrados de las visitas realizadas y los pedidos hechos por 10 vendedores de una empresa. Calcula el coeficiente de correlación de Pearson. N°VENDEDOR
VISITAS
PEDIDOS EN
REALIZADAS (X)
MILLONES S/. (Y)
1
245
13.4
2
172
10.3
3
291
15.1
4
124
6.9
5
191
7.3
6
218
14.2
7
101
5.2
8
259
11.8
9
307
14.3
10
142
5.5
Anotaciones
Bibliografía
113
ollo nidos
as nadas
torio
114
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
Solución i) Calculamos ∑x,∑y, ∑x.y, ∑x2 y ∑y2. ii) Anotaciones
N°
VISITAS
PEDIDOS EN
VENDEDOR
REALIZADAS
MILLONES
(X)
S/. (Y)
1
245
2
x.y
X2
Y2
13.4
3283
60025
179.56
172
10.3
1771.6
29584
106.09
3
291
15.1
4394.1
84681
228.01
4
124
6.9
855.6
15376
47.61
5
191
7.3
1394.3
36481
53.29
6
218
14.2
3095.6
47524
201.64
7
101
5.2
525.2
10201
27.04
8
259
11.8
3056.2
67081
139.24
9
307
14.3
4390.1
94249
204.49
10
142
5.5
781
20164
30.25
2050
104
23546.7
465366
1217.26
iii) Aplicamos la fórmula:
r=
[n∑ x
n∑ xy − ∑ x ∑ y 2
][
− (∑ x ) n∑ y 2 − (∑ y ) 2
2
]
r = 0.9
iv) Podemos concluir que existe un grado apreciable de correlación entre las visitas y los pedidos, siendo ésta positiva. Ejercicio Se aplicaron dos test de razonamiento a 10 alumnos y se encontraron los resultados siguientes. Calcula el coeficiente de correlación de Pearson e interprete. ALUMNO
TEST 1
TEST 2
1
15
12
2
14
14
3
10
9
4
9
10
5
8
8
6
8
7
7
7
8
8
6
4
9
4
6
10
2
4
1.2 Coeficiente de determinación (r2) El coeficiente de determinación indica el porcentaje de la variación total que será explicado por el análisis de regresión. Es el cuadrado del coeficiente de correlación de Pearson. 1.3 Prueba t para el coeficiente de correlación Hipótesis
H0 : ρ = 0
H1 : ρ ≠ 0
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Estadístico de Prueba:
t=
r n−2 1− r2
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
FIGURA N°06: PRUEBA DE HIPÓTESIS PARA EL COEFICINETE DE CORRELACIÓN2
1.4 Regresión lineal Los supuestos de la regresión y correlación que se debe tener en cuenta son: - Para cada valor de” x” hay un grupo de valores de “y”, y estos valores “y” están distribuidos normalmente. - Toda las medias de estas distribuciones normales de Y están sobre la línea de regresión. - Las desviaciones estándar de estas distribuciones normales son iguales. - Los valores de “y” son estadísticamente independientes. ECUACIÓN DE REGRESIÓN:
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
y = a + bx
2 Tomado de Estadística, Mario Triola, 10°Ed., Cap.10, página 526
Bibliografía
115
ollo nidos
116
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
FIGURA N°07: DIAGRAMA DE DISPERSIÓN
MÉTODO DE MÍNIMOS CUADRADOS PARA CÁLCULO DE a Y b: n x y− x y b = ∑ 2 ∑ ∑2 n ∑ x − (∑ x )
∑ y −b ∑x
a=
n
n
ERROR ESTÁNDAR DE ESTIMACIÓN En una medida de dispersión de los valores observados alrededor de la línea de regresión:
s y,x = S y. X =
∑(y − y
est
)2
n−2
∑Y
2
− a ∑ Y − b∑ XY n−2
INTERVALO DE CONFIANZA Estima el valor medio de y para una x dada:
yest ± tα / 2;n−2 .s yx .
1
n
( x − x) 2
+
∑x
2
−
(∑ x) 2 n
INTERVALO DE PREDICCIÓN Estima el rango de valores de y para una x dada:
yest ± tα / 2;n−2 .s yx . 1 +
1 + n
( x − x) 2 (∑ x ) 2 2 − x ∑ n
Ejemplo El gerente municipal de construcción considera que la demanda de camionadas de hormigón puede estar relacionada con el número de permisos de construcción emitidos en el municipio durante el trimestre anterior. El gerente ha recolectado los datos que se muestran en la tabla.
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Permisos de
Camionadas de
construcción (X)
hormigón (Y)
15
6
9
4
40
16
20
6
25
13
25
9
15
10
35
16
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Se pide determinar una estimación del número de camionadas cuando el número de permisos de construcción es 30. Solución i) Realizamos el gráfico de dispersión para el análisis visual FIGURA N°08: DIAGRAMA DE DISPERSIÓN
ii) Realizamos los cálculos en la tabla: n
X
Y
XY
X2
Y2
1
15
6
90
225
36
2
9
4
36
81
16
3
40
16
640
1600
256
4
20
6
120
400
36
5
25
13
325
625
169
6
25
9
225
625
81
7
15
10
150
225
100
8
35
16
560
1225
256
Totales
184
80
2146
5006
950
iii) Coeficiente de correlación
r=
r=
[n∑ X
n∑ XY − ∑ X ∑ Y 2
][
− (∑ X ) n∑ Y 2 −(∑ Y ) 2 2
8(2146) − (184)(80)
[8(5006) − (184) ][8(950) − (80) ] 2
2
]
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
117
ollo nidos
as nadas
torio
118
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
2448 = 7430400
r=
Anotaciones
0.90 Por lo tanto podemos indicar que existe buena relación entre las dos variables, siendo el 81% de la variación total explicado por el análisis de regresión.
iv) Hallamos las medias de X y Y:
X = 23
Y = 10 v) Hallamos los valores de a y b, utilizando las fórmulas: n x y− x y b = ∑ 2 ∑ ∑2 n ∑ x − (∑ x )
a=
∑ y −b ∑x n
n
b = 0.395
a = 0.915
vi) Planteamos la ecuación de la regresión:
y = a + bx y = 0.915 + 0.395 x vii) El número de camionadas cuando el número de permisos de construcción es 30 se puede encontrar sustituyendo el valor en la ecuación.
x = 30 y = 0.915 + 0.395(30) x
y = 12.76 ≈ 13 El número de embarques será de 13 aproximadamente. viii) Por lo tanto, la desviación estándar de la regresión es
S y. X = SY . X =
∑Y
2
− a ∑ Y − b∑ XY n−2
950 − (0.91)(80) − (0.396)(2146) 8−2
S Y . X = 2.2 embarques ix) Si queremos calcular el intervalo de predicción utilizamos:
yest ± tα / 2;n−2 .s yx . 1 +
s yx . 1 +
1 + n
1 + n
( x − x) 2 (∑ x) 2 2 x − ∑ n
( x − x) 2 = 2.4 (∑ x) 2 2 ∑x − n
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
tα / 2;n−2 = 2.447 Intervalo de predicción (inferior) = 13 – 5.87 = 7.1 Intervalo de predicción (superior) = 13 + 5.87 = 18.9 7.1< Embarques < 19 Ejercicio La temperatura del aire disminuye con la altura de la localidad, los datos siguientes refuerzan la idea y hacen presumir una relación lineal entre la temperatura Y y la altura X observada en ciertos puntos de la costa y parte de la sierra al amanecer. X altura en metros
Y temperatura en ºC
1642
18
2242
12
1000
19
937
21
1178
18
1502
16
2043
0
1502
14
1603
10
975
16
1549
15
1066
20
1495
15
1508
18
1000
23
1000
19
1971
19
982
23
1173
18
907
21
1790
12
2109
11
1410
14
1777
6
910
19
Si usted se encontrara al amanecer, a 2000 m en alguno de dichos lugares, ¿qué temperatura esperaría soportar? Realice previamente el diagrama de dispersión. Es importante indicar que también existe la regresión no lineal simple, cuando los datos no se ajustan al comportamiento de una recta es necesario encontrar el modelo que los explique, en este caso el mejor modelo será el que tenga un mejor coeficiente de determinación. Entre los más importantes se tiene:
Bibliografía
119
ollo nidos
as nadas
torio
120
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
REGRESIÓN EXPONENCIAL
y = ab x Anotaciones
REGRESIÓN POTENCIAL
y = ax b REGRESIÓN POLINOMIAL
y = a 0 + a1 x + a 2 x 2 + ... + a k x k REGRESIÓN CUADRÁTICA
y = a0 + a1 x + a2 x 2 2 CORELACIÓN REGRESIÓN MÚTIPLE La regresión múltiple analiza la relación lineal entre una variable de respuesta (y) y dos o más variables de predicción (x1, x2, …,xi), por lo complicado en su análisis utilizaremos el Excel como herramienta. El objetivo es ajustar un modelo de la forma estimando los parámetros correspondientes y calcular el coeficiente de determinación . Ejemplo Se tiene el siguiente registro de datos: y
X1
X2
8
4
20
10
3
22
12
6
23
13
6
26
15
7
27
18
8
30
Realice el ajuste de regresión múltiple.
Solución i) Llevamos los datos a una hoja del Excel.
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
ii) Ir a la pestaña análisis de datos en la opción datos del menú.
iii) Al activar el comando regresión, seleccionar las celdas que se solicita:
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
Bibliografía
121
ollo nidos
122
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
iv) Luego de presionar Aceptar, se muestran los siguientes resultados:
v) De aquí se puede extraer lo siguiente: Intercepción = =-8.894737 Variable X1 =
= 0.3684211
Variable X1 =
= 0.7894737
vi) Por lo tanto, la ecuación de regresión múltiple ajustada es :
Y= −8.8947 + 0.3684 X 1 + 0.7895 X 2
2 y su R = 0.9784 (97.84%)
2 ELABORACIÓN DE MODELOS DE REGRESIÓN Para elegir el mejor modelo de regresión, debemos analizar el coeficiente de determinación, aquel modelo que tenga el mayor R2 será el que ajusta mejor el comportamiento de los datos. Ejemplo Elija el mejor modelo para el comportamiento de los siguientes datos: x
y
5
69
9
68
10
45
15
48
15
53
16
50
23
45
25
40
26
23
28
36
29
21
31
32
33
21
34
15
35
26
36
10
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Solución
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
i) En el Excel, generemos el diagrama de dispersión, utilizando el comando Insertar… Gráficos… Dispersión. Recordatorio
ii) Haciendo click derecho en cualquier punto activar el comando Agregar línea de tendencia.
Anotaciones
Bibliografía
123
ollo nidos
124
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
iii) Se muestran las opciones donde debemos realizar la prueba en cada modelo para poder observar el coeficiente de correlación.
iv) Activamos también Presentar el valor R en el gráfico asi como Presentar ecuación en el gráfico.
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
vi) Quedando el gráfico del siguiente modo:
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
FIGURA N°09: DIAGRAMA DE DISPERSIÓN
Donde podemos observar el coeficiente de determinación y el modelo matemático. vii) El mejor coeficiente y por lo tanto el mejor modelo encontrado pero más complicado es el polinómico de grado 6. La ecuación del modelo es presentada por el Excel de la siguiente forma:
En el gráfico se muestra el resultado:
Bibliografía
125
ollo nidos
126
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
Ejercicio Elija el mejor modelo para el comportamiento de los siguientes datos: x
y
48
1
56
1.25
58
1
58
3
59
4.5
62
3
67
2.5
68
3
69
6
69
4
75
1.5
78
3.6
79
5
102
1.25
109
3
110
4
TEMA N° 2: CONTROL ESTADÍSTICO DE PROCESOS A medida como la ciencia y tecnología ha ido evolucionando, se ha hecho necesario e indispensable realizar el control estadístico de los procesos sobre todo para controlar los indicadores de centralización y sobre ello tomar decisiones, para prevenir, mejorar, optimizar, minimizar, etc. Los requerimientos de tal o cual proceso. La Gestión de la Calidad en todo ámbito ha hecho de la Estadística una herramienta indispensable para el cumplimiento de sus metas, es por ello la importancia del presente capítulo, donde haremos énfasis en las gráficas de control para la media y para la varianza.
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
FIGURA N°10: LAS 7 HERRAMIENTAS ESTADÍSTICAS BÁSICAS PARA LA GESTIÓN DE LA CALIDAD
GRÁFICOS DE CONTROL O CARTAS DE CONTROL Sirven para monitorear el proceso, prevenir defectivos y facilitar la mejora. Hay dos tipos de cartas de control: por atributos (juzga productos como buenos o malos) y por variables (variables como, temperaturas). Las ventajas del uso de una gráfica de control son: •
Es una herramienta simple y efectiva para lograr un control estadístico.
• Es de fácil manejo por los operarios, por lo cual puede dar información confiable a la gente cercana a la operación en el momento en que se deben de tomar ciertas acciones. • Cuando un proceso está en control estadístico puede predecirse su desempeño respecto a las especificaciones. En consecuencia, tanto el productor como el cliente pueden contar con niveles consistentes de calidad y ambos pueden contar con costos estables para lograr ese nivel de calidad. • Una vez que un proceso se encuentra en control estadístico, su comportamiento puede ser mejorado posteriormente reduciendo la variación. • Al distinguir ente las causas especiales y las causas comunes de variación, dan una buena indicación de cuándo un problema debe ser corregido localmente y cuando se requiere de una acción en la que deben de participar varios departamentos o niveles de la organización. En el Control de la Calidad mediante el término variable se designa a cualquier característica de calidad “medible” tal como una longitud, peso, temperatura, etc. Mientras que se denomina atributo a las características de calidad que no son medibles y que presentan diferentes estados tales como conforme y disconforme o defectuoso y no defectuoso. 1 GRÁFICOS DE CONTROL PARA LA MEDIA Y VARIANZA
Su campo de aplicación se puede resumir en el siguiente cuadro: CARTA
DESCRIPCIÓN
CAMPO DE APLICACIÓN
X-R
Medias y Rangos.
Control de características individuales.
X-S
Medias y desviación estándar.
Control de características individuales.
Bibliografía
127
ollo nidos
128
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
CUADRO N° 22: COEFICIENTES PARA LAS CARTAS DE CONTROL3
CÁLCULO DE LOS LÍMITES DE CONTROL Los límites de control son calculados para determinar la variación de cada subgrupo, están basados en el tamaño de los subgrupos y se calculan de la siguiente forma:
LSC R = D4 R
LSC X = X + A2 R
LIC R = D3 R
LIC X = X − A2 R
Donde D4, D3, A2 son constantes que varían según el tamaño de muestra.
2
GRÁFICOS DE CONTROL PARA ATRIBUTOS Su campo de aplicación se puede resumir en el siguiente cuadro: CARTA
DESCRIPCIÓN
CAMPO DE APLICACIÓN
P
Proporciones.
Control de la fracción global de defectuosos de un proceso.
NP
Número de defectuosos.
Control del número de piezas defectuosas
C
Defectos por unidad.
Control de número global de defectos por unidad
U
Promedio de defectos por unidad.
Control del promedio de defectos por unidad.
En el presente texto analizaremos la gráfica de control para proporciones (P). Sus límites de control se calculan de la siguiente forma:
3 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 740
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
LSC p = p + 3 Donde:
p=
p (1 − p ) n
LIC p = p − 3
p (1 − p ) n
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
np1 + np 2 + .... + np k n1 + n2 + ..... + nk
Para ambos casos se debe tener en cuenta en el análisis de las gráficas que los procesos estarán fuera de control si tienen los siguientes comportamientos: FIGURA N°11: DIAGRAMAS DE DISPERSIÓN Y PROCESOS FUERA DE CONTROL4
Ejemplo Se toman las medidas de los diámetros de una pieza cilíndrica, el tamaño de muestra de cada subgrupo es de cinco, y se toman 25 subgrupos a intervalos de 1 hr. Realice la carta de control X--R
4 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 737
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Bibliografía
129
ollo nidos
130
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
. Solución i) Calculamos el rango y el promedio para cada grupo:
ii)
R = 0.198 y X = 0.71
iii) Luego calculamos los límites para los Rangos:
LSC R = D4 R = 2.11x0.198 = 0.41
LIC R = D3 R = 0 iv) Finalmente calculamos los límites para las medias:
LSC X = X + A2 R = 0.71 + (0.58 x0.198) = 0.82
LIC X = X − A2 R = 0.71 − (0.58 x0.198) = 0.59 v) Luego graficamos: FIGURA N°12: DIAGRAMA DE CONTROL
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
v) La carta de control R muestra un punto fuera de los límites de especificaciones, por lo cual el proceso se encuentra fuera de control, en este caso es necesario investigar las causas y tomar las acciones correctivas para eliminar el problema. Ejemplo Un fabricante de latas de aluminio registra el número de partes defectuosas, tomando muestras cada hora de n = 50, con 30 subgrupos. Realizar la gráfica de control para la siguiente serie de datos obtenida durante el muestreo.
Solución i) Calculamos la fracción defectuosa de cada muestra:
ii) Luego hallamos la proporción total:
iii) Hallamos los límites de control:
LSC p = p + 3
0.23 * 0.77 p (1 − p ) = 0.2313 + 3 =0.4102 n 50
Bibliografía
131
ollo nidos
132
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
iv) Finalmente trazamos la gráfica: FIGURA N°13: DIAGRAMA DE CONTROL
Diagrama
Objetivos
Inicio
v) Observamos que el proceso está fuera de control. Desarrollo de contenidos
Actividades
Autoevaluación
LECTURA SELECCIONADAS N° 1 Lecturas seleccionadas
Glosario
Bibliografía
¿PODEMOS PREDECIR EL MOMENTO DE LA SIGUIENTE ERUPCIÓN DEL GÉISER OLD FAITHFUL? Mario Triola. Página 515 Recordatorio Anotaciones El géiser Old Faithful es la atracción más visitada del Parque Nacional Yellowstone. Está ubicado cerca del hotel Old Faithful Inn, que tal vez sea la segunda atracción más visitada de Yellowstone. Los turistas disfrutan la comida, las bebidas, el alojamiento y las tiendas del hotel, pero quieren asegurarse de ver al menos una erupción del famoso géiser Old Faithful. Los guardabosques del parque ayudan a los turistas publicando el momento predicho de la siguiente erupción. ¿Cómo hacen esas predicciones?
Cuando el Old Faithful hace erupción, se registran las siguientes mediciones: duración (en segundos) de la erupción, el intervalo de tiempo (en minutos) entre la erupción anterior y la erupción actual, el intervalo de tiempo (en minutos) entre la erupción actual y la siguiente, y la altura (en pies) de la erupción. En la tabla adjunta se incluyen mediciones de ocho erupciones. (Las mediciones de la tabla son ocho de las 40 erupciones incluidas en el conjunto de datos 11 del apéndice B del libro Estadística de Mario Triola). La tabla incluye una muestra pequeña con el fin de que los cálculos sean más fáciles cuando los datos se utilicen para analizar los métodos de las siguientes secciones. Una vez que ocurre una erupción, queremos predecir el momento de la siguiente, que es el “intervalo de tiempo posterior” a la erupción. Para ver cuáles variables afectan los “intervalos de tiempo posteriores”, podríamos comenzar construyendo diagramas de dispersión como los que genera el Excel. Al examinar los patrones de los puntos en los tres diagramas de dispersión, podemos plantear las siguientes conclusiones subjetivas: 1. Al parecer hay una relación entre el intervalo de tiempo posterior a una erupción y la duración de la erupción. 2. Parece que no existe una relación entre el intervalo de tiempo posterior a una erupción y la altura de la erupción. 3. Parece que no existe una relación entre el intervalo de tiempo posterior a una erupción y el intervalo de tiempo previo a la erupción. Este tipo de conclusiones basadas en diagramas de dispersión son subjetivas, y en este capítulo presentamos herramientas para analizar temas como éstos: -¿De qué manera se pueden utilizar métodos estadísticos para determinar objetivamente si hay una relación entre dos variables, como los intervalos de tiempo posteriores a las erupciones y la duración de éstas?
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
-Si existe una relación entre dos variables, ¿cómo podemos describirla? ¿Hay alguna ecuación que se pueda usar para predecir el momento de la siguiente erupción del géiser, dada la duración de la erupción actual?
-Si podemos predecir el momento de la siguiente erupción del Old Faithful, ¿qué Recordatorio tan exacta resultará esa predicción? Erupciones del géiser Old Faithful Duración
240
120
178
234
235
269
255
220
Intervalo previo
98
90
92
98
93
105
81
108
Intervalo posterior
92
65
72
94
83
94
101
87
Altura
140
110
125
120
140
120
125
150
Diagrama
Objetivos
Desarrollo de contenidos
Actividades
Inicio
ACTIVIDAD N° 1: Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Bibliografía
Desarrollo de contenidos
Actividades
ACTIVIDAD N° 2: Autoevaluación
Esta actividad puede consultarla en su aula virtual.
Recordatorio
Anotaciones
Diagrama
Objetivos
Inicio
Lecturas seleccionadas
Glosario
Bibliografía
Desarrollo de contenidos
Actividades
TAREA ACADEMICA N° 2 Recordatorio
Lecturas seleccionadas
Anotaciones
Esta actividad puede consultarla en su aula virtual. Glosario
Recordatorio
Autoevaluación
Anotaciones
Bibliografía
Anotaciones
Bibliografía
133
ollo nidos
as nadas
torio
134
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD IV:InicioCORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
Diagrama
Objetivos
Desarrollo de contenidos
Actividades
Lecturas seleccionadas
Glosario
Autoevaluación
GLOSARIO5 Anotaciones
Recordatorio
Bibliografía
Análisis de contingencia: Es el estudio que se realiza con las tablas de contingencia y consiste en analizar el grado de asociación o dependencia entre dos variables cualitativas; para medir el grado de dependencia se utiliza el coeficiente de contingencia. (Ver coeficiente de contingencia). Anotaciones Análisis de correlación: Es el estudio que se realiza para medir la intensidad o grado de la asociación que existe entre variables numéricas. Análisis de regresión: Es el estudio que se realiza con el propósito de hacer predicciones. El objetivo es el desarrollo de un modelo estadístico que pueda ser utilizado para predecir valores de una variable dependiente, basado en los valores de la variable independiente. Análisis de varianza: Es un método para comparar dos o más medias (Ver media) de «n» grupos analizando la varianza de los datos, tanto entre «n» grupos como dentro de ellos. Bondad de ajuste: Es un indicador que permite discernir acerca de qué tan buena es la ecuación obtenida. Para determinar la bondad de un ajuste se utilizan diferentes criterios en la regresión lineal. Unos se refieren a los residuales como son el valor de la sumatoria de residuales al cuadrado, la varianza, la desviación estándar del ajuste y el coeficiente de correlación al cuadrado. Otro indicador de la bondad de ajuste es el realizado mediante el test de bondad de ajuste utilizando la prueba Ji-Cuadrada (X2), Kolgomorov -Smirnov (K-S) entre otras. Coeficiente de correlación lineal de pearson: Es un número que mide la intensidad de la asociación lineal entre dos variables. El coeficiente de correlación se representa simbólicamente por "r". Coeficiente de determinación: Es un valor que se obtiene elevando al cuadrado el coeficiente de correlación. Se representa simbólicamente por r2 y puede tomar valores entre 0 y 1. El coeficiente de determinación mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de la variable dependiente. Coeficientes de regresión: Son los valores constantes de una ecuación de regresión lineal. En el modelo de regresión lineal siguiente los coeficientes son a y b. Contraste de hipótesis: Conocido también como dócima o prueba de hipótesis, es el proceso estadístico que se sigue para la toma de decisiones a partir de la información de la muestra. Comparando el valor del estadístico experimental con el valor teórico, se rechaza o acepta la hipótesis nula (H0). Lo contrario a la hipótesis nula se llama hipótesis alterna (H1). Diagrama de dispersión: Es un gráfico utilizado para representar la relación entre los valores observados de dos variables numéricas. También se conoce como nube de puntos. Muestra: Es un subconjunto representantivo de la población a partir del cual se pretende realizar inferencias respecto a la población de donde procede. Los elementos seleccionados con cierta técnica reúnen ciertas características que la hacen ser representativa, significativa y confiable y que en base a ella se pueden hacer inferencias respecto a la población. La muestra puede ser probabilística y no probabilística. Muestra no probabilística: Es aquella que se obtiene mediante juicio de la persona que selecciona los elementos de la muestra que usualmente es un experto en la materia. Este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo. Las principales 5
Glosario Básico INEI
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.
Recordatorio Muestra probabilística: Es aquella muestra obtenida por un mecanismo de probabilidades, en el cual cada elemento de la población total o universo tiene una probabilidad conocida de selección. (Ver muestreo aleatorio).
Muestreo: Es un conjunto de métodos y procedimientos estadísticos destinados a la selección de una o más muestras es la técnica seguida para elegir muestras. El objetivo principal de un diseño de muestreo es proporcionar procedimientos para la selección de muestras que sean representativas de la población en estudio. Muestreo aletorio simple: También llamado irrestrictamente aleatorio. Es un método de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Una muestra aleatoria es también llamada una muestra probabilística es aquella cuyos elementos se seleccionan individualmente de la población en forma aleatoria, y es preferida por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Por conveniencia, este método puede ser reemplazado por una tabla de números aleatorios cuando una población es infinita. Se aplica cuando los datos son casi homogéneos. Una variante del muestreo aleatorio simple es el muestreo aleatorio sistemático. Otros tipos más comunes de muestreo aleatorio son: muestreo aleatorio estratificado y muestreo por conglomerados. Muestreo sistemático: Es una variante del método aleatorio simple de selección de cada elemento de la muestra. Se aplica cuando la población está listada en algún orden. Consiste en seleccionar un número aleatorio menor que N/n y luego los (n-1) elementos de la muestra se eligen agregando al primer aleatorio: el entero K obtenido por K=N/n y así sucesivamente. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de la población que una muestra aleatoria simple cuando los elementos en la población están ordenados al azar. Muestreo estratificado aleatorio: Es un método de muestreo que se aplica cuando se divide la población en grupos, llamados estratos, donde los datos son más homogéneos pero un estrato frente al otro muy distintos. Para extraer la muestra aleatoria se aplica el muestreo aleatorio simple a cada estrato y el tamaño es la suma de los tamaños de todos los estratos. Para determinar los tamaños de los estratos se puede utilizar la asignación proporcional, óptima y óptima económica. Si no se conoce la variabilidad de los datos se aplica la asignación proporcional. Muestreo por conglomerados: Es un método de muestreo en el cual la población está en grupos debido a la organización administrativa u otro (conglomerados). Ejemplo: Colegios, Universidades, manzanas de casas, entre otros. Al interior de los conglomerados no se puede garantizar homogeneidad. Cada conglomerado es una unidad donde la muestra se selecciona como en el muestreo aleatorio simple y se aplica la encuesta a todos los elementos del conglomerado. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, se obtiene menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden frecuentemente a ser iguales. Nivel de significación: Se define como la probabilidad de rechazar la hipótesis nula cuando ésta es verdadera. Se le conoce también con el nombre de «error de tipo 1», simbólicamente se denota por . PARÁMETRO: Es cualquier valor característico de la población. Ejemplo: la media de la población, la desviación típica de la población. Sin embargo estos valores son desconocidos porque no siempre podemos tener todos los datos de la población para calcularlos.
Anotaciones
Bibliografía
135
ollo nidos
136
Actividades
Autoevaluación
as nadas
Glosario
Bibliografía
torio
Anotaciones
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
PRUEBA DE HIPÓTESIS: Es una técnica que permite rechazar o aceptar la hipótesis en base de la información proporcionada por la muestra. (Ver contraste de hipótesis). PRUEBA JI-CUADRADO: Es una prueba que permite contrastar si la hipótesis H0 es coherente con los datos obtenidos en la muestra. Se puede utilizar para: 1. Bondad de un ajuste. 2. Criterio de independencia. 3. Criterio de homogeneidad. REGIÓN DE ACEPTACIÓN: Es la región formada por el conjunto de valores con los cuales decidimos aceptar la hipótesis nula. REGIÓN DE RECHAZO: Conocida también como región crítica, está formada por el conjunto de valores con los cuales se rechaza la hipótesis nula. REGRESIÓN: Es una técnia de análisis para poner de manifiesto la estructura de dependencia que mejor explique el comportamiento de la variable dependiente o explicada (y) a través de un conjunto de variables independientes o explicativas (x1,x2....xp), con las que se supone está relacionada. El método más utilizado es el de los mínimos cuadrados. La ecuación a ajustar puede ser lineal o no lineal. En ambos casos el objetivo es el mismo: encontrar las mejores estimaciones de los parámetros y cuantificar la precisión de los mismos. REGRESIÓN LINEAL: La regresión será lineal cuando la curva obtenida o seleccionada sea una recta. Es la recta que mejor se ajusta a los datos. Se obtiene mediante el método de mínimos cuadrados. Para ello se debe calcular primero el coeficiente de correlación lineal que permite determinar, si efectivamente, existe relación entre las dos variables. Inicio Una vez encontrada la relación, la regresión permite definir la recta que mejor se ajusta a la nube de puntos (gráfico de pares ordenados).
Diagrama
Objetivos
Desarrollo de contenidos
Actividades
Autoevaluación
Lecturas seleccionadas
Glosario
Bibliografía
BIBLIOGRAFÍA DE LA UNIDAD IV
Triola, M.(2012). Estadística. México: Pearson Educación Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicaciones. Mexico: Prentice Hall
Recordatorio
Anotaciones
Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuarta Edición. Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera Edición
s
s
o
Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos
Objetivos
Inicio
Actividades
Autoevaluación
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Lecturas seleccionadas
Glosario
Recordatorio
Anotaciones
AUTOEVALUACIÓN DE LA UNIDAD IV 1. De un conjunto de datos se ha calculado la data que aparece en el cuadro debajo. Glosario
Anotaciones
i. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la cantidad de nicotina en términos de la variable de predicción (x) de la cantidad de alquitrán.
Bibliografía
ii. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la cantidad de nicotina en términos de la variable de predicción (x) de la cantidad de monóxido de carbono. iii. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la cantidad de nicotina en términos de las variables de predicción (x) de la cantidad de alquitrán y la cantidad de monóxido de carbono. iv. De las ecuaciones de regresión elegidas en los incisos i), ii) e iii), ¿cuál es la mejor ecuación para predecir la cantidad de nicotina? v. ¿La mejor ecuación de regresión identificada en el inciso es una buena ecuación para predecir la cantidad de nicotina? ¿Por qué? VARIABLE DE
R
R2
PREDICCIÓN (X) Monóxido de carbono, Alquitrán
R2
ECUACIÓN DE REGRESIÓN
SIGNIFICANCIA
AJUSTADO
0.9661
0.9333
0.9282
y´=0.182 - 0.0186 X1 + 0.0818X2
5.16523E-16
Monóxido de carbono
0.8633
0.7453
0.7358
y´=0.1916+0.0606 X
1.67085E-09
Alquitrán
0.9614
0.9242
0.9214
y´=0.1540+0.0650 X
1.17863E-16
A) i) Y´=0.1540 + 0.0650X ii) Y´=0.1916 +0.0606X iii) Y´=0.182 - 0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la tercera v) Sólo tiene una variable. B) i) Y´=0.1916 +0.0606X ii) Y´=0.1540 + 0.0650X iii) Y´=0.182 - 0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la tercera v) Por el tipo de variable C) i) Y´=0.1540 + 0.0650X ii) Y´=0.1916 +0.0606X iii) Y´=0.182 +0.0818X2 iv) La mejor ecuación para hacer predicciones es la primera v) Tiene más variables dependientes D) i) Y´=0.1540+0.0650X ii) Y´=0.1916+0.0606X iii) Y´=0.182-0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la primera v) Tiene más variables independientes. E) i) Y´=0.1540 + 0.0650X ii) Y´=0.1916+0.0606X iii) Y´=0.182-0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la segunda v) Contiene las variables más importantes.
Bibliografía
137
ollo nidos
as nadas
torio
138
Actividades
Autoevaluación
Glosario
Bibliografía
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS
2. Señale V o F para cada enunciado: I. Una gráfica de rachas es una gráfica secuencial de valores de datos individuales a lo largo del tiempo. Anotaciones
II. Un proceso está bajo control estadístico si varía de forma natural, en patrones, sin ciclos o puntos fuera de lo común. III. La variación aleatoria se debe al azar; es el tipo de variación inherente a cualquier proceso que no es capaz de producir un bien o servicio exactamente de la misma forma cada vez. IV. La variación asignable resulta de causas identificables como; maquinaria defectuosa, empleados etc. a) VVVV b) FVVV c) VFVV d) VFFV e) FVFF 3. Los límites de control de medias para el siguiente conjunto de datos son: 1 10 12 13 08 2 13 11 10 06 3 10 09 11 13 4 08 12 13 11 5
14 10 11 05
a) LCS= 15.5 , LCI = 6.7 b) LCS= 16.5 , LCI = 5.7 c) LCS= 14.73 , LCI = 6.3 d) LCS= 14.27 , LCI =7.32 e) LCS= 14 , LCI =7
4. Ud. tiene dos diagramas de dispersión que servirán para que identifique el modelo matemático que se ajusta mejor a los datos indicados. Suponga que el modelo se va a emplear únicamente para el alcance que tienen los datos y considere sólo los modelos lineal, cuadrático, logarítmico, exponencial y potencial. Experimento de física: Un experimento para una clase de física implica dejar caer una pelota de golf y registrar la distancia (en metros) que cae en diferentes tiempos (en segundos) después de ser soltada. Los datos se incluyen en la siguiente tabla. Proyecte la distancia para un tiempo de 12 segundos, dado que la pelota de golf se dejo caer de un edificio con una altura de 50 m con el modelo de regresión más apropiado. Debe responder a: i)¿Cuál es el mejor modelo?, ii) ¿Cuál es el estimado? y iii) ¿Cómo interpreta los resultados?
TIEMPO
0
0.5
1
1.5
2
2.5
3
DISTANCIA
0
1.2
4.9
11
19.5
30.5
44
Desarrollo ANEXO de contenidos
a) i) Y= 4.8952X2 – 0.0286
Lecturas seleccionadas
ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO
Glosario
ii) 705 metros iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio. Recordatorio
b) i) Y= 4.8952X2 – 0.0286X+0.0048 ii) 705 metros iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio. c) i) Y= 0.0286X +0.0048 ii) 705 metros iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio. d) i) Y= 14.657X – 6.1143 ii) 169.67 metros iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el edificio, el experimento está errado. e) i) Y= 14.657X – 6.1143 ii) 169.67 metros iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el edificio. 5. Construya una gráfica para las medias y determine si la media del proceso está bajo control estadístico. Si no es así, identifique cuál de los tres criterios para establecer una falta de control conduce al rechazo de una media estadísticamente estable. ¿Necesita este proceso una acción correctiva?6 Marque lo incorrecto. a) Hay un patrón de variación creciente. b) Hay puntos que se ubican fuera del límite superior de control. c) Existen ocho puntos consecutivos que están por debajo de la línea central. d) La media del proceso se encuentra bajo control estadístico. e) El proceso necesita acciones correctivas. FIGURA N°14: REGISTRO DE DATOS7
6 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 747 7 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 747
Anotaciones
Bibliografía
139
ollo nidos
as nadas
torio
140
Actividades
Autoevaluación
Glosario
Bibliografía
ANEXO
ANEXO Nº 1 Solucionario de las Autoevaluaciones Anotaciones
AUTOEVALUACIÓN DE LA UNIDAD I No de pregunta
RESPUESTA
1 2
D A
3
E
4
B
5
E
6
B
7
D
8
D
9 10
A C
AUTOEVALUACIÓN DE LA UNIDAD II No de pregunta
RESPUESTA
1 2
E C
3
C
4
B
5
D
6
E
7
A
8
E
9 10
E C
AUTOEVALUACIÓN DE LA UNIDAD III No de pregunta
RESPUESTA
1 2
C D
3
A
4
E
5
E
AUTOEVALUACIÓN DE LA UNIDAD IV No de pregunta
RESPUESTA
1 2
D E
3
A
4
D
5
D