Estadistica Ii.pdf

  • Uploaded by: Esteban Huacasi Vargas
  • 0
  • 0
  • February 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estadistica Ii.pdf as PDF for free.

More details

  • Words: 44,313
  • Pages: 140
Loading documents preview...
ESTADÍSTICA II

Claudio Álvaro Cerrón Landeo

Cada autor es responsable del contenido de su propio texto. De esta edición: © Universidad Continental S.A.C 2012 Jr. Junin 355, Miraflores, Lima-18 Teléfono: 213 2760 Derechos reservados Primera Edición: Enero 2014 Tiraje: 500 ejemplares Autor: Claudio Álvaro Cerrón Landeo Oficina de Producción de Contenidos y Recursos Impreso en el Perú - Rebelars S.A.C Jr. Los Bosques 555 - El Tambo - Huancayo Fondo Editorial de la Universidad Continental

Todos los derechos reservados. Esta publicación no puede ser reproducida, en todo ni en parte, ni registrada en o trasmitida por un sistema de recuperación de información, en ninguna forma ni por ningún medio sea mecánico, fotoquímico, electrónico, magnético, electroóptico, por fotocopia, o cualquier otro sin el permiso previo por escrito de la Universidad.

ÍNDICE INTRODUCCIÓN

7

PRESENTACIÓN DE LA ASIGNATURA

9

COMPETENCIA DE LA ASIGNATURA

9

UNIDADES DIDÁCTICAS

9

TIEMPO MÍNIMO DE ESTUDIO

9

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

11

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD i

11

ORGANIZACIÓN DE LOS APRENDIZAJES

11

Tema N° 1: Thomas Hobbes

13

1

Definiciones básicas

12

2

Tipos de muestreo probabilístico

14

Lectura Seleccionada N° 1

28

¿Funciona la terapia de contacto? Mario Triola. pp. 319

28

ACTIVIDAD N°1

29

Tema N° 2: ESTIMACIÓN Y TAMAÑOS DE MUESTRA

29

 1 Estimación de la proporción poblacional

31

2 Estimación de la media poblacional

31

 3 Estimación de la varianza poblacional 4 Determinación del tamaños de muestra

35 37

CONTROL DE LECTURA N° 1

39

glosario DE LA UNIDAD I

39

bibliografía DE LA UNIDAD I

40

AUTOEVALUACIóN DE LA UNIDAD I

40

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

43

Diagrama de presentación de la Unidad Ii

43

ORGANIZACIÓN DE LOS APRENDIZAJES

43

Tema N° 1: PRUEBA DE HIPÓTESIS

44

1 Definiciones básicas 2 Prueba de aseveración para la media



44 47

3 Prueba de aseveración para la proporción

49

4 Prueba de aseveración para la varianza



Tema N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS

51

52

1 Inferencia acerca de dos medias, proporciones para muestras independientes

52

2 Inferencia a partir de datos pareados

56



3 Comparación de la variación de dos muestras

57

Tema N° 3: ANÁLISIS DE VARIANZA

59

1 ANOVA de un factor

60

2 ANOVA de dos factores

64

Lectura Seleccionada N° 1

67

La paradoja del cumpleaños Blog Estadística para todos



ACTIVIDAD N° 1

68

ACTIVIDAD N° 2

68

TAREA ACADÉMICA Nº 1

68

GLOSARIO DE LA UNIDAD II

69

BIBLIOGRAFÍA DE LA UNIDAD II

69

AUTOEVALUACIÓN de la unidad ii

69

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

73

Diagrama de presentación de la Unidad

73

ORGANIZACIÓN DE LOS APRENDIZAJES

73

Tema N° 1: PRUEBA DEL SIGNO

74

1 Prueba del signo



75

2 Prueba de rangos con signo de Wilcoxon para datos apareados

81

3 Prueba de la suma de rangos con signo de Wilcoxon para muestras independientes

85

Tema N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA 1 Bondad de ajuste



2 Independencia y homogeneidad

Tema N° 3: PRUEBAS NO PARAMÉTRICAS 1 Prueba de Kruskal-Wallis



2 Prueba de correlación de rangos 3 Prueba de rachas



88 91

96 96 98 101

Lectura Seleccionada N° 1



105

¿Los estudiantes clasifican a las universidades de la misma manera que el U.S. News and World Report? Mario Triola. pp. 675.

ACTIVIDAD N°1

106

ACTIVIDAD N°2

106

CONTROL DE LECTURA Nº 2

106

glosario DE LA UNIDAD III

106

Bibliografía de la Unidad III

107

AUTOEVALUACIóN DE LA UNIDAD III

107

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS



111

Diagrama de presentación de la Unidad

111

ORGANIZACIÓN DE LOS APRENDIZAJES

111

Tema N° 1: CORRELACIÓN Y REGRESIÓN

112

1 Correlación y regresión lineal

117

2 Correlación y regresión múltiple

120

3 Elaboración de modelos de regresión

122

Tema N° 2: CONTROL ESTADÍSTICO DE PROCESOS 1 Gráficos de control para la media y varianza 2 Gráficos de control para atributos

126

Lectura Seleccionada N° 1

127 128

132

¿Podemos predecir el momento de la siguiente erupción del géiser Old Faithful? Mario Triola. pp. 515

ACTIVIDAD N° 1

133

Actividad Nº 2

133

TAREA ACADÉMICA Nº 2

133

glosario DE LA UNIDAD IV

134

Bibliografía de la unidad IV

136

AUTOEVALUACIóN DE LA UNIDAD IV

137

ANEXO: Claves de las autoevaluaciones

140

6

INTRODUCCIÓN

T

odos los conceptos y aplicaciones vertidos en el curso

Es importante manejar adecuadamente los procedimientos y

anterior de Estadística I tales como tablas de frecuen-

métodos que utiliza la estadística inferencial pues no debemos

cia, gráficos, cálculo de medidas descriptivas se pueden

olvidar que sus resultados serán utilizados por diferentes enti-

resumir dentro de un término general que vendría a ser ESTA-

dades y personas quienes se basarán en ellos para poder tomar

DÍSTICA DESCRIPTIVA, debido que a través de ellos podemos

decisiones y nosotros tenemos la obligación moral de entregar la

describir, presentar y resumir esencialmente el comportamiento

información lo más clara y entendible posible sin necesidad de

de una serie de datos que han sido recolectados con algún pro-

tergiversarla ni modificarla.

cedimiento adecuado.

El presente Manual Autoformativo de ESTADÍSTICA II está

Si embargo a través de la ESTADÍSTICA DESCRIPTIVA no se

diseñado para que el lector pueda adquirir los conocimientos

puede aclarar interrogantes acerca de una población cuando

necesarios para poder ejecutar los procesos relacionados con la

no se dispone de ella y solo se tiene parte de ella, o sea de una

estimación y prueba de hipótesis estructurados en cuatro unida-

muestra. Por ejemplo si sabemos que el rendimiento promedio

des. En la primera unidad aprenderemos a realizar los distintos

de una muestra de automóviles de cierto modelo y marca es de

métodos de muestreo que validen nuestro trabajo y el cálculo de

55 km. por galón, ¿qué podremos concluir acerca de todos los

intervalos de confianza a través de las estimaciones, en la segun-

automóviles producidos de dicha marca y modelo?

da unidad aplicaremos las pruebas de hipótesis a través de los

Para poder dar una conclusión acerca de la población, la Esta-

métodos paramétricos, en la tercera unidad continuaremos con

dística dispone de una serie de procedimientos y métodos que

las pruebas de hipótesis pero utilizando métodos no paramé-

se resumen en un término general que es el de ESTADÍSTICA

tricos y finalizaremos la cuarta unidad desarrollando el análisis

INFERENCIAL, la cual determina específicamente la probabili-

de correlación y regresión el cual nos permitirá realizar algunos

dad de que una conclusión obtenida a partir de una muestra sea

pronósticos sobre el comportamiento de alguna variable.

válida para toda la población de la cual proviene, basados todos

Agradecemos a quienes de antemano tuvieron paciencia y com-

ellos en la Estimación y Prueba de Hipótesis que serán motivo de

prensión en la elaboración del presente manual y a aquellos

estudio en las páginas siguientes.

alumnos con quienes pudimos optimizar el uso de la información presente en esta primera edición.

8









Desarrollo de contenidos

PRESENTACIÓN DE LA ASIGNATURA ESTADÍSTICA II Diagrama

Objetivos

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Inicio

COMPETENCIA DE LA ASIGNATURA

Desarrollo de contenidos

Actividades

Lecturas seleccionadas

Glosario

Autoevaluación

Conoce, aplica, analiza e interpreta eficientemente métodos y técnicas de la estadística inferencial y de pronóstico y los utiliza como herramienta para la toma de decisiones, valorando reflexivamente su importancia en los diversos campos de la ciencia, demostrando ética en el manejo de la información. Bibliografía

UNIDADES DIDÁCTICAS Recordatorio

Anotaciones

UNIDAD Nº I

Muestreo y estimación de parámetros

UNIDAD Nº II

Prueba de hipótesis y análisis de varianza

UNIDAD Nº III Estadística no paramétrica

UNIDAD Nº IV Correlación, regresión y control estadístico de procesos

TIEMPO MÍNIMO DE ESTUDIO UNIDAD Nº I

UNIDAD Nº II

1a y 2a Semana

3a y 4a Semana

16 horas

16 horas

UNIDAD Nº III 5a y 6a Semana 16 horas

UNIDAD Nº IV 7a y 8a Semana 16 horas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

9

10

Desarrollo de contenidos

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

Desarrollo de contenidos

Actividades

Autoevaluación

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD I

Lecturas seleccionadas Diagrama

Glosario

Bibliografía

Objetivos

Inicio

CONTENIDOS

Recordatorio Desarrollo de contenidos

Anotaciones Actividades

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

ACTIVIDADES

EJEMPLOS

Autoevaluación

AUTOEVALUACIÓN

BIBLIOGRAFÍA

Bibliografía

ORGANIZACIÓN DE LOS APRENDIZAJES Diagrama

Objetivos

Inicio

CONOCIMIENTOS Desarrollo Actividades Autoevaluación deTema contenidos N°1: Diseño y técnicas de

muestreo probabilístico 1. Definiciones básicas 2. Tipos de muestreo probabiLecturas Bibliografía lístico Glosario seleccionadas Lectura seleccionada N°1 ¿Funciona la terapia de contacto? Mario Triola. pp. 319 Recordatorio

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

PROCEDIMIENTOS

ACTITUDES

1. Define los conceptos básicos de muestreo e identifica los diversos métodos de muestreo.

1. Valora la importancia de la estimación de parámetros y la determinación del tamaño de muestra y comprueba las hipótesis para la toma de decisiones.

2. Aplica las técnicas de muestreo en distintas situaciones. Actividad N° 1

Anotaciones

Tema N° 2: Estimación y tamaños de muestra 1. Estimación de la proporción poblacional. 2. Estimación de la media poblacional. 3. Estimación de la varianza poblacional. 4. Determinación del tamaño de muestra.

Autoevaluación de la Unidad I

3. Utiliza datos muestrales para estimar parámetros poblacionales. Actividad N° 2 Control de Lectura Nº 1

Bibliografía

11

12

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

TEMA N° 1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO 1 DEFINICIONES BÁSICAS11 Anotaciones

1.1. Unidad elemental Es el elemento o unidad base de la población o de la muestra que permite obtener información o datos referidos a ciertas características o variables que nos interesan para explicar determinado fenómeno. También es llamada unidad de observación, unidad de análisis, unidad estadística, caso o elemento. Por ejemplo, en estudios de satisfacción del cliente en una tienda de retails, la unidad elemental es cada consumidor. 1.2. Población muestreada Es el conjunto de todas las unidades de elementales posibles que podrían extraerse en una muestra; es decir, es la población de donde se extrae la muestra. 1.3. Unidad de muestreo Es la unidad estadística que se selecciona para constituir la muestra. La elección de la unidad de muestreo más eficiente es una consideración importante en el diseño de una muestra. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de todos los individuos que pertenecen a la población objetivo. En vez de eso, la unidad de muestreo es cada familia y la unidad elemental es cada individuo que vive en una familia. 1.4. Marco muestral Es una lista de las unidades de muestreo que están disponibles para la elección. Por ejemplo para seleccionar a los trabajadores y estudiar su nivel de ingresos podríamos utilizar el directorio de la Hoja Resumen de Planillas que presentan las empresas en el mes de junio de cada año al MTPE, complementado con directorios de otros gremios empresariales importantes de los cuales se toma a todas las empresas con 10 y más trabajadores del régimen laboral de la actividad privada. 1.5. Censo Es una investigación estadística que consiste en el recuento de la totalidad de los elementos que componen la población a investigar. Es necesario que se especifique el espacio y el tiempo al que se refiere el recuento. 1.6. Muestreo Conjunto de métodos y procedimientos estadísticos destinados a la selección de una o más muestras. Es la técnica elegida para seleccionar a la muestra. El objetivo principal de un diseño de muestreo es proporcionar procedimientos para la selección de muestras que sean representativas de la población en estudio. El muestreo comprende por lo menos dos etapas: La selección de las unidades El registro de las observaciones. FICHA TÉCNICA Título del estudio: Encuesta de Opinión en Lima Metropolitana Noviembre 2009 Objetivos del Estudio: Evaluación y opinión sobre la situación económica Encuestadora: Pontificia Universidad Católica del Perú Nº de registro: 0108 REE/JNE 1 Estadística. Mario Triola 10°Ed.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Universo o población objetivo: Hombres y mujeres mayores de 18 años, habitantes de 31 distritos de Lima Metropolitana. Recordatorio

Marco muestral: La selección de manzanas se hizo utilizando como marco muestral la cartografía digital del INEI del 2004 para los 31 distritos de Lima Metropolitana. Los distritos que no forman parte del marco muestral son: Chaclacayo, Lurigancho, Cieneguilla y los distritos balnearios del Sur y del Norte de la Ciudad. Representatividad: En los distritos que forman parte del universo y que están incluidos en el marco muestral se encuentra el 95.88% de la población electoral total de la provincia de Lima. Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana. Error y nivel de confianza estimados: ±4.32% con un nivel de confianza del 95%, asumiendo 50%-50% de heterogeneidad, bajo el supuesto de muestreo aleatorio simple. Distritos que resultaron seleccionados en la muestra: La selección aleatoria de manzanas del marco muestral determinó que la encuesta se aplicara en 28 distritos de Lima Metropolitana (Cercado de Lima, Ate,Barranco, Breña, Carabayllo, Chorrillos, Comas, El Agustino, Jesús María, La Molina, La Victoria, Lince, Los Olivos, Magdalena del Mar, Pueblo Libre, Miraflores, Puente Piedra, Rímac, San Borja, San Juan de Lurigancho, San Juan de Miraflores, San Martín de Porres, San Miguel, Santa Anita, Santiago de Surco, Surquillo, Villa El Salvador y Villa María del Triunfo). Procedimiento de muestreo: Se realizó una muestra probabilística polietápica. Dentro de Lima se estratificó la muestra de acuerdo con grandes zonas de la ciudad, cono norte, cono este, cono sur, centro, cono oeste-suroeste, y en cada estrato se seleccionó una muestra simple al azar de manzanas. Posteriormente se realizó un muestreo sistemático de viviendas en cada manzana seleccionada y se aplicaron cuotas de sexo y edad para la selección de personas al interior de las viviendas. Ponderación: En Lima Metropolitana los datos se ponderaron en función del peso de los estratos en la población total. Técnica de recolección de datos: Mediante entrevistas directas en las viviendas seleccionadas. Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas. Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de 2009. Financiamiento: Pontificia Universidad Católica del Perú. Página web: http://www.pucp.edu.pe Email: [email protected] 1.7. Plan de muestreo Se denomina “plan de muestreo” a la combinación de factores que determinan mínimamente el tamaño de la muestra y el procedimiento de muestreo. Un plan de muestreo está asociado a técnicas específicas, fórmulas y tablas. El plan de muestreo más conocido y sencillo se denomina “muestreo simple al azar”.

Anotaciones

Bibliografía

13

14

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

1.8. Muestreo probabilístico y no probabilístico Anotaciones

El muestreo se puede dividir en “probabilístico” y “no probabilístico”, también denominados “estadístico” y “no estadístico”, o “al azar” y “no al azar”, respectivamente. El hecho de extraer una muestra no significa azar o aleatoriedad. En ello es determinante la fase mecánica de selección de las unidades de muestreo que conformarán la muestra. La diferencia fundamental entre estos tipos de muestreo radica en que en el muestreo probabilístico se puede medir el riesgo que se asume al muestrear, mientras que en el muestreo no probabilístico ello no es posible. En el estadístico, la fundamentación es teórica y las conclusiones pueden ser cuantitativas y precisas; mientras que en el no estadístico, la fundamentación es práctica y las conclusiones pueden ser cualitativas y, en el mejor de los casos, razonables, además de perder ante determinados casos la posibilidad de ser extrapolables. Ante estas diferencias, ¿por qué recurrir al muestreo no probabilístico? En algunas circunstancias sucede que no es posible por falta de tiempo, por escasez de recursos, por limitaciones para acceder a la población u otras dificultades operativas llevar a cabo un muestreo probabilístico. Será preferible, entonces, acudir a determinadas pruebas específicas, para los que habrán de tenerse en cuenta ciertos cuidados mínimos y necesarios para sostener fundadamente las opiniones vertidas en un informe. 2 Tipos de Muestreo probabilístico En el muestreo probabilístico, la selección de cada elemento de la muestra se hace siguiendo reglas matemáticas de decisión. Todos los elementos de la población tienen una probabilidad real y conocida de ser seleccionados. 1.1. Muestreo aleatorio simple También llamado irrestrictamente aleatorio. Es un método de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Por conveniencia, este método puede ser reemplazado por una tabla de números aleatorios cuando una población es infinita. Se aplica cuando los datos son casi homogéneos. Pasos a seguir para seleccionar una muestra aleatoria simple 1.

Enumere las unidades del marco muestral con números sucesivos.

2.

 eleccione tantos elementos del marco muestral como sea el tamaño requeS rido de la muestra, usando una tabla de números aleatorios.

El muestreo aleatorio simple presenta dos propiedades: Representativa: Cada unidad tiene las mismas posibilidades de ser escogida. Independencia: La selección de una unidad no influye en la selección de otras unidades. Limitaciones • Requiere de una lista precisa de las unidades de muestreo, que puedan identificarse y numerarse. Se puede, tal vez, numerar cada expediente de un procedimiento de compras, pero no se puede enumerar ni identificar exhaustivamente a los pacientes ambulatorios que van a atenderse a un hospital público en determinado momento. • Cada unidad de muestreo debe tener la misma probabilidad de ser elegido que cualquier otra unidad. • Es poco económico frente a determinadas circunstancias, como cuando llevar a cabo un procedimiento de auditoría implica la destrucción de la unidad muestreada. En estos casos, el muestreo aleatorio simple ofrece tamaños de muestra mayores que otros métodos más específicos.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

Figura Nº 01: MUESTREO ALEATORIO SIMPLE2

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Ejercicio 1 Una empresa de alimentos tiene registrado en el cuadro siguiente, información acerca del ingreso mensual (en nuevos soles) y años cumplidos en la empresa de cada uno de sus 150 trabajadores. Cuadro N°01: Trabajadores Registrados Ingreso

Años en la

Nivel

(en soles)

emp.

educativo

1

2600

16

Secundaria

2

1700

0

Secundaria

3

2500

12

Secundaria

4

1700

3

Secundaria

5

2400

17

Secundaria

6

2400

16

Secundaria

7

1900

7

Secundaria

8

1700

1

Secundaria

9

2100

6

Secundaria

10

2000

5

Secundaria

11

2000

3

Secundaria

12

2500

13

Secundaria

13

1700

0

Secundaria

14

2500

19

Secundaria

15

1700

3

Secundaria

16

2600

19

Secundaria

17

1600

1

Secundaria

18

1800

6

Secundaria

19

2100

10

Secundaria

20

1700

0

Secundaria

21

2400

16

Secundaria

22

2600

17

Secundaria

23

2100

10

Secundaria

24

2100

8

Secundaria

NO

2 tomado del libro de Mario Triola 10ª Ed. Capítulo 1.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

15

16

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

25

2400

17

Secundaria

26

1700

1

Secundaria

27

2600

20

Secundaria

28

2400

16

Secundaria

29

2700

17

Secundaria

30

2100

12

Secundaria

31

1600

0

Secundaria

32

2100

15

Secundaria

33

1900

5

Secundaria

34

2100

12

Secundaria

35

2200

12

Secundaria

36

2400

13

Secundaria

37

1800

4

Secundaria

38

2600

17

Secundaria

39

2700

20

Secundaria

40

2500

16

Secundaria

41

2500

16

Secundaria

42

1900

6

Secundaria

43

2100

15

Secundaria

44

1700

9

Secundaria

45

1500

0

Secundaria

46

1800

18

Secundaria

47

2100

10

Secundaria

48

2700

19

Secundaria

49

1800

9

Secundaria

50

2100

1

Secundaria

Ingreso

Años en la

Nivel

(en soles)

emp.

educativo

51

1700

0

Técnica

52

1600

2

Técnica

53

2600

17

Técnica

54

2500

13

Técnica

55

2500

16

Técnica

56

2700

17

Técnica

57

1700

1

Técnica

58

1600

1

Técnica

59

2400

11

Técnica

NO

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

60

1900

3

Técnica

61

1800

5

Técnica

62

1800

3

Técnica

63

2400

14

Técnica

64

2600

16

Técnica

65

2700

18

Técnica

66

2100

11

Técnica

67

2300

14

Técnica

68

1700

0

Técnica

69

2200

13

Técnica

70

2900

20

Técnica

71

1800

5

Técnica

72

2100

16

Técnica

73

2000

12

Técnica

74

2000

12

Técnica

75

2900

20

Técnica

76

2300

5

Técnica

77

2800

11

Técnica

78

2400

4

Técnica

79

2500

2

Técnica

80

2300

3

Técnica

81

2100

2

Técnica

82

1700

2

Técnica

83

2000

0

Técnica

84

2200

7

Técnica

85

2100

4

Técnica

86

1700

0

Técnica

87

2500

2

Técnica

88

2800

13

Técnica

89

2400

9

Técnica

90

1700

1

Técnica

91

2400

9

Técnica

92

2200

10

Técnica

93

2200

4

Técnica

94

2300

10

Técnica

95

2800

11

Técnica

96

2100

7

Técnica

97

1700

1

Técnica

98

2500

6

Técnica

99

2400

9

Técnica

100

2700

17

Técnica

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Bibliografía

17

18

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

Ingreso

Años en la

Nivel

(en soles)

emp.

educativo

101

2800

20

Técnica

102

1800

3

Técnica

103

1700

5

Técnica

104

1700

4

Técnica

105

1700

0

Técnica

106

1700

1

Técnica

107

2100

6

Técnica

108

2600

17

Técnica

109

2400

9

Técnica

110

2600

19

Técnica

111

1900

7

Superior

112

1600

0

Superior

113

1900

3

Superior

114

2100

14

Superior

115

1700

0

Superior

116

2100

15

Superior

117

1700

1

Superior

118

2300

14

Superior

119

2500

16

Superior

120

2600

18

Superior

121

1900

3

Superior

122

2500

19

Superior

123

1800

6

Superior

124

1700

2

Superior

125

2000

10

Superior

126

2100

13

Superior

127

2100

9

Superior

128

1800

1

Superior

129

2000

9

Superior

130

2100

10

Superior

131

1900

4

Superior

132

2000

10

Superior

133

2300

11

Superior

134

2000

7

Superior

135

1700

1

Superior

136

1900

6

Superior

137

2000

9

Superior

NO

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

138

2400

17

Superior

139

1700

0

Superior

140

1700

2

Superior

141

2400

17

Superior

142

2500

13

Superior

143

2600

16

Superior

144

2100

14

Superior

145

1900

7

Superior

146

2000

9

Superior

147

1800

7

Superior

148

2100

10

Superior

149

2300

12

Superior

150

2700

2

Superior

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

a. S  eleccione una muestra de 15 trabajadores usando muestreo simple aleatorio. Use las columnas

C4, C8, C12 y C16 de la tabla de números aleatorios.

b. Seleccione  una muestra de diez trabajadores usando muestreo simple aleatorio. Use las columnas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

C5, C9, C13 y C15 de la tabla de números aleatorios.

Cuadro N°2: TABLA DE NÚMEROS ALEATORIOS (UPC, 2010)

C1

C2

C3

C4

C5

C6

C7

C8

C9

C10

C11

C12

C13

C14

C15

C16

C17

C18

C19

C20

4 9 0 9 1 2 6 1 4 0 7 4 6 9 1 0 3 9 5 8 0 9 6

8 2 2 6 6 9 1 3 5 0 2 9 1 3 8 2 6 4 9 1 5 7 9

2 9 1 0 4 0 2 1 8 3 4 3 2 4 7 1 3 6 9 8 3 1 5

4 8 3 8 1 5 9 8 1 6 5 4 8 0 1 4 4 7 8 8 8 4 9

6 1 3 3 6 5 5 9 1 9 4 4 1 8 3 7 1 6 4 2 0 2 4

6 4 9 5 5 0 0 9 4 6 1 2 3 1 4 5 9 7 4 3 4 7 9

3 4 1 6 2 8 4 0 5 5 2 4 3 3 3 7 8 9 5 9 3 5 1

5 1 6 6 7 4 0 1 6 0 4 5 2 3 9 3 1 1 9 1 9 5 8

4 9 2 6 7 8 9 2 7 6 4 9 0 7 3 1 0 2 1 4 4 2 2

5 8 9 4 2 7 8 6 9 4 6 0 2 3 1 1 9 2 5 2 6 8 0

6 5 7 0 9 4 2 3 9 7 9 8 6 2 7 9 0 7 4 4 0 6 2

0 1 1 8 9 6 0 7 9 9 2 7 0 4 8 3 1 2 7 9 8 6 5

5 1 2 6 9 2 2 1 2 8 6 4 7 8 3 3 1 3 3 1 8 3 3

2 9 6 3 9 1 6 9 1 1 6 8 2 6 7 8 0 9 0 4 3 5 9

6 7 6 4 7 7 8 6 3 2 6 4 7 7 3 7 9 3 6 0 8 5 1

9 9 0 8 4 0 7 1 2 4 5 2 9 9 3 4 3 4 8 6 7 9 2

8 8 7 1 1 1 0 7 3 4 2 1 1 0 0 8 6 6 1 0 1 9 0

0 5 5 8 5 5 1 9 7 8 0 2 4 6 8 0 8 9 6 3 2 0 3

0 9 6 5 4 8 9 9 7 3 0 5 6 2 3 2 6 8 8 2 2 6 0

9 0 4 4 9 7 7 8 9 6 4 4 5 8 5 5 0 1 1 8 3 8 8

Bibliografía

19

20

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

7 3 9 4 8 4 6 9 1 3 9 1 2 6 3 0 4 7 2 2 5 9 8 1 5 8

4 8 9 8 6 7 5 2 3 3 9 7 7 0 3 1 7 8 2 6 1 0 6 9 6 6

9 1 9 1 7 1 5 0 7 2 9 5 1 9 6 9 1 9 3 6 9 5 1 1 0 9

1 2 7 5 3 4 8 9 9 5 8 4 7 2 3 7 5 9 3 4 0 8 9 0 6 9

4 2 8 8 6 0 8 8 4 6 2 0 8 6 4 9 3 6 1 1 3 4 2 9 1 8

8 4 0 5 1 3 4 2 8 7 8 9 8 1 9 7 7 8 8 4 9 9 5 7 3 0

8 0 0 5 7 6 3 8 3 6 8 5 3 5 6 9 0 5 1 8 1 2 0 5 3 8

6 1 9 1 1 2 4 3 7 1 1 7 8 1 4 4 9 6 9 1 6 2 0 1 5 1

6 4 3 4 1 4 8 4 0 6 9 8 6 2 4 4 2 8 8 0 1 3 7 2 2 8

8 5 2 9 3 4 9 3 8 6 1 7 9 3 9 1 5 1 4 6 7 9 9 7 1 2

5 7 7 6 5 4 0 2 6 1 6 5 9 1 8 6 2 9 2 0 8 8 0 1 0 6

9 7 0 4 5 4 6 8 6 7 2 0 2 8 5 6 1 2 8 1 8 5 0 9 1 6

4 4 5 4 7 0 7 9 6 6 7 8 7 1 7 7 0 7 5 3 2 9 7 4 9 8

8 0 0 4 4 3 6 4 8 5 5 6 4 2 3 7 0 5 2 4 8 5 4 8 2 4

5 4 2 7 4 6 0 8 4 8 1 6 5 0 3 0 4 1 8 0 0 7 5 4 8 0

7 8 7 4 7 3 0 7 1 1 8 2 9 8 4 7 0 7 1 9 7 8 4 8 0 7

7 9 8 5 6 4 8 9 1 6 6 5 5 6 2 9 4 0 7 1 8 4 8 9 2 8

9 4 7 7 7 1 6 4 3 2 1 3 6 4 3 8 6 1 6 2 4 9 6 6 6 2

6 7 3 5 2 2 8 9 1 2 4 2 6 4 2 6 8 5 4 8 8 9 2 6 6 5

7 0 6 0 8 8 4 4 3 7 4 3 6 0 8 8 8 5 6 6 0 4 3 9 3 1

3

1

6

1

0

5

7

5

7

0

6

3

0

4

1

4

0

3

0

8

1.2. Muestreo sistemático (Triola, 2009) Es un método sumamente intuitivo para relevar padrones, y cómodo para casos en los que la información no está digitalizada. La aplicación del método consiste básicamente en calcular “n” como en el muestreo aleatorio simple, calcular el intervalo de muestreo “k”=N/n, y elegir al azar la primera unidad de muestreo “A” llamada arranque dentro del primer intervalo de muestreo “i”. Luego se extrae cada enésima unidad “k.i+A”. Limitaciones •E  s equivalente a un muestreo agrupado del que se extrae un solo grupo, por lo que pierde robustez en cuanto a la representatividad esperada. Para intentar neutralizar este efecto, su puede elegir más de un grupo (en términos prácticos, habrá de elegirse una unidad “A” situada entre 1 y k, y al menos una unidad “B” ≠ “A”, también situada entre 1 y k y seguir el procedimiento de extracción a partir de “A” y de “B”). No obstante, esto atenta contra la eficiencia del plan ya que implica un derroche de recursos frente al muestreo aleatorio simple. •N  o permite identificar periodicidad oculta. Por ejemplo, frente a mayores ventas los primeros sábados del mes, o asignaciones de planes sociales antes de fin de mes. •N  o permite identificar sistematicidad oculta. Por ejemplo, considérese un diente defectuoso en un engranaje, y que ese diente incida sobre cierto lote de productos.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

FIGURA N°02: MUESTREO ALEATORIO SISTEMÁTICO (Triola, 2009) Ejemplo Se tiene una población de 40 personas y se desea elegir a cinco de ellas mediante un muestreo sistemático. ¿Cuál es el arranque aleatorio para este ejemplo? Seleccione la muestra indicando la posición de cada elemento elegido. Ejemplo Se tiene información de 40 alumnos del curso de Estadística II del ciclo regular. Obtenga una muestra aleatoria de ocho personas usando el muestreo sistemático y elabore una tabla con los elementos seleccionados. Cuadro N° 03: Individuos Registrados Nº

Sexo

Edad

Estatura

1

Mujer

15

154

2

Hombre

16

154

3

Hombre

21

156

4

Mujer

31

184

5

Hombre

21

173

6

Mujer

24

170

7

Hombre

32

176

8

Hombre

26

188

9

Mujer

21

169

10

Mujer

22

173

11

Hombre

18

177

12

Hombre

25

181

13

Mujer

29

164

14

Hombre

25

159

15

Mujer

19

178

16

Mujer

30

163

17

Hombre

29

180

18

Mujer

25

174

19

Hombre

29

137

20

Hombre

25

153

21

Mujer

16

168

22

Hombre

31

161

23

Hombre

18

270

24

Hombre

21

173

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

21

22

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

25

Hombre

31

187

26

Mujer

28

161

27

Mujer

19

172

28

Hombre

31

162

29

Hombre

33

147

30

Hombre

17

167

31

Mujer

34

69

32

Mujer

20

76

33

Mujer

26

74

34

Hombre

25

90

35

Mujer

23

164

36

Hombre

20

164

37

Mujer

34

176

38

Hombre

35

188

39

Mujer

30

155

40

Mujer

29

141

Ejercicio 2 Una empresa de alimentos (la misma del ejercicio 1) tiene un total de 150 empleados y ha registrado en la tabla que se muestra a continuación información acerca de las variables: ingreso mensual (en soles), nivel de educación y años cumplidos en la empresa. Aplique el muestreo sistemático para seleccionar una muestra de ocho empleados. Elabore un listado con la muestra seleccionada. 1.3. Muestreo estratificado Es un muestreo en el que bajo el requisito de tener que arribar a resultados globales, la población es previamente estratificada en grupos homogéneos, asegurando simultáneamente que todos los estratos estén representados, como por ejemplo por niveles educativos, género o edad. Los estratos pueden tener idéntica proporción de muestra, o se le puede dar mayor peso relativo a estratos significativos desde el punto de vista del análisis. El objetivo de estratificar la población es buscar representatividad en cada uno de los estratos, por lo que se pueden mencionar algunas razones importantes para aplicar el muestreo estratificado: - Con una estratificación adecuada se puede ganar precisión en las estimaciones de los parámetros de la población. - Se puede lograr reducciones en el costo de captura de la información. - Cuando se desea obtener estimaciones de precisión conocida para cada estrato de la población objetivo. Pasos a seguir para seleccionar una muestra estratificada 1. D  ivida a la población en estratos que sean mutuamente excluyentes. Esto es, que incluyan a todos los elementos de la población y que cada elemento pertenezca solamente a un estrato. 2. Calcule la cantidad de elementos a seleccionar en cada estrato. 3. Seleccione muestras aleatorias simples para cada uno de los estratos.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

FIGURA N°03: MUESTREO ESTRATIFICADO (Triola, 2009)

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Recomendaciones para el uso de muestras estratificadas Si se tiene que usar más de una variable para formar los estratos, cuidar que estas no estén relacionadas entre sí. No se deben considerar la formación de muchos estratos, generalmente se usan entre tres y ocho estratos. Los estratos pequeños no contribuyen mucho a la reducción del error, por lo tanto pueden no ser considerados. Limitaciones Cálculos complejos para estimar la precisión. Ejemplo La empresa embotelladora DEL VALLE tiene 120 empleados de los cuales tiene información de las variables: ingreso en soles, tipo de profesión y años en la empresa. Cuadro N° 04: REGISTRO DE TRABAJADORES Nº

INGRESO EN SOLES

TIPO PROFESION

AÑOS EN LA EMPRESA

1

2100

C.EMPRESA

5

2

1700

C.EMPRESA

11

3

2300

C.EMPRESA

4

4

2500

C.EMPRESA

2

5

2600

C.EMPRESA

3

6

1900

C.EMPRESA

2

7

2500

C.EMPRESA

2

8

1800

C.EMPRESA

0

9

1700

C.EMPRESA

7

10

2000

C.EMPRESA

4

11

2400

C.EMPRESA

0

12

1700

C.EMPRESA

2

13

2500

C.EMPRESA

13

14

1700

C.EMPRESA

9

15

2400

C.EMPRESA

1

16

2400

C.EMPRESA

9

17

1900

C.EMPRESA

10

18

1700

C.EMPRESA

4

19

2100

C.EMPRESA

10

Bibliografía

23

24

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

20

2000

C.EMPRESA

11

21

2000

C.EMPRESA

7

22

2500

C.EMPRESA

1

23

1700

C.EMPRESA

6

24

2500

C.EMPRESA

9

25

1700

C.EMPRESA

17

26

2600

C.EMPRESA

0

27

1600

C.EMPRESA

2

28

1800

C.EMPRESA

17

29

2100

C.EMPRESA

13

30

1700

C.EMPRESA

16

31

2400

INGENIERÍA

11

32

2600

INGENIERÍA

14

33

2100

INGENIERÍA

0

34

2100

INGENIERÍA

13

35

2400

INGENIERÍA

20

36

1700

INGENIERÍA

5

37

2600

INGENIERÍA

16

38

2400

INGENIERÍA

12

39

2700

INGENIERÍA

12

40

2100

INGENIERÍA

20

41

1600

INGENIERÍA

13

42

2100

INGENIERÍA

9

43

1900

INGENIERÍA

1

44

2100

INGENIERÍA

9

45

2200

INGENIERÍA

10

46

2400

INGENIERÍA

4

47

1800

INGENIERÍA

10

48

2600

INGENIERÍA

11

49

2700

INGENIERÍA

7

50

2500

INGENIERÍA

1

51

2500

INGENIERÍA

1

52

1900

INGENIERÍA

6

53

2100

INGENIERÍA

17

54

1700

INGENIERÍA

9

55

1500

INGENIERÍA

19

56

1800

INGENIERÍA

7

57

2100

INGENIERÍA

0

58

2700

INGENIERÍA

3

59

1800

INGENIERÍA

14

60

2100

INGENIERÍA

0

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

61

2300

INGENIERÍA

15

62

2800

INGENIERÍA

1

63

2400

INGENIERÍA

14

64

2500

INGENIERÍA

16

65

2300

INGENIERÍA

18

66

2100

INGENIERÍA

3

67

1700

INGENIERÍA

19

68

2000

INGENIERÍA

6

69

2200

INGENIERÍA

2

70

2100

INGENIERÍA

10

71

1700

INGENIERÍA

16

72

2500

INGENIERÍA

0

73

2800

INGENIERÍA

12

74

2400

INGENIERÍA

3

75

1700

INGENIERÍA

17

76

2400

INGENIERÍA

16

77

2200

INGENIERÍA

7

78

2200

INGENIERÍA

1

79

2300

INGENIERÍA

6

80

2800

INGENIERÍA

5

81

2100

C.SOCIALES

3

82

1700

C.SOCIALES

13

83

2500

C.SOCIALES

0

84

2400

C.SOCIALES

19

85

2700

C.SOCIALES

3

86

1700

C.SOCIALES

19

87

1600

C.SOCIALES

1

88

2600

C.SOCIALES

6

89

2500

C.SOCIALES

10

90

2500

C.SOCIALES

0

91

2100

C.SOCIALES

16

92

2300

C.SOCIALES

17

93

1700

C.SOCIALES

10

94

2200

C.SOCIALES

8

95

2900

C.SOCIALES

17

96

1800

C.SOCIALES

1

97

2100

C.SOCIALES

20

98

2000

C.SOCIALES

16

99

2000

C.SOCIALES

17

100

2900

C.SOCIALES

12

101

2100

C.SOCIALES

0

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Bibliografía

25

26

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

102

2100

C.SOCIALES

15

103

1800

C.SOCIALES

5

104

2000

C.SOCIALES

12

105

2100

C.SOCIALES

12

106

1900

C.SOCIALES

13

107

2000

C.SOCIALES

4

108

2300

C.SOCIALES

17

109

2000

C.SOCIALES

20

110

1700

C.SOCIALES

16

111

1700

C.SOCIALES

16

112

2100

C.SOCIALES

6

113

2600

C.SOCIALES

15

114

2400

C.SOCIALES

9

115

2600

C.SOCIALES

0

116

1900

C.SOCIALES

18

117

1600

C.SOCIALES

10

118

1900

C.SOCIALES

19

119

2100

C.SOCIALES

9

120

1700

C.SOCIALES

15

Aplique el muestreo estratificado para seleccionar una muestra de 24 empleados. Use como variable de estratificación el tipo de educación recibida de cada trabajador. Elabore un listado identificando el número de dato seleccionado. Solución Se divide a la población en estratos que sean mutuamente excluyentes, luego los estratos 1, 2 y 3 son: C.Empresa, Ingeniería y C.Sociales, respectivamente. Para cada uno de los estratos, seleccionamos muestras aleatorias simples. Cuadro N° 06: Ejemplo de Muestreo Estratificado

Estratos

1. C.Empresa

Números de elementos en el estrato Nh

N1 = 30

Posiciones

Cantidad seleccionada por estrato

(desde – hasta)

1 – 30

2. Ingeniería

N2 = 50

31 – 80

3. C.Sociales Total

N3 = 40 N = 120

81 – 120

Nh

n = n1 = n2=

N1

N xn

N N2

= N

xn

=

xn

30

50

x24 =6 120

x24 = 10 120

n3 = N 3 xn 40 x24 = =8 N 120 n = 24

Para cada estrato, realizamos un muestreo aleatorio simple usando las columnas de la tabla de los números aleatorios. Ejercicio 3 La siguiente tabla muestra a los 120 alumnos de la facultad de Ingeniería, a quienes se les preguntó por su emisora radial preferida y por la cantidad de horas a la semana que la escucha.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

Lecturas seleccionadas

Cuadro N°07:Registro de Radios P

Radio

Horas

P

Radio

Horas

P

Radio

Horas Recordatorio

1

Panamericana

4

41

Estudio 92

3

81

Estudio 92

2

2

Panamericana

8

42

Estudio 92

7

82

Estudio 92

4

3

Panamericana

5

43

Estudio 92

9

83

Estudio 92

2

4

Panamericana

2

44

Estudio 92

4

84

Estudio 92

5

5

Panamericana

3

45

Estudio 92

4

85

Estudio 92

8

6

Panamericana

6

46

Estudio 92

6

86

Estudio 92

8

7

Panamericana

7

47

Estudio 92

7

87

Oxígeno

5

8

Panamericana

6

48

Estudio 92

9

88

Oxígeno

6

9

Panamericana

8

49

Estudio 92

10

89

Oxígeno

3

10 Panamericana

9

50

Estudio 92

5

90

Oxígeno

7

11 Panamericana

3

51

Estudio 92

8

91

Oxígeno

4

12 Panamericana

3

52

Estudio 92

9

92

Oxígeno

2

13 Panamericana

4

53

Estudio 92

12

93

Oxígeno

11

14 Panamericana

2

54

Estudio 92

8

94

Oxígeno

2

15 Panamericana

6

55

Estudio 92

4

95

Oxígeno

3

16 Panamericana

4

56

Estudio 92

6

96

Oxígeno

8

17 Panamericana

9

57

Estudio 92

7

97

Oxígeno

6

18 Panamericana

5

58

Estudio 92

3

98

Oxígeno

7

19 Panamericana

2

59

Estudio 92

7

99

Oxígeno

9

20 Panamericana

7

60

Estudio 92

8

100

Oxígeno

4

21 Panamericana

4

61

Estudio 92

6

101

Oxígeno

8

22 Panamericana

6

62

Estudio 92

9

102

Oxígeno

7

23 Panamericana

7

63

Estudio 92

2

103

Oxígeno

7

24 Panamericana

8

64

Estudio 92

5

104

Oxígeno

9

25 Panamericana

9

65

Estudio 92

1

105

Oxígeno

6

26 Panamericana

10

66

Estudio 92

4

106

Oxígeno

7

27 Panamericana

5

67

Estudio 92

7

107

Oxígeno

9

28 Panamericana

4

68

Estudio 92

6

108

Oxígeno

8

29 Panamericana

7

69

Estudio 92

7

109

Oxígeno

3

30 Panamericana

8

70

Estudio 92

8

110

Oxígeno

11

31 Panamericana

4

71

Estudio 92

4

111

Oxígeno

13

32

Estudio 92

6

72

Estudio 92

5

112

Oxígeno

14

33

Estudio 92

7

73

Estudio 92

3

113

Oxígeno

9

34

Estudio 92

5

74

Estudio 92

6

114

Oxígeno

8

35

Estudio 92

8

75

Estudio 92

5

115

Oxígeno

6

36

Estudio 92

9

76

Estudio 92

8

116

Oxígeno

5

37

Estudio 92

4

77

Estudio 92

7

117

Oxígeno

7

38

Estudio 92

5

78

Estudio 92

9

118

Oxígeno

3

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

27

28

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

39

Estudio 92

2

79

Estudio 92

10

119

Oxígeno

6

40

Estudio 92

9

80

Estudio 92

3

120

Oxígeno

5

Anotaciones

Seleccione una muestra aleatoria de tamaño 12 mediante muestreo estratificado. Use la variable radio de su preferencia como variable de estratificación. Solución: Posición

n 11 = N h xn

Estrato

Nh

Panamericana

N1=

N1=

Estudio 92

N2=

N2=

Oxígeno

N3=

N3=

(desde – hasta)

h

N

TOTAL Diagrama

Objetivos

Inicio

Luego, para cada estrato realice un muestreo aleatorio simple utilizando la tabla de números aleatorios. Desarrollo de contenidos

Actividades

Autoevaluación

LECTURA SELECCIONADA N° 1 Lecturas seleccionadas

Glosario

Bibliografía

¿FUNCIONA LA TERAPIA DE CONTACTO? Estadística. Mario Triola. Pág. 319 Muchos pacientes pagan de $25 a $50 por una sesión de terapia de contacto en la que el Recordatorio Anotaciones terapeuta coloca sus manos a unos centímetros del cuerpo del paciente, sin tener realmente contacto físico. El objetivo es curar una amplia variedad de problemas médicos, incluyendo cáncer, SIDA, asma, enfermedades cardiacas, dolores de cabeza, quemaduras y fracturas óseas. La teoría básica plantea que un terapeuta de contacto capacitado profesionalmente puede detectar un mal alineamiento en el campo de energía del paciente y generar un equilibrio energético que incrementa el proceso de curación. Cuando Emily Rosa, una niña de nueve años, estaba en cuarto grado, eligió el tema de la terapia de contacto para el proyecto de una feria de ciencias y convenció a 21 terapeutas de contacto experimentados para que participaran en una prueba sencilla de su capacidad para detectar el campo de energía humana. Emily utilizó un cartón con dos agujeros para introducir las manos. Cada terapeuta de contacto pasaba sus dos manos a través de los agujeros, y Emily colocaba su mano por arriba de una de las manos del terapeuta; luego, se le pedía al terapeuta que identificara la mano que Emily había elegido. La niña lanzaba una moneda para seleccionar al azar la mano sobre la que colocaba la suya. Esta prueba se repitió 280 veces. Si los terapeutas de contacto realmente tenían la habilidad de percibir un campo energético humano, debían identificar la mano correcta mucho más del 50% de las veces. Si no tenían tal capacidad y sólo hacían conjeturas, debían acertar alrededor del 50% de las veces. Emily obtuvo los siguientes resultados: de los 280 ensayos, los terapeutas de contacto identificaron la mano correcta 123 veces, es decir, tuvieron una tasa de éxito del 44%. Emily, con la ayuda de su madre, un especialista en estadística y un médico, envió sus hallazgos para publicarlos en el prestigioso Journal of the American Medical Association. Después de una cuidadosa y detallada revisión del diseño experimental y de los resultados, se publicó el artículo "A Close Look at a Therapeutic Touch" (Journal of the American Medical Association, vol. 279, núm. 13). Emily se convirtió en la investigadora más joven en publicar un artículo en esa revista. Además, ganó el primer premio de la feria de ciencias por su proyecto. Consideremos los principales resultados del proyecto de Emily. En los 280 ensayos, los terapeutas de contacto acertaron 123 veces. Tenemos una proporción muestral con n = 280 y x = 123. Los argumentos en contra de la validez del estudio podrían incluir la

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

Lecturas seleccionadas

aseveración de que el número de ensayos es demasiado pequeño para ser significativo, o que los terapeutas de contacto tuvieron un mal día y que, debido al azar, no tuvieron tanto éxito como la población de todos los terapeutas de contacto. En este capítulo analizaremos estos temas. Recordatorio También es importante señalar que el proyecto de Emily Rosa fue relativamente sencillo. Recuerde que ella realizó el estudio cuando cursaba el cuarto grado de primaria. Su proyecto es el tipo de actividad que cualquier estudiante de un curso de introducción a la estadística podría llevar a cabo. Después de comprender los conceptos que se enseñan en el curso de introducción a la estadística típico, los estudiantes tienen la habilidad para realizar trabajos significativos e importantes. Diagrama

Objetivos

Desarrollo de contenidos

Actividades

Lecturas seleccionadas

Inicio

ACTIVIDAD N° 1: Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Glosario

Bibliografía

TEMA N°2: ESTIMACIONES Y TAMAÑOS DE MUESTRA3 Recordatorio

Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará Anotaciones basada en un estadístico muestral, es decir, en la información proporcionada por la muestra (formalmente definimos un estadístico como una función de las observaciones muestrales). La elección del estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal estadístico se denomina estimador. Observamos que es necesario tener claro algunos conceptos y características importantes de la inferencia estadística, detalles que permitirán que realicemos sobre todo una buena interpretación. Estimación puntual Es una medida descriptiva numérica aplicada a las características en las unidades de la muestra, calculada con ciertos procedimientos establecidos por indicadores estadísticos conocidos como estimadores o estadísticos. Estimación por intervalo Es la estimación de parámetro a través del cálculo de un intervalo de valores determinando un límite inferior y uno superior dentro del dual estará comprendido el verdadero valor o parámetro. Intervalo de confianza Es un intervalo de valores dentro de los cuales se espera que esté comprendido el parámetro con un nivel de confianza dado o con un error conocido. Nivel de confianza Expresa la probabilidad de alcanzar la precisión deseada entre el valor estimado y el parámetro. Se representa como: 1Nivel de riesgo Expresa la probabilidad de no alcanzar la precisión deseada, también es conocido como nivel de significancia. Se representa con: La estimación estadística se divide en dos grandes grupos: la estimación puntual y la estimación por intervalos. La estimación puntual consiste en obtener un único número calculado a partir de las observaciones muestrales, y que es utilizado como estimación del valor del parámetro θ. Se le llama estimación puntual porque a ese número, que se utiliza como estimación del parámetro θ, se le puede asignar un punto sobre la recta 3

Mario Triola. Estadística. 2009

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

29

30

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

real. En la estimación por intervalos se obtienen dos puntos (un extremo inferior y un extremo superior) que definen un intervalo sobre la recta real, el cual contendrá con cierta seguridad el valor del parámetro θ. El estimador del parámetro poblacional θ es una función de las variables aleatorias u observaciones muestrales y se representa por: θ= g ( X1, X2,..., Xn) Para una realización particular de la muestra ( x1 , x2 ,..., xn ) se obtiene un valor específico del estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por : =g(

x1 , x2 ,..., xn )

Vemos pues que existe diferencia entre estimador y estimación. El estimador es un estadístico y, por tanto, una variable aleatoria y el valor de esta variable para una muestra concreta ( x1 , x2 ,..., xn ) será la estimación puntual. El estimador θ tendrá su distribución muestral.

En el cuadro se muestra diferentes parámetros poblacionales, sus estimadores y sus estimaciones. Cuadro N°08: PARÁMETROS POBLACIONALES

Estrato Media μ

Proporción p ó n

(desde – hasta) n

µˆ = X = Varianza ó

Posición

Nh

σˆ 2 = S 2 = pˆ =

∑X i =1

n

i

n

x=

∑x

i

i =1

n

1 n 1 n (Xi − = X )2 s2 ∑ xi − x ∑ n − 1 i =1 n − 1 i =1

X númeroéxitos = n númeropruebas

(

pˆ =

)

2

x n

Para la elección de estos estimadores puntuales nos hemos basado, principalmente en la intuición y en la posible analogía de los parámetros poblacionales con sus correspondientes valores muestrales, pero éste no será el método más adecuado para la obtención de estimadores puntuales, aunque en este caso se obtienen estimadores satisfactorios para los parámetros poblacionales. En general, el problema de obtener estimadores puntuales no será tan sencillo, por ello tenemos que dar propiedades que serían deseables que se cumplieran por los diferentes estimadores puntuales obtenidos, aunque no existe un mecanismo o método único que nos permita obtener el mejor estimador puntual en todas las circunstancias. Nuestro objetivo ahora será dar algunas propiedades deseables de los estimadores puntuales, con el fin de poder conocer la bondad de los mismos, pues cuantas más propiedades verifiquen los estimadores puntuales mejores serán. Propiedades de los estimadores (Mata, 2013) Un estimador debe ser: Insesgado: Si tenemos un gran número de muestras de tamaño n y obtenemos el valor del estimador en cada una de ellas, sería deseable que la media de todas estas estimaciones coincidiera con el valor de μ. Se dice que un estimador es insesgado si su esperanza matemática coincide con el valor del parámetro a estimar. Eficiente: Se dice que los estimadores son eficientes cuando generan una distribución muestral con el mínimo error estándar es decir, entre dos estimadores insesgados de un parámetro dado es más eficiente el de menor varianza.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Consistente: Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor del parámetro a medida que aumenta el tamaño de la muestra. Es decir, la probabilidad de que la estimación sea el verdadero valor del parámetro tiende a 1.

Suficiente: Se dice de un estimador que es suficiente cuando es capaz de extraer de los datos toda la información importante sobre el parámetro.

1 ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL Si p representa la proporción de éxitos en una muestra aleatoria de tamaño n suficientemente grande y q=1-p, entonces un intervalo de confianza aproximado para la proporción poblacional p al nivel de confianza del (1-α)% viene dado por:

 ˆ − zα p 2 

ˆ qˆ p ˆ + zα ,p n 2

ˆ qˆ  p  n 

Donde la variable aleatoria Z sigue una distribución N(0,1). Si el muestreo es sin reemplazo y la fracción de muestreo , los límites de confianza se calculan con la siguiente fórmula.

p ˆ − Z 1−α / 2

p ˆ qˆ n

N −n ≤ p≤ p ˆ + Z 1−α / 2 N −1

p ˆ qˆ n

N −n N −1

Ejemplo El dueño de un diario se interesa en la proporción de reporteros varones que cometen errores al momento de entregar el reporte final. Al seleccionar una muestra aleatoria de 100 reporteros varones encontró que 24 cometían errores. Calcule e interprete un intervalo de confianza del 99% para la verdadera proporción de reporteros varones que cometen errores al momento de entregar el reporte final. Solución

i) La estimación puntual de p es pˆ = 24 = 0,24 y Z 0,995 = 2,58 100 ii) 0,24 − (2,58)

(0,24)(0,76) (0,24)(0,76) ≤ p ≤ 0,24 + (2,58) 100 100

0,13 ≤ p ≤ 0,35

Interpretación: Existe un 99% de confianza que entre 0,13 y 0,35 se encontrará la proporción poblacional de reporteros varones que cometen errores al momento de entregar el reporte final. 2 ESTIMACIÓN DE LA MEDIA POBLACIONAL 2.1.Intervalo de confianza para la media de una población normal, con varianza conocida. Supongamos que tenemos una muestra aleatoria de n observaciones de una distribución N(μ, ó). Si ó es conocida, y la media muestral observada es x , entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del (1-α)% viene dado por:

Bibliografía

31

32

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

σ σ   , x + zα / 2  x − zα / 2  n n  Anotaciones

Donde la variable aleatoria Z sigue una distribución N(0,1).

n ≥ 0,05 Si el muestreo es sin reemplazo y la fracción de muestreo N estándar será:

σx =

σ n

x − Z1−α / 2

el error

N − n y los límites de confianza se calculan con la siguiente fórmula. N −1

σ n

σ N −n ≤ µ ≤ x + Z1−α / 2 N −1 n

N −n N −1

Ejemplo Un artículo publicado en un diario local indica que el tiempo promedio empleado por los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. es de 7,75 horas. Suponga que el tiempo tiene una distribución aproximadamente normal con desviación estándar de 3,45 horas. Para corroborar dicha afirmación un grupo de estudiantes selecciona una muestra de 180 hogares de L.M. y obtuvo que el tiempo promedio fue de 7,42 horas por semana. ¿Será cierta la afirmación publicada por el diario local al 96% de confianza? Solución: i) La estimación puntual de μ es x =7,42 siendo n=180 ii) 1-α = 0,96 » α = 0.04 entonces: como: x − Z 1−α / 2

iii)

σ n

Z 1−α / 2

≤ µ ≤ x + Z 1−α / 2

IC ( µ ) = 7,42 − (2,05)

= Z(0.98) = 2,05

σ n

3,45 3,45 ≤ µ ≤ 7,42 + (2,05) 180 180

6,8928 < μ < 7,9472 Interpretación: Con un 96% de confianza entre 6,8928 y 7,9472 horas por semana se encontrará la media del tiempo empleado por todos los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. por lo tanto es cierta la afirmación publicada en el diario local. Ejemplo Se tienen 50 000 trabajadores de construcción civil empadronados en el Ministerio de Trabajo, de los cuales se tomó una muestra aleatoria de 400 y se analizó el ingreso diario. Si la media de los trabajadores encuestados es de 74 soles diarios con una desviación estandar de 10.68 soles, construya un intervalo de confianza del 90% para el ingreso diario de todos los trabajadores de construcción civil. Solución i)

x

=74; n=400; N=50 000 y s=10.68

ii) 1-α = 0,90 » α = 0.1 entonces:

Z 1−α / 2

= Z(0.90) = 1.645

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

σ iii) x − Z 1−α / 2

n

σ N −n ≤ µ ≤ x + Z1−α / 2 N −1 n

N −n N −1

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

iv)

IC ( µ ) = 74 − (1.645)

10.68 50000 − 400 10.68 50000 − 400 ≤ µ ≤ 74 + (1.645) x x 50000 − 1 50000 − 1 400 400

v) IC ( µ ) = 73.13 ≤ µ ≤ 74.87

2.2.Intervalo de confianza para la media de una población con varianza desconocida siendo n<30. Supongamos que tenemos una muestra aleatoria de n<30 observaciones de una distribución N(μ,ó). Si ó es desconocida, y la media y la desviación típica muestral observadas son x y s, respectivamente, entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del (1-α)% viene dado por:

 s s  x − t , x + t   α /2 α /2 n n   α y la variable donde tα /2 es tal que P [t > t ] = n −1 α /2 2

tn −1 sigue una distribución

t-

Student con n-1 grados de libertad. Si el muestreo es sin reemplazo y la fracción de muestreo, n ≥ 0,05 el error N estándar será: s N − n y los límites de confianza se calculan con la siguiente fórmula: n N −1

x − tα / 2,n −1

s n

N −n s ≤ µ ≤ x + tα / 2,n −1 N −1 n

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

N −n N −1

Distribución t-Student Cuando se tienen muestras pequeñas y no se conoce la desviación estándar poblacional pero la población se distribuye normalmente se puede utilizar como estadístico de prueba el valor crítico t de la distribución t de Student la cual tiene las siguientes características: - Es simétrica y tiene forma de campana. - Se extiende de - a + - Los extremos la distribución t está por encima de la normal estándar. - El centro la distribución t está por debajo de la normal estándar. - Cada valor de grado de libertad determina una distribución t distinta. - Cuando los grados de libertad son altos, los valores de la distribución t se asemejan con los valores de la distribución normal estándar (n > 29). - En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas distribuciones tienen forma de campana. Sin embargo, la distribución t tiene mayor área en los extremos y menor en el centro, a diferencia de la distribución normal.

Bibliografía

33

34

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

FIGURA N°04: Ejemplo de gráficos de la distribución t-Student para diferentes tamaños de muestra (Triola, 2009) Ejemplo El jefe del área de prensa de un diario desea evaluar la habilidad de su equipo de trabajo en el digitado de una misma noticia. Para realizar dicho estudio selecciona al azar una muestra aleatoria de redactores obteniendo los siguientes resultados (en minutos): 3,2 4,8 5,3 9,1 6,3 8,2 6,5 9,6 10,3 8,6 6,3 7,9 8,2 7,9 6,9 9,3 8,6 6,8 10,1 9,0 Asumiendo que los tiempos se distribuyen normalmente. Halle e interprete un intervalo del 95% de confianza para el tiempo medio utilizado en el tipeado de una noticia. Solución: i) La estimación puntual para μ es =7,645 siendo s= 1.8597 ii) Como el nivel de confianza es 95%, tα /2;n −1 = 2.0930 iii)

IC ( µ ) = 7,645 − 2,0930

(1,8597) (1,8597) ≤ µ ≤ 7,645 + 2,0930 20 20

6.7746 y 8.1130 Interpretación: Con un 95% de confianza entre 6.7746 y 8.1130 minutos se encontrará la media del tiempo utilizado por todos los redactores en el digitado de una noticia. Ejemplo Pamela, estudiante de estadística para Ciencias de la Empresa piensa que el gasto promedio semanal en fotocopias de los estudiantes de su facultad es de 3.5 soles. Para verificar si es cierto lo que está pensando ha elegido al azar una muestra de 9 estudiantes de un total de 120 estudiantes que llevan el curso de estadística para comunicadores, resultando los siguientes gastos: 3,5 2,5 1,9 1,7 2,5 3,4 2,9 1,6 1,5 Si la variable aleatoria objeto de estudio sigue una distribución normal. Con un intervalo de confianza del 96% para la media del gasto semanal en fotocopias por estudiante ¿será cierto lo que piensa Pamela? Solución: i) n=9; N=120; 1-α=0.96

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

ii) =2.3889 siendo s= 0.7639 y n/N=0.0758>0.05

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

iii) =2.44898 iv)

(N − n ) α  n −1;  (N − 1) 2  (0,7639) (120 − 9) = 2,3889 ± (2,44898) (120 − 1) 9 s n

IC ( µ ) = x ± t 

= 1,7866 ≤ µ ≤ 2,9912

Conclusión: Con un nivel de confianza del 96% se puede decir que el gasto promedio semanal en fotocopias de los estudiantes de su facultad es menor a 3.5 soles, por lo que podríamos decir que lo que piensa Pamela no es cierto. 3 ESTIMACIÓN DE LA VARIANZA POBLACIONAL Supongamos una muestra aleatoria de n observaciones de una distribución N(μ,σ). Si σ es desconocida y la varianza muestral observada es entonces el intervalo de confianza para la varianza poblacional al nivel de confianza del 100(1-α)% viene dado por:

donde

α

χ n2−1,1−α /2es tal que

χ n2−1,α /2

es tal que

y la variable aleatoria de libertad.

y P  χ n2−1 ≤ χ n2−1,1−α / 2  = 2 α P  χ n2−1 ≤ χ n2−1,α / 2  = 1−

χ n2−1

2

sigue una distribución

χ 2 de Pearson

con n-1 grados

FIGURA Nº05: VALORES CRÍTICOS DE LA DISTRIBUCIÓN CHI-CUADRADO (Triola, 2009)

- Para obtener el valor crítico 2.7 ubicar el 9 en la columna de grados de libertad y 1-0.025=0.975 (área hacia la derecha del

χ2

) en la parte superior horizontal.

- Para obtener el valor crítico 19.023 ubicar el 9 en la columna de grados de libertad y 0.025 (área hacia la derecha del Ejemplo

χ2

) en la parte superior horizontal.

Bibliografía

35

36

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

Un fabricante de baterías para automóviles afirma que sus baterías durarán, en promedio, tres años con una varianza de un año. Si cinco de estas baterías tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años, construya un intervalo de confianza del 95% para σ y decida si la afirmación del fabricante de que σ = 1 es válida. Suponga que la población de duraciones de las baterías se distribuye de forma aproximadamente normal. 2

2

Solución i) s2 = 0,815, n=5 2

2

ii) El valor 1- /2 , es un valor con = 5-1 grados de libertad, que deja un área de 2 0,025 a la izquierda y por lo tanto un área de 0,975 a la derecha, es 0,975 = 0,484; de 2 2 la misma forma, el valor /2 es igual a 0,025 = 11,143. iii) (5 − 1)(0.815) (5 − 1)(0.815) < σ2 < 11.143 0.484

iv) 0 .3 < σ 2 < 6 .7

Interpretación: Con 95% de confianza entre 0,3 y 6,7 se encontrará la varianza de la duración de las baterías. Sí es posible considerar como válida la afirmación del fabricante porque el intervalo hallado contiene a la unidad. Ejemplo Se desea estimar la varianza de la longitud de ciertos cables. En una muestra de 25 cables se encuentra que la longitud tiene una media de 80 m y una desviación de 3 m. Hallar un intervalo con una confianza del 95%, para la varianza de las longitudes de los cables. Solución i)

n = 25 : x = 80 , s = 3 , s 2 = 9 ii)

N .C. = 0.95 = 1 − α →

α 2

= 0.025, 1 −

α 2

= 0.975

iii)

χ (20.025, 24) = 12.4011 , χ (20.975, 24) = 39.3641 iv)

24 × 9 24 × 9 ≤σ2 ≤ 39.3641 12.4011 v)

5.49 ≤ σ 2 ≤ 17.42 vi)

2.34 ≤ σ ≤ 4.17 Interpretación: Se puede afirmar con un 95% de confianza que la desviación estandar de la longitud de dichos cables se encuentra entrea 2.34 m y 4.17m.

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

4 DETERMINACIÓN DEL TAMAÑO DE MUESTRA

Lecturas seleccionadas

Existen tres factores que determinan el tamaño de una muestra; ninguno tiene alguna relación directa con el tamaño de la población. Estos son:

Recordatorio

- El grado de confianza elegido. - El máximo error permitido. . La variación de la población. 4.1. Para estimar la media poblacional Población infinita

n=

zσ E2 2

Población Finita

2

n=

z 2σ 2 N E ( N − 1) + z 2σ 2 2

Ajuste de Tamaño de muestra para población finita

n=

n0 n 1+ 0 N

Donde: E: Es el error permitido; Z: El valor estándar normal asociado con el grado de confianza elegido,

s: La desviación de la población, obtenida de estudios anteriores, experiencias previas o se puede estimar la desviación estándar muestral mediante un estudio piloto no: Tamaño de muestra calculada de una población infinita N: Tamaño de población Se dice que una población es finita si la relación n/N > 5% 4.2. Para estimar la proporción poblacional Población infinita

n=

z 2 pq E2

Población Finita

n=

z 2 pqN E ( N − 1) + z 2 pq 2

Donde: E: Es el error permitido; Z: El valor estándar normal asociado con el grado de confianza elegido, P: La proporción de éxito de la población, obtenida de estudios anteriores, experiencias previas o se puede estimar la proporción de éxito muestral mediante un estudio piloto. q: La proporción de fracaso de la población se obtiene por complemento de p: q =1–p N: Tamaño de población Ejemplo Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable aleatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg. Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

37

38

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

Solución i) e=0.1; σ = 0.5; α = 0.05 Anotaciones



ii) Z 1−α 2 = 1,96 iii) n =  (0,5)(1,96 )  = 96,4 2



0,1



Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamaño de muestra sería de 97. Ejemplo La Dirección Regional de Trabajo planea realizar un estudio con el objetivo de conocer el promedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una población de 10000 mujeres que figuran en los registros del seguro social y de las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el tamaño muestral requerido? Solución i) e=0.1;

σ = 9.648; α = 0.05

ii) Z 1−α = 1,96 2

iii) n =  (9.648)(1,96 )  = 3706 2

0,1





iv) Como 10000<3706x(3706-1), se corrige el tamaño de muestra

n=

3706 = 2704 3706 1+ 10000

Ejemplo En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la media de la capacidad en centímetros cúbicos de los mismos. A través de un premuestro de tamaño 35 se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión 0.25 cm3, y un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? Solución i) e=0.25 cm3;

σ = 2cm 3 ; α = 0.05

ii) Z α = 1,96 1− 2

iii) n =

iv) n =

N .σ 2 Z α2 2

Ne + σ 2 Z α2 2 8000(2) 2 (1.96) 2 8000(0.25) 2 + (2) 2 (1.96) 2

s

s

o

Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

v) n = 122931.2 = 239 515.37 Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo válidos. Ejemplo En una investigación, se desea determinar en que proporción los niños de una región toman leche en el desayuno. Si se sabe que existen 1500 niños y deseamos tener una precisión del 10 %, con un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? Solución i) N=1500; e=10%=0.1; α = 0.05 ii) p = 0.5 y q = 0.5 iii) Z 1−α = 1,96 2 iv) n =

v) n =

N . p.q.Z α2 2 N .e 2 + p.q.Z α2 2

1500(0.5)(0.5)(1.96) 2 1500(0.1) 2 + (0.5)(0.5) / 1.96) 2

n = 90

vi)

Se deben muestrear 90 niños.

Cuadro N°09: Distintos niveles de confianza utilizados en la práctica Nivel de Confianza

99.73%

99%

98%

96%

95.45%

95%

90%

80%

Valores de Z

3.00

2.58

2.33

2.05

2.00

1.96

1.645

1.28

Diagrama

Objetivos

Desarrollo de contenidos

Actividades

Inicio

ACTIVIDAD N° 2: Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Actividades

Autoevaluación

Recordatorio

Glosario

Anotaciones

Bibliografía

CONTROL DE LECTURA N° 1 Esta actividad puede consultarla en su aula virtual. Anotaciones

Bibliografía

Bibliografía

39

40

Inicio UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

ollo nidos

Actividades

Autoevaluación

Diagrama

Objetivos

as nadas

Glosario

Bibliografía

Desarrollo de contenidos

Actividades

Autoevaluación

Bibliografía

Anotaciones

Lecturas seleccionadas

Glosario

torio

BIBLIOGRAFÍA DE LA UNIDAD I

Triola, M. (2012). Estadística. México : Pearson Educación Berenson, M. y Levine, D. (2010). Estadística Básica en Administración, Conceptos y aplicaciones. México: Prentice Hall

Recordatorio

Anotaciones

Diagrama

Objetivos

Inicio

Desarrollo de contenidos

Actividades

Autoevaluación

Lecturas seleccionadas

Glosario

AUTOEVALUACIÓN DE LA UNIDAD I

Recordatorio

Resuelva el siguiente cuestionario, marcando la respuesta correcta en cada caso, para fijar los conceptos e ideas fundamentales tratados en la Unidad: 1. Correlacione: Bibliografía Población Finita

CONCEPTO

Es una técnica en el que el sujeto no sabe si está recibiendo el tratamiento

Muestreo estratificado

Los miembros de una población se seleccionan de forma que cada miembro individual tenga la misma posibilidad de ser elegido

Muestreo sistemático

3

Selecciona directamente los individuos de la población para la muestra

Muestra aleatoria

4

Se selecciona un punto de partida, después se elige cada k-esimo elemento de la población

1

Anotaciones

2

5

Subdividimos a la población en al menos dos subgrupos diferentes, cada subgrupo posee gran homogeneidad respecto alguna característica.

Muestreo de conveniencia Estudio a ciegas

a) 3,4,5,2,1 b) 5,4,3,2,1 c) 3,5,4,2,1 d) 5,4,2,3,1 e) 5,3,2,1,4 2. Una de sus obras más importantes de Maquiavelo fue: a) 0.014 b) 0.015 c) 0.897 d) 0.028 e) 0.196 3. El siguiente intervalo de confianza se obtiene de una proporción poblacional,

p: 0.883
Desarrollo UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

4. Condiciones para hacer un intervalo de confianza usando la distribución normal estándar: I. La distribución de la población no puede ser normal si n>30. II. Se conoce el valor de la desviación estándar poblacional. III. Se emplea para n<30 si la población tiene una distribución normal IV. Se conoce el valor de la media poblacional V. La muestra es una muestra aleatoria simple. a) II, III y IV b) I, II, y V c) I, IV y V d) II y IV e) III, IV y V 5. El ancho de un intervalo de confianza para una proporción sería: a) Más angosto para un nivel confianza de 99% que para un nivel confianza de 95%.

b) Más amplio para una muestra de tamaño 100 que para una muestra de tamaño 50. c) Más amplio para una desviación estándar de 3.56 que para un nivel de confianza de 90% d) Más amplio cuando la proporción de la muestra sea 0.50 que cuando la proporción de la muestra sea 0.20. e) Más amplio a nivel de confianza 99% que al de 95% 6. Un grupo de consumidores desea estimar el monto de las facturas de energía eléctrica para el mes de marzo para las viviendas unifamiliares del distrito de Hualhuas. Con base en estudios realizados en otras ciudades cercanas a ésta, se determinó una desviación estándar de 25 dólares. El grupo desea estimar el monto promedio para marzo dentro de ± 5 dólares del promedio verdadero con 99% de confianza. Calcule el mejor tamaño de muestra

a) 205 b) 167 c) 135 d) 68 e) 152 7. Un amplio intervalo de confianza indica que: I. Existe mayor probabilidad de estimar parámetro con el estimador II. Hay una variabilidad considerable en los datos muestrales III. La estimación puntual obtenida de la muestra no puede estar cerca del verdadero valor del parámetro poblacional IV. Hay poca variabilidad el estimador es cercano al parámetro V. La estimación por intervalo no es válida Son verdaderos: a) I, III y IV b) III y V c) IV y V d) II y III e) I y IV

Bibliografía

41

42

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS

8. Con la siguiente información: n = 15,

s2 = 2.53,

α = 0.01

Defina el intervalo de confianza para la desviación estándar: Anotaciones

a) 1.039 < α < 2.775 b) 1.131 < α < 8.693 c) 1.299 < α < 7.162 d) 1.063 < α < 2.948 e) 2.069 < α < 6.332 9. Un empresario potencial estudia la posibilidad de comprar una lavandería con máquinas operadas con monedas. El dueño actual asegura que en los últimos 5 años el promedio de ingresos diarios ha sido 675 dólares con una desviación estándar de 75 dólares. Una muestra de 30 días revela un ingreso promedio diario de 625 dólares. ¿Existe evidencia de que la aseveración del dueño actual no es válida? (use un nivel de significancia de 0.01). Determine el valor del estadístico de prueba y si se aprueba o no la hipótesis nula. a) -3.651; se rechaza Ho b) -2.381, se acepta Ho c) 2.381, se rechaza Ho d) -4.724, se acepta Ho e) -1.452, se acepta Ho 10. Las Razones por las que no se debe usar la distribución “t” I. La desviación estándar de la población es conocida. II. La distribución de la población es normal III. El tamaño de la muestra es mayor a 30 IV. La muestra es aleatoria simple V. El tamaño de muestra es menor a 30 a) II y IV b) III y V c) I d) IV e) III

Desarrollo de contenidos

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

Desarrollo de contenidos

Actividades

Autoevaluación

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD II

Diagrama Lecturas seleccionadas

Desarrollo de contenidos Recordatorio

Objetivos Glosario

Inicio Bibliografía

Actividades

Autoevaluación

CONTENIDOS Glosario

Recordatorio

Anotaciones

ACTIVIDADES

EJEMPLOS

Anotaciones

Lecturas seleccionadas

Bibliografía

AUTOEVALUACIÓN

BIBLIOGRAFÍA

ORGANIZACIÓN DE LOS APRENDIZAJES Diagrama

Objetivos

Inicio

CONOCIMIENTOS Desarrollo de contenidos

Actividades

PROCEDIMIENTOS

ACTITUDES

1. Conoce y practica los procedimientos de la prueba de hipótesis para distintas aseveraciones acerca de la media, proporción y varianza

1. Valora la importancia de la estimación de parámetros y la determinación del tamaño de muestra y comprueba las hipótesis para la toma de decisiones.

Autoevaluación

Tema N° 1: Prueba de hipótesis 1. Definiciones básicas 2. Prueba de aseveración para la media 3.Lecturas Prueba de aseveración para la Glosario Bibliografía seleccionadas proporción 4. Prueba de aseveración para la varianza Tema Nº 2: Inferencia a partir Anotaciones de dos muestras 1. Inferencia acerca de dos medias, proporciones para muestras independientes 2. Inferencia a partir de datos pareados 3. Comparación de la variación de dos muestras

Recordatorio

Tema Nº 3: Inferencia a partir de dos muestras 1. ANOVA de un factor 2. ANOVA de dos factores Lectura seleccionada N°1 La paradoja del cumpleaños Blog Estadística para todos Autoevaluación de la Unidad II

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Actividad N° 1 2. Compara dos conjuntos de datos muestrales y aplica la prueba de hipótesis acerca de sus características poblacionales 3. Aplica el análisis de varianza de un factor y de dos factores Actividad N° 2 Tarea Académica Nº 1

Bibliografía

43

44

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

TEMA N° 1: PRUEBA DE HIPÓTESIS Los métodos estudiados en la Unidad anterior usan la información proporcionada por los estadísticos muestrales para estimar con cierta probabilidad el valor de un parámetro poblacional. En éste Unidad se introducirá la prueba de hipótesis que supone a priori el valor del parámetro y sobre la base de la información obtenida en una muestra se somete a prueba la suposición, para luego tomar con cierta probabilidad, la decisión de rechazar o no rechazar la hipótesis. En éste punto es importante señalar que la expresión “no rechazar” pudiera ser sustituida por “aceptar”, sin embargo antes de hacerlo es necesario atender cuidadosamente algunas explicaciones que se darán más adelante. La prueba de hipótesis también conocida como docimasia o contrastación de hipótesis es uno de los métodos estadísticos más usados en las ciencias naturales por ser un procedimiento que le proporciona al investigador un criterio objetivo para tomar decisiones con base a un número limitado de observaciones. Esta proposición que finalmente es aceptada o rechazada recibe el nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, ciencias de la salud, ciencias sociales, administración, economía, etc., pueden formularse como problemas de prueba de hipótesis.

1 DEFINICIONES BÁSICAS1 1.1. Hipótesis Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. 1.2. Hipótesis estadística Cualquier afirmación o conjetura que se hace a cerca de la distribución de una o más poblaciones Ejemplo: El promedio ponderado de los alumnos de UCCI en el semestre 2013-I es superior a 14. 1.3. Hipótesis simple Cualquier hipótesis estadística que especifica completamente la distribución de la población, especifica la forma de la distribución y el valor de su parámetro. Ejemplo: El ingreso mensual promedio de los empleados de cierta empresa es de 900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviación estándar de 30. 1.4. Hipótesis compuesta Cualquier hipótesis estadística que NO especifica completamente la distribución de la población Ejemplo: El ingreso mensual promedio de los empleados de cierta empresa es SUPERIOR a 900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviación estándar de 30. 1.5. Hipótesis nula (h0) Es la hipótesis que es aceptada provisionalmente como verdadera y cuya validez será sometida a comprobación 1.6. Hipótesis alternativa (h1) Es una hipótesis contraria a la hipótesis nula, se acepta en caso que la hipótesis nula sea rechazada. 1 Mario Triola. Estadística. 2009

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

Lecturas seleccionadas

Es importante recordar que las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes: Recordatorio - Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor del parámetro. - Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo. - Cuando el valor del parámetro proviene de consideraciones externas tales como las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones. 1.7. Planteamiento de hipótesis Es importante tener en cuenta que el signo igual siempre debe ir vinculado a la hipótesis nula. 1) H0: θ = θ0

H1: θ ≠ θ0

2) H0: θ ≤ θ0

H1: θ > θ0

3) H0: θ ≥ θ0

H1: θ < θ0

Donde θ0 es el valor del parámetro desconocido θ 1.8. Prueba de hipótesis estadística Proceso para la toma de decisiones de aceptar o rechazar la Hipótesis Nula H0 en contraposición de la hipótesis alternativa H1 basándose en los resultados de una muestra. 1.9. Tipos de pruebas de hipótesis Depende de la hipótesis alternativa

Prueba de Hipótesis unilateral o Prueba de una cola

Prueba de Hipótesis Bilateral o Prueba de dos colas

H0: θ = θ0 y H1 : θ > θ0

H0: q = θ0 y H1 : q ≠ θ0

H0: θ = θ0 y H1 : θ < θ0

1.10. ERROR TIPO I Y II DECISIÓN

H0 VERDADERA

H0 FALSA

ACEPTAR H0

CORRECTO

ERROR TIPO II

1-a

b

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

45

46

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

RECHAZAR H0

Anotaciones

ERROR TIPO I

CORRECTO

a

(1-b)

Nivel de Significación (α) Es la probabilidad de cometer un error de tipo I α = P(error tipo I) α = P(rechazar H0 cuando es verdadera) Potencia de una Prueba Es la probabilidad de cometer un error de tipo II β = P(error tipo II) β = P(aceptar H0 cuando es falsa) 1.11. Regla de decisión Es la división de la distribución muestral del estadístico de la prueba en dos partes mutuamente excluyentes: Región Crítica (RC): región de rechazo de H0 Región de Aceptación (RA): región de no rechazo de H0 Depende de la hipótesis alternativa H1 del nivel de significación y la distribución muestral del estadístico Prueba de Hipótesis Bilateral o Prueba de dos colas. H0: θ = θ0 y H1 : θ ≠ θ0

Prueba de Hipótesis unilateral o Prueba de una cola. H0: θ = θ0 y H1 : θ < θ0

Prueba de Hipótesis unilateral o Prueba de una cola. H0: θ = θ0 y H1 : θ > θ0

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

1.12. Procedimiento de la prueba de hipótesis La prueba de hipótesis estadística consta del siguiente procedimiento: 1. Planteamiento de las hipótesis. Establezca la aseveración que desea ser probada y exprésela en forma simbólica, H0 y H1. El signo igual siempre debe ir vinculado con la H0. 2. Establecimiento del nivel de confianza. De acuerdo a la gravedad de cometer el error tipo I se establece el valor a. Es usual considerar los valores 0.05 y 0.01. Este valor nos permitirá calcular el valor crítico de la prueba que puede ser z, t o chi cuadrado. 3. Cálculo del estadístico de prueba. Se identifica el estadístico pertinente para la prueba realizada y su respectiva distribución, luego se realiza el cálculo del mismo al cual usualmente se le denomina valor calculado. Se realiza un gráfico de la distribución que incluya el valor crítico, el estadístico de prueba y las regiones de rechazo o crítica y de aceptación. 4. Establecimiento de la regla de decisión. Rechace la H0 si el estadístico de prueba se encuentra en la región de crítica o de rechazo. Acepte la H0 si el estadístico de prueba se encuentra en la región de aceptación. 5. Toma de decisión. Establezca la conclusión indicando si existe evidencia muestral suficiente para aceptar la H0 (EEEAH0) o los datos muestrales no sustentan la aseveración de la H0 por lo que no hay evidencia estadística para aceptar H0 (EEERH0) 2 Prueba de aseveración para la media Supongamos que de una población normal con media desconocida μ y varianza conocida s2 se extrae una muestra de tamaño n, entonces de la distribución de la media muestral X se obtiene la prueba estadística o estadístico:

Z=

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

X − µo ó X −µ t n −1 = s/ n σ/ n

Ejemplo 2 Fumar cigarros de la marca X produce en promedio 0.6 mg de nicotina. El departamento de ingeniería del fabricante propone un filtro nuevo que supuestamente reducirá la producción de nicotina. Se toma una muestra de 50 cigarros con el nuevo filtro y se encuentra que el promedio de nicotina es de 0.55 mg. Con una desviación estándar de 0.56. ¿Debe aceptarse la aseveración del departamento de ingeniería con un nivel de significación de 2.5 por ciento? Solución i) El parámetro de interés es la media de la población , se desea probar: H0: μ = 0.60 H1: μ < 0.60 Donde μ es la verdadera media de la nicotina producida por los cigarros de la marca X. La prueba es unilateral izquierda. ii) Como se conoce la desviación estándar muestral y el valor de n es 50 se utiliza el 2 Tomado de Estadística aplicada a la Administración y Economía, Alfredo Díaz Mata, Capítulo 9, pág. 279. Primera Edición.

Bibliografía

47

48

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

valor crítico z, el cual es al 0.025 acumulado desde la izquierda igual a -1.96.

iii) El estimador es z calculado: Z=

X − µo

σ/ n

0.5 − 0.60 Z= = −0.6313 0.56 / 50

iv) El valor calculado o estimador -0.6313 se encuentra a la derecha del valor crítico 1.96, o sea se encuentra en la región de aceptación. v) Por lo tanto existe evidencia estadística para aceptar la hipótesis nula y se concluye que los nuevos filtros no reducen la nicotina que producen los cigarros de la marca X. Ejemplo 3 Los científicos han citado al benceno, un disolvente químico de uso común en la síntesis de plásticos como un posible agente causante de cáncer. Ciertos estudios han demostrado que las personas que trabajan con benceno durante más de cinco años tienen una incidencia de leucemia 20 veces mayor que la de la población en general. En consecuencia el gobierno recomienda que el nivel máximo permisible de benceno en dicho lugar de trabajo se baje de 10 partes por millón (ppm) a 1 ppm. Supongamos que una fábrica de artículos de acero, que expone diariamente a sus trabajadores al benceno, está siendo investigada por una certificadora de calidad, para ello se examinan 20 muestras de aire tomadas durante un período de un mes para determinar el contenido de benceno, obteniendo en el análisis una media de 2.1 ppm y una desviación estándar de 1.7 ppm. ¿La fábrica de artículos de acero estaría haciendo caso omiso a la recomendación? Utilice un nivel de confianza del 0.95. Solución i) El parámetro de interés es la media de la población , se desea probar: H0:

µ =1

H1:

µ >1

La certificadora quiere corroborar la hipótesis de investigación de que el nivel medio de benceno en la planta de fabricación excede a 1 ppm. Donde es la verdadera media. La prueba es unilateral derecha. ii) El nivel de significancia es a=0.05, lo que nos permite calcular el valor crítico t (desviación estándar muestral conocida y n<30) y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral derecha.

3 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 441. Cuarta Edición.

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

iii) El estimador es t calculado:

t=

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

X − µo



s/ n

2.1 − 1 t= = 2.89 1.7 / 20

iv) El valor calculado t o estadístico de prueba 2.89 se encuentra a la derecha de 1.729 en la región crítica o de rechazo. Existe evidencia estadística para rechazar la Ho. v) La certificadora de calidad por lo tanto llega a la conclusión que >1 ppm y que la panta está violando las normas gubernamentales con una confiabilidad asociada de a=0.05. 3 Prueba de aseveración para la proporción Supongamos que de una población de tamaño N de la cual se obtiene una muestra de tamaño n, existen x elementos favorables a la característica que se está analizando. x . Siendo π el valor presente en la hipóEntonces la proporción muestral es: pˆ = tesis nula. n El estadístico de prueba es:

Z=

pˆ − π HIPOTESIS π HIPOTESIS (1 − π HIPOTESIS ) n

El tamaño de muestra de muestra debe ser lo suficientemente grande para que la prueba sea válida. Como regla práctica: npˆ ≥ 4, nqˆ ≥ 4 y pˆ + qˆ = 1 . Ejemplo 4

El empleo de acero intemperizado en la construcción de puentes para autopistas ha sido tema de considerable controversia. Los críticos han citado temas de corrosión graves del acero intemperizado y están tratando de convencer a las autoridades de que prohíban su uso en la construcción de puentes. Por otro lado las corporaciones acereras aseguran que estas acusaciones son exageradas y dicen que 95% de todos los puentes de acero intemperizado en operación tienen un buen desempeño, sin daños graves por corrosión. A fin de probar esta aseveración, un equipo de ingenieros expertos de la industria del acero evaluaron 40 puentes de acero intemperizado seleccionados al azar y encontraron que 36 de ellos mostraban un buen desempeño. ¿Hay pruebas con a=0.05 de que la verdadera proporción de puentes de acero intemperizado que presentan un buen desempeño sea menor que 0.95 que es la cifra citada por las corporaciones? Solución i) El parámetro de interés es una proporción de la población , se desea probar: H0: π = 0.95 H1: π < 0.95 Donde es la verdadera proporción de todos los puentes de autopista de acero intemperizado que muestran un buen desempeño, siendo la prueba unilateral izquierda. ii) El nivel de significancia es α=0.05, lo que nos permite calcular el valor crítico z y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral izquierda.

4 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 465. Cuarta Edición.

Bibliografía

49

50

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

iii) Anotaciones

54 x = 0.9 pˆ = , por lo que utilizando los datos del problema: pˆ = 60 n

iv) El estadístico de prueba es: Z=

pˆ − π HIPOTESIS π HIPOTESIS (1 − π HIPOTESIS ) n

Z=

0.9 − 0.95 = −1.78 0.95.(1 − 0.95) 60

v) Se puede rechazar la hipótesis nula con α=0.05, ya que el valor calculado o estimador -1.78 cae a la izquierda del -1.645 lo que indica que se encuentra en la región de rechazo. vi) Por lo tanto, existe evidencia estadística para sustentar la hipótesis de que la proporción de puentes de autopista de acero intemperizado que tienen buen desempeño es menor que 0.95. Ejemplo5 Un estudio realizado a fumadores que intentaban dejar el hábito con terapia de parches de nicotina reveló que 39 de ellos continuaban fumando un año después de iniciado el tratamiento y 32 habían dejado de fumar (según datos de "High-Dose Nicotine Patch Therapy", de Dale et al, Journal of the American Medical Association, vol. 274, núm. 17). Utilice un nivel de significancia de 0.10 para probar la aseveración de que, de los fumadores que intentaban dejar el cigarrillo, la mayoría continúa fumando un año después de iniciar el tratamiento. ¿Sugieren estos resultados que la terapia de parches de nicotina es ineficaz? Solución i) El parámetro de interés es una proporción de la población π , se desea probar: H0: π = 0.50 H1: π > 0.50 Donde es la verdadera proporción de todos los que continúan fumando un año después de iniciar el tratamiento, siendo la prueba unilateral derecha. ii) El nivel de significancia es α=0.1, lo que nos permite calcular el valor crítico z y ubicarlo en la gráfica:

iii)

x pˆ = , por lo que utilizando los datos del problema: n

pˆ =

39 = 0.5 39 + 32

iv) El estadístico de prueba es: Z=

Z=

pˆ − π HIPOTESIS π HIPOTESIS (1 − π HIPOTESIS ) n 0.5 − 0.5 = 0.84 0.5.(1 − 0.5) 71

v) El estadístico de prueba 0.84 cae a la izquierda del valor crítico 1.645 en la región de aceptación, por lo que existe evidencia estadística para aceptar la hipótesis nula. vi) Como el 50% o menos deja de fumar, la terapia de parches no es eficaz.

5 Tomado de Estadística, Mario Triola, Capítulo 8, pág. 416. 10° Edición.

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

4 Prueba de aseveración para la varianza

Lecturas seleccionadas

Supongamos que de una población de tamaño N de la cual se obtiene una muestra de tamaño n, existen x elemento

Recordatorio

Para aplicar una prueba de hipótesis relativa a la varianza de una población se debe asumir que la distribución Ji-cuadrada se da siempre y cuando se trate de poblaciones normales y el estadístico de prueba es la variable Ji-cuadrada con (n-1) grados de libertad y que se expresa como:

χ2 =

(n − 1)s 2 σ2

El proceso que sigue una prueba de hipótesis para la varianza es el mismo que utilizamos en las anteriores secciones, es muy usual aplicar esta prueba cuando se require comprobar el grado de variabilidad de un proceso. Ejemplo 6 Se sabe que el contenido en gramos de un producto fabricado por una compañía, no reúne las especificaciones si la varianza de un lote de producción se aleja demasiado hacia arriba o hacia debajo de 6.5. Comprobar si un gran lote de producción reúne las especificaciones, si una muestra aleatoria de 20 unidades extraída aleatoriamente de dicho lote arrojó una varianza de 7.3. Utilizar un nivel de significación del 5%. Se sabe que el contenido del producto se distribuye normalmente. Solución i) H0 :

2

= 6.5

Hα :

2

6.5

ii) La prueba es bilateral con un nivel de significación: cuadrado es:

= 0.05, el valor crítico ji-

iii) El criterio de decisión será el siguiente: “Si el valor de 2 calculado es menor que 8.90652 o mayor que 32.8523, se rechaza la hipótesis nula de que la varianza sigue siendo de 6.5, con un nivel de significación del 5%”. iv) El estadístico de prueba se calcula teniendo en cuenta n=20, s2=7.3 y utilizando la fórmula:

χ2 =

(n − 1) s 2

σ2

=

(20 − 1).x7.3 = 21.34 6.5

v) Como el estadístico de prueba 21.34 se encuentra en la región de confianza o de aceptación. Entonces con podemos afirmar con un nivel de significancia del 5% que existe evidencia estadística para aceptar que la varianza del contenido del producto es el mismo. Ejemplo 7 Un supervisor de control de calidad en una enlatadora sabe que la cantidad exacta contenida en cada lata varía, pues hay ciertos factores imposibles de controlar que afectan la cantidad de llenado. El llenado medio por lata es importante pero igualmente importante es la variación 2 de la cantidad de llenado. Si 2 es grande, algunas latas contendrán muy poco y otras, demasiado. Las agencias reguladoras especifican que la desviación estándar de la cantidad de llenado debe ser menor que 0.1 onzas. El supervisor de control de calidad muestreó n=10 latas y midió la cantidad de llenado en cada una. Los datos se reproducen a continuación.

6 Tomado de Estadística, Hugo Gómez Giraldo, Capítulo 8, pág. 238. 7  Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 474. Cuarta Edición.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

51

52

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

7.96 7.9 7.98 8.01 7.97 7.96 8.03 8.02 8.04 8.02

Anotaciones

¿Esta información proporciona con un nivel de significancia del 0.05 pruebas suficientes de que la desviación estándar de las mediciones de llenado es menor que 0.1 onzas? Solución i) H0 : Ha :

2 2

= 0.1

< 0.1

ii) La prueba es unilateral izquierda, con α = 0.05, por lo que el valor crítico es: iii) El estadístico de prueba se calcula utilizando la desviación estándar de la muestra s=0.043 y n=10.

χ2 =

(n − 1) s 2

σ2

=

(10 − 1) x 0.043 2 = 1.6 0.12

iv) Como el estadístico de prueba 1.66 es menor que 3.325 y cae en la región de rechazo, existe evidencia estadística para rechazar la hipótesis nula. Entonces el supervisor puede llegar a la conclusión con un nivel de significación del 0.05 de que la varianza de la población de todas las cantidades de llenado es menor que 0.01, o sea <0.1.

TEMA N° 2: INFERENCIA A PARTIR DE DOS MUESTRAS 1 INFERENCIA ACERCA DE DOS MEDIAS, PROPORCIONES PARA MUESTRAS INDEPENDIENTES. (Triola, 2009) En la práctica, se presenta una diversidad de problemas en la industria y en las ciencias sociales que nos sugieren confrontar cual de dos procesos es mejor que el otro a la luz de la media que arroja cada uno de ellos. Se nos podría ocurrir por ejemplo: a) verificar si el consumo de gasolina entre dos marcas de vehículos se puede considerar idéntico o por el contrario una marca es más económica que otra, b) Verificar si los salarios de la industria metalúrgica se pueden considerar o no superiores a los salarios de la industria textil en una región, c) Verificar si el contenido de determinada sustancia en una artículo fabricado por una compañía A es inferior o no al contenido de dicha sustancia en el mismo artículo fabricado por una compañía B de la competencia. etc. En cuanto a la distribución en el muestreo de la diferencia de medias, recordemos los siguientes tres casos: - Si las dos poblaciones son normales, las diferencias de las medias muestrales también se distribuirán normalmente cualquiera sea el tamaño de las muestras. No obstante, si no se conocen las desviaciones estándar poblacionales ( 1 y 2), éstas pueden ser remplazadas por la desviaciones estándar de las muestras (s1 y s2), si los tamaños de las muestras son mayores que 30 (n1 >30 y n2 >30 o n1 +n2 >60). - Según el teorema central del límite, si las dos poblaciones no son normales o no sabemos si se cumple o no éste comportamiento, las diferencias de las medias muestrales se distribuirán aproximadamente como una distribución normal, si los tamaños de las muestras son mayores que 30 (n1 >30 y n2 >30 o n1 +n2 >60) - Si las dos poblaciones son normales o están muy cerca de éste comportamiento

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

Lecturas seleccionadas

y por otra parte no conocemos la desviaciones estándar poblacionales y además los tamaños de las muestras son menores que 30 (n1 <30 y n2 <30 o n1 +n2 <60), entonces, las diferencias de las medias muestrales se distribuirán de acuerdo a la ley t-student. Recordatorio Con el fin de resolver las pruebas de hipótesis para la diferencia de medias, debemos tener en cuenta el mismo procedimiento y las mismas reglas que seguimos para las pruebas de hipótesis para la media. 1.1 Inferencia acerca de dos medias Es la división de la distribución muestral del estadístico de la prueba en dos partes mutuamente excluyentes: Cuadro N° 11: ESTADÍSTICOS PARA DOS MEDIAS. PRUEBA

ESTADÍSTICO

μ1 – μ2 = d0 1

y

2

z=

conocidas

μ1 – μ2 = d0 1=

t=

2 desconocidas

(x 1 − x 2 ) − d 0 σ 12 σ 22 + n1 n 2

( x1 − x 2 ) − d 0 sp

1 1 + n1 n2

s 2p =

(n 1 − 1)s 12 + (n 2 − 1)s 22 n1 + n 2 − 2

Ejemplo Una compañía de transportes requiere comprar un gran lote de buses para el transporte urbano con el fin de reemplazar su parque automotor y para tal fin desea comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma una muestra aleatoria de 35 vehículos marca A y encuentra que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar de 8 kilómetros/galón, mientras que una muestra de 32 vehículos marca B presenta un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros / galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de significación del 5%? Solución i) Las desviaciones estándar se asumen conocidas puesto que los tamaños de muestra son mayores que 30; por lo cual según el teorema central del límite, las diferencias de las medias muestrales, se distribuirán aproximadamente como una distribución normal. ii) H0 : μ A -- μ B = 0 Ha : μ A -- μ B = < 0 La prueba es unilateral a la izquierda. iii) El nivel de significancia es 0.05 por lo que z=1.645. iv) El criterio de decisión será el siguiente: “Si el valor de z calculado es menor que –1.64 se rechaza la hipótesis nula de que el rendimiento en ambas marcas es igual” v) Para calcular el estadístico de prueba se tiene: nA =35; =18; SA =8; nB =32; =22 y SB =3.

z=

(x 1 − x 2 ) − d 0 σ12 σ 22 + n1 n 2

=-2.75

vi) Como el valor de z calculado (-2.75) se encuentra en la zona de rechazo, entonces, con un nivel de significación del 5%, debemos rechazar la hipótesis nula de que el ahorro en ambas marcas es igual y en éstas condiciones debemos aceptar la hipótesis alternativa de que la marca A es menos ahorradora de combustible que la marca B.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

53

54

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

Ejemplo

Anotaciones

Una compañía de transportes requiere comprar un gran lote de buses para el transporte urbano con el fin de reemplazar su parque automotor y para tal fin desea comprobar la afirmación hecha por el proveedor de la marca B, en el sentido de que la marca A es menos ahorradora de combustible. Para tal fin la empresa toma una muestra aleatoria de 13 vehículos marca A y encuentra que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con una desviación estándar de 8 kilómetros/galón, mientras que una muestra de 15 vehículos marca B presenta un promedio de 22 kilómetros/galón con desviación estándar de 3 kilómetros / galón. ¿Qué decisión debe tomar el gerente de la compañía con un nivel de significación del 1%? Solución i) Se sabe que las poblaciones se distribuyen aproximadamente a la ley normal, pero ambos tamaños de muestran son menores que 30 y no se conocen las desviaciones estándar poblacionales; por lo cual, las diferencias de las medias muestrales, se distribuirán según a la ley t-student. ii) H0 : μ A -- μ B = 0 Ha : μ A -- μ B = < 0 La prueba es unilateral a la izquierda. iii) Nivel de significación: α = 0.01, por lo que el valor crítico t con 26 grados de libertad es -2.479. iii) El criterio de decisión será el siguiente: “Si el valor de t calculado es menor que –2.479, se rechaza la hipótesis nula de que el rendimiento en ambas marcas es igual”. iv) Para calcular el estadístico de prueba se tiene: nA =13; =18; SA =8; nB =15; =22 y SB =3.

sp =

( x1 − x 2 ) − d 0 (n1 − 1) s1 + (n2 − 1) s 2 = −1.80 = 5.86 y t = 1 1 n1 + n2 − 2 sp + n1 n2

v) Como el valor de t calculado (-1.80) se encuentra en la zona de aceptación, entonces, con un nivel de significación del 1%, debemos aceptar la hipótesis nula de que el ahorro en ambas marcas es igual y en éstas condiciones debemos rechazar la hipótesis alternativa de que el rendimiento es menor en la marca A que en la marca B. Ejercicio El jefe de personal de una gran empresa afirma que la diferencia de los promedios de antigüedad entre los obreras y obreros de la compañía es de 3.5 años. El presidente de la compañía considera que ésta diferencia es superior. Para comprobar dicha situación, se toma una muestra aleatoria de 40 obreras cuyo promedio de antigüedad es de 12.4 años con desviación estándar de 1.5 años y de un grupo de 45 obreros cuyo promedio de antigüedad es de 8.3 años con desviación estándar de 1.7 años. Comprobar la hipótesis con un nivel de significación del 5%. Ejercicio Se está investigando la resistencia de dos alambres, con la siguiente información de muestra. Alambre

1

Resistencia (ohms)

0.140

0.141

0.139

0.140

0.138

0.144

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

2

0.135

0.138

0.140

0.139

-

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

-

Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse respecto a la resistencia media de los alambres? Ejercicio Se están investigando dos métodos para producir gasolina a partir de petróleo crudo. Se supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes datos de rendimiento se han obtenido de la planta piloto. Proceso

Rendimiento %

1

24.2

26.6

25.7

24.8

25.9

26.5

2

21.0

22.1

21.8

20.9

22.4

22.0

¿Hay alguna razón para creer que el proceso 1 tiene un rendimiento medio mayor? 1.2 Inferencia acerca de dos proporciones Cuadro N°12: ESTADÍSTICO DOS PROPORCIONES PRUEBA p1= p2

ESTADÍSTICO z=

(pˆ 1 − pˆ 2 )  1 1 pˆqˆ +  n1 n 2

 y  p ˆ= 

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

x1 + x 2 n1 + n 2

Ejemplo Una compañía asegura que el mercado para su producto X tiene una aceptación de iguales proporciones en la ciudad A que en la ciudad B. Un especialista en mercado pone en duda dicha afirmación y para tal fin tomó una muestra aleatoria de 500 amas de casa en la ciudad A y encontró que el 59.6% de las mismas prefería el artículo X. Por otra parte tomó una muestra aleatoria de 300 amas de casa en la ciudad B y encontró que el 50% de las mismas preferían el artículo X. ¿Existe una diferencia real entre las dos ciudades? Nivel de significación 5% Solución i) H0 : PA =PB , Ha : PA ≠ PB; La prueba es bilateral, puesto que el especialista en mercado no está afirmando que ciudad tiene más proporción que la otra. ii) Nivel de significación = 0.05, por lo que z=±1.96 iii) Como las diferencias de las proporciones muestrales se distribuyen normalmente y la prueba es bilateral entonces el criterio de decisión será “Si el valor z es mayor que 1.96 o menor que -1.96 se rechaza la hipótesis nula de que la proporción es idéntica en ambas ciudades”. iv) Con los datos n1 =500, p1 =0.596, n2=300, p2 =0.50 se puede calcular el estadístico de prueba:

Bibliografía

55

56

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

x1=0.956x500 ; x2=0.5x300

x + x2 pˆ = 1 = 0.56; =0.44 y n1 + n2

Anotaciones

z=

( pˆ 1 − pˆ 2 ) 1 1  pˆ qˆ  +  =2.56 n n 2   1

iv) Como el valor de Z calculado (+2.65) se encuentra en la zona de rechazo, entonces, con un nivel de significación del 5%, debemos rechazar la hipótesis nula de que las proporciones en ambas ciudades son iguales.

Ejercicio La fracción de productos defectuosos producidos por dos líneas de producción se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿Es razonable concluir que la línea de producción 2 produce una fracción más alta de producto defectuoso que la línea 1? Use

α = 0.01

2 Inferencia a partir de datos pareados Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas de comparación. En una prueba de comparación pareada, la reducción en la variabilidad experimental puede permitir la detección de pequeños movimientos en los datos. A pesar de que los grados de libertad sean reducidos, porque ahora el tamaño de muestra corresponde al número de comparaciones. Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo de inspección para determinar si existe alguna diferencia significativa entre los equipos. Las hipótesis de prueba en torno a la igualdad µ1 y µ 2 pueden realizarse efectuando una prueba t de una muestra en µ D . Específicamente, probar H : µ = µ 0 1 2 contra H : µ ≠ µ es equivalente a probar: 1

1

2



H0 : µD = 0 H1 : µ D ≠ µ0

La estadística de prueba apropiada es: t 0 Dónde: D

=

∑D n

j

y SD =

(D

j

=

D SD

n

− D)

2

n −1

Rechazaríamos H 0 : µ D = 0 si t 0 > tα 2 , n −1 o si de un lado se tratarían de manera similar.

t 0 < −tα 2,n −1 . Las alternativas

Ejemplo Un fabricante desea comparar el proceso de armado común para uno de sus productos con un método propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho trabajadores de la planta de armado y se les pidió que armaran las unidades con ambos procesos. Los siguientes son los tiempos observados en minutos. Cuadro N° 13: TIEMPOS OBSERVADOS EN MINUTOS. trabajador

proceso actual

proceso PROPUESTO

1

38

30

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

2

32

32

3

41

34

4

35

37

5

42

35

6

32

26

7

45

38

8

37

32

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

En α = 0.05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso actual es mayor que el del método propuesto por más de dos minutos? Solución i) Las hipótesis so:

H 0 : µ D = 2 H1 : µ D > 2

ii) Calculando las diferencias: trabajador

proceso actual

proceso PROPUESTO

Dj

(Dj-d)^2

1

38

30

8

10.5625

2

32

32

0

22.5625

3

41

34

7

5.0625

4

35

37

-2

45.5625

5

42

35

7

5.0625

6

32

26

6

1.5625

7

45

38

7

5.0625

8

37

32

5

0.0625

4.75

95.5

iii) D =

∑D n

j

= 4.75 y S D =

(D

j

− D)

2

n −1

iv) El estadístico de prueba sería: t 0 =

= 3.69

D SD

n

=

4.75 − 2 = 2.107 3 .69 8

v) Finalmente, tα ,n −1 = t .05, 7 = 1.895 , debido a que 2.107 > 1.895 rechazamos H0, y aceptamos la H1: el tiempo de armado para el proceso actual es mayor en dos minutos que el método propuesto. 3 Comparación de la variación de dos muestras. Supóngase que son dos las poblaciones de interés, por ejemplo X1 y X2, donde µ1,σ 12 , µ 2 , σ 22 , se desconocen. Deseamos probar hipótesis relativas a la igualdad

de las dos varianzas, H 0 : σ 12 = σ 22 . Considérese que se disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño n2 de la población 2, y sean S12 yS 22 las varianzas de muestra. Para probar la alternativa de dos lados:

H 0 : σ 12 = σ 22

H 1 : σ 12 ≠ σ 22 S2 Utilizamos el hecho de que la estadística F0 = 12 se distribuye como F, con n1-1 y S2 n2 –1 grados de libertad.

> Fα 2,n1 −1,n2 −1 o si F0 < F1−α 2,n1 −1,n2 −1 y F1−α 2 , n1 −1, n2 −1son los puntos porcentuales superior e infe-

Rechazaríamos H0 si F0

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Donde Fα 2 , n1 −1, n2 −1 rior de la distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona

Bibliografía

57

58

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

sólo los puntos de la cola superior de F, por lo que para determinar debemos emplear

Anotaciones

F1−α 2,n1 −1,n2 −1

1

F1−α 2,n1 −1,n2 −1

= Fα 2,n1 −1,n2 −1 .

La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un lado. La hipótesis alternativa de un lado es:

H 0 : σ 12 = σ 22

H 1 : σ 12 > σ 22 Si

F0 > Fα ,n1 −1,n2 −1

, rechazaríamos H 0 : σ 1 = σ 2 . 2

2

Ejemplo Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos tipos diferentes.

1

63

81

57

66

82

82

68

59

75

73

2

64

72

83

59

65

56

63

74

82

82

Pruebe la hipótesis de que las dos varianzas sean iguales. Use Solución i)

α = .05

H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22

ii) Nivel de significancia

α = 0.05

y como n1=10 y n2=10, el valor Fα 2 , n1 −1, n2 −1 = F0,25,9,9= 4.03. Del mismo modo: F1−α

2 , n1 −1, n2 −1

=0.248

iii) La región de confianza está dada por [0.248; 4.03]. Si el F calculado cae fuera del intervalo dado entonces se rechaza la hipótesis nula. iv) Con los datos:

X 1 = 70.6 X 2 = 70

S12 = 88.71 S 22 = 100.44 Calculamos

F0 =

S12 S 22

88.71

= 100.44

= 0.877

v) Como F calculado cae dentro del intervalo dado por la región de confianza o zona de aceptación, entonces se acepta que las varianzas son iguales.

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

Lecturas seleccionadas

TEMA N° 3: ANÁLISIS DE VARIANZA

Cuando se requiere hacer inferencias acerca de las medias de distintas poblaciones a partir del análisis de las muestras de ellas, se aplica un estudio denominado AnálisisRecordatorio de Varianza (ANOVA). En un ANOVA (Mata, 2013) se aplican tratamientos a entidades denominadas unidades experimentales. El atributo de las entidades que se desea medir recibe el nombre de factor. En dicho estudio puede aplicarse modelos de efectos fijos o aleatorios. En un modelo de efectos fijos, se seleccionan tratamientos específicos o se fijan antes del estudio (determinísticamente). En un modelo de efectos aleatorios, los tratamientos utilizados en el estudio se seleccionan aleatoriamente. Estas técnicas se pueden utilizar en muchos campos tales como: - Un gerente de compras de un supermercado puede interesarse en comparar la durabilidad de ciertas baterías en el almacén de 3 o más proveedores. - Un gerente de producción puede analizar el rendimiento de tres o más procesos para determinar si hay diferencia entre ellos. - Un analista financiero desea saber si hay diferencias en el margen de operación de diversas empresas. Ejemplo8 Una pequeña empresa que elabora botanas (papas fritas, cacahuates, etc.) tiene 4 rutas para el reparto de sus productos dentro de la ciudad. Para cubrir estas rutas tiene 4 conductores básicos y uno complementario, el conductor complementario sirve para cubrir las ausencias o vacaciones o enfermedad de los otros 4 y se le ocupa para otros menesteres si no se le requiere como conductor. El puesto de conductor complementario se rota entre todos los choferes sobre una misma base mensual. Es importante tanto desde el punto de vista de eficiencia, como de justicia, que todas las rutas tengan la misma duración, también es importante que todos los conductores sean igualmente eficientes en todas las rutas para que los conductores puedan sustituirse el uno al otro sin pérdida de tiempo, por ello la gerencia de distribución implementó un programa de capacitación para que los conductores se familiaricen con todas las rutas. Al cabo de esta capacitación se hicieron recorridos de prueba con el objetivo de investigar, por una parte, si todas las rutas se recorrían en el mismo tiempo y por otra parte si los conductores eran igualmente eficientes en todas. La gerencia de distribución desea saber si el tiempo medio de las cuatro rutas es igual y si la eficiencia de todos los conductores en las rutas es igual. La información de los recorridos y los conductores se da a continuación: Cuadro N°14: Conductores vs Recorridos. Conductor/Ruta

Ruta A

Ruta b

Ruta c

Ruta d

Antúnez

224

227

237

248

Becerra

242

235

262

250

Cervantes

225

240

235

261

Dominguez

232

253

259

255

Escamilla

232

245

257

261

En este ejemplo se tienen datos se clasifican de acuerdo con dos variables: el conductor y la ruta que son, entonces, los 2 factores. Aquí las hipótesis que se prueban son: Para las rutas: Ho:

µ A = µ B = µC = µ D

H1: Por lo menos una de las medias poblacionales de los tratamientos no es igual las otras. 8 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFRED DÍAZ MATA, CAPÍTULO 12, PÁG. 347.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

59

60

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

En donde las diferentes medias son las medias de las 4 rutas. Para los conductores: Anotaciones

Ho:

µ1 = µ 2 = µ 3 = µ 4

H1: Por lo menos una de las medias poblacionales de los bloques (conductores) no es igual las otras. En donde las diferentes medias son las medias de los 5 conductores. En este ejemplo, el tratamiento son las diferentes rutas y a la variable del conductor, cuyos datos están en los renglones, se le conoce como grupos, a su vez, tratamientos y grupos son los dos factores a los que se refiere el nombre de esta técnica de análisis de varianza de dos factores. Un detalle que vale la pena tener presente respecto a este ANOVA de 2 factores es que se tiene un solo dato para cada conductor y para cada ruta, ya que el análisis de varianza de este par de factores, se refiere también a conjuntos de datos clasificados de acuerdo con 2 variables, pero en este caso, con cuando menos 2 observaciones para cada par de factores. SUPUESTOS DE UN ESTUDIO ANOVA Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son: -

Las poblaciones son normales.

-

Las varianzas poblacionales son iguales

- Las muestras están seleccionadas independientemente.

1 Anova de un factor. Como el ANOVA de un criterio es una generalización de la prueba de t para dos muestras, los supuestos para el ANOVA de un criterio son: - Todas las poblaciones k son normales. -

σ 12 = σ 22 = σ 32 = ..... = σ k2 (= σ 2 )

El método de ANOVA con un criterio o factor requiere del cálculo de dos estimaciones independientes para 2

σ2 2

, la varianza poblacional común. Estas dos estima2

ciones se denotan por s b y s w . s b se denomina estimación de la varianza entre muestras y se denomina estimación de la varianza al interior de las muestras. El es-

sb2 F= 2 tadístico tiene una distribución muestral resultando: sw

. El valor crítico para

la prueba F es: Fα ( k − 1, k ( n − 1) , donde el número de grados de libertad para el

numerador es k-1 y para el denominador es k(n-1), siendo el nivel de significancia siendo k = número de muestras. PROCEDIMIENTO9 1. Determinar si las muestras provienen de poblaciones normales. 2. Proponer las hipótesis. 3. Encontrar las medias poblacionales y las varianzas. 4. Encontrar la estimación de la varianza al interior de las muestras y sus grados de libertad asociados glw. 5. Calcular la gran media para la muestra de las medias muéstrales. 6. Determinar la estimación de la varianza entre muestras y sus grados de libertad asociados.

9

Tomado de Estadística. Richard C.Weimer. CECSA. Segunda Edición.2000

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

7. Hallar el valor del estadístico de la prueba F.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

8. Calcular el valor crítico para F basado en glb y glw. 9. Decidir si se rechaza H0. Para ello se utilizan las siguientes fórmulas: Suma de cuadrados total (SST o SCT)

Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr) r

SCTR = ∑ rj ( X j − X ) 2 j =1

Suma de cuadrados del error (SSE o SCE) r

SCE = ∑ i =1

c

∑(X j =1

ij

− X j )2

O también SCE = SCT – SCTr Grados de libertad Gl. Totales = n – 1 Gl. Tratamientos = c -1 Gl. Error = n – c Cuadrados medios (MS o CM) PCT = SCT / Gl. SCT PCTr = SCTr / Gl. SCTr PCE = SCE / Gl. SCE Estadístico calculado Fc Fcalculado = PCTr / PCE Regla de decisión Si Fcalculado es mayor al Fcrítico se rechaza Ho indicando que los efectos de los diferentes niveles del factor tienen efecto significativo en la respuesta. La tabla de ANOVA final queda como sigue: Cuadro N°15: Tabla ANOVA GRADOS DE

CUADRADO

CUADRADOS

LIBERTAD

MEDIO

Entre muestras (tratam.)

SCTR

c-1

PCTR

Dentro de muestras (error)

SCE

n-c

PCE

Variación total

SCT

n-1

PCT

FUENTE DE VARIACIÓN

SUMA DE

VALOR F PCTR/PCE

Regla: No rechazar si la F de la muestra es menor que la F crítico para cierto nivel de significancia.

Bibliografía

61

62

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

Ejemplo10

Anotaciones

Una empresa ensambla cuadros para un solo modelo de bicicleta. La planta trabaja 3 turnos: el matutino, el vespertino y el nocturno. Los trabajadores se rotan cada uno de los turnos, por lo que, al cabo de un trimestre, todos ellos laboraron los tres turnos. El director de producción quisiera saber si existe diferencia entre la producción promedio de los 3 turnos, ya que la fábrica trabaja a plena capacidad desde hace más de un año y no hay variaciones significativas en el número de empleados, en la maquinaria, ni en los procesos productivos; el director considera que con un análisis de varianza puede contestar esta pregunta; para ello obtiene una muestra aleatoria de la producción de 6 días de cada turno. Los datos se muestran a continuación: TURNO MATUTINO

VESPERTINO

NOCTURNO

129

138

118

141

142

120

128

140

132

145

149

118

135

129

136

144

148

138

Solución i) Las hipótesis son: Ho:

µ1 = µ 2 = µ 3

H1: Por lo menos una de las medias poblacionales de los bloques (conductores) no es igual las otras. ii) X 1 = 137; X 2 = 141; X 3 = 127 , siendo la media global

X Global =

129 + 141 + ... + 138 = 135 18

iii) Se obtiene la suma de cuadrados totales:

SCT = (129 − 135) 2 + ... + (144 − 135) 2 + (138 − 135) 2 + ... + (148 − 135) 2 + (118 − 135) 2 + ... + (138 − 135) 2 SCT=1608 iv) Se obtiene la suma de cuadrados de las variaciones entre los tratamientos:

SCTR = 6(137 − 135) 2 + 6(141 − 135) 2 + 6(127 − 135) 2 = 624 v) Se obtiene la suma de cuadrados de la variación aleatoria también llamada suma de cuadrados del error, y es la variación dentro del tratamiento.

SCE = (129 − 137) 2 + ... + (144 − 137) 2 + (138 − 141) 2 + ... + (118 − 127) 2 + ... + (138 − 127) 2 = 984 Aquí es importante resaltar el modelo en el que se basa el diseño completamente aleatorizado de un factor que se ilustra con el ejemplo. vi) Con las sumas encontradas hasta aquí se puede verificar la igualdad:

SCT = SCTR + SCE 1608 = 624 + 984 vii) Se obtiene el promedio de los cuadrados entre tratamientos PCTR, para ello se divide SCTR entre los grados de libertad de los tratamientos gtratamientos . Éste es el primer promedio de cuadrados (varianza). 10 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFRED DÍAZ MATA, CAPÍTULO 12, PÁG. 349

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

PCTR =

624 = 312 2

Lecturas seleccionadas

viii) Se obtienen la media de los cuadrados del error PCE, para ello se divide SCE Recordatorio entre los grados de libertad totales gtotales. Éste es el segundo promedio de cuadrados.

PCE =

984 = 65.6 18 − 3

ix) Se obtiene el valor empírico de F, o sea el F calculado, que es el cociente de estos dos últimos promedios de cuadrados.

FCalculado =

PCTR 312 = = 4.76 PCE 65.6

x) El valor F crítico se busca en la tabla correspondiente a la distribución F, para el nivel de significancia correspondiente 0.05 con 2 grados de libertad para el numerador y 15 grados de libertad y 15 grados de libertad para el denominador.

Fcrítico = 3.68

xi) La regla de decisión; se rechaza la Ho si el Fcalculado es mayor que el Fcrítico. Por lo tanto como 4.76 es mayor que 3.68 rechazamos la hipótesis nula y concluimos que por lo menos una de las medias no es igual a las otras. Para el director de producción de la fábrica la conclusión indica que no todos los turnos trabajan igual, sino que existen diferencias entre ellos. La misma serie de datos trabajada en el Excel arroja lo siguiente:

Haciendo click en Análisis de datos, luego en Análisis de Varianza de un factor y seleccionando las celdas donde se encuentra la serie de datos se tiene:

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

63

64

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

Donde encontramos el valor calculado y valor crítico para tomar la misma decisión. Ejercicio11 Se diseñaron 4 tipos diferentes de examen para evaluar el aprovechamiento en un curso de capacitación y, para probar si existen diferencias significativas en el diseño de los exámenes se eligió un conjunto de 40 trabajadores en capacitación y se les asignó uno de los 4 exámenes al azar, los tratamientos. Los resultados se muestran a continuación y se incluyen los promedios de cada tratamiento:

EXÁMENES A

B

C

D

71

84

79

92

72

94

92

70

80

77

73

74

70

84

86

70

85

96

82

74

77

84

98

85

79

86

98

70

95

99

82

75

63

96

91

62

80

86

64

90

77.2

88.6

84.5

76.2

PROMEDIO Como los exámenes se asignaron aleatoriamente a los trabajadores, se pensaría que las diferencias entre los promedios de las calificaciones en los 4 subconjuntos se deben a diferencias entre los propios exámenes, salvo diferencias aleatorias o errores normales de muestreo que en este caso pueden deberse a diferencias personales entre los examinados. Verifique Ud si hay diferencias entre las medias de los 4 exámenes. 2 ANOVA de dos factores Cuando en un experimento, dos factores pueden influenciar las unidades experimentales, se usa un análisis de varianza de dos vías denominado diseño de bloque 11 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFREDO DÍAZ MATA, CAPÍTULO 12, PÁG. 350

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

aleatorizado, en el cual se comparan k tratamientos ubicados en columnas con bloques que se basan en un factor ubicado en r filas. Cuadro N°16: ANOVA DOS FACTORES TRATAMIENTOS

A

1

2

3

MEDIAS (HORIZONTAL)

BLOQUES

1 2 3 MEDIAS (VERTICAL)

MEDIA GLOBAL

En este caso la desviación cuadrática total puede ser desdoblada en tres sumandos debido a razones intergrupales (por efectos del tratamiento) simbolizada como DCT, en un sumando debido a razones intergrupales (por efectos de errores aleatorios) DCE y en otro sumando debido a razones de bloque DCbloque. La desviación cuadrática intrabloque DCbloque es similar a la desviación cuadrática de los tratamientos sólo que en vez de trabajar a nivel de los términos de una fila, se trabaja a nivel de los términos de una columna. De manera análoga, el cuadrado medio intrabloque es similar al cuadrado medio intragrupo sólo que en vez de trabajar a nivel de los términos de una fila se hace a nivel de los términos de una columna. El cuadrado medio de los errores se define como: CME = Se generan entonces las siguientes razones:

Ftrat =

CMtrat CMerr

Fbloques = Fcalculado = y

El criterio de decisión es: si hipótesis nula.

DCE

(r − 1)(k − 1) CMbloque CMerr

Fcalculado < Fα ,k −1,( k −1)( r −1)

, no rechazar la

Ejemplo La tabla que se presenta a continuación corresponde a una muestra aleatoria del proceso de producción de una empresa metal mecánica que registra la producción obtenida durante cinco días consecutivos. Los bloques corresponden a los cinco días de la semana y los tratamientos a la producción en unidades físicas obtenidas de cada máquina. Para un nivel de significancia del 5% se requiere determinar si las diferencias entre la producción de las máquinas son significativas. DIAS

MÁQUINAS

DIAS

Prof. 1

2

3

4

1

30

31

32

33

2

30

35

34

36

3

28

32

35

37

4

29

36

37

35

5

30

34

34

33

Solución i) La solución la realizaremos íntegramente utilizando el Excel, para ello copiamos la tabla dada a una hoja de Excel, vamos a Datos…Análisis de Datos…y Análisis de Varianza de dos factores con una sola muestra por grupo. ii)

Bibliografía

65

66

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

iii) Luego:

Se observa que Fcalculado=12,89895 el cual es mayor que el por lo que se rechaza la hipótesis nula y se concluye que la producción media de las máquinas tienen diferencias significativas. Ejercicio El Jefe de Departamento de la universidad está desarrollando un programa de evaluación de docentes que debe ser efectuado por los alumnos. Para estos efectos se seleccionó aleatoriamente a 5 alumnos de un salón de clases y se pidió que evalúen a sus cuatro profesores del ciclo que está a punto de concluir. La calificación de los docentes sobre un escala vigesimal se presenta en el siguiente cuadro:

DIAS

TRATAMIENTO

ALUMNOS

Prof. 1

Prof. 2

Prof. 3

Prof. 4

1

13.2

15.0

18.6

15.8

2

12.1

13.2

17.5

15.1

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

3

9.3

9,6

15.2

10.2

4

12.8

16.1

19.1

16.2

5

11.7

10.9

16.2

10.3

Diagrama

Objetivos

Inicio

Desarrollo de contenidos

Actividades

Autoevaluación

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Efectúe un estudio ANOVA e interprete los resultados. Considere un nivel de significancia del 0.05.

LECTURA SELECCIONADA N° 1 Lecturas seleccionadas

Glosario

Bibliografía

LA PARADOJA DEL CUMPLEAÑOS ¿Cómo dirías que es la probabilidad de que en un grupo de 23 personas dos de ellas Recordatorio Anotaciones celebren su cumpleaños el mismo día? Pues ahora calcúlala. ¿Coincide tu intuición con lo que dicen las matemáticas? La paradoja del cumpleaños establece que si hay 23 personas reunidas hay una probabilidad del 50,7% de que al menos dos personas de ellas cumplan años el mismo día. Para 60 o más personas la probabilidad es mayor del 99%. Obviamente es casi del 100% para 366 personas (teniendo en cuenta los años bisiestos). En sentido estricto esto no es una paradoja ya que no es una contradicción lógica; es una paradoja en el sentido que es una verdad matemática que contradice la común intuición. Cuando se propone este problema por primera vez y se pide una estimación sobre el tamaño mínimo que debería tener un grupo para que sea más probable que improbable que dos personas compartan el día del cumpleaños, la mayoría de las personas se equivoca por completo. La respuesta intuitiva que se da a menudo es 183, es decir 365 dividido entre dos. La cantidad correcta no es algo a lo que la gente pueda llegar fácilmente y, ciertamente, no por intuición. Es bastante extraño que las primeras estimaciones sean inferiores a 40. Y sin embargo la respuesta es 23. La clave para entender estas "sorprendentes" recurrencias es pensar que hay muchas posibilidades de encontrar parejas que cumplan años el mismo día. Un análisis superficial asume que 23 días (cumpleaños de las 23 personas) es una fracción demasiado pequeña del posible número de días distintos (365) para esperar repeticiones. Y así sería si esperáramos la repetición de un día dado. Pero las repeticiones, en el caso supuesto, pueden darse entre dos días cualesquiera, con lo que éstas pueden combinarse entre sí de un número de formas que aumenta rápidamente con el número de elementos a considerar. Así: • Entre dos personas C1 y C2 sólo cabe una posibilidad de repetición de cumpleaños: Cl=C2. •

Con tres ya hay tres posibilidades (Cl=C2; Cl=C3; C2=C3)



Con cuatro ya habría seis, (4x3)/2=6



Con un grupo de 10 personas, (10x9)/2=45 posibilidades

• Con 23 personas, hay (23×22)/2 = 253 parejas distintas, cada uno de ellas es una candidata potencial para cumplir la paradoja • Y así sucesivamente, en uno de 40, ya son 780 las parejas, y 1770 si juntamos 60 personas. No hay que malinterpretar lo que nos dice esta paradoja: Si entramos en una habitación con 22 personas, la probabilidad de que cualquiera cumpla años el mismo día que usted, no es del 50%, es mucho más baja, sólo hay un 6% de probabilidades. Esto es debido a que ahora sólo hay 22 parejas posible y se necesitan 253 personas para que haya más de un 50% de probabilidades de que esto ocurra. El problema real de la paradoja del cumpleaños consiste en preguntar si el cumpleaños de cualquiera de las 23 personas coincide con el cumpleaños de alguna de las otras personas. Ejemplos de coincidencias •

En los jugadores del Osasuna (liga 2005/06) hay coincidencias de cumpleaños

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

67

68

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

• De un total de sólo 19 monarcas españoles desde los reyes Católicos, coinciden Carlos II con Carlos IV (11 de noviembre) y José I con Juan Carlos I (5 de enero). • De los 40 presidentes de USA hasta Reagan: Polk y Harding nacieron un 2 de noviembre. Puedes creer que esto puede ser casualidad o si eres mal pensado que está preparado, por eso nada mejor que hacer un estudio probabilístico riguroso de esta paradoja Estimación de la probabilidad ¿Cuál es la probabilidad de que en un grupo de n personas, por lo menos dos de ellas coincidan en su cumpleaños?, desechamos los años bisiestos y los gemelos, y asumimos que existen 365 cumpleaños que tienen la misma probabilidad. Solución Utilizando la regla de Laplace y la combinatoria: El truco es calcular primero la probabilidad de n personas tengan cumpleaños diferentes Sea el suceso: A = {"al menos dos personas celebran su cumpleaños a la vez"} y su complementario: Ac = {"no hay dos personas que celebren su cumpleaños a la vez"} Caso particular: n=5 El número de casos posibles de celebración de cumpleaños, suponiendo el año de 365 días, es: 3655 = 6,478 × 10 12 El número de casos favorables : como la primera de las personas puede haber nacido uno de los 365 días del año, la siguiente unos de los 364 días restantes y así sucesivamente, resultan365 × 364 × 363 × 362 × 361 = 6,303 × 10 12 casos de que no existan dos personas que hayan nacido el mismo día . Aplicando la regla de Laplace P(Ac) =casos favorables/casos posibles =6,303 / 6,478 = 0,973 p(A) = 1 - p(Ac) = 1 - 0,973 = 0,027 El problema puede generalizarse para una reunión de n personas. La probabilidad de que al menos dos de ellas cumplan años el mismo día es:

Para n = 23, 30 y 50 la probabilidad mencionada es: 0.51, 0.71 y 0.97 respectivamente. Como se ve, para n = 23 existe, aproximadamente, una probabilidad a la par que por lo menos coincidan dos cumpleaños, y cuando n= 50, tenemos casi la certeza de que ocurrirá la coincidencia Diagrama

Objetivos

Desarrollo de contenidos

Actividades

Inicio

ACTIVIDAD N° 1 Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Bibliografía

Desarrollo de contenidos

Actividades

ACTIVIDAD N° 2 Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Diagrama Recordatorio

Objetivos Anotaciones

Inicio

Lecturas seleccionadas

Glosario

Bibliografía

Desarrollo de contenidos

Actividades

Recordatorio

Lecturas seleccionadas

TAREA ACADEMICA N° 1 Autoevaluación

Esta actividad puede consultarla en su aula virtual Anotaciones

Glosario

Bibliografía

os

s

o

s

s

o

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

Objetivos

Inicio

Actividades

Autoevaluación

Glosario

Bibliografía

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

BIBLIOGRAFÍA DE LA UNIDAD II:

Triola, M.(2012). Estadística. México: Pearson Educación

Anotaciones

Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicaciones. Mexico: Prentice Hall Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuarta Edición. Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera Edición

Objetivos

Inicio

Actividades

Autoevaluación

AUTOEVALUACIÓN DE LA UNIDAD II

Glosario

Anotaciones

En los últimos años se han registrado un gran número de lavadoras de ropa, tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos Bibliografía de reparación en soles. Se sabe que el número de fallas tiene distribución normal. N°

1

2

3

4

5

6

7

8

9

10

11

Electrónico

178

161

194

204

185

179

173

172

108

181

185

Mecánico

128

89

150

191

188

209

53

131

184

97

112

A un nivel de significación del 5%, ¿los costos de reparación de ambos tipos de lavadoras son homogéneos? Respecto a la resolución del problema marque lo incorrecto. A) Ho:

2

1

H1:

=

2

2

≠ S 12

2

1

B) Fexp =

2

2

= 0,2491

S 22

C) F1 = 0,2688 D) F2 = 3,72 E) = 615,87273 2.- En los últimos años se han registrado un gran número de lavadoras de ropa, tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos de reparación en soles. Se sabe que el número de fallas tiene distribución normal. N°

1

2

3

4

5

6

7

8

9

10

11

Electrónico

178

161

194

204

185

179

173

172

108

181

185

Mecánico

128

89

150

191

188

209

53

131

184

97

112

¿El costo de reparación de las lavadoras electrónicas es significativamente superior al costo de reparación de las lavadoras mecánicas? Utilice un nivel de significación del 5%. Respecto a la resolución del problema marque lo incorrecto. A) Ho: H1: B)

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Texp

1

2

> 1

2

(x − x )− (µ − µ ) = 1

2

1

S12 S 22 + n1 n2

2 o

= 2,10512

Bibliografía

69

70

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

C)

v=

 S12 S 22  +   n2   n1  S12     n1 

2

n1 − 1

+

2

 S 22     n2 

2

≈ 16

n2 − 1

D) Tcrítico= 1,75305 E) A un nivel de significación del 5%, se puede afirmar que el costo de reparación de las lavadoras electrónicas es significativamente superior al costo de reparación de las lavadoras mecánicas. 3.- El ingeniero de control de calidad de la fábrica M, afirma que la resistencia de cierto material que producen es mayor que la resistencia del mismo material producido por la fábrica N. Un laboratorio particular realiza un experimento sobre estos materiales y los resultados (en ohmios) se muestra a continuación: Fábrica M

0,140

0,138

0,143

0,142 0,144 0,141 0,137

Fábrica N

0,135

0,140

0,136

0,142 0,138 0,135 0,140

Asuma poblaciones normales. Con un nivel de significancia del 5%, indique lo correcto. a) F calculado = 0.9622 b) F crítico = 6.82 c) t calculado= 1.8695 d) t critico = 1.98229 e) Se rechaza lo que afirma el ingeniero. 4.- Un fabricante de impresoras desea estimar la vida media de sus margaritas de impresión. La estimación ha de estar dentro de 2 horas en torno a la media y tener un nivel de confianza del 90%. Si una muestra piloto revela una desviación típica de 25 horas, ¿cuál debe ser el tamaño de la muestra? a) 164 b) 423 c) 24 d) 115 e) 625 5.- En los últimos años se han registrado un gran número de lavadoras de ropa, tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han registrado en la tabla los costos de reparación en soles. Se sabe que el número de fallas tiene distribución normal. N°

1

2

3

4

5

6

7

8

9

10

11

Electrónico(1)

178

161

194

204

185

179

173

172

108

181

185

Mecánico(2)

128

89

150

191

188

209

53

131

184

97

112

A un nivel de significación del 5%, respecto a la homogeneidad del costo de reparación de ambos tipos de lavadoras, no es correcto: a) Fexp= 0.2491 b) F crítico=0.2688 y 3.72 c) Varianza (1)=615.87 d) Varianza (2)=2572.42 e) El costo de reparación es homogéneo 6.- Varios accidentes de automovilísticos menores ocurrieron en varios cruces de alto riesgo en un distrito urbano a pesar de los señalamientos de tránsito (semáforos). El departamento de tránsito afirma que una modificación en el tipo de semáforo

Desarrollo UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA de contenidos

Lecturas seleccionadas

reducirá los accidentes. Los integrantes de la junta municipal han acordado realizar un experimento que se ha propuesto. Se eligieron aleatoriamente ocho cruces y se modificaron los semáforos correspondientes. Utilice un nivel de significación del 1% para analizar si la junta logró su objetivo, si el número de accidentes de tránsito Recordatorio durante un período de seis meses antes y después de las modificaciones fue: N°

Cruces A

B

C

D

E

F

G

H

Antes de la modificación

5

7

6

4

8

9

8

10

Después de la modificación

3

7

7

0

4

6

8

2

a)

= 0.005

b) Tcalculado=2.3152 c) T critico = 2.798 d) Sd = 2.8277 e)

d

= 2.5

7. Relacione las columnas: a) Probabilidad de aceptar la hipótesis nula dado que es falsa. ( )Probabilidad de rechazar la hipótesis nula dado que es verdadera. b) Prueba de independencia poblaciones.

( )Enunciado acerca del parámetro de una o más

c) Probabilidad del error de tipo I

( )Analiza la asociación entre variables.

d) Hipótesis ( )Probabilidad de error tipo II a) cdba b) cbda c) acbd d) acdb e) dcba 8.- El proyecto académico de un ingeniero es el diseño de un experimento a fin de determinar el rendimiento de 4 variedades de papa sin tener en cuenta la influencia de la fertilidad de las tierras de cultivo. Las 20 parcelas de igual fertilidad que le fueron asignadas las dividió en 4 grupos de 5 parcelas cada una. A cada grupo de parcelas le asignó una variedad distinta de papa escogida al azar, resultando un diseño completamente aleatorizado. Los rendimientos medidos en kilogramos de las cinco variedades por parcela se dan en la tabla que sigue. VARIEDADES DE PAPA V1

V2

V3

V4

55

52

53

52

53

58

55

50

60

50

57

51

52

60

51

49

53

52

54

53

Al nivel de significación del 5% ¿se puede inferir que existen diferencias significativas entre las producciones medias de las 4 variedades de papa? Luego señale lo incorrecto. a) α=0.05 b) Ho: µ1 = µ 2 = µ 3 = µ 4 c) SCA=42.6 d) SCT=189 e) Fcrítico=3.16

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

71

72

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

9.- La empresa de transportes “DEL VALLE” va a adquirir una de 4 marcas de neumáticos que hay en el mercado. El ingeniero de pruebas de la empresa diseñó un experimento escogiendo al azar seis neumáticos de cada marca de características similares. En el laboratorio de pruebas, con una carga específica simulada, observó la duración de cada neumático hasta que se deteriore. Los datos redondeados en miles de kilómetros se dan en la tabla siguiente. MARCAS DE NEUMÁTICOS N1

N2

N3

N4

55

63

48

59

53

67

50

68

50

55

59

57

60

62

50

66

55

70

47

71

65

75

61

73

Al nivel de significancia del 5% ¿indican estos datos que las marcas de neumáticos producen efectos significativos en el rendimiento? Luego marque lo incorrecto. a) Fcalculado=6.77 b) SCT=1550.96 c) SCA=781.46 d) SCE=769.5 e) Fcrítico=3.10 10.- Una empresa de confecciones textiles realiza un estudio para determinar el mejor de tres métodos de montaje de una prenda específica. Con este fin diseñó un experimento para comparar los tres métodos seleccionando cinco operarios que se supone son de velocidad homogénea para reducir la variación debido a los operarios, asignando a cada operario los tres métodos por tiempos iguales. El número de prendas terminadas por cada operario y con cada método en el tiempo fijado se da en la tabla que sigue. MÉTODO OPERARIO

I

II

III

1

3

9

5

2

4

8

6

3

3

7

8

4

5

9

7

5

4

6

9

Al nivel de significancia del 5% ¿existirá alguna diferencia entre los métodos de montaje de las prendas? Marque lo incorrecto. a) SCA=44.8 b) SCE=16.533 c) SCT=69.9 d) FB=0.377 e) FA=13.714

Desarrollo de contenidos

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICAS

Desarrollo de contenidos

Actividades

Autoevaluación

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD III

Lecturas seleccionadas Diagrama

Glosario

Bibliografía

Objetivos

Inicio

CONTENIDOS

Recordatorio Desarrollo de contenidos

Anotaciones Actividades

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Diagrama

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

ACTIVIDADES

EJEMPLOS

Autoevaluación

AUTOEVALUACIÓN

BIBLIOGRAFÍA

Bibliografía

ORGANIZACIÓN DE LOS APRENDIZAJES Objetivos

Inicio

CONOCIMIENTOS

PROCEDIMIENTOS

ACTITUDES

Tema N° 1: Pruebas de signos 1. Prueba del signo 2. Prueba de rangos con signo de Wilcoxon para datos apareados Glosario Lecturas Bibliografía seleccionadas 3. Prueba de la suma de rangos con signo de Wilcoxon para muestras independientes

1. Aplica la prueba del signo y rangos con signo para series de datos dependientes e independientes

1. Valora reflexivamente la importancia de las pruebas no paramétricas, de los modelos de predicción y métodos de control de procesos estadísticos para la toma de decisiones

Tema Nº 2: Experimentos mulAnotaciones tinomiales y tablas de contingencia 1. Bondad de ajuste 2. Independencia y homogeneidad

3. Realiza las pruebas no paramétricas a series de datos dependientes e independientes.

Desarrollo de contenidos

Actividades

Autoevaluación

Recordatorio

Tema Nº 3: Pruebas no paramétricas 1. Prueba de Kruskal – Wallis 2. Prueba de correlación de rangos. 3. Prueba de rachas Lectura seleccionada N°1 ¿Los estudiantes clasifican a las universidades de la misma manera que el U.S. News and World Report? Mario Triola. Página 675 Autoevaluación de la Unidad III

2. Analiza distintas series de datos aplicando las pruebas de bondad, independencia y homogeneidad

4. Valida la aleatoriedad de una muestra aplicando la prueba de rachas Actividad N° 1 Actividad N° 2 Control de Lectura Nº 2

Bibliografía

73

74

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

TEMA N° 1: PRUEBAS DE SIGNOS Como has podido observar la mayoría de las pruebas que hemos realizado se refiere al análisis del parámetro poblacional como la media, varianza y proporción para lo cual se hicieron supuestos sobre las poblaciones a quienes pertenecían las muestras, dichos supuestos por ejemplo era que provenían de poblaciones con comportamiento normal. Pero en la práctica no siempre las poblaciones son normales por lo que ya no podríamos aplicar los métodos anteriormente estudiados, se necesita para ello algún método alternativo que requiera dicha suposición. Estos métodos son conocidos como Pruebas no paramétricas o sin distribución, los cuáles nos permiten realizar inferencias en situaciones donde no conocemos el comportamiento probabilístico de la variable en análisis. Su gran ventaja respecto a los métodos paramétricos es que utiliza cálculos que no son tan laboriosos además de no tener en cuenta la forma de la distribución (función de probabilidad). Hay que tener en cuenta que las pruebas no paramétricas se ven limitadas por la pérdida de información al trabajar sólo con los rangos por lo que a menudo no son tan claras o eficientes pero esto se ve recompensado por la sencillez, rapidez y necesidad de utilizar poca información. En realidad existe una gran cantidad de pruebas de las cuáles desarrollaremos las más conocidas y utilizadas, de las cuáles podemos observar su eficiencia respecto a las pruebas paramétricas: Cuadro Nº 16: TIPOS DE PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS1

APLICACIÓN

PRUEBA PARAMÉTRICA

Datos apareados de los datos muestrales

Prueba t o prueba z

Dos muestras independientes

PRUEBA NO PARAMÉTRICA

TASA DE EFICIENCIA DE LA PRUEBA NO PARAMÉTRICA CON POBLACIÓN NORMAL

Prueba del signo

0.63

Prueba de rangos con signo de Wilcoxon

0.95

Prueba t o prueba z

Prueba de la suma de rangos de Wilcoxon

0.95

Varias muestras independientes

ANOVA( prueba F)

Prueba de KruskalWallis

0.95

Correlación

Correlación lineal

Prueba de correlación de rangos ordenados

0.91

Aleatoriedad

Prueba no paramétrica

Prueba de rachas

Sin bases para comparación

Para las pruebas de signos y alguna otra prueba no paramétrica, al lugar que ocupa cada dato ordenado de menor a mayor se le conoce como rango, y si hay algún empate entre los rangos se utiliza la media de dichos rangos en cada uno de los datos, de la siguiente forma: Serie de datos inicial: 3;6;6;6;11;14;14 y 16 Análisis de rangos:

1

Dato

3

6

6

6

11

14

14

16

Posición

1

2

3

4

5

6

7

8

RANGO

1

3

3

3

5

6.5

6.5

8

Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 677.

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

1 PRUEBA DEL SIGNO

Lecturas seleccionadas

La prueba no paramétrica más sencilla es el contraste de signos, la que se utiliza principalmente para contrastar la hipótesis sobre la posición central (mediana) de Recordatorio una distribución poblacional o para analizar datos de muestras pareadas o enlazadas de una población. Al igual que la media, la mediana es una medida de centralización, en este caso referida a la ubicación, por ello también se le conoce a la prueba de signo como prueba de ubicación. Por ejemplo, el contraste de hipótesis de signo se utiliza mucho en los estudios de mercados para analizar la preferencia de los consumidores entre dos productos, para verificar si un nuevo sistema de producción aumenta la eficiencia de los trabajadores, para analizar el nivel de aceptabilidad entre dos directivos de una misma empresa, etc. El procedimiento de la prueba del signo se resume en el siguiente diagrama. Por razones de simplicidad utilizaremos como estadístico de prueba (x) al número de veces en que ocurre el signo menos frecuente. Es importante indicar que como toda prueba no paramétrica no existe el supuesto de normalidad respecto a la población, pero si requiere que la muestra sea aleatoria para darle validez. Se supone que se tienen datos antes y después para una muestra y se desean comparar estos conjuntos de datos correspondientes. Se hace restando las observaciones por pares, y se anota el signo algebraico resultante. No es importante la magnitud de la diferencia, sino solo si resulta un signo más o un signo menos. DIAGRAMA Nº 01 : PRUEBA DEL SIGNO2

2

Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 679

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

75

76

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si esto es cierto, entonces un signo más y un signo menos son igualmente probables. La probabilidad (π) de que ocurra cualquiera es de 0.50. Una prueba de dos extremos es: H0: m = p o Med1=Med2 H1: m ≠ p o Med1≠Med2 Donde m y p son los números de signos menos y de signos más, respectivamente. Del mismo modo utilizando la probabilidad π: H0: π1 = 0.5 H1: π1 ≠ 0.5 Una prueba de un solo extremo es: H0: m = p H1: m > p ó H0: m = p H1: m < p Lo que quiere decir que si dos conjuntos de datos tienen medianas iguales, entonces el número de signos positivos debe ser aproximadamente igual al número de signos negativos. Ejemplo3 Se le pidió a un grupo de 20 alumnos que calificaran el desempeño de 2 profesores, de acuerdo con varios criterios y en una escala de 1 a 10. Se obtuvieron los resultados que se muestran a continuación: CALIFICACIÓN ALUMNO

PROFESOR A

PROFESOR B

1

7

9

2

5

6

3

8

5

4

9

8

5

3

4

6

8

5

7

10

10

8

8

9

9

3

6

10

5

4

11

7

10

12

9

6

13

5

3

14

4

4

15

7

9

16

10

10

17

10

9

18

5

8

19

5

4

20

6

6

3 Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFREDO DÍAZ MATA, CAPÍTULO 17, PÁG. 521

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Probar a un nivel de significancia de 0.05 la hipótesis de que no existe diferencia entre las calificaciones asignadas por los alumnos a los dos profesores. Solución i) Planteamos las hipótesis: H0: Med1 = Med2 H1: Med1 ≠ Med2 o de manera equivalente: H0: π1 = 0.5 H1: π1 ≠ 0.5 ii) Hallamos los signos de las diferencias restando x1-x2: ALUMNO

PROFESOR A (X1)

PROFESOR B (X2)

Signo de (X1-X2)

1

7

9

-

2

5

6

-

3

8

5

+

4

9

8

+

5

3

4

-

6

8

5

+

7

10

10

0

8

8

9

-

9

3

6

-

10

5

4

+

11

7

10

-

12

9

6

+

13

5

3

+

14

4

4

0

15

7

9

-

16

10

10

0

17

10

9

+

18

5

8

-

19

5

4

+

20

6

6

0

iii) Al encontrar las diferencias igual a cero, eliminamos sus respectivos pares por lo que el nuevo tamaño de muestra es n=16. Importante recordar que el cero no tiene signo, por lo que no se le puede asignar el signo positivo. iv) El estadístico de prueba x es el número de veces que se repite el signo menos frecuente, por lo que x=8. v) Contrastando con la tabla de valores críticos para la prueba del signo de Mario Triola, el valor crítico con un nivel de significancia de 0.05 y n=16, es: 3. La tabla de valores críticos se presenta a continuación. vi) Se rechaza la hipótesis nula si el estadístico de prueba es menor o igual que el valor crítico. Por lo tanto, al ser el estadístico de prueba mayor que el valor crítico, se acepta la hipótesis nula, por lo que existe evidencia estadística para aseverar que no hay diferencia en la opinión de los alumnos respecto a las calificaciones de los dos profesores. Es importante notar que la tabla de valores críticos para la prueba del signo evita que usemos un análisis adicional utilizando la distribución de probabilidad bino-

Bibliografía

77

78

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

mial con P=0.5 y n=16 y comparar la probabilidad acumulada generada por la muestra y el nivel de significancia. CUADRO Nº 17: VALORES CRÍTICOS PARA LA PRUEBA DEL SIGNO4 n

o

.005

.01

.025

.05

(una cola )

(una cola )

(una cola )

(una cola )

01

02

05

.10

(dos colas)

(dos colas)

(dos colas)

(dos colas)

1

*

*

*

*

2

*

*

*

*

3

*

*

*

*

4

*

*

*

*

5

*

*

*

0

6

*

*

0

0

7

*

0

0

0

8

0

0

0

1

9

0

0

1

1

10

0

0

1

1

11

0

1

1

2

12

1

1

2

2

13

1

1

2

3

14

1

2

2

3

15

2

2

3

3

16

2

2

3

4

17

2

3

4

4

18

3

3

4

5

19

3

4

4

5

20

3

4

5

5

21

4

4

5

6

22

4

5

5

6

23

4

5

6

7

24

5

5

6

7

25

5

6

7

7

Notas 1. * Indica que no es posible obtener un valor en región crítica 2. Rechace la hipótesis nula si el número del signo menos frecuente (x) es mejor que o igual al valor en la tabla 3. Para valoresde n mayores que 25, se utiliza una aprox. normal con :

Z=

(x+0.5) - n 2 n 2

4 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 743

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

Ejemplo

Un analista de mercado desea medir la efectividad de una campaña promocional del producto de su empresa. Antes de la campaña, selecciona 12 tiendas minoristas y registra las ventas del mes. Durante el segundo mes se termina la campaña promoRecordatorio cional y se registran de nuevo las ventas. El cuadro siguiente muestra los niveles de ventas, del primer y segundo mes. Se desea probar con un nivel de significancia de 0.05 que la campaña promocional incrementó las ventas. TIENDA

ANTES

DESPUES

1

$4200

$4000

2

$5700

$6000

3

$3800

$3800

4

$4900

$4700

5

$6300

$6500

6

$3600

$3900

7

$4800

$4900

8

$5800

$5000

9

$4700

$4700

10

$5100

$5200

11

$8300

$7200

12

$2700

$3300

Solución i) Planteamos las hipótesis: H0: m = p H1: m > p Se entiende que para que la promoción sea exitosa se requiere que el número de diferencias negativas sea pertinentemente grande, o sea interesa que el número de signos menos sea mayor que el número de signos positivos. Planteando de otra manera utilizando la probabilidad: H0: π1 = 0.5 H1: π1 > 0.5 ii) Hallamos los signos de las diferencias: TIENDA

ANTES X1

DESPUES X2

Signo de (X1-X2)

1

$4200

$4000

+

2

$5700

$6000

-

3

$3800

$3800

0

4

$4900

$4700

+

5

$6300

$6500

-

6

$3600

$3900

-

7

$4800

$4900

-

8

$5800

$5000

-

9

$4700

$4700

0

10

$5100

$5200

-

11

$8300

$7200

+

12

$2700

$3300

-

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

79

80

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

iii) Eliminando los ceros, el valor de n=10. El estadístico de prueba es x=3 iv) Utilizando la tabla de valores críticos para la prueba del signo al 0.05 en una cola el valor crítico es 1. Anotaciones

v) Como el estadístico de prueba es mayor que el valor crítico no se rechaza la hipótesis nula. Por lo tanto existe evidencia estadística para aceptar la hipótesis nula, y se concluye que la campaña promocional no fue exitosa. Valor de Z para prueba del signo con muestras grandes (n ≥ 25)

Z= Ejemplo

x + 0.5 − 0.5n 0.5 n

Se ha pedido a una muestra aleatoria de 100 niños que comparen dos nuevos sabores de helado: mantequilla de maní y fresa. Cincuenta y seis miembros de la muestra prefieren el helado de mantequilla de maní, 40 el de fresa y 4 no manifiestan ninguna preferencia. Averigüe si existe una preferencia general por cualquiera de los dos sabores con un nivel de significancia de 0.05 Solución i) Sea P la proporción de la población que prefiere el helado de fresa, por lo que x=40, siendo el valor de n=96 H0: P = 0.5

H1: P≠0.5

ii) El valor del estadístico de prueba es:

Z=

40 + 0.5 − 0.5.x96 =-1,53 0.5 x 96

iii) Analizando el valor crítico:

iv) Como el estadístico de prueba cae en la región de aceptación, existe evidencia estadística para aceptar la hipótesis nula, entonces se concluye que no hay preferencia de los niños por alguno de los dos sabores de helados. Ejercicio Los siguientes datos muestran los índices de trabajo defectuoso de los empleados antes y después de un plan de capacitación. Compare los dos conjuntos de datos siguientes para ver si el plan de capacitación disminuyó las unidades defectuosas producidas. Utilice el nivel de significancia de 0.10. antes

8

7

6

9

7

10

8

6

5

8

10

8

después

6

5

8

6

9

8

10

7

5

6

9

8

Ejercicio Un taller de reparación para CPUs de computadoras cambió el método de pago de salario por hora a salario por hora más un bono calculado sobre el tiempo requerido para desmontar, reparar y volver a ensamblar el CPU. Los siguientes son datos recabados para 25 CPUs antes del cambio y 25 después para el número de horas requeridas. A un nivel de significancia de 0.10, ¿el nuevo plan incrementó la productividad?

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

antes

29

34

32

19

31

22

28

31

32

44

41

23

34

después

32

19

22

21

20

24

25

31

18

22

24

26

41 Recordatorio

antes

25

42

20

25

33

34

20

21

22

45

43

31

después

34

27

26

25

31

19

22

32

31

30

29

20

Ejercicio Se ha examinado una muestra de 50 empresas peruanas que compraron franquicias el año 2012. Los rendimientos de las acciones en torno a la fecha de compra fueron positivos 31 veces, negativos 12 y cero 3. Contraste la hipótesis de que hay una mayor probabilidad de rendimientos positivos alrededor de la fecha de compra de una franquicia. 2 PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA DATOS APA-

READOS. Uno de los inconvenientes de la prueba del signo es que no maneja mucha información, sólo el signo de las diferencias, sobre todo cuando la muestra es muy pequeña. La prueba de rangos con signos de Wilcoxon además del signo de las diferencias incorpora la magnitud de las mismas por lo que refleja mejor el comportamiento de las muestras. En el análisis de muestras por pares, cada una genera una observación. Las diferencias entre los pares de dichas observaciones nos permiten analizar las diferencias entre las poblaciones. Por ejemplo, en una gran empresa de alimentos se quiere analizar los tiempos que dos métodos de producción distintos requieren para obtener un producto, los operadores de las máquinas serán elegidos aleatoriamente de manera que cada uno obtiene dos registros. Luego de realizar la diferencia entre dichos registros de cada trabajador se tiene el siguiente razonamiento: Una diferencia positiva de los tiempos utilizados por cada método indica que el primero requiere un tiempo mayor, y una diferencia negativa indica que el segundo requiere de más tiempo. Entonces, ¿los datos obtenidos indican que los métodos son significativamente diferentes respecto al tiempo requerido por cada uno? Cada método genera una población de tiempos utilizados para obtener el mismo producto, por lo que podemos establecer las siguientes hipótesis: H0: Las poblaciones son idénticas H1: Las poblaciones no son idénticas No existe el requisito de que los datos provengan de una distribución normal. El procedimiento lo podemos resumir de la siguiente manera: - Se ordenan las observaciones relacionadas en dos columnas y se resta el segundo del primero. - Se descartan los pares donde la diferencia es cero. - A las n diferencias absolutas restantes se les asigna los rangos analizando los valores de menor a mayor, es decir, el menor valor absoluto tendrá rango 1, el siguiente rango 2, hasta llegar al mayor valor. - En caso de empates el rango asignado es la media de los rangos que ocupan en la ordenación de menor a mayor. - Se calculan las sumas de los rangos correspondientes a las diferencias positivas y negativas, siendo T la más pequeña de las dos sumas. - Si n≤30, el valor crítico T se encuentra en la tabla de valores críticos para la Prueba de rangos con signo de Wilcoxon. Cuando plantee la conclusión, rechace la hipótesis nula si los datos muestrales le llevan a un estadístico de prueba que se ubica en la región crítica, esto es, cuando el estadístico de prueba sea menor o igual que el valor (o los valores) crítico(s).

- Si n>30, el estadístico de prueba es: Z = tabla de valores críticos z.

n(n + 1) 4 n(n + 1)(2n + 1) 24 T−

y el valor crítico en la

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

81

82

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Cuadro N°18: VALORES CRÍTICOS T PARA LA PRUEBA DE RANGOS CON SIGNO Valores críticos de T para la prueba de rangos con signo de wilcoxon5 Anotaciones

no

.005

.01

.025

.05

(una cola )

(una cola )

(una cola )

(una cola )

01

02

05

.10

(dos colas)

(dos colas)

(dos colas)

(dos colas)

5

*

*

*

1

6

*

*

1

2

7

*

0

2

4

8

0

2

4

6

9

2

3

6

8

10

3

5

8

11

11

5

7

11

14

12

7

10

14

17

13

10

13

17

21

14

13

16

21

26

15

16

20

25

30

16

19

24

30

36

17

23

28

35

41

18

28

33

40

47

19

32

38

46

54

20

37

43

52

60

21

43

49

59

68

22

49

56

66

75

23

55

62

73

83

24

61

69

81

92

25

68

77

90

101

26

76

85

98

110

27

84

93

107

120

28

92

102

117

130

29

100

111

127

141

30

109

120

137

152

Notas 1. * Indica que no es posible obtener un valor en región crítica 2. Rechace la hipótesis nula si el estadístico de prueba T es menor que o igual al valor crítico que se encontró en esta tabla. No rechace la hipotesis nula si el estadístico de prueba T es mayor que el valor crítico que se encontro en la tabla.

Ejemplo Una pizzería cercana al campus universitario está considerando la posibilidad de utilizar una nueva receta para hacer la salsa que echa a las pizzas. Se elige una muestra aleatoria de ocho estudiantes y se pide a cada uno que valore en una escala de 1 a 10 su opinión sobre la salsa original y sobre la salsa propuesta. El cuadro siguiente muestra las puntuaciones obtenidas en la comparación; los números más altos indican que gusta más el producto. ¿Indican los datos una tendencia general a preferir la nueva salsa a la original?

5 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 744

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

PUNTUACIÓN estudiante

salsa original

salsa propuesta

A

5

7

B

3

8

C

4

3

D

7

6

E

2

8

F

5

8

G

6

6

H

4

8

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Solución i) Planteamos las hipótesis: H0: P = 0.5 (No hay preferencia por alguna de las dos salsas) H1: P < 0.5 (Existe preferencia por el nuevo producto) La hipótesis nula puede concebirse como la hipótesis de que la mediana poblacional de las diferencias es 0. Si la hipótesis nula fuera verdadera, nuestra secuencia de diferencias + y - podría concebirse como una muestra aleatoria extraída de una población en la que las probabilidades de + y - son 0,5 cada una. En ese caso, las observaciones constituirían una muestra aleatoria extraída de una población binomial en la que la probabilidad de + es 0,5. Siendo P la verdadera proporción de la población que prefiere la salsa original (o sea que las puntuaciones de la salsa original son mayores, por eso al contrastar con la preferencia con la nueva salsa debe haber menos signos positivos P<0.5). Si se llegara a rechazar la hipótesis nula indicaría que hay una mayor preferencia por la nueva salsa. ii) Hallamos las diferencias y asignamos los rangos correspondientes. PUNTUACIÓN DIFERENCIA estudiante

salsa original

salsa propuesta

(ORIGINAL-NUEVO)

A

5

7

-2

B

3

8

-5

C

4

3

1

D

7

6

1

E

2

8

-6

F

5

8

-3

G

6

6

0

H

4

8

-4

iii) Luego hallamos los rangos de los valores absolutos de las diferencias y DIFERENCIA

VALOR

(ORIGINAL-NUEVO)

ABSOLUTO

RANGOS

CON SIGNO

RANGO

-2

2

3

-3

-5

5

6

-6

1

1

1.5

1.5

1

1

1.5

1.5

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

83

84

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

-6

6

7

-7

-3

3

4

-4

0

0

--

--

-4

4

5

-5

Suma de rangos (+): 3 Suma de rangos (-): 25 El estadístico de prueba T es 3. iv) El valor crítico se busca en la tabla de valores críticos para la prueba de rangos con signos de Wilcoxon, con n=7 y 0.05 en una cola. Tcrítico=4. v) Como el estadístico de prueba T=3 es menor que el valor crítico se rechaza la hipótesis nula, es decir que es probable que las puntuaciones del nuevo producto sean mayores. Ejemplo En un estudio se compararon empresas que tenían sofisticados métodos de postauditoría y empresas que no tenían métodos de ese tipo. Se examinó una muestra de 31 pares de empresas. Se calculó el cociente entre la valoración de mercado y los costes de reposición de los activos de cada una y se utilizó como medida de los resultados de las empresas. En cada uno de los 31 pares, una de las empresas utilizaba un sofisticado método de postauditoría y la otra no. Se calcularon las 31 diferencias entre los cocientes y se ordenaron las diferencias absolutas. La menor de las sumas de los rangos, 189, correspondió a los pares en los que el cociente era mayor en el caso de la empresa que carecía de sofisticados métodos de postauditoría. Contraste la hipótesis nula de que la distribución de las diferencias entre los cocientes está centrada en 0 frente a la hipótesis alternativa de que tiende a ser menor en las empresas que carecen de sofisticados métodos de postauditoría. Solución i) Como la muestra es n=31, y T=189, calculamos el estadístico de prueba con la fórmula:

n(n + 1) 4 n(n + 1)(2n + 1) 24 T−

Z calculado =

ii)

Z calculado =

31(31 + 1) 4 31(31 + 1)(2.31 + 1) = -1.16 24 189 −

iii) La prueba es de una sola cola, por lo que Zcrítico=1.645

iv) Al ser el Zcalculado menor que el Zcrítico, no existe evidencia estadística para rechazar la hipótesis nula. Ejercicio Se pide a una muestra aleatoria de 10 estudiantes que valoren en una cata a ciegas la calidad de dos marcas de cerveza, una nacional y una importada. Las valoraciones se basan en una escala de 1 (mala) a 10 (excelente). La tabla adjunta muestra los resultados. Utilice el contraste de Wilcoxon para contrastar la hip6tesis nula de que la distribución de las diferencias pareadas está centrada en 0 frente a la hipótesis alternativa de que la población de todos los estudiantes bebedores de cerveza prefiere la marca importada. ESTUDIANTE

A

B

C

D

E

F

G

H

I

J

NACIONAL

2

3

7

8

7

4

3

4

5

6

IMPORTADA

6

5

6

8

5

8

9

6

4

9

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos



Lecturas seleccionadas

Ejercicio

De 721 usuarios de Internet elegidos al azar, se descubrió que 358 de ellos usan Internet para planear viajes (según datos de una encuesta local). Utilice un nivel de significancia de 0.02 para probar la aseveración de que, de los usuarios de Internet, Recordatorio menos del 50% utiliza este medio para planear viajes. ¿Los resultados son importantes para los agentes de viajes? 3 PRUEBA DE LA SUMA DE RANGOS DE WILCOXON PARA MUESTRAS

INDEPENDIENTES. (Mata, 2013) Uno de los inconvenientes de la prueba del signo es que no maneja mucha información, sólo el signo de las diferencias, sobre todo cuando la muestra es muy pequeña. La prueba de rangos con signos de Wilcoxon además del signo de las diferencias incorpora la magnitud de las mismas por lo que refleja mejor el comportamiento de las muestras. En el aná La prueba de la suma de rangos de Wilcoxon utiliza los rangos de los valores de dos conjuntos independientes de datos muestrales para probar la hipótesis nula de que las dos poblaciones tienen medianas iguales. La prueba de rangos con signo de Wilcoxon estudiada en la sección anterior utiliza datos apareados, pero la prueba de suma de rangos de Wilcoxon de la presente sección utiliza dos muestras independientes que no están relacionadas ni asociadas o apareadas. El fundamento de la suma de rangos de Wilcoxon es el siguiente: si dos muestras se obtienen de poblaciones idénticas y los valores individuales se acomodan en rangos como un conjunto combinado de valores, entonces el rango alto y el bajo deberían caer de manera uniforme entre las dos muestras. Si los rangos bajos se encuentran predominantemente en una muestra y los rangos altos se encuentran predominantemente en la otra muestra, sospechamos que las dos poblaciones tienen medianas diferentes. Asumamos que se dispone de la muestra de tamaño n1 de la primera población y la muestra de tamaño n2 de la segunda. Se juntan las dos muestras y se ordenan las observaciones en sentido ascendente, asignando, en caso de empate, la media de los puestos correspondientes. Sea T la suma de los puestos de las observaciones de la primera población (T en el contraste de la suma de puestos de Wilcoxon es igual que R1 en el contraste U de Mann-Whitney). Suponiendo que la hipótesis nula es verdadera, el estadístico de la suma de puestos de Wilcoxon, T, tiene la media:



µT =

n1 (n1 + n2 + 1) 2

y la varianza:

σ T2 =

n1 n2 (n1 + n2 + 1) 12

Por lo que cuando n1≥10 y n2≥10 la distribución normal es una excelente aproximación a la distribución de la variable aleatoria:

Zcalculado =

T − µT

σT

Ejemplo En un estudio que pretendía comparar los resultados de empresas que revelan las predicciones de la dirección sobre los beneficios con los resultados de las que no las revelan, se tomaron muestras aleatorias de 80 empresas de cada una de las poblaciones. Se midió la variabilidad de la tasa de crecimiento de los beneficios en los 10 periodos anteriores en cada una de las 160 empresas y se ordenaron estas variabilidades. La suma de los puestos de las empresas que no revelan las predicciones de la dirección sobre los beneficios era 7287. Contraste la hipótesis nula de que las posiciones centrales de las distribuciones poblacionales de las variabilidades de los beneficios son las mismas en los dos tipos de empresas frente a la hipótesis alternativa bilateral.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

85

86

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Solución

Anotaciones

i) Como T=7.287, calculamos los demás indicadores, siendo n1=80 y n2=80 n1 (n1 + n2 + 1) 80(161) = = 6440 ii) µ T = 2 2 iii) σ 2 = n1 n 2 ( n1 + n 2 + 1) = 80.x80(161) = 85867 T

12

12

iv) Calculamos entonces el estadístico de prueba:

Zcalculado =

7287 − 6440 = 2.89 85867

v) Al ser el estadístico de prueba 2.89 mayor que el valor crítico al 0.05 de significancia 1.645, podemos concluir que existe evidencia estadística para rechazar la hipótesis nula. Lo que quiere decir que estos datos constituyen, pues, una prueba contundente en contra de la hipótesis de que las posiciones centrales de las distribuciones de las variabilidades poblacionales de las tasas de crecimiento de los beneficios de las empresas que revelan las predicciones de los beneficios son iguales que las de las empresas que no las revelan. Ejemplo La tabla siguiente muestra el número de horas semanales que los estudiantes afirman que dedican a estudiar las asignaturas de introducci6n a la economía financiera y a la contabilidad. Los datos proceden de muestras aleatorias de 10 estudiantes de economía financiera y 12 de contabilidad. ¿Indican los datos la existencia de una diferencia en el numero mediano de horas semanales que dedican los estudiantes a estudiar las asignaturas de introducci6n a la economía financiera y a la contabilidad? NÚMERO DE ASIGNATURA

HORAS

ECONOMÍA

SEMANALES

DEDICADAS

A

ESTUDIAR

10

6

8

10

12

13

11

9

5

11

13

17

14

12

10

9

15

16

11

8

POR

FINANCIERA CONTABILIDAD

9

7

Solución i) Planteamos las hipótesis. Ho: Med(1)=Med(2) Los estudiantes dedican la misma cantidad de tiempo para ambas asignaturas. H1: Med(1)≠Med(2) Los estudiantes no dedican la misma cantidad de tiempo para ambas asignaturas. ii) Unimos en un solo conjunto a las dos muestras y ordenamos los datos de forma ascendente, luego en el cuadro inicial indicamos los rangos al lado de cada dato. ECONOMÍA F.

RANGOS

CONTABILIDAD

RANGOS

10

10

13

17.5

6

2

17

22

8

4.5

14

19

10

10

12

15.5

12

15.5

10

10

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

13

7.5

9

7

11

13

15

20

9

7

16

21

5

1

11

13

11

13

8

4.5

9

7

7

3

SUMA DE

SUMA DE

RANGOS = 93.5

RANGOS = 159.5

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Donde n1=10, n2=12 y T=93.5 iii) µ T =

n1 (n1 + n2 + 1) 10(10 + 12 + 1) = = 115 2 2

2 iv) σ T =

n1 n2 (n1 + n2 + 1) 10 x12(10 + 12 + 1) = = 230 12 12

v) Calculamos entonces el estadístico de prueba:

Zcalculado =

93.5 − 115 = −1.42 230

vi) Por lo que podemos concluir que existe evidencia estadística para aceptar la hipótesis nula, o sea que no se puede establecer diferencias en el tiempo dedicado al estudio de ambas asignaturas. Ejercicio Se pregunta a una muestra aleatoria de 50 estudiantes de una facultad que sueldo debería estar dispuesta la universidad a pagar para atraer a la persona idónea para hacerse cargo de la Coordinación Académica. Se hace la misma pregunta a una muestra aleatoria independiente de 50 profesores. A continuación, se juntan las 100 cifras sobre el sueldo y se ordenan (asignándose 1 al sueldo más bajo). La suma de los rangos de los profesores es 2024. Contraste la hipótesis nula de que no existe ninguna diferencia entre las posiciones centrales de las distribuciones de los sueldos propuestos por los estudiantes y por los profesores frente a la hipótesis alternativa de que en conjunto los estudiantes propondrían un sueldo más alto para atraer al Coordinador Académico. Ejercicio Un estudio utilizó tomografía computarizada (TC) por rayos X para reunir datos de volúmenes cerebrales de un grupo de pacientes con trastorno obsesivo-compulsivo y un grupo de control de personas saludables. La lista adjunta presenta los resultados muestrales (en mililitros) para volúmenes del hemisferio derecho (según datos de “Neuroanatomical Abnormalities in Obsesive-Compulsive Disorder Detected with Quantitative X-Ray Computed Tomography”, de Luxenberg et al., American Journal of Psychiatry, vol. 145, núm. 9). Utilice un nivel de significancia de 0.01 y pruebe la aseveración de que los pacientes obsesivo-compulsivos y las personas saludables tienen la misma mediana de volúmenes cerebrales. Con base en este resultado, ¿podemos concluir que el trastorno obsesivo-compulsivo tiene una base biológica?6 PACIENTES OBSESIVO COMPULSIVOS

GRUPO DE CONTROL

0.308

0.210

0.304

0.344

0.519

0.476

0.413

0.429

0.407

0.455

0.287

0.288

0.501

0.402

0.349

0.594

0.463

0.334

0.340

0.305

0.334

0.483

0.460

0.445

6 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 700

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

87

88

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

TEMA N° 2: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA 1 BONDAD DE AJUSTE (Triola, 2009). A menudo la toma de decisiones requiere que se pruebe alguna prueba de hipótesis a cerca del comportamiento que tiene la distribución poblacional desconocida, o si dicha distribución se comporta de manera similar a alguna otra distribución conocida como la normal, la de Poisson, u otras. Podríamos plantear entonces las siguientes hipótesis:

Ho: La distribución poblacional tiene comportamiento normal.



Hi: La distribución no tiene comportamiento normal.

La prueba de bondad de ajuste por lo tanto es aquella que determinará si la distribución en cuestión tiene o se ajusta a la distribución particular planteada en la hipótesis (en el ejemplo la distribución normal), utilizando datos muestrales tomados a partir de la población que representan constituyéndose estos en evidencia. El estadístico de prueba para la prueba de bondad es: k

χ2 = ∑

(Oi − Ei )2

i =1

Ei

donde: O representa la frecuencia observada de un resultado. E representa la frecuencia esperada de un resultado. k representa el número de categorías diferentes o resultados. n representa el número total de ensayos. Es importante indicar que los valores críticos se calculan en la tabla de distribución chi-cuadrada utilizando k-1 grados de libertad. Todas las pruebas son de cola derecha. DIAGRAMA N°02: PRUEBAS DE BONDAD DE AJUSTE 7

El estadístico de prueba x2 se basa en las diferencias entre valores observados y esperados, de manera que una concordancia cercana entre los valores observados y esperados conducirá a un valor de x2 pequeño y un valor P grande. Una discrepancia grande entre los valores observados y esperados conducirá a un valor de x2 grande y un valor P pequeño. De esta forma, las pruebas de hipótesis de esta sección siempre son de cola derecha, puesto que el valor crítico y la región crítica se localizan en el extremo derecho de la distribución. Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 11, página 594 7 Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 11, página 594

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

Ejemplo

El gerente de ventas de una empresa concesionaria de varias marcas de automóviles, tiene la responsabilidad de controlar el nivel de existencias para cuatro tipos de automóvil vendidos por dicha empresa. En el pasado, ha ordenado nuevos automóRecordatorio viles bajo la premisa de que los cuatro tipos son igualmente populares y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más difíciles de controlar, y considera que debería probar su hipótesis respecto a una demanda uniforme. ¿Qué podemos concluir acerca de los datos observados? Marca de auto

Unidades vendidas

Kía

15

Toyota

11

Hyundai

10

Chevrolet

12

Solución i) Planteamos las hipótesis. H0: La demanda es uniforme para los cuatro tipos de autos.



H1: La demanda no es uniforme para los cuatro tipos de autos. ii) Como el total de ventas es 48, si la demanda es uniforme se espera de que cada marca debe vender 12 unidades, por lo que nuestro tablero quedaría: Marca de auto

Unidades vendidas (fo)

Unidades esperadas (fe)

Kía

15

12

Toyota

11

12

Hyundai

10

12

Chevrolet

12

12

iii) Calculamos el estadístico de prueba utilizando las frecuencias observadas y las frecuencias esperadas. k

χ2 = ∑

(Oi − Ei )2 Ei

i =1

χ2 =

(15 − 12)2 + (11 − 12)2 + (10 − 12)2 + (12 − 12)2 12

12

12

12

= 1.17

iv) Ubicamos el valor crítico en la tabla de valores críticos de chi cuadrado, utilizando k-1 grados de libertad, siendo k=4, por lo que los grados de libertad son 3 y un nivel de significancia del 0.05.

χ 02.05,3 = 7.815 v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente:

" No rechazar si χ 2 ≤ 7.815. Rechazar si χ 2 > 7.815"

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

89

90

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

vi) Como 1.17 < 7.815, la hipótesis de que la demanda no es uniforme no se rechaza. Ejemplo Un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y desea verificar sobre la base de los datos que siguen, los números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10 y . Número de unidades

Número de muestras

con defecto 0

138

1

53

2 ó más

9

Solución i) Planteamos las hipótesis: Ho: La población es binomial Ha: La población no es binomial ii) Hallamos las frecuencias esperadas utilizando la distribución binomial:

f ( x) =

( )π n x

x

(1 − π ) n − x , con n = 10 y π = 0.05

iii) Reemplazando los valores:

f (0) = f (1) =



( )0.05 10 0

( )0.05 10 1

1

0

(1 − 0.05)10 −0 = 0.599

(1 − 0.05)10 −1 = 0.315

y la probabilidad de 2 ó más = 1.0 - 0.599 - 0.315 = 0.086 iv) Con estos valores podemos encontrar las frecuencias esperadas: 200 (0.599) = 119.8 200 (0.315) = 63 200 (0.086) = 17.2 v) El tablero quedaría de la siguiente manera: Número de unidades

fo

fe

0

138

119.8

1

53

63

2 ó más

9

17.2

con defecto

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

vi) Aplicamos la fórmula para el estadístico de prueba:

χ2 =

(138 − 119.8) 2 (53 − 63.0) 2 (9 − 17.2) 2 + + 119.8 63 17.2

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

χ = 8.26 2

vii) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente:

" No rechazar si χ 2 ≤ 5.99. Rechazar si χ 2 > 5.99"

viii) Como 8.26 es mayor que 5.99, rechaza la hipótesis nula con un nivel de significancia de 0.05. Por lo que se concluye que el verdadero porcentaje de neumáticos con defecto no es el 5%. Ejercicio Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 2, 3, 4 y 5 caras se muestra en la siguiente tabla.

Número de caras

Número de series (frecuencia observada)

0

38

1

144

2

342

3

287

4

164

5

25

Total

1000

Ajuste los datos a una distribución binomial con un nivel de significancia del 0.05. Use n=5. Nota: Para hallar π recuerde que luego divídala entre n.

µ = nπ

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

, entonces primero halle la media y

2 INDEPENDENCIA Y HOMOGENEIDAD Los datos categóricos representan atributos o categorías, cuando en un análisis se consideran dos variables categóricas, entonces los datos se organizan en tablas llamadas tablas de contingencia o tablas de clasificación cruzada. Primero se discute la relación entre las variables que definen las filas y las columnas de tablas de contingencia y luego las medidas que dan una idea del grado de asociación entre las dos variables categóricas.

Bibliografía

91

92

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Las hipótesis de independencia son: Ho: No hay asociación entre las variables A y B (hay independencia) Ha: Sí hay relación entre las variables A y B Anotaciones

Las hipótesis de homogeneidad son: Ho: Las proporciones de cada valor de la variable A son iguales en cada columna. Ha: Al menos una de las proporciones para cada valor de la variable A no son iguales en cada columna. Importante notar que la prueba de homogeneidad es una generalización de la prueba de igualdad de proporciones, del mismo modo el análisis se realiza en una tabla de contingencia con la siguiente estructura: Cuadro N°19: CONDUCTORES DE MOTOCICLETA8

2.1 Frecuencias esperadas en la tabla de contingencia suponiendo independencia

Ei =

(Total del renglón i )(Total de la columna j ) Tamaño de la muestra

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de basados en las frecuencias observadas y esperadas se calcula como sigue: k

χ2 = ∑ i =1

(Oi − Ei )2 Ei

Oi = Valor observado en la i-ésimo celda. Ei = k =

Valor esperado en la i-ésimo celda. Categorías o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene una distribución ji cuadrada con (n – 1).(m – 1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia proseguimos con el cálculo de la estadística de prueba ji cuadrada. En situaciones como las siguientes, se puede estar interesado en determinar si dos variables están relacionadas: ¿Están relacionados los hábitos de lectura con el sexo del lector? ¿Es independiente la opinión sobre la política exterior de la política partidista? ¿Es independiente el sexo de una persona de su preferencia en colores? ¿Son independientes el tamaño de una familia y el nivel de educación de los padres? ¿Está relacionado el desempleo con el incremento de la criminalidad? ¿El precio está asociado con la calidad de un producto electrodoméstico? ¿El estado nutricional está asociado con el desempeño académico?

8 Tomado de Estadística, Mario Triola, 10°Ed., Cap.11, página 606

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

Ejemplo

Se seleccionó una muestra aleatoria de 100 jóvenes para estudiar la dependencia entre la práctica de algún deporte y la depresión, con los siguientes resultados: Recordatorio Número de unidades

Sin depresión

Con depresión

con defecto Deportista

38

9

No deportista

31

22

Solución i) Planteamos las hipótesis: Ho: Hay independencia entre la depresión y la práctica de algún deporte Ha: No hay independencia entre la depresión y la práctica de algún deporte ii) Completamos el cuadro y luego calculamos las frecuencias observadas utilizando la fórmula:

Ei =

(Total del renglón i )(Total de la columna j ) Tamaño de la muestra

Número de unidades

SIN depresión

Con depresión

con defecto Deportista

38

9

47

No deportista

31

22

53

69

31

100

iii) Calculamos las frecuencias esperadas: Número de unidades

SIN depresión

Con depresión

con defecto Deportista

=69x47/100

=31x47/100

47

No deportista

=69x53/100

=31x53/100

53

69

31

100

Número de unidades

SIN depresión

Con depresión

con defecto Deportista

32.43

14.57

47

No deportista

36.57

16.43

53

69

31

100

iv) Calculamos el estadístico de prueba:

χ2 =

(38 − 32.43)2 + (31 − 36.57 )2 + (9 − 14.57 )2 + (22 − 16.43)2 32.43

36.57

14.57

16.43

χ 2 = 5.8227 v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente: Grados de libertad= (2-1).(2-1)=1 Nivel de significancia=0.05

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

93

94

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

vi) Como el valor calculado 5.8227 es mayor que el valor crítico 3.8414 se rechaza la hipótesis nula de independencia de las variables por lo que se concluye que la práctica de algún deporte disminuye la depresión. Ejercicio La oficina de Recursos Humanos de la universidad quiere determinar si la satisfacción en el trabajo es independiente del puesto de trabajo. Para ello realizó un estudio entre los docentes administrativos y encontró los resultados mostrados en la tabla siguiente. Con un nivel de significancia de 0.05, pruebe si son dependientes la satisfacción en el trabajo y el puesto de trabajo. Marca de auto

Satisfacción en el trabajo

Unidades vendidas (fo)

Profesor

Profesor

Profesor

Instructor

asistente

asociado

tiempo parcial

Mucha

40

60

52

63

Regular

78

87

82

88

Poca

57

63

66

64

Ejercicio En un experimento para estudiar la dependencia de la hipertensión de los hábitos de fumar, se tomaron los siguientes datos de 180 individuos: Unidades vendidas (fo) No fumadores

Fumadores moderados

Fumadores empedernidos

Con hipertensión

21

36

30

Sin hipertensión

48

26

19

Pruebe la hipótesis de que la presencia o ausencia de hipertensión es independiente de los hábitos de fumar. Utilice un nivel de significancia de 0.05. 2.2 Tablas de Contingencia para probar Homogeneidad La utilización de la tabla de contingencia probar la independencia entre dos variables de una muestra tomada de una población de interés, es sólo una de las aplicaciones de los métodos de tablas de contingencia. Otra aplicación común se presenta cuando existen r poblaciones de interés y cada una de ellas está dividida en las mismas c categorías. Luego se toma una muestra de la iésima población, y los conteos se introducen en las columnas apropiadas del i-ésimo renglón. En esta situación se desea investigar si las proporciones son o no las mismas en las c categorías de todas las poblaciones. La hipótesis nula de este problema establece que las poblaciones son homogéneas con respecto a las categorías, entonces la prueba de homogeneidad es en realidad una prueba sobre la igualdad de r parámetros binomiales. El cálculo de las frecuencias esperadas, la determinación de los grados de libertad y el cálculo del estadístico

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

ji-cuadrado para la prueba de homogeneidad son idénticos a los de la prueba de independencia. Ejemplo

Recordatorio Un estudio sobre caries dental en niños de seis ciudades con diferentes cantidades de flúor en el suministro de agua, ha proporcionado los resultados siguientes:

Nº niños

Nº niños

sin caries

con caries

Huancayo

38

87

Cercado de lima

8

117

Cajamarca

30

95

Ica

44

81

Arequipa

64

61

Trujillo

32

93

Comunidad

Se desea saber si la incidencia de caries es la misma en las seis ciudades. Solución i) Planteamos las hipótesis: Ho: Hay homogeneidad en la incidencia de caries en las seis ciudades Ha: No hay un comportamiento homogéneo en la incidencia de caries en las ciudades analizadas. ii) Calculamos las frecuencias esperadas. Nº niños

Nº niños

sin caries

con caries

Huancayo

38

87

125

Cercado de lima

8

117

125

Cajamarca

30

95

125

Ica

44

81

125

Arequipa

64

61

125

Trujillo

32

93

125

216

534

750

Comunidad

Nº niños

Nº niños

sin caries

con caries

Huancayo

216x125/750=36

534x125/750=89

Cercado de lima

36

89

Comunidad

Cajamarca

36

89

Ica

36

89

Arequipa

36

89

Trujillo

36

89

iii) Calculamos el estadístico de prueba:

χ2 =

(38 − 36)2 + (8 − 36)2 + (30 − 36)2 36

36

36

+ ... +

(93 − 89)2 89

χ 2 = 65.85 iv) El valor crítico lo podemos observar en el siguiente gráfico, teniendo en cuenta lo siguiente: Grados de libertad= (6-1).(2-1)=5

Anotaciones

Bibliografía

95

96

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Nivel de significancia=0.05

v) Como el estadístico de prueba 65.85 es mayor que el valor crítico 11.07 hay evidencia estadística para rechazar la hipótesis nula. Se concluye entonces que el contenido de flúor en el agua puede ser la causa de la diferencia en la incidencia de caries en las ciudades analizadas. Ejercicio Un investigador estudia la efectividad de tres remedios R1, R2 y R3 para aliviar cierta enfermedad. Para esto escogió tres muestras aleatorias de tamaños 50, 70 y 60 de pacientes con dicha enfermedad, suministrando a la primera el remedio R1, a la segunda el remedio R2 y a la tercera el remedio R3 midiendo la efectividad de los remedios en tres niveles: Sin alivio, cierto alivio y alivio total. Los resultados del experimento se presentan en la tabla siguiente: Nº niños

Nº niños

Nº niños

sin caries

con caries

con caries

Efectividad

R1

R2

R3

Sin alivio

10

20

15

Comunidad

Cierto alivio

30

20

20

Alivio total

10

30

25

¿Puede usted inferir con un nivel de significancia del 0.01, que los tres remedios para la alergia son igualmente efectivos?9

TEMA N° 3: PRUEBAS NO PARAMÉTRICAS 1 PRUEBA DE KRUSKAL – WALLIS (Mata, 2013) Es una prueba que compara tres o más poblaciones para determinar si existe una diferencia en la distribución de las poblaciones. Es análoga a la prueba F utilizada en las pruebas ANOVA. No importa la restricción de que las poblaciones tienen que estar distribuidas normalmente. Las hipótesis son: H0: Todas las k poblaciones tienen la misma distribución. H1: No todas las k poblaciones tienen la misma distribución. Estadístico de prueba Kruskal- Wallis: K=

donde

12  Ri2  ∑  − 3( n + 1 ) n( n + 1 )  ni 



ni es el número de observaciones en la i-ésima muestra n es el número total de observaciones en todas las muestras. 9 Tomado de Estadística Aplicada, Manuel Córdova Zamora, 1°Ed., Cap.7, página 349

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

Ri es la suma de los rangos de la i-ésima muestra.

La distribución de K es aproximada por una distribución chi-cuadrada con k – 1 grados de libertad. Si K excede el valor crítico de chi-cuadrada, se rechaza la hipótesis nula. Recordatorio Ejemplo Un nuevo gerente de un proveedor de supermercados debe comparar el tiempo que toma a tres clientes pagar por los productos entregados. Se seleccionan aleatoriamente varias compras de cada cliente, junto con el número de días que cada uno se tomó en liquidar su cuenta. Los resultados aparecen en la tabla siguiente: COMPRA

CLIENTE 1

CLIENTE 2

CLIENTE 3

1

28

26

37

2

19

20

28

3

13

11

26

4

28

14

35 31

5

29

22

6

22

21

7

21

Solución i) Planteamos las hipótesis: H0: Los tiempos en que las empresas utilizan para pagar sus cuentas son iguales. H1: Por lo menos uno de los tiempos es diferente ii) Asignamos los rangos a los datos: CLIENTE 1

RANGO

CLIENTE 2

RANGO

CLIENTE 3

RANGO

28

13

26

10.5

37

18

19

4

20

5

28

13

13

2

11

1

26

10.5

28

13

14

3

35

17

29

15

22

8.5

31

16

22

8.5

21

6.5

21

6.5 R1=62

R2=34.5

R3=74.5

iii) Calculando el estadístico K, con n=18, se tiene:

K=

 (62 )2 (34.5 )2 (74.5 )2  12 + +   − 3(18 + 1) = 8.18 18( 18 + 1 )  7 6 5 

El primer trabajo emprendido para resolver las dudas que me azotaban, fue una revisión crítica de la filosofía hegeliana del derecho, trabajo cuya introducción apareció en 1844 en los “Anales franco alemanes”, que se publicaban en París. Mi in El desplome de la URSS y sus consecuencias en el pensamiento marxista por Daniel Bengoechea: Han pasado más de diez años desde el colapso de los regímenes stalinistas de Europa Oriental. 1989 es recordado por la ola de protestas y huelgas que se expandió plementadas desde arriba. iv) El valor crítico de chi-cuadrado dados 3-1 = 2 grados de libertad es χ 0.05 , 2 . 2

= 5.99

v) Regla de decisión: No rechazar si k 5.99. Rechazar si k > 5.99 vi) Como k=18.8 > 5.99, se rechaza la hipótesis nula de que no hay diferencia en el tiempo que toma a tres clientes pagar sus cuentas Ejercicio Se obtuvieron datos de experimentos de choques realizados por la National Trans-

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

97

98

ollo nidos

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

portation Safety Administration de USA. Se compraron automóviles nuevos, se impactaron contra una barrera fija a 35 mi/h y se registraron las mediciones en un maniquí en el asiento del conductor. Utilice los datos muestrales listados abajo para probar las diferencias en las mediciones de heridas en la cabeza (de acuerdo con el Head Injury Criterion, HIC) en cuatro categorías de peso. ¿Existe evidencia suficiente para concluir que las mediciones de heridas en la cabeza para las cuatro categorías de peso de automóviles no son las mismas? ¿Sugieren los datos que los automóviles más pesados son más seguros en un choque?10 2 PRUEBA DE CORRELACIÓN DE RANGOS Cuando se requiere probar la asociación entre dos variables con datos apareados se utiliza la prueba de correlación de rangos utilizando los puestos o rangos de las observaciones en lugar de los valores, el contraste realizado es paramétrico, no requiere la normalidad de distribución de donde provienen los datos apareados. Las hipótesis para la prueba de correlación de rangos son: H0: , No existe correlación entre las dos variables. H1: , Existe correlación entre las dos variables. Si se tiene una muestra aleatoria (x1;y1), (x2;y2), …, (xn;yn) de n pares de observaciones, para calcular el coeficiente de correlación de rangos también conocido como coeficiente de correlación de Spearman, si no hay empates se utiliza la siguiente fórmula para calcular el estadístico de prueba:

rs = 1 −

6∑ d i

2

n(n 2 − 1)

Donde: n: número de pares de datos muestrales. di: son las diferencias entre los puestos de los miembros de los distintos pares. Si existieran empates, el estadístico de prueba se calcula con la siguiente fórmula:

rs =

(

n∑ xy − (∑ x )(∑ y )

)

n ∑ x 2 − (∑ x )

2

(

)

n ∑ y 2 − (∑ y )

2

10 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 706

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Figura N°03: PRUEBA DE CORRELACIÓN DE RANGOS11

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Los valores críticos son: - Para n≤30, los valores críticos se encuentran en la tabla de valores críticos para el coeficiente de correlación de rangos de Spearman. - Para n>30, los valores críticos se calculan con la fórmula: -

rs =

±z n −1

donde los valores z corresponden al nivel de significancia. Ejemplo Se toma una muestra de 11 operarios fabriles y se anotan las calificaciones de desempeño que les otorgan 2 supervisores con los resultados que se muestran a continuación: OPERARIO 1

CALIFICACIÓN

CALIFICACIÓN

SUPERVISOR A

SUPERVISOR B

81

78 83

2

83

3

90

92

4

98

72

5

78

74

6

74

80

7

85

84

8

90

79

11 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 709

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

99

ollo nidos

as nadas

torio

100

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

9

95

93

10

91

94

11

92

95

Anotaciones

Pruebe con un nivel de significancia del 5% si el coeficiente de correlación de Spearman es significativo.12 Solución i) Planteamos las hipótesis: H0:

ρs = 0

, No existe correlación entre las dos variables.

H1:

ρs ≠ 0

, Existe correlación entre las dos variables.

ii) Asignamos los rangos y luego calculamos las diferencias: OPERARIO

CALIFICACIÓN

RANGOS

CALIFICACIÓN

RANGOS

d

SUPERVISOR A

A

SUPERVISOR B

B

A-B

d2

1

81

3

78

2

1

1

2

83

4

83

5

-1

1

3

90

6.5

92

7.5

-1

1

4

98

11

72

7.5

3.5

12.25

5

78

2

74

1

1

1

6

74

1

80

4

-3

9

7

85

5

84

6

-1

1

8

90

6.5

79

3

3.5

12.25

9

95

10

93

9

1

1

10

91

8

94

10

-2

4

11

92

9

95

11

2

4

iii) La suma de las d2 es 47.5 iv) Calculamos el estadístico de prueba: = v) El valor crítico lo ubicamos en la tabla de valores críticos del coeficiente de correlación de rangos de Spearman, siendo 0.618. vi) Como el valor calculado es mayor que el valor crítico rechazamos la hipótesis nula y aceptamos que existe algún tipo de correlación entre las calificaciones de los dos supervisores. Ejercicio La tabla adjunta muestra el rendimiento porcentual de una muestra aleatoria de 20 fondos de inversión a largo plazo en un periodo de 12 meses y los activos totales (en millones de dólares). RENDIMIENTO

ACTIVOS

RENDIMIENTO

ACTIVOS

RENDIMIENTO

ACTIVOS

29.3

300

16

421

12.9

75

27.6

70

15.5

99

11.3

610

23.7

3004

15.2

756

9.9

264

22.3

161

15

730

7.9

27

22

827

14.4

436

6.7

71

19.6

295

14

143

3.3

719

17.6

29

13.7

117

Realice un contraste no paramétrico de la hipótesis nula de que no existe ninguna relación en la población entre las características analizadas.

12 Tomado de Estadística Aplicada a la Administración y la Economía, Alberto Díaz Mata, 1°Ed., Cap.17, página 541

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

CUADRO N°20: VALORES CRÍTICOS COEFICIENTE DE CORRELACIÓN DE

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

RANGOS DE SPEARMAN.13 no

α= 0.10

α= 0.05

α= 0.02

α= 0.01

5

.900

--

--

--

6

.829

886

943

--

7

.714

786

893

929

8

.643

738

833

881

9

.600

700

783

833

10

.564

648

745

794

11

.536

618

709

755

12

.503

587

678

727

13

.484

560

648

703

14

.464

538

626

679

15

.446

521

604

654

16

.429

503

582

635

17

.414

485

566

615

18

.401

472

550

600

19

.391

460

535

584

20

.380

447

520

570

21

.370

435

508

556

22

.361

425

496

544

23

.353

415

486

532

24

.344

406

476

521

25

.337

398

466

511

26

.331

390

457

501

27

.324

382

448

491

28

.317

375

440

783

29

.312

368

433

475

30

.306

362

425

467

Notas: 1. Para n >30, utilice r5= + z/ n - 1 donde z corresponde al nivel de significancia. Por ejemplo, si =0.05, then z=1.96. 2. Si El valor absoluto des estadístico de prueba r5 excede al valor crítico positivo, entonces rechace H0: p5 = 0 y concluya que existe una correlación. Basado en datos de "Biostatistical Analysis, 4th edition", 1999, de Jerrold Zar, Prentice Hall, Inc., Upper Saddle River, Nueva Jersey, y "Distribution of Sums of Squares of Ranl Differences to Small Numbers with Individuals", The Annals of Mathematical Statistics, vol. 9, núm. 2, con permiso del Institute of Mathematical Statistics. 3 PRUEBA DE RACHAS Cuando no existe aleatoriedad, muchas de las herramientas estadísticas en las cuales se confía son de poco uso o de ningún uso. Para comprobar la aleatoriedad se utiliza la prueba de rachas, que es una prueba no paramétrica de aleatoriedad en el proceso de muestreo. Una racha es una serie continua de uno o más símbolos, así se tiene una sucesión en que intervienen dos tipos de símbolos: AAAABBAAABBBAAAAAAABB Entonces definimos una racha como una sucesión de uno o más símbolos idénticos que están precedidos o seguidos por un símbolo diferente o por ninguno, siendo la 13 Tomado de Estadística, Mario Triola, 10°Ed., Apeéndice A, página 783

Bibliografía

101

ollo nidos

as nadas

torio

102

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

longitud de una racha el número de símbolos iguales que incluye. La sucesión anterior presenta 6 rachas, las cuales se pueden separar por barras verticales: AAAA/BB/AAA/BBB/AAAAAAA/BB

Anotaciones

Se observa entonces que hay una racha de longitud 4, 4(A), dos rachas de longitud 2, (2B), una racha de longitud 3, (3A), etc. Las hipótesis que se plantea en la prueba de rachas son: H0: Existe aleatoriedad en la muestra. H1: No existe aleatoriedad en la muestra. Para muestras pequeñas y α = 0.05 , siendo n1 ≤ 20 y n2 ≤ 20, el estadístico de prueba es el número de rachas G. Los valores críticos se encuentran en la tabla de valores críticos para el número de rachas G. Se rechaza la aleatoriedad si el número de rachas G es: • Menor o igual al valor crítico más pequeño encontrado en dicha tabla • Mayor o igual al valor crítico más grande encontrado en dicha tabla Para muestras grandes o α ≠ 0.05 y si n1 > 20 o n2 > 20, utilice el estadístico de prueba y los valores críticos siguientes: Estadístico de prueba:

Donde

y

Para los valores críticos de z, se utiliza la tabla de distribución normal trabajada anteriormente. NOTA: Para analizar datos numéricos, o sea la aleatoriedad por arriba o por debajo de la media o de la mediana, se prueba la aleatoriedad por la forma como los datos numéricos fluctúan por encima o por debajo de una media o mediana.

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

FIGURA N°04: PRUEBAS DE RACHAS14

14 Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 718

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Bibliografía

103

ollo nidos

104

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

CUADRO N°21: VALORES CRÍTICOS PARA LA PRUEBA DE RACHAS15

Ejemplo El principal diario de la localidad mantenía un registro del sexo de las personas que llamaban a la oficina de circulación para quejarse de los problemas con la entrega de la revista sabatina. Para un sábado reciente, estos datos fueron los siguientes: M, F, F, F, M, M, F, M, F, F, F, F, M, M, M, F, M, F, M, F, F, F, F, M, M, M, M, M Usando el nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia. ¿Hay algo respecto a la naturaleza de este problema que nos lleve a la conclusión que una secuencia así no es aleatoria? Solución i) Planteamos las hipótesis:

H0: Existe aleatoriedad en la muestra. H1: No existe aleatoriedad en la muestra.

ii) Identificamos las rachas: M/FFF/MM/F/M/FFFF/MMM/F/M/F/M/FFFF/MMMMM Encontramos un total de G=13 rachas. iii) El estadístico de prueba es 13 y el valor crítico lo ubicamos en la tabla de valores críticos para la prueba de rachas con n1= 14 para los varones y n2=14 para las mujeres siendo de 9 a 21 rachas. iv) Como el estadístico de prueba se encuentra entre los valores críticos se acepta la hipótesis nula de existencia de aleatoriedad. Por lo que no hay evidencia para pensar que la secuencia no es aleatoria. 15 Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 784, tabla A10

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

Ejemplo

Se asumen niveles de producción diarios en una mina de carbón seleccionada para un estudio estadístico, y éstos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32, 40, 37, y 60 toneladas. Se desea analizar dicha producción para verificar algún problema Recordatorio recurrente en las máquinas. ¿Habrá algún indicio para pensar que existe algún problema cíclico en las máquinas? Solución i) Siendo la mediana de 37, se utiliza como valor de referencia. ii) Las observaciones caen o por arriba (A) o por abajo (B) de 37, se representan de la siguiente manera: 31

57

52

22

24

59

25

29

27

44

43

32

40

B

A

A

B

B

A

B

B

B

A

A

B

A

37

60 A

iii) Identificamos las rachas: B/AA/BB/A/BBB/AA/B/AA Encontramos un total de ocho rachas, por lo tanto G=8. iv) Con n1=7 para B y n2 = 7 para A, la tabla de valores críticos para la prueba de rachas revela valores críticos de 3 y 13 rachas. v) Debido a que hay 8 rachas, se asume que hay aleatoriedad y no se rechaza la hipótesis nula, por lo que no habría razón para pensar que hay un problema cíclico. Ejercicio Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia de 0.05: A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, B, A, B, B, A, A, A, B, A, B, A, A Ejercicio La municipalidad provincial recibe diariamente solicitudes para matrimonios civiles. Un estudio registra las solicitudes de los últimos 30 días hábiles.

Diagrama

Objetivos

Inicio

3, 4, 6, 8, 4, 6, 7, 2, 5, 7, 4, 8, 4, 7, 9, 5, 9, 10, 5, 7, 4, 9, 8, 9, 11, 6, 7, 5, 9, 12 Con un nivel de significancia del 0.01 ¿existen motivos para pensar que la serie registrada proviene de alguna característica del entorno?

Desarrollo de contenidos

Actividades

Autoevaluación

LECTURA SELECCIONADA N° 1 Lecturas seleccionadas

Glosario

Bibliografía

¿LOS ESTUDIANTES CLASIFICAN A LAS UNIVERSIDADES DE LA MISMA MANERA QUE EL U.S. NEWS AND WORLD REPORT? RecordatorioTriola. Anotaciones Mario Página 675.

Cada año, la revista U.S. News and World Report publica una clasificación de universidades con base en estadísticos tales como las tasas de admisión, las tasas de graduación, el tamaño de los grupos, la razón entre profesores y estudiantes, los salarios de los profesores y las calificaciones de los administradores otorgadas por sus compañeros. Los economistas Christopher Avery, Mark Glickman, Caroline Minter Hoxby y Andrew Metrick usaron un método alternativo para analizar la selección de universidades de 3240 estudiantes del último año de preparatoria con alto rendimiento escolar. Examinaron las universidades que ofrecen admisión junto con las universidades que los estudiantes eligen. La tabla siguiente lista el orden de una pequeña muestra de universidades, así como también cierto acuerdo entre el orden de preferencia de los estudiantes y las calificaciones de la revista, aunque también indica cierto desacuerdo. Por ejemplo, de las ocho universidades consideradas, Harvard ocupó el primer lugar tanto para los estudiantes como para la revista U.S. News and World Report. Sin embargo, de las ocho universidades incluidas, la

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

105

ollo nidos

106

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Universidad de Pennsylvania fue considerada en séptimo lugar por los estudiantes pero en tercer lugar por la revista. Consideremos el tema de una correlación entre la clasificación de los estudiantes y la clasificación de la revista. El coeficiente de correlación lineal r se utiliza para medir la asociación entre dos variables y requieren datos apareados, y los datos de la tabla están apareados. Sin embargo, existe una diferencia muy importante: los métodos de correlación y regresión tienen requisitos como las distribuciones normales, y los rangos como los que aparecen en la tabla no satisfacen estos requisitos. En dichos métodos no se pueden utilizar los datos muestrales presentados. En este capítulo se presentan varios métodos que se utilizan con datos que no satisfacen el requisito de una distribución normal. En particular, varios métodos de esta sección pueden emplearse con datos muestrales en el formato de rangos, como los de la tabla. En una de las secciones se estudiará un método para poner a prueba una correlación con datos apareados que no tienen el formato de rangos. Entonces, seremos capaces de analizar el grado de acuerdo y desacuerdo entre las clasificaciones de los estudiantes y de la revista, como aparecen en la tabla. Así, probaremos si existe una correlación entre las preferencias de los estudiantes y la clasificación de la revista, y podremos contestar la siguiente pregunta importante: ¿Los estudiantes coinciden con la revista?

Objetivos

Desarrollo de contenidos

Actividades

Inicio

ACTIVIDAD N° 1 Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Bibliografía

Desarrollo de contenidos

Actividades

Recordatorio

Diagrama



Diagrama

ACTIVIDAD N° 2 Autoevaluación

Esta actividad puede consultarla en su aula virtual. Anotaciones  

Objetivos Lecturas seleccionadas

Inicio Glosario

Actividades

Autoevaluación

Bibliografía

CONTROL DE LECTURA N° 2 Desarrollo de contenidos

Recordatorio

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Anotaciones

Esta actividad puede consultarla en su aula virtual. Bibliografía

os

s

o

s

s

o

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Objetivos

Inicio

Actividades

Autoevaluación

Glosario

Bibliografía

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

BIBLIOGRAFIA DE LA UNIDAD III:

Triola, M.(2012). Estadística. México: Pearson Educación

Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicaciones. Mexico: Prentice Hall Anotaciones

Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuarta Edición. Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera Edición

Objetivos

Inicio

Actividades

Autoevaluación

AUTOEVALUACIÓN DE LA UNIDAD III 1. Dadas las siguientes proposiciones: Glosario

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

I. La prueba de signo implica averiguar si hay una cantidad desproporcionadamente mayor de uno u otro signo.

Bibliografía

II. La prueba de signo es una prueba paramétrica. III. La prueba de signo no es tan eficiente como una prueba paramétrica. Anotaciones

Son correctas: a) Sólo I y II b) Sólo I c) Sólo I y III d) Ninguna. e) I; II y III 2. Sean las afirmaciones: I. En la secuencia de ganancias (G) y pérdidas (P): GGGGPPPP, el número de rachas es 4. II. La prueba de rachas para detectar aleatoriedad se basa en el orden en que se presenta los datos. III. Una racha es una secuencia de datos que tienen la misma característica. Son correctas a) I; II y III b) Sólo I y II c) Sólo I d) Sólo II e) Sólo III 3. Se desea probar si la estatura de los empleados tiene distribución normal. Se toma una muestra aleatoria de 200 empleados a quienes se les pregunta su estatura en pulgadas. Los resultados obtenidos son: ESTATURA

57,5-63,5

63,5-69,5

69,5-72,5

72,5-78,5

No. EMPLEADOS

29

75

68

28

¿Con base en a ésta información se puede concluir que su distribución es normal? a) Los datos se distribuyen normalmente b) Los datos no se distribuyen normalmente con un nivel de confianza del 95% c) No se puede determinar porque no se tiene el nivel de confianza

Bibliografía

107

ollo nidos

as nadas

torio

108

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

d) No se puede determinar porque son datos de intervalo de frecuencias e) No se puede utilizan la prueba debido a que son pocas clases Anotaciones

4. En un estudio realizado por Harris Interactive, Inc. se evaluaron las principales empresas de Internet y se evaluó también su reputación. En la lista siguiente se muestra el ranking de 10 empresas de internet en relación, por un lado, con su reputación y por el otro con el porcentaje de entrevistados que dijeron estar dispuestos a comprar acciones de esa empresa. Empresas

Micro- Intel Dell soft

Lucent

Texas

Cisco

Instrument

Systems

Packard

Hewlett IBM Moto- Yahoo rola

Reputación

1

2

3

4

5

6

7

8

9

10

Probable compra

3

4

1

2

9

5

10

6

7

8

Haga una prueba para determinar si existe una correlación por rangos significativa, emplee un nivel de significancia de 0.05,¿cuál es su conclusión? A) H0: rs=0, H1:rs≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. B) H0: s =0, H1: s ≠ 0, rs= -0.6727, VC=0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. C) H0: s =0.6727, H1: s ≠ 0, rs= 0.6727, VC ± 0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. D) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. No se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. E) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe correlación entre la reputación y la probable compra de acciones. 5. Las calificaciones dadas a tres productos por un panel de 15 consumidores son las siguientes: PRODUCTOS A

B

C

50

80

60

62

95

45

75

98

30

48

87

58

65

90

57

Use la prueba de Kruskal Wallis y un nivel de significancia del 0.05 para determinar si existe diferencia significativa entre las calificaciones dadas a los tres productos a) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos. b) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: No hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos.

Desarrollo UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA de contenidos

Lecturas seleccionadas

c) H0: Hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=9.54, VC=5.991, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos. Recordatorio d) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=24.996, Conclusión: Se acepta H0 y se concluye que no hay diferencia entre las calificaciones dadas a los productos. e) H0: No hay diferencia entre las calificaciones dadas a los tres productos, H1: Hay diferencia entre las calificaciones dadas a los tres productos, H=10.22, VC=2.575, Conclusión: No se acepta H0 y se concluye que hay diferencia entre las calificaciones dadas a los productos.

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

Anotaciones

Bibliografía

109

110

Desarrollo de contenidos

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

Desarrollo de contenidos

Actividades

Glosario

Bibliografía

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD IV

Diagrama

Objetivos

Inicio

CONTENIDOS

Recordatorio

Anotaciones

Desarrollo de contenidos

Actividades

ACTIVIDADES

EJEMPLOS

Autoevaluación

AUTOEVALUACIÓN Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Diagrama

BIBLIOGRAFÍA

Bibliografía

ORGANIZACIÓN DE LOS APRENDIZAJES Objetivos

Inicio

CONOCIMIENTOS Desarrollo de contenidos

Actividades

Glosario

Autoevaluación

Recordatorio

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

PROCEDIMIENTOS

ACTITUDES

1. Formula modelos lineales y no lineales para pronosticar la relación de las variables

1. Valora reflexivamente la importancia de las pruebas no paramétricas, de los modelos de predicción y métodos de control de procesos estadísticos para la toma de decisiones.

Autoevaluación

Tema N° 1: Correlación y Regresión 1. Correlación y regresión lineal 2. Correlación y regresión múltiple Lecturas Glosario Bibliografía seleccionadas 3. Elaboración de modelos de regresión Tema N° 2: Control estadístico de procesos Anotaciones 1. Gráficos de control para la media y varianza 2. Gráficos de control para atributos

Recordatorio

Lectura seleccionada N° 1 ¿Podemos predecir el momento de la siguiente erupción del géiser Old Faithful? Mario Triola. Página 515. Autoevaluación de la Unidad IV

2. Realiza el control estadístico de procesos utilizando los gráficos de control. Actividad N° 1 Actividad N° 2 Tarea Académica Nº 2

Anotaciones

Bibliografía

111

ollo nidos

112

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

TEMA N° 1: CORRELACIÓN Y REGRESIÓN La regresión y la correlación son dos técnicas estrechamente relacionadas que comprenden una forma de estimación de una relación existente en la población. Este análisis, comprende el análisis de los datos muestrales para saber si se relacionan y cómo se relacionan entre sí dos o más variables de una población. El objetivo principal de la correlación es determinar la fuerza en que las variables están relacionadas y el objetivo principal de la regresión es descubrir el modo en que se relacionan. Una herramienta importante para el análisis de correlación y regresión es el diagrama de dispersión, el cual nos muestra visualmente la manera como las variables analizadas se relacionan, y a partir de ahí definir el tipo de análisis que se va a realizar. A continuación se presenta una serie de gráficos que nos ilustrarán las distintas maneras en que se relacionan dos variables. FIGURA N°05: DIAGRAMAS DE DISPERSIÓN PARA EL ANÁLISIS DE CORRELACIÓN1

Los diagramas de dispersión que acabas de ver te muestran las diferentes relaciones entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos señalar que si tanto los valores de X como los valores de Y tienden a seguir un patrón, entonces existe una correlación.

1

Tomado de Estadística, Mario Triola, 10°Ed., Cap.10, página

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Lecturas seleccionadas

1 Correlación y regresión lineal

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

1.1 Coeficiente de correlación El coeficiente de correlación lineal r mide la fuerza en que dos variables apareaRecordatorio das y cuantitativas se relacionan. Se conoce también como coeficiente de correlación de Pearson. Su fórmula para el cálculo es dadas las variables cuantitativas x y y:

r=

[n∑ x

n∑ xy − ∑ x ∑ y 2

][

− (∑ x ) n∑ y 2 − (∑ y ) 2

2

]

El coeficiente de correlación se interpreta de la siguiente manera:

Podemos observar lo siguiente: − El valor de r es un número que satisface la desigualdad –1 ≤ r ≤ 1. − Cuando la relación de dos variables es perfectamente positiva, o sea cuando al variar la primera, la segunda varía en las mismas proporciones y en la misma dirección, el coeficiente de correlación es + 1 (unidad positiva). − Cuando la relación de dos variables es perfectamente negativa, o sea cuando al variar la primera, la segunda varía en las mismas proporciones pero en dirección contraria, el coeficiente de correlación es – 1 (unidad positiva). − Cuando no existe relación entre las dos variables, o sea cuando al variar la primera, las variaciones de la segunda no reflejan dependencia o conexión alguna con las variaciones de la primera, el coeficiente de correlación lineal es cero. Ejemplo Se tiene los valores registrados de las visitas realizadas y los pedidos hechos por 10 vendedores de una empresa. Calcula el coeficiente de correlación de Pearson. N°VENDEDOR

VISITAS

PEDIDOS EN

REALIZADAS (X)

MILLONES S/. (Y)

1

245

13.4

2

172

10.3

3

291

15.1

4

124

6.9

5

191

7.3

6

218

14.2

7

101

5.2

8

259

11.8

9

307

14.3

10

142

5.5

Anotaciones

Bibliografía

113

ollo nidos

as nadas

torio

114

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

Solución i) Calculamos ∑x,∑y, ∑x.y, ∑x2 y ∑y2. ii) Anotaciones



VISITAS

PEDIDOS EN

VENDEDOR

REALIZADAS

MILLONES

(X)

S/. (Y)

1

245

2

x.y

X2

Y2

13.4

3283

60025

179.56

172

10.3

1771.6

29584

106.09

3

291

15.1

4394.1

84681

228.01

4

124

6.9

855.6

15376

47.61

5

191

7.3

1394.3

36481

53.29

6

218

14.2

3095.6

47524

201.64

7

101

5.2

525.2

10201

27.04

8

259

11.8

3056.2

67081

139.24

9

307

14.3

4390.1

94249

204.49

10

142

5.5

781

20164

30.25

2050

104

23546.7

465366

1217.26

iii) Aplicamos la fórmula:

r=

[n∑ x

n∑ xy − ∑ x ∑ y 2

][

− (∑ x ) n∑ y 2 − (∑ y ) 2

2

]

r = 0.9

iv) Podemos concluir que existe un grado apreciable de correlación entre las visitas y los pedidos, siendo ésta positiva. Ejercicio Se aplicaron dos test de razonamiento a 10 alumnos y se encontraron los resultados siguientes. Calcula el coeficiente de correlación de Pearson e interprete. ALUMNO

TEST 1

TEST 2

1

15

12

2

14

14

3

10

9

4

9

10

5

8

8

6

8

7

7

7

8

8

6

4

9

4

6

10

2

4

1.2 Coeficiente de determinación (r2) El coeficiente de determinación indica el porcentaje de la variación total que será explicado por el análisis de regresión. Es el cuadrado del coeficiente de correlación de Pearson. 1.3 Prueba t para el coeficiente de correlación Hipótesis

H0 : ρ = 0

H1 : ρ ≠ 0

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Estadístico de Prueba:

t=

r n−2 1− r2

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones



FIGURA N°06: PRUEBA DE HIPÓTESIS PARA EL COEFICINETE DE CORRELACIÓN2

1.4 Regresión lineal Los supuestos de la regresión y correlación que se debe tener en cuenta son: - Para cada valor de” x” hay un grupo de valores de “y”, y estos valores “y” están distribuidos normalmente. - Toda las medias de estas distribuciones normales de Y están sobre la línea de regresión. - Las desviaciones estándar de estas distribuciones normales son iguales. - Los valores de “y” son estadísticamente independientes. ECUACIÓN DE REGRESIÓN:

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

y = a + bx

2 Tomado de Estadística, Mario Triola, 10°Ed., Cap.10, página 526

Bibliografía

115

ollo nidos

116

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

FIGURA N°07: DIAGRAMA DE DISPERSIÓN

MÉTODO DE MÍNIMOS CUADRADOS PARA CÁLCULO DE a Y b: n x y− x y b = ∑ 2 ∑ ∑2 n ∑ x − (∑ x )

∑ y −b ∑x

a=

n

n

ERROR ESTÁNDAR DE ESTIMACIÓN En una medida de dispersión de los valores observados alrededor de la línea de regresión:

s y,x = S y. X =

∑(y − y

est

)2

n−2

∑Y

2

− a ∑ Y − b∑ XY n−2

INTERVALO DE CONFIANZA Estima el valor medio de y para una x dada:

yest ± tα / 2;n−2 .s yx .

1

n

( x − x) 2

+

∑x

2



(∑ x) 2 n

INTERVALO DE PREDICCIÓN Estima el rango de valores de y para una x dada:

yest ± tα / 2;n−2 .s yx . 1 +

1 + n

( x − x) 2 (∑ x ) 2 2 − x ∑ n

Ejemplo El gerente municipal de construcción considera que la demanda de camionadas de hormigón puede estar relacionada con el número de permisos de construcción emitidos en el municipio durante el trimestre anterior. El gerente ha recolectado los datos que se muestran en la tabla.

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Permisos de

Camionadas de

construcción (X)

hormigón (Y)

15

6

9

4

40

16

20

6

25

13

25

9

15

10

35

16

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Se pide determinar una estimación del número de camionadas cuando el número de permisos de construcción es 30. Solución i) Realizamos el gráfico de dispersión para el análisis visual FIGURA N°08: DIAGRAMA DE DISPERSIÓN

ii) Realizamos los cálculos en la tabla: n

X

Y

XY

X2

Y2

1

15

6

90

225

36

2

9

4

36

81

16

3

40

16

640

1600

256

4

20

6

120

400

36

5

25

13

325

625

169

6

25

9

225

625

81

7

15

10

150

225

100

8

35

16

560

1225

256

Totales

184

80

2146

5006

950

iii) Coeficiente de correlación

r=

r=

[n∑ X

n∑ XY − ∑ X ∑ Y 2

][

− (∑ X ) n∑ Y 2 −(∑ Y ) 2 2

8(2146) − (184)(80)

[8(5006) − (184) ][8(950) − (80) ] 2

2

]

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

117

ollo nidos

as nadas

torio

118

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

2448 = 7430400

r=

Anotaciones

0.90 Por lo tanto podemos indicar que existe buena relación entre las dos variables, siendo el 81% de la variación total explicado por el análisis de regresión.

iv) Hallamos las medias de X y Y:

X = 23

Y = 10 v) Hallamos los valores de a y b, utilizando las fórmulas: n x y− x y b = ∑ 2 ∑ ∑2 n ∑ x − (∑ x )

a=

∑ y −b ∑x n

n

b = 0.395

a = 0.915

vi) Planteamos la ecuación de la regresión:

y = a + bx y = 0.915 + 0.395 x vii) El número de camionadas cuando el número de permisos de construcción es 30 se puede encontrar sustituyendo el valor en la ecuación.

x = 30 y = 0.915 + 0.395(30) x

y = 12.76 ≈ 13 El número de embarques será de 13 aproximadamente. viii) Por lo tanto, la desviación estándar de la regresión es

S y. X = SY . X =

∑Y

2

− a ∑ Y − b∑ XY n−2

950 − (0.91)(80) − (0.396)(2146) 8−2

S Y . X = 2.2 embarques ix) Si queremos calcular el intervalo de predicción utilizamos:

yest ± tα / 2;n−2 .s yx . 1 +

s yx . 1 +

1 + n

1 + n

( x − x) 2 (∑ x) 2 2 x − ∑ n

( x − x) 2 = 2.4 (∑ x) 2 2 ∑x − n

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

tα / 2;n−2 = 2.447 Intervalo de predicción (inferior) = 13 – 5.87 = 7.1 Intervalo de predicción (superior) = 13 + 5.87 = 18.9 7.1< Embarques < 19 Ejercicio La temperatura del aire disminuye con la altura de la localidad, los datos siguientes refuerzan la idea y hacen presumir una relación lineal entre la temperatura Y y la altura X observada en ciertos puntos de la costa y parte de la sierra al amanecer. X altura en metros

Y temperatura en ºC

1642

18

2242

12

1000

19

937

21

1178

18

1502

16

2043

0

1502

14

1603

10

975

16

1549

15

1066

20

1495

15

1508

18

1000

23

1000

19

1971

19

982

23

1173

18

907

21

1790

12

2109

11

1410

14

1777

6

910

19

Si usted se encontrara al amanecer, a 2000 m en alguno de dichos lugares, ¿qué temperatura esperaría soportar? Realice previamente el diagrama de dispersión. Es importante indicar que también existe la regresión no lineal simple, cuando los datos no se ajustan al comportamiento de una recta es necesario encontrar el modelo que los explique, en este caso el mejor modelo será el que tenga un mejor coeficiente de determinación. Entre los más importantes se tiene:

Bibliografía

119

ollo nidos

as nadas

torio

120

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

REGRESIÓN EXPONENCIAL

y = ab x Anotaciones

REGRESIÓN POTENCIAL

y = ax b REGRESIÓN POLINOMIAL

y = a 0 + a1 x + a 2 x 2 + ... + a k x k REGRESIÓN CUADRÁTICA

y = a0 + a1 x + a2 x 2 2 CORELACIÓN REGRESIÓN MÚTIPLE La regresión múltiple analiza la relación lineal entre una variable de respuesta (y) y dos o más variables de predicción (x1, x2, …,xi), por lo complicado en su análisis utilizaremos el Excel como herramienta. El objetivo es ajustar un modelo de la forma estimando los parámetros correspondientes y calcular el coeficiente de determinación . Ejemplo Se tiene el siguiente registro de datos: y

X1

X2

8

4

20

10

3

22

12

6

23

13

6

26

15

7

27

18

8

30

Realice el ajuste de regresión múltiple.

Solución i) Llevamos los datos a una hoja del Excel.

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

ii) Ir a la pestaña análisis de datos en la opción datos del menú.

iii) Al activar el comando regresión, seleccionar las celdas que se solicita:

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

Bibliografía

121

ollo nidos

122

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

iv) Luego de presionar Aceptar, se muestran los siguientes resultados:

v) De aquí se puede extraer lo siguiente: Intercepción = =-8.894737 Variable X1 =

= 0.3684211

Variable X1 =

= 0.7894737

vi) Por lo tanto, la ecuación de regresión múltiple ajustada es :

Y= −8.8947 + 0.3684 X 1 + 0.7895 X 2

2 y su R = 0.9784 (97.84%)

2 ELABORACIÓN DE MODELOS DE REGRESIÓN Para elegir el mejor modelo de regresión, debemos analizar el coeficiente de determinación, aquel modelo que tenga el mayor R2 será el que ajusta mejor el comportamiento de los datos. Ejemplo Elija el mejor modelo para el comportamiento de los siguientes datos: x

y

5

69

9

68

10

45

15

48

15

53

16

50

23

45

25

40

26

23

28

36

29

21

31

32

33

21

34

15

35

26

36

10

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Solución

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

i) En el Excel, generemos el diagrama de dispersión, utilizando el comando Insertar… Gráficos… Dispersión. Recordatorio

ii) Haciendo click derecho en cualquier punto activar el comando Agregar línea de tendencia.

Anotaciones

Bibliografía

123

ollo nidos

124

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

iii) Se muestran las opciones donde debemos realizar la prueba en cada modelo para poder observar el coeficiente de correlación.

iv) Activamos también Presentar el valor R en el gráfico asi como Presentar ecuación en el gráfico.

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

vi) Quedando el gráfico del siguiente modo:

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

FIGURA N°09: DIAGRAMA DE DISPERSIÓN

Donde podemos observar el coeficiente de determinación y el modelo matemático. vii) El mejor coeficiente y por lo tanto el mejor modelo encontrado pero más complicado es el polinómico de grado 6. La ecuación del modelo es presentada por el Excel de la siguiente forma:

En el gráfico se muestra el resultado:

Bibliografía

125

ollo nidos

126

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

Ejercicio Elija el mejor modelo para el comportamiento de los siguientes datos: x

y

48

1

56

1.25

58

1

58

3

59

4.5

62

3

67

2.5

68

3

69

6

69

4

75

1.5

78

3.6

79

5

102

1.25

109

3

110

4

TEMA N° 2: CONTROL ESTADÍSTICO DE PROCESOS A medida como la ciencia y tecnología ha ido evolucionando, se ha hecho necesario e indispensable realizar el control estadístico de los procesos sobre todo para controlar los indicadores de centralización y sobre ello tomar decisiones, para prevenir, mejorar, optimizar, minimizar, etc. Los requerimientos de tal o cual proceso. La Gestión de la Calidad en todo ámbito ha hecho de la Estadística una herramienta indispensable para el cumplimiento de sus metas, es por ello la importancia del presente capítulo, donde haremos énfasis en las gráficas de control para la media y para la varianza.

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

FIGURA N°10: LAS 7 HERRAMIENTAS ESTADÍSTICAS BÁSICAS PARA LA GESTIÓN DE LA CALIDAD

GRÁFICOS DE CONTROL O CARTAS DE CONTROL Sirven para monitorear el proceso, prevenir defectivos y facilitar la mejora. Hay dos tipos de cartas de control: por atributos (juzga productos como buenos o malos) y por variables (variables como, temperaturas). Las ventajas del uso de una gráfica de control son: •

Es una herramienta simple y efectiva para lograr un control estadístico.

• Es de fácil manejo por los operarios, por lo cual puede dar información confiable a la gente cercana a la operación en el momento en que se deben de tomar ciertas acciones. • Cuando un proceso está en control estadístico puede predecirse su desempeño respecto a las especificaciones. En consecuencia, tanto el productor como el cliente pueden contar con niveles consistentes de calidad y ambos pueden contar con costos estables para lograr ese nivel de calidad. • Una vez que un proceso se encuentra en control estadístico, su comportamiento puede ser mejorado posteriormente reduciendo la variación. • Al distinguir ente las causas especiales y las causas comunes de variación, dan una buena indicación de cuándo un problema debe ser corregido localmente y cuando se requiere de una acción en la que deben de participar varios departamentos o niveles de la organización. En el Control de la Calidad mediante el término variable se designa a cualquier característica de calidad “medible” tal como una longitud, peso, temperatura, etc. Mientras que se denomina atributo a las características de calidad que no son medibles y que presentan diferentes estados tales como conforme y disconforme o defectuoso y no defectuoso. 1 GRÁFICOS DE CONTROL PARA LA MEDIA Y VARIANZA

Su campo de aplicación se puede resumir en el siguiente cuadro: CARTA

DESCRIPCIÓN

CAMPO DE APLICACIÓN

X-R

Medias y Rangos.

Control de características individuales.

X-S

Medias y desviación estándar.

Control de características individuales.

Bibliografía

127

ollo nidos

128

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

CUADRO N° 22: COEFICIENTES PARA LAS CARTAS DE CONTROL3

CÁLCULO DE LOS LÍMITES DE CONTROL Los límites de control son calculados para determinar la variación de cada subgrupo, están basados en el tamaño de los subgrupos y se calculan de la siguiente forma:

LSC R = D4 R

LSC X = X + A2 R

LIC R = D3 R

LIC X = X − A2 R

Donde D4, D3, A2 son constantes que varían según el tamaño de muestra.

2

GRÁFICOS DE CONTROL PARA ATRIBUTOS Su campo de aplicación se puede resumir en el siguiente cuadro: CARTA

DESCRIPCIÓN

CAMPO DE APLICACIÓN

P

Proporciones.

Control de la fracción global de defectuosos de un proceso.

NP

Número de defectuosos.

Control del número de piezas defectuosas

C

Defectos por unidad.

Control de número global de defectos por unidad

U

Promedio de defectos por unidad.

Control del promedio de defectos por unidad.

En el presente texto analizaremos la gráfica de control para proporciones (P). Sus límites de control se calculan de la siguiente forma:

3 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 740

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

LSC p = p + 3 Donde:

p=

p (1 − p ) n

LIC p = p − 3

p (1 − p ) n

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

np1 + np 2 + .... + np k n1 + n2 + ..... + nk

Para ambos casos se debe tener en cuenta en el análisis de las gráficas que los procesos estarán fuera de control si tienen los siguientes comportamientos: FIGURA N°11: DIAGRAMAS DE DISPERSIÓN Y PROCESOS FUERA DE CONTROL4

Ejemplo Se toman las medidas de los diámetros de una pieza cilíndrica, el tamaño de muestra de cada subgrupo es de cinco, y se toman 25 subgrupos a intervalos de 1 hr. Realice la carta de control X--R

4 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 737

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Bibliografía

129

ollo nidos

130

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

. Solución i) Calculamos el rango y el promedio para cada grupo:

ii)

R = 0.198 y X = 0.71

iii) Luego calculamos los límites para los Rangos:

LSC R = D4 R = 2.11x0.198 = 0.41

LIC R = D3 R = 0 iv) Finalmente calculamos los límites para las medias:

LSC X = X + A2 R = 0.71 + (0.58 x0.198) = 0.82

LIC X = X − A2 R = 0.71 − (0.58 x0.198) = 0.59 v) Luego graficamos: FIGURA N°12: DIAGRAMA DE CONTROL

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

v) La carta de control R muestra un punto fuera de los límites de especificaciones, por lo cual el proceso se encuentra fuera de control, en este caso es necesario investigar las causas y tomar las acciones correctivas para eliminar el problema. Ejemplo Un fabricante de latas de aluminio registra el número de partes defectuosas, tomando muestras cada hora de n = 50, con 30 subgrupos. Realizar la gráfica de control para la siguiente serie de datos obtenida durante el muestreo.

Solución i) Calculamos la fracción defectuosa de cada muestra:

ii) Luego hallamos la proporción total:

iii) Hallamos los límites de control:

LSC p = p + 3

0.23 * 0.77 p (1 − p ) = 0.2313 + 3 =0.4102 n 50

Bibliografía

131

ollo nidos

132

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

iv) Finalmente trazamos la gráfica: FIGURA N°13: DIAGRAMA DE CONTROL

Diagrama

Objetivos

Inicio

v) Observamos que el proceso está fuera de control. Desarrollo de contenidos

Actividades

Autoevaluación

LECTURA SELECCIONADAS N° 1 Lecturas seleccionadas

Glosario

Bibliografía

¿PODEMOS PREDECIR EL MOMENTO DE LA SIGUIENTE ERUPCIÓN DEL GÉISER OLD FAITHFUL? Mario Triola. Página 515 Recordatorio Anotaciones El géiser Old Faithful es la atracción más visitada del Parque Nacional Yellowstone. Está ubicado cerca del hotel Old Faithful Inn, que tal vez sea la segunda atracción más visitada de Yellowstone. Los turistas disfrutan la comida, las bebidas, el alojamiento y las tiendas del hotel, pero quieren asegurarse de ver al menos una erupción del famoso géiser Old Faithful. Los guardabosques del parque ayudan a los turistas publicando el momento predicho de la siguiente erupción. ¿Cómo hacen esas predicciones?

Cuando el Old Faithful hace erupción, se registran las siguientes mediciones: duración (en segundos) de la erupción, el intervalo de tiempo (en minutos) entre la erupción anterior y la erupción actual, el intervalo de tiempo (en minutos) entre la erupción actual y la siguiente, y la altura (en pies) de la erupción. En la tabla adjunta se incluyen mediciones de ocho erupciones. (Las mediciones de la tabla son ocho de las 40 erupciones incluidas en el conjunto de datos 11 del apéndice B del libro Estadística de Mario Triola). La tabla incluye una muestra pequeña con el fin de que los cálculos sean más fáciles cuando los datos se utilicen para analizar los métodos de las siguientes secciones. Una vez que ocurre una erupción, queremos predecir el momento de la siguiente, que es el “intervalo de tiempo posterior” a la erupción. Para ver cuáles variables afectan los “intervalos de tiempo posteriores”, podríamos comenzar construyendo diagramas de dispersión como los que genera el Excel. Al examinar los patrones de los puntos en los tres diagramas de dispersión, podemos plantear las siguientes conclusiones subjetivas: 1. Al parecer hay una relación entre el intervalo de tiempo posterior a una erupción y la duración de la erupción. 2. Parece que no existe una relación entre el intervalo de tiempo posterior a una erupción y la altura de la erupción. 3. Parece que no existe una relación entre el intervalo de tiempo posterior a una erupción y el intervalo de tiempo previo a la erupción. Este tipo de conclusiones basadas en diagramas de dispersión son subjetivas, y en este capítulo presentamos herramientas para analizar temas como éstos: -¿De qué manera se pueden utilizar métodos estadísticos para determinar objetivamente si hay una relación entre dos variables, como los intervalos de tiempo posteriores a las erupciones y la duración de éstas?

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

-Si existe una relación entre dos variables, ¿cómo podemos describirla? ¿Hay alguna ecuación que se pueda usar para predecir el momento de la siguiente erupción del géiser, dada la duración de la erupción actual?

-Si podemos predecir el momento de la siguiente erupción del Old Faithful, ¿qué Recordatorio tan exacta resultará esa predicción? Erupciones del géiser Old Faithful Duración

240

120

178

234

235

269

255

220

Intervalo previo

98

90

92

98

93

105

81

108

Intervalo posterior

92

65

72

94

83

94

101

87

Altura

140

110

125

120

140

120

125

150

Diagrama

Objetivos

Desarrollo de contenidos

Actividades

Inicio

ACTIVIDAD N° 1: Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Bibliografía

Desarrollo de contenidos

Actividades

ACTIVIDAD N° 2: Autoevaluación

Esta actividad puede consultarla en su aula virtual.

Recordatorio

Anotaciones

Diagrama

Objetivos

Inicio

Lecturas seleccionadas

Glosario

Bibliografía

Desarrollo de contenidos

Actividades

TAREA ACADEMICA N° 2 Recordatorio

Lecturas seleccionadas

Anotaciones

Esta actividad puede consultarla en su aula virtual. Glosario



Recordatorio

Autoevaluación

Anotaciones

Bibliografía

Anotaciones

Bibliografía

133

ollo nidos

as nadas

torio

134

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD IV:InicioCORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

Diagrama

Objetivos

Desarrollo de contenidos

Actividades

Lecturas seleccionadas

Glosario

Autoevaluación

GLOSARIO5 Anotaciones

Recordatorio

Bibliografía

Análisis de contingencia: Es el estudio que se realiza con las tablas de contingencia y consiste en analizar el grado de asociación o dependencia entre dos variables cualitativas; para medir el grado de dependencia se utiliza el coeficiente de contingencia. (Ver coeficiente de contingencia). Anotaciones Análisis de correlación: Es el estudio que se realiza para medir la intensidad o grado de la asociación que existe entre variables numéricas. Análisis de regresión: Es el estudio que se realiza con el propósito de hacer predicciones. El objetivo es el desarrollo de un modelo estadístico que pueda ser utilizado para predecir valores de una variable dependiente, basado en los valores de la variable independiente. Análisis de varianza: Es un método para comparar dos o más medias (Ver media) de «n» grupos analizando la varianza de los datos, tanto entre «n» grupos como dentro de ellos. Bondad de ajuste: Es un indicador que permite discernir acerca de qué tan buena es la ecuación obtenida. Para determinar la bondad de un ajuste se utilizan diferentes criterios en la regresión lineal. Unos se refieren a los residuales como son el valor de la sumatoria de residuales al cuadrado, la varianza, la desviación estándar del ajuste y el coeficiente de correlación al cuadrado. Otro indicador de la bondad de ajuste es el realizado mediante el test de bondad de ajuste utilizando la prueba Ji-Cuadrada (X2), Kolgomorov -Smirnov (K-S) entre otras. Coeficiente de correlación lineal de pearson: Es un número que mide la intensidad de la asociación lineal entre dos variables. El coeficiente de correlación se representa simbólicamente por "r". Coeficiente de determinación: Es un valor que se obtiene elevando al cuadrado el coeficiente de correlación. Se representa simbólicamente por r2 y puede tomar valores entre 0 y 1. El coeficiente de determinación mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de la variable dependiente. Coeficientes de regresión: Son los valores constantes de una ecuación de regresión lineal. En el modelo de regresión lineal siguiente los coeficientes son a y b. Contraste de hipótesis: Conocido también como dócima o prueba de hipótesis, es el proceso estadístico que se sigue para la toma de decisiones a partir de la información de la muestra. Comparando el valor del estadístico experimental con el valor teórico, se rechaza o acepta la hipótesis nula (H0). Lo contrario a la hipótesis nula se llama hipótesis alterna (H1). Diagrama de dispersión: Es un gráfico utilizado para representar la relación entre los valores observados de dos variables numéricas. También se conoce como nube de puntos. Muestra: Es un subconjunto representantivo de la población a partir del cual se pretende realizar inferencias respecto a la población de donde procede. Los elementos seleccionados con cierta técnica reúnen ciertas características que la hacen ser representativa, significativa y confiable y que en base a ella se pueden hacer inferencias respecto a la población. La muestra puede ser probabilística y no probabilística. Muestra no probabilística: Es aquella que se obtiene mediante juicio de la persona que selecciona los elementos de la muestra que usualmente es un experto en la materia. Este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo. Las principales 5

Glosario Básico INEI

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.

Recordatorio Muestra probabilística: Es aquella muestra obtenida por un mecanismo de probabilidades, en el cual cada elemento de la población total o universo tiene una probabilidad conocida de selección. (Ver muestreo aleatorio).

Muestreo: Es un conjunto de métodos y procedimientos estadísticos destinados a la selección de una o más muestras es la técnica seguida para elegir muestras. El objetivo principal de un diseño de muestreo es proporcionar procedimientos para la selección de muestras que sean representativas de la población en estudio. Muestreo aletorio simple: También llamado irrestrictamente aleatorio. Es un método de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Una muestra aleatoria es también llamada una muestra probabilística es aquella cuyos elementos se seleccionan individualmente de la población en forma aleatoria, y es preferida por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Por conveniencia, este método puede ser reemplazado por una tabla de números aleatorios cuando una población es infinita. Se aplica cuando los datos son casi homogéneos. Una variante del muestreo aleatorio simple es el muestreo aleatorio sistemático. Otros tipos más comunes de muestreo aleatorio son: muestreo aleatorio estratificado y muestreo por conglomerados. Muestreo sistemático: Es una variante del método aleatorio simple de selección de cada elemento de la muestra. Se aplica cuando la población está listada en algún orden. Consiste en seleccionar un número aleatorio menor que N/n y luego los (n-1) elementos de la muestra se eligen agregando al primer aleatorio: el entero K obtenido por K=N/n y así sucesivamente. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la misma precisión de estimación acerca de la población que una muestra aleatoria simple cuando los elementos en la población están ordenados al azar. Muestreo estratificado aleatorio: Es un método de muestreo que se aplica cuando se divide la población en grupos, llamados estratos, donde los datos son más homogéneos pero un estrato frente al otro muy distintos. Para extraer la muestra aleatoria se aplica el muestreo aleatorio simple a cada estrato y el tamaño es la suma de los tamaños de todos los estratos. Para determinar los tamaños de los estratos se puede utilizar la asignación proporcional, óptima y óptima económica. Si no se conoce la variabilidad de los datos se aplica la asignación proporcional. Muestreo por conglomerados: Es un método de muestreo en el cual la población está en grupos debido a la organización administrativa u otro (conglomerados). Ejemplo: Colegios, Universidades, manzanas de casas, entre otros. Al interior de los conglomerados no se puede garantizar homogeneidad. Cada conglomerado es una unidad donde la muestra se selecciona como en el muestreo aleatorio simple y se aplica la encuesta a todos los elementos del conglomerado. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, se obtiene menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden frecuentemente a ser iguales. Nivel de significación: Se define como la probabilidad de rechazar la hipótesis nula cuando ésta es verdadera. Se le conoce también con el nombre de «error de tipo 1», simbólicamente se denota por . PARÁMETRO: Es cualquier valor característico de la población. Ejemplo: la media de la población, la desviación típica de la población. Sin embargo estos valores son desconocidos porque no siempre podemos tener todos los datos de la población para calcularlos.

Anotaciones

Bibliografía

135

ollo nidos

136

Actividades

Autoevaluación

as nadas

Glosario

Bibliografía

torio

Anotaciones

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

PRUEBA DE HIPÓTESIS: Es una técnica que permite rechazar o aceptar la hipótesis en base de la información proporcionada por la muestra. (Ver contraste de hipótesis). PRUEBA JI-CUADRADO: Es una prueba que permite contrastar si la hipótesis H0 es coherente con los datos obtenidos en la muestra. Se puede utilizar para: 1. Bondad de un ajuste. 2. Criterio de independencia. 3. Criterio de homogeneidad. REGIÓN DE ACEPTACIÓN: Es la región formada por el conjunto de valores con los cuales decidimos aceptar la hipótesis nula. REGIÓN DE RECHAZO: Conocida también como región crítica, está formada por el conjunto de valores con los cuales se rechaza la hipótesis nula. REGRESIÓN: Es una técnia de análisis para poner de manifiesto la estructura de dependencia que mejor explique el comportamiento de la variable dependiente o explicada (y) a través de un conjunto de variables independientes o explicativas (x1,x2....xp), con las que se supone está relacionada. El método más utilizado es el de los mínimos cuadrados. La ecuación a ajustar puede ser lineal o no lineal. En ambos casos el objetivo es el mismo: encontrar las mejores estimaciones de los parámetros y cuantificar la precisión de los mismos. REGRESIÓN LINEAL: La regresión será lineal cuando la curva obtenida o seleccionada sea una recta. Es la recta que mejor se ajusta a los datos. Se obtiene mediante el método de mínimos cuadrados. Para ello se debe calcular primero el coeficiente de correlación lineal que permite determinar, si efectivamente, existe relación entre las dos variables. Inicio Una vez encontrada la relación, la regresión permite definir la recta que mejor se ajusta a la nube de puntos (gráfico de pares ordenados).

Diagrama

Objetivos

Desarrollo de contenidos

Actividades

Autoevaluación

Lecturas seleccionadas

Glosario

Bibliografía

BIBLIOGRAFÍA DE LA UNIDAD IV

Triola, M.(2012). Estadística. México: Pearson Educación Berenson, M. y Levine, D. (2010).Estadística Básica en Administración, Conceptos y aplicaciones. Mexico: Prentice Hall

Recordatorio

Anotaciones

Mendenhall-Sincich .Probabilidad y Estadística para Ingeniería y Ciencias. Prentice Hall. Cuarta Edición. Díaz, A. (2013). Estadística Aplicada a la Administración y Economía. Mc Graw Hill. Primera Edición

s

s

o

Desarrollo UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS de contenidos

Objetivos

Inicio

Actividades

Autoevaluación

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Lecturas seleccionadas

Glosario

Recordatorio

Anotaciones

AUTOEVALUACIÓN DE LA UNIDAD IV 1. De un conjunto de datos se ha calculado la data que aparece en el cuadro debajo. Glosario

Anotaciones

i. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la cantidad de nicotina en términos de la variable de predicción (x) de la cantidad de alquitrán.

Bibliografía

ii. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la cantidad de nicotina en términos de la variable de predicción (x) de la cantidad de monóxido de carbono. iii. Elija la ecuación de regresión que exprese la variable de respuesta (y) de la cantidad de nicotina en términos de las variables de predicción (x) de la cantidad de alquitrán y la cantidad de monóxido de carbono. iv. De las ecuaciones de regresión elegidas en los incisos i), ii) e iii), ¿cuál es la mejor ecuación para predecir la cantidad de nicotina? v. ¿La mejor ecuación de regresión identificada en el inciso es una buena ecuación para predecir la cantidad de nicotina? ¿Por qué? VARIABLE DE

R

R2

PREDICCIÓN (X) Monóxido de carbono, Alquitrán

R2

ECUACIÓN DE REGRESIÓN

SIGNIFICANCIA

AJUSTADO

0.9661

0.9333

0.9282

y´=0.182 - 0.0186 X1 + 0.0818X2

5.16523E-16

Monóxido de carbono

0.8633

0.7453

0.7358

y´=0.1916+0.0606 X

1.67085E-09

Alquitrán

0.9614

0.9242

0.9214

y´=0.1540+0.0650 X

1.17863E-16

A) i) Y´=0.1540 + 0.0650X ii) Y´=0.1916 +0.0606X iii) Y´=0.182 - 0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la tercera v) Sólo tiene una variable. B) i) Y´=0.1916 +0.0606X ii) Y´=0.1540 + 0.0650X iii) Y´=0.182 - 0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la tercera v) Por el tipo de variable C) i) Y´=0.1540 + 0.0650X ii) Y´=0.1916 +0.0606X iii) Y´=0.182 +0.0818X2 iv) La mejor ecuación para hacer predicciones es la primera v) Tiene más variables dependientes D) i) Y´=0.1540+0.0650X ii) Y´=0.1916+0.0606X iii) Y´=0.182-0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la primera v) Tiene más variables independientes. E) i) Y´=0.1540 + 0.0650X ii) Y´=0.1916+0.0606X iii) Y´=0.182-0.0186X1+0.0818X2 iv) La mejor ecuación para hacer predicciones es la segunda v) Contiene las variables más importantes.

Bibliografía

137

ollo nidos

as nadas

torio

138

Actividades

Autoevaluación

Glosario

Bibliografía

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE PROCESOS

2. Señale V o F para cada enunciado: I. Una gráfica de rachas es una gráfica secuencial de valores de datos individuales a lo largo del tiempo. Anotaciones

II. Un proceso está bajo control estadístico si varía de forma natural, en patrones, sin ciclos o puntos fuera de lo común. III. La variación aleatoria se debe al azar; es el tipo de variación inherente a cualquier proceso que no es capaz de producir un bien o servicio exactamente de la misma forma cada vez. IV. La variación asignable resulta de causas identificables como; maquinaria defectuosa, empleados etc. a) VVVV b) FVVV c) VFVV d) VFFV e) FVFF 3. Los límites de control de medias para el siguiente conjunto de datos son: 1 10 12 13 08 2 13 11 10 06 3 10 09 11 13 4 08 12 13 11 5

14 10 11 05

a) LCS= 15.5 , LCI = 6.7 b) LCS= 16.5 , LCI = 5.7 c) LCS= 14.73 , LCI = 6.3 d) LCS= 14.27 , LCI =7.32 e) LCS= 14 , LCI =7

4. Ud. tiene dos diagramas de dispersión que servirán para que identifique el modelo matemático que se ajusta mejor a los datos indicados. Suponga que el modelo se va a emplear únicamente para el alcance que tienen los datos y considere sólo los modelos lineal, cuadrático, logarítmico, exponencial y potencial. Experimento de física: Un experimento para una clase de física implica dejar caer una pelota de golf y registrar la distancia (en metros) que cae en diferentes tiempos (en segundos) después de ser soltada. Los datos se incluyen en la siguiente tabla. Proyecte la distancia para un tiempo de 12 segundos, dado que la pelota de golf se dejo caer de un edificio con una altura de 50 m con el modelo de regresión más apropiado. Debe responder a: i)¿Cuál es el mejor modelo?, ii) ¿Cuál es el estimado? y iii) ¿Cómo interpreta los resultados?

TIEMPO

0

0.5

1

1.5

2

2.5

3

DISTANCIA

0

1.2

4.9

11

19.5

30.5

44

Desarrollo ANEXO de contenidos

a) i) Y= 4.8952X2 – 0.0286

Lecturas seleccionadas

ESTADÍSTICA II Actividades Autoevaluación MANUAL AUTOFORMATIVO

Glosario

ii) 705 metros iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio. Recordatorio

b) i) Y= 4.8952X2 – 0.0286X+0.0048 ii) 705 metros iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio. c) i) Y= 0.0286X +0.0048 ii) 705 metros iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el edificio. d) i) Y= 14.657X – 6.1143 ii) 169.67 metros iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el edificio, el experimento está errado. e) i) Y= 14.657X – 6.1143 ii) 169.67 metros iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el edificio. 5. Construya una gráfica para las medias y determine si la media del proceso está bajo control estadístico. Si no es así, identifique cuál de los tres criterios para establecer una falta de control conduce al rechazo de una media estadísticamente estable. ¿Necesita este proceso una acción correctiva?6 Marque lo incorrecto. a) Hay un patrón de variación creciente. b) Hay puntos que se ubican fuera del límite superior de control. c) Existen ocho puntos consecutivos que están por debajo de la línea central. d) La media del proceso se encuentra bajo control estadístico. e) El proceso necesita acciones correctivas. FIGURA N°14: REGISTRO DE DATOS7

6 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 747 7 Tomado de Estadística, Mario Triola, 10°Ed., Cap.14, página 747

Anotaciones

Bibliografía

139

ollo nidos

as nadas

torio

140

Actividades

Autoevaluación

Glosario

Bibliografía

ANEXO

ANEXO Nº 1 Solucionario de las Autoevaluaciones Anotaciones

AUTOEVALUACIÓN DE LA UNIDAD I No de pregunta

RESPUESTA

1 2

D A

3

E

4

B

5

E

6

B

7

D

8

D

9 10

A C

AUTOEVALUACIÓN DE LA UNIDAD II No de pregunta

RESPUESTA

1 2

E C

3

C

4

B

5

D

6

E

7

A

8

E

9 10

E C

AUTOEVALUACIÓN DE LA UNIDAD III No de pregunta

RESPUESTA

1 2

C D

3

A

4

E

5

E

AUTOEVALUACIÓN DE LA UNIDAD IV No de pregunta

RESPUESTA

1 2

D E

3

A

4

D

5

D

Related Documents

Estadistica
February 2021 1
Estadistica
March 2021 0
Estadistica
March 2021 0
Estadistica
January 2021 1
Estadistica
January 2021 4
Estadistica
January 2021 3

More Documents from "hercson"

Estadistica Ii.pdf
February 2021 0
February 2021 0
Libro Logistics_opt
March 2021 0
February 2021 0
Manual Et (nuevo)
February 2021 1