Loading documents preview...
Tema 1 Estadística descriptiva unidimensional
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Índice • Introducción • Tipos de datos • Tablas de frecuencias • Diagramas de barras y de tarta • Histogramas • Parámetros de posición • Parámetros de dispersión • Parámetros de asimetría y de curtosis
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Introducción
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Estadística descriptiva Estadística descriptiva: Tratamiento de un conjunto de datos con el fin de poner de manifiesto sus características más relevantes. Herramientas de la estadística descriptiva: • Tabulaciones • Cálculo de parámetros (posición, dispersión, asimetría, grado de relación, ...) • Gráficos (histogramas, diagramas Box-Whisker, diagramas de dispersión, ...)
Objetivo: Sintetizar o visualizar los aspectos esenciales de las pautas de variabilidad existentes en los datos y que quedan frecuentemente enmascarados en un alud de números.
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Tipos de datos
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Datos Cuantitativos: Datos numéricos
• Discretos:
Toma sólo determinados valores de la recta
Ejemplos: • Número de puntos al lanzar un dado • Número de picadas de ceratitis en cada naranja de un huerto • Número de errores en un programa de ordenador.
• Continuos:
Toma cualquier valor de la recta real continua (estaturas, pesos, rendimientos, tiempos, resistencias, etc.)
Datos Cualitativos: Cualidades (color de ojos, nacionalidad, defectos, medios de transporte, …)
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Tablas de frecuencias
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Datos cualitativos o cuantitativos con número finito de valores: Picadas (X i ) 0 1 2 3
Número de naranjas (n i ) 48 106 32 14
Frecuencia relativa (f i =n i /N) 0,24 0,53 0,16 0,07
Gravedad de un ataque de mosca del mediterráneo a partir del número de picadas en 200 naranjas
Datos continuos: Infinitos datos Límite del intervalo 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95
Se dividen los datos en K intervalos
Número de Frecuencia Centro del observaciones relativa intervalo X i (n i ) (f i =n i /N) 1.60 3 0.02 1.70 12 0.08 1.80 40 0.26 1.90 97 0.64
Hemos dividido la altura de 152 atletas en 4 intervalos
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Diagramas de barras y de tarta
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Ambos tipos de diagramas se usan para datos de naturaleza cualitativa. Barchart for RESIDENCIA
frequency
80 60
Diagrama de barras de frecuencias absolutas
40 20 0 hogar
otras
piso
residencia
Barchart for RESIDENCIA 60
Diagrama de barras de frecuencias relativas
percentage
50 40 30 20 10 0 hogar
otras
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
piso
residencia
Editorial: UPV
Ref:2005-637
Piechart for RESIDENCIA 12
37
RESIDENCIA hogar otras piso residencia
Diagrama de tarta de frecuencias absolutas
68
14
Piechart for RESIDENCIA 9,16%
Diagrama de tarta de frecuencias relativas
28,24%
RESIDENCIA hogar otras piso residencia 51,91%
10,69%
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Histogramas
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Histograma: Un histograma es una representación gráfica de un conjunto de datos de naturaleza cuantitativa continua (o discreta pero con un número elevado de valores diferentes) Histogram
frequency
40
Histograma de frecuencias absolutas de la ESTATURA de los encuestados
30 20 10 0 150
160
170
180
190
200
ESTATURA
Histogram 30
Histograma de frecuencias relativas de la ESTATURA de los encuestados
percentage
25 20 15 10 5 0 150
160
170
180
190
200
ESTATURA Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Los histogramas ponen de manifiesto: • Existencia de datos anómalos. • Mezcla de poblaciones distintas. • Datos artificialmente modificados. • No normalidad de los datos.
Consejos: • Se recomienda un mínimo de 40 a 50 datos para realizar un histograma • El número adecuado de tramos depende del tamaño de la muestra. Regla empírica:
(
n º de tramos entero nº de datos
)
• Generalmente el número máximo de intervalos estará entre 15 y 20.
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Diagrama de frecuencias acumuladas: Nos permite ver las frecuencias acumuladas para el valor dado y los anteriores al actual. La gráfica tiene la forma de una línea no decreciente. En general se opera con frecuencias relativas y la altura final es por tanto 1 (100 si las frecuencias relativas se expresan en porcentaje). Histogram
percentage
100 80
Dada una estatura el valor de la ordenada nos da el porcentaje de encuestados que tienen una estatura menor o igual a esta
60 40 20 0 150
160
170
180
190
200
ESTATURA
El diagrama de frecuencias acumuladas permite responder directamente a preguntas como: ¿qué porcentaje de los alumnos miden más de 170 cm? ¿qué estatura sólo es superada por un 5% de los alumnos? Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Parámetros
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Conceptos generales Tipo de Parámetros que caracterizan la pauta de variabilidad de datos de naturaleza cuantitativa unidimensional Parámetros de posición: • Media • Mediana • Cuartiles
Parámetros de dispersión: • Recorrido • Varianza. Desviación típica. Coeficiente de Variación • Intervalo intercuartílico Parámetros de forma: • Asimetría • Curtosis Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Parámetros de posición
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Distribución 1
Distribución 2
Distinta posición. Misma dispersión.
x1
x2
X
Distribución 1
Misma posición. Distinta dispersión.
1 2
Distribución 2
x Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
X Editorial: UPV
Ref:2005-637
Media N
x=
x i =1
i
N: nº de individuos de la muestra
N
Propiedades: Y= a+bX
Y= a+bX
Sea U = (X,Y) v.a. bidimensional
Z = X+Y
Z=X+Y
La media es un buen parámetro de posición cuando la distribución de los datos es bastante simétrica. Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Mediana Valor central de los datos observados.
Cálculo: 1) Se ordenan N valores de menor a mayor 2) La mediana es: • valor que ocupa la posición
N +1 2
si N es impar
• media entre los valores que ocupan las posiciones:
N N , +1 2 2
si N es par
Nota: La mediana es un buen parámetro de posición cuando la distribución de los datos es bastante asimétrica o con valores extremos. Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Cuartiles Primer cuartil: Valor C1 tal que 1/4 (25%) de los datos son inferiores a él y 3/4 (75%)de los datos son superiores al mismo Tercer cuartil: Valor C3 tal que la 3/4 (75%) de los datos son inferiores a él y 1/4 (25%) de los datos son superiores al mismo
Cálculo sencillo C1: mediana de la mitad inferior de los datos C3: mediana de la mitad superior de los datos Nota Entre C1 y C3 tenemos el 50% de los datos o mediana (C2)
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Parámetros de dispersión
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Idea de dispersión 3, 3, 3, 3, 3
Dispersión nula
1, 3, 5, 7, 9
Dispersión no nula
1, 5, 10, 15, 20
Dispersión no nula y mayor que la anterior
Necesidad de índices que cuantifiquen la dispersión
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Recorrido Diferencia entre el mayor y el menor de los datos • Es útil en muestras pequeñas (control de procesos industriales donde es típico tomar muestras periódicas de tamaño 5). • Ignora gran parte de la información presente en la muestra • Depende del tamaño de la muestra ( en una misma población, muestras más grandes tendrán recorridos más altos que las muestras más pequeñas)
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Varianza. Desviación típica N
Varianza:
s2 =
2 ( ) x − x i i =1
N −1
Promedio de los cuadrados de las desviaciones de los datos respecto a su media
N
Desviación típica: s =
2 ( ) x − x i i =1
N −1
Se prefiere la desviación típica en lugar de la varianza por venir expresada en las mismas unidades que los datos originales
Propiedades:
Y= a+bX
s2(Y)=b2s2(X)
• Si X e Y son independientes o están incorrelacionadas s2(X+Y)=s2(X)+s2(Y) • Si X e Y son dependientes s2(aX+bY)=a2s2(X)+b2s2(Y)+2ab·cov(X,Y) cov(X,Y)
covarianza entre X e Y
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
m - s < X < m + s 68.3% m - 2s < X < m + 2s 95% m - 3s < X < m + 3s 99.7%
Si X N(m,s) f(x)
f(x)
68,3% 15,9%
95,4% 2,3%
15,9%
m-s m m+s
2,3%
m-2s
X
m
m+2s
X
f(x)
99,7% 0,15%
m-3s
0,15%
m
m+3s
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Coeficiente de variación:
s CV = 100 x Propiedades: • Indicador de dispersión adimensional • Sirve para comparar precisiones en las medidas de las características que vienen en escalas diferentes
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Intervalo intercuartílico Diferencia entre el tercer (C3) y el primer cuartil (C1)
• Útil como indicador de dispersión cuando la distribución de los datos es asimétrica. • Es un indicador robusto de dispersión igual que lo es la mediana para la posición Ambos parámetros resultan poco influidos por los datos anómalos
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Parámetros de Forma: asimetría y curtosis
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Coeficiente de asimetría
(x − x ) (N − 1) CA = 3
i
s
3
Nota Coeficiente de asimetría estandarizado: CA − estandarizado =
− 2 CA − estandarizado 2
CA estimación desv. típ. de CA en el muestreo
Datos proceden de Distribución Normal
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Datos con asimetría Positiva
Datos simétricos
Histogram
Histogram
Histogram
180
180
100
120 90 60
60 40
30
20
0
0 0
20
40
60
150
80
frequency
frequency
150
frequency
Datos con asimetría Negativa
80
120 90 60 30 0
6
9
12
15
18
21
-2
24
18
38
58
78
Y
X
Z
CA > 0
CA = 0
CA < 0
3 ( ) (N − 1) x − x i
CA =
s3 Histogram
Histogram
Histogram
180
150
frequency
120 90
frequency
100
150
frequency
180
80 60
120 90 60
40
30
30
20
0
0
0
60
-2 0
20
40
60
X
x 3 (xi − x ) 0
80
6
9
12
15
18
21
24
18
38
x
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
78
x
Z
3 (xi − x ) 0
58
Y
(x − x )
3
i
0
Editorial: UPV
Ref:2005-637
Coeficiente de curtosis Datos Leptocúrticos
Datos Leptocúrticos Datos Normales Datos Planicúrticos
x1
xi
xn
X
• Valores muy alejados de la media con mayor frecuencia de la que cabría esperar para una distribución normal con la misma desviación típica. • Su histograma es más apuntado en las cercanías de la media. • Síntoma de observaciones anómalas o miembros de otras poblaciones.
Datos Planicúrticos • Valores muy alejados de la media con menor frecuencia de la que cabría esperar para una distribución normal con la misma desviación típica. • Su histograma es más plano en las cercanías de la media. • Síntoma de datos censurados para eliminar valores extremos o mezcla de poblaciones con diferentes medias.
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
(x − x ) (N − 1) CC = −3 4
i
s
CC > 0
Datos leptocúrticos
CC = 0
Datos normales
CC < 0
Datos planicúrticos
4
Nota Coeficiente de curtosis estandarizado:
CC − estandarizado = − 2 CC − estandarizado 2
CC estimación desv. típ. de CC en el muestreo Datos proceden de Distribución Normal
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Diagramas Box-Whisker RI = 50% de los datos centrales
Box-and-Whisker Plot Datos anómalo “outlier”
media
Menor valor en la muestra considerado no anómalo
Mayor valor en la muestra considerado no anómalo 45
50
55
60
65
70
75
Peso chicas C1
C3 C2 mediana
Dato anómalo (“outlier”)
x C1 − 1.5 RI
C 3 + 1.5 RI
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637
Herramienta práctica para la comparación de pautas de variabilidad existentes en distintos conjuntos de datos
Autoevaluación: Comparar la distribución de la ESTATURA entre chicos y chicas mediante los diagramas Box-Whisker correspondientes. Box-and-Whisker Plot
sexo
chicas
chicos
150
160
170
180
190
200
ESTATURA
Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”
Editorial: UPV
Ref:2005-637