1-descriptivaunidimensional-2

  • Uploaded by: Yaiza Castillo
  • 0
  • 0
  • January 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View 1-descriptivaunidimensional-2 as PDF for free.

More details

  • Words: 2,333
  • Pages: 36
Loading documents preview...
Tema 1 Estadística descriptiva unidimensional

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Índice • Introducción • Tipos de datos • Tablas de frecuencias • Diagramas de barras y de tarta • Histogramas • Parámetros de posición • Parámetros de dispersión • Parámetros de asimetría y de curtosis

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Introducción

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Estadística descriptiva Estadística descriptiva: Tratamiento de un conjunto de datos con el fin de poner de manifiesto sus características más relevantes. Herramientas de la estadística descriptiva: • Tabulaciones • Cálculo de parámetros (posición, dispersión, asimetría, grado de relación, ...) • Gráficos (histogramas, diagramas Box-Whisker, diagramas de dispersión, ...)

Objetivo: Sintetizar o visualizar los aspectos esenciales de las pautas de variabilidad existentes en los datos y que quedan frecuentemente enmascarados en un alud de números.

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Tipos de datos

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Datos Cuantitativos: Datos numéricos

• Discretos:

Toma sólo determinados valores de la recta

Ejemplos: • Número de puntos al lanzar un dado • Número de picadas de ceratitis en cada naranja de un huerto • Número de errores en un programa de ordenador.

• Continuos:

Toma cualquier valor de la recta real continua (estaturas, pesos, rendimientos, tiempos, resistencias, etc.)

Datos Cualitativos: Cualidades (color de ojos, nacionalidad, defectos, medios de transporte, …)

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Tablas de frecuencias

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Datos cualitativos o cuantitativos con número finito de valores: Picadas (X i ) 0 1 2 3

Número de naranjas (n i ) 48 106 32 14

Frecuencia relativa (f i =n i /N) 0,24 0,53 0,16 0,07

Gravedad de un ataque de mosca del mediterráneo a partir del número de picadas en 200 naranjas

Datos continuos: Infinitos datos Límite del intervalo 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95

Se dividen los datos en K intervalos

Número de Frecuencia Centro del observaciones relativa intervalo X i (n i ) (f i =n i /N) 1.60 3 0.02 1.70 12 0.08 1.80 40 0.26 1.90 97 0.64

Hemos dividido la altura de 152 atletas en 4 intervalos

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Diagramas de barras y de tarta

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Ambos tipos de diagramas se usan para datos de naturaleza cualitativa. Barchart for RESIDENCIA

frequency

80 60

Diagrama de barras de frecuencias absolutas

40 20 0 hogar

otras

piso

residencia

Barchart for RESIDENCIA 60

Diagrama de barras de frecuencias relativas

percentage

50 40 30 20 10 0 hogar

otras

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

piso

residencia

Editorial: UPV

Ref:2005-637

Piechart for RESIDENCIA 12

37

RESIDENCIA hogar otras piso residencia

Diagrama de tarta de frecuencias absolutas

68

14

Piechart for RESIDENCIA 9,16%

Diagrama de tarta de frecuencias relativas

28,24%

RESIDENCIA hogar otras piso residencia 51,91%

10,69%

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Histogramas

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Histograma: Un histograma es una representación gráfica de un conjunto de datos de naturaleza cuantitativa continua (o discreta pero con un número elevado de valores diferentes) Histogram

frequency

40

Histograma de frecuencias absolutas de la ESTATURA de los encuestados

30 20 10 0 150

160

170

180

190

200

ESTATURA

Histogram 30

Histograma de frecuencias relativas de la ESTATURA de los encuestados

percentage

25 20 15 10 5 0 150

160

170

180

190

200

ESTATURA Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Los histogramas ponen de manifiesto: • Existencia de datos anómalos. • Mezcla de poblaciones distintas. • Datos artificialmente modificados. • No normalidad de los datos.

Consejos: • Se recomienda un mínimo de 40 a 50 datos para realizar un histograma • El número adecuado de tramos depende del tamaño de la muestra. Regla empírica:

(

n º de tramos  entero nº de datos

)

• Generalmente el número máximo de intervalos estará entre 15 y 20.

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Diagrama de frecuencias acumuladas: Nos permite ver las frecuencias acumuladas para el valor dado y los anteriores al actual. La gráfica tiene la forma de una línea no decreciente. En general se opera con frecuencias relativas y la altura final es por tanto 1 (100 si las frecuencias relativas se expresan en porcentaje). Histogram

percentage

100 80

Dada una estatura el valor de la ordenada nos da el porcentaje de encuestados que tienen una estatura menor o igual a esta

60 40 20 0 150

160

170

180

190

200

ESTATURA

El diagrama de frecuencias acumuladas permite responder directamente a preguntas como: ¿qué porcentaje de los alumnos miden más de 170 cm? ¿qué estatura sólo es superada por un 5% de los alumnos? Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Parámetros

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Conceptos generales Tipo de Parámetros que caracterizan la pauta de variabilidad de datos de naturaleza cuantitativa unidimensional Parámetros de posición: • Media • Mediana • Cuartiles

Parámetros de dispersión: • Recorrido • Varianza. Desviación típica. Coeficiente de Variación • Intervalo intercuartílico Parámetros de forma: • Asimetría • Curtosis Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Parámetros de posición

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Distribución 1



Distribución 2



Distinta posición. Misma dispersión.

x1

x2

X

Distribución 1

Misma posición. Distinta dispersión.

1 2

Distribución 2

x Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

X Editorial: UPV

Ref:2005-637

Media N

x=

x i =1

i

N: nº de individuos de la muestra

N

Propiedades: Y= a+bX

Y= a+bX

Sea U = (X,Y) v.a. bidimensional

Z = X+Y

Z=X+Y

La media es un buen parámetro de posición cuando la distribución de los datos es bastante simétrica. Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Mediana Valor central de los datos observados.

Cálculo: 1) Se ordenan N valores de menor a mayor 2) La mediana es: • valor que ocupa la posición

N +1 2

si N es impar

• media entre los valores que ocupan las posiciones:

N N , +1 2 2

si N es par

Nota: La mediana es un buen parámetro de posición cuando la distribución de los datos es bastante asimétrica o con valores extremos. Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Cuartiles Primer cuartil: Valor C1 tal que 1/4 (25%) de los datos son inferiores a él y 3/4 (75%)de los datos son superiores al mismo Tercer cuartil: Valor C3 tal que la 3/4 (75%) de los datos son inferiores a él y 1/4 (25%) de los datos son superiores al mismo

Cálculo sencillo C1: mediana de la mitad inferior de los datos C3: mediana de la mitad superior de los datos Nota Entre C1 y C3 tenemos el 50% de los datos o mediana (C2)

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Parámetros de dispersión

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Idea de dispersión 3, 3, 3, 3, 3

Dispersión nula

1, 3, 5, 7, 9

Dispersión no nula

1, 5, 10, 15, 20

Dispersión no nula y mayor que la anterior

Necesidad de índices que cuantifiquen la dispersión

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Recorrido Diferencia entre el mayor y el menor de los datos • Es útil en muestras pequeñas (control de procesos industriales donde es típico tomar muestras periódicas de tamaño 5). • Ignora gran parte de la información presente en la muestra • Depende del tamaño de la muestra ( en una misma población, muestras más grandes tendrán recorridos más altos que las muestras más pequeñas)

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Varianza. Desviación típica N

Varianza:

s2 =

2 ( ) x − x  i i =1

N −1

Promedio de los cuadrados de las desviaciones de los datos respecto a su media

N

Desviación típica: s =

2 ( ) x − x  i i =1

N −1

Se prefiere la desviación típica en lugar de la varianza por venir expresada en las mismas unidades que los datos originales

Propiedades:

Y= a+bX

s2(Y)=b2s2(X)

• Si X e Y son independientes o están incorrelacionadas s2(X+Y)=s2(X)+s2(Y) • Si X e Y son dependientes s2(aX+bY)=a2s2(X)+b2s2(Y)+2ab·cov(X,Y) cov(X,Y)

covarianza entre X e Y

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

m - s < X < m + s  68.3% m - 2s < X < m + 2s  95% m - 3s < X < m + 3s  99.7%

Si X  N(m,s) f(x)

f(x)

68,3% 15,9%

95,4% 2,3%

15,9%

m-s m m+s

2,3%

m-2s

X

m

m+2s

X

f(x)

99,7% 0,15%

m-3s

0,15%

m

m+3s

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Coeficiente de variación:

s CV = 100 x Propiedades: • Indicador de dispersión adimensional • Sirve para comparar precisiones en las medidas de las características que vienen en escalas diferentes

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Intervalo intercuartílico Diferencia entre el tercer (C3) y el primer cuartil (C1)

• Útil como indicador de dispersión cuando la distribución de los datos es asimétrica. • Es un indicador robusto de dispersión igual que lo es la mediana para la posición Ambos parámetros resultan poco influidos por los datos anómalos

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Parámetros de Forma: asimetría y curtosis

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Coeficiente de asimetría

(x − x ) (N − 1)  CA = 3

i

s

3

Nota Coeficiente de asimetría estandarizado: CA − estandarizado =

− 2  CA − estandarizado  2

CA estimación desv. típ. de CA en el muestreo

Datos proceden de Distribución Normal

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Datos con asimetría Positiva

Datos simétricos

Histogram

Histogram

Histogram

180

180

100

120 90 60

60 40

30

20

0

0 0

20

40

60

150

80

frequency

frequency

150

frequency

Datos con asimetría Negativa

80

120 90 60 30 0

6

9

12

15

18

21

-2

24

18

38

58

78

Y

X

Z

CA > 0

CA = 0

CA < 0

3 ( ) (N − 1) x − x  i

CA =

s3 Histogram

Histogram

Histogram

180

150

frequency

120 90

frequency

100

150

frequency

180

80 60

120 90 60

40

30

30

20

0

0

0

60

-2 0

20

40

60

X

x 3  (xi − x )  0

80

6

9

12

15

18

21

24

18

38

x

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

78

x

Z

3  (xi − x )  0

58

Y

 (x − x )

3

i

 0

Editorial: UPV

Ref:2005-637

Coeficiente de curtosis Datos Leptocúrticos

Datos Leptocúrticos Datos Normales Datos Planicúrticos

x1

xi

xn

X

• Valores muy alejados de la media con mayor frecuencia de la que cabría esperar para una distribución normal con la misma desviación típica. • Su histograma es más apuntado en las cercanías de la media. • Síntoma de observaciones anómalas o miembros de otras poblaciones.

Datos Planicúrticos • Valores muy alejados de la media con menor frecuencia de la que cabría esperar para una distribución normal con la misma desviación típica. • Su histograma es más plano en las cercanías de la media. • Síntoma de datos censurados para eliminar valores extremos o mezcla de poblaciones con diferentes medias.

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

(x − x ) (N − 1)  CC = −3 4

i

s

CC > 0

Datos leptocúrticos

CC = 0

Datos normales

CC < 0

Datos planicúrticos

4

Nota Coeficiente de curtosis estandarizado:

CC − estandarizado = − 2  CC − estandarizado  2

CC estimación desv. típ. de CC en el muestreo Datos proceden de Distribución Normal

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Diagramas Box-Whisker RI = 50% de los datos centrales

Box-and-Whisker Plot Datos anómalo “outlier”

media

Menor valor en la muestra considerado no anómalo

Mayor valor en la muestra considerado no anómalo 45

50

55

60

65

70

75

Peso chicas C1

C3 C2 mediana

Dato anómalo (“outlier”)

x  C1 − 1.5  RI

C 3 + 1.5  RI 

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

Herramienta práctica para la comparación de pautas de variabilidad existentes en distintos conjuntos de datos

Autoevaluación: Comparar la distribución de la ESTATURA entre chicos y chicas mediante los diagramas Box-Whisker correspondientes. Box-and-Whisker Plot

sexo

chicas

chicos

150

160

170

180

190

200

ESTATURA

Fuente: Rafael Romero Villafranca, Luisa Rosa Zúnica Ramajo “MÉTODOS ESTADÍSTICOS EN INGENIERÍA”

Editorial: UPV

Ref:2005-637

More Documents from "Yaiza Castillo"

January 2021 1
January 2021 1
Maridajes
January 2021 0
Kuji Kiri - Copia
January 2021 1