Loading documents preview...
Introducción a la Estadística Diana Carolina Macias Bióloga Esp. Comunicación y Creatividad para la docencia Mg. Ecología y Gestión de Ecosistemas Estratégicos
Que es Estadistica? La ciencia pura y aplicada (no exacta), que crea, desarrolla y aplica técnicas de modo que pueda evaluarse la incertidumbre.
•
Ciencia: "un conjunto de conocimientos comprobados y sistematizados".
• •
Pura: Por que estudia ciertos procesos teóricos.
•
No exacta: No podemos obtener un resultado único, si no probabilidades de resultados esperados.
Aplicada: En cuanto se encarga de resolver problemas específicos.
¿Qué es la estadística? Es una Ciencia que explica y provee de herramientas para trabajar con datos, que ha experimentado un gran desarrollo a lo largo de los últimos años. ¿En qué áreas se aplica la estadística? Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, Ingeniería, Psicología, Administración, Economía, Medicina, Ciencias Políticas, entre otras. Ejemplos de su aplicación son: 1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo. 2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares. 3
Ejemplos de su aplicación son: 3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos. 4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad. 5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa). 6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población. 7) En Ingeniería: Uno de los muchos usos es el control de calidad en la producción de maquinaria, permite evaluar la efectividad de un producto agrícola, En general, la estadística se emplea para medir las relaciones entre variables y hacer predicciones sobre ellas. 4
Método científico y estadística Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado método científico cuyas etapas son:
1)
Planteamiento del problema: consiste en definir el objetivo de la investigación y precisar el universo o población.
2)
Recogida de la información: consiste en recolectar los datos necesarios relacionados al problema de investigación.
3)
Análisis descriptivo: consiste en resumir los datos disponibles para extraer la información relevante en el estudio.
4)
Inferencia estadística: consiste en suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales.
5)
Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población
5
Método científico y estadística •
•
Plantear hipótesis sobre una población
•
Los fumadores tienen “más bajas” laborales que los no fumadores
•
¿En qué sentido? ¿Mayor número? ¿Tiempo medio?
•
• ¿Estratificado? ¿Sistemáticamente?
•
•
Qué individuos pertenecerán al estudio (muestras)
•
Fumadores y no fumadores en edad laboral.
•
Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas?
Qué datos recoger de los mismos (variables)
• • •
Número de bajas Tiempo de duración de cada baja
Describir (resumir) los datos obtenidos
• •
Decidir qué datos recoger (diseño de experimentos)
•
Recoger los datos (muestreo)
•
% de bajas por fumadores y sexo (frecuencias), gráficos,...
Realizar una inferencia sobre la población
•
•
tiempo medio de baja en fumadores y no (estadísticos)
Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.
Cuantificar la confianza en la inferencia
• •
Nivel de confianza del 95% Significación del contraste: p=2%
¿Sexo? ¿Sector laboral? ¿Otros factores?
6
Método científico y estadística Plantear hipótesis
Obtener conclusiones
Diseñar experimento
Recoger datos y analizarlos
7
PASOS • 1. Recolección de datos • 2. Organización de los datos
• 3. Análisis de los datos • 4. Conclusiones
Ejemplos de algunos problemas a estudiar 1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de la persona empleada. 2) Se quiere determinar el perfil de los trabajadores en términos de condiciones económicas y sociales en diferentes comunidades. 3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a vestuario, alimentación, ocio y vivienda. 4) Se quiere determinar las tallas estándar en vestuario para mujeres huilenses.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de distintas empresas del país. 6) Se quiere determinar el perfil sociodemográfico de los estudiantes de la Universidad Surcolombiana. 7) Se quiere estudiar el gasto en telefonía celular mensual de los estudiantes de una Universidad Surcolombiana, y si éste tiene alguna relación con su edad u otras características. 8) Se quiere investigar la proporción de estudiantes de Ing. Agrícola que realizan pasantía o tesis de grado, como modalidad de grado 9
DATOS (obtenidos en estudios estadísticos)
• • • •
Recolectar Describir
Organizar Interpretar con el fin de transformar dichos datos en información y conseguir una toma de decisiones más eficiente.
Historia
Conceptos Básicos
Población Muestra
•
Población: conjunto de los elementos a los que se somete un estudio estadístico Individuos o unidades estadísticas
Muestreo Datos • •
Reunión de los datos que se desea observar Encuesta presidencial
En el cuarto lugar está el exprocurador Alejandro Ordóñez Maldonado, 9,3%; seguido de Claudia López, 8,2%; Humberto De la Calle, 3,6%; Clara López, 3,5%; Jorge Robledo, con 3,1%; Juan Manuel Galán, con el 3,0%, Luis Alfredo Ramos, con 2,9%; Martha Lucía Ramírez, 2,5%; Iván Duque, 1,1%; Juan Carlos Pinzón, 0,8%; Carlos Holmes Trujillo, 0,3%; Juan Fernando Cristo, 0,2%; María del Rosario Guerra, 0,2%; Roy Barreras, 0,2%, y Rafael Nieto, 0,0%.
Marco Muestral •
Es una lista de los elementos que pertenecen a la población de la cual se obtendrá la muestra.
Diseño de la Muestra
•
Es importante que el marco muestral sea representativo de la población. Una vez establecido, se procede a la selección de los elementos de la muestra. Este proceso de selección se denomina Diseño de la Muestra. Este se clasifica en dos categorías:
–
Muestreo de Juicio (o de Selección intencional)
–
Muestreo probabilístico
Muestreo de Juicio (o de Selección intencional) •
Las muestras son elegidas con base en el hecho de que son “típicas”
Muestreo Probabilístico •
Son
muestras
en
que
los
elementos a seleccionar se obtienen
con
base
en
la
probabilidad. Cada elemento de una población tiene cierta probabilidad de ser elegido como parte de la muestra.
•
Uno
de
los
comúnmente recolectar
métodos
más
utilizado
para
datos
muestreo aleatorio.
es
el
Muestreo Aleatorio
•
Una
muestra
seleccionada
es de
modo que todos los elementos
de
la
población
tienen
la
misma
probabilidad
de ser elegidos.
Ejemplo •
La señorita Stfanny, quien trabaja en la
oficina
de
inscripciones,
ha
obtenido un listado por computadora de la matrícula de tiempo completo
para
este
semestre.
Hay
4.265
nombres de estudiantes en la lista. Stefanny numeró los nombres de los estudiantes como 0001, 0002, 0003,
etc.,
hasta
4.265;
luego,
usando
números aleatorios de cuatro cifras, identificó una muestra: 1288, 2177, 1952, 2463, 1644, 1004, etc.
Ejercicio 4 •
Considere una población simple que consta sólo de los números 1, 2 y 3 (una cantidad ilimitada de cada uno). Hay nueve muestras distintas de tamaño dos que pueden obtenerse de esta población: (1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2), (3,3).
a)
Explique porqué la lista anterior de muestras representa todas las posibles muestras aleatorias de tamaño dos que pueden extraerse aleatoriamente de la población {1, 2,
3}.
b)
Si la población consta de los números 1, 2, 3 y 4, enumere todas las muestras de tamaño dos que pueden elegirse.
c)
Si la población consta de los números 1, 2 y 3, enumere todas las muestras de tamaño
tres que pueden elegirse
d)
Si la población consta de los números 1, 2, 3 y 4, enumere todas las muestras de tamaño tres que pueden elegirse
DATO •
Valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una palabra o un símbolo
•
Ejemplo: Rosa Perez ingresó a la universidad a la edad de “23” años, su cabello es “café”, mide “1.50m” y pesa “53 kg”. Estas cuatro piezas de datos son los valores de las cuatro variables aplicadas a Rosa
DATOS •
Conjunto de valores recolectados para la variable de cada uno de los elementos
que pertenecen a la muestra
•
Ejemplo: El conjunto de 25 estaturas recolectadas de 25
estudiantes.
Métodos para recolectar datos Se controla o modifica el entorno y se observa el efecto sobre la variable bajo estudio.
Experimento
Los datos se obtienen al muestrear alguna parte de la población de interés. No se modifica el entorno
Encuesta
Recolección de Datos •
Definir los objetivos de la investigación o del experimento.
–
Ejemplos: comparar la eficacia de un nuevo medicamento con la eficacia del medicamento normal; estimar el ingreso familiar medio en algún municipio.
•
Definir la variable y la población de interés.
–
Ejemplos: duración del tiempo de recuperación de los pacientes que sufren alguna enfermedad particular; ingreso total de los hogares en algún municipio.
•
Definir los esquemas para recolectar y medir los datos.
–
Esto incluye los procedimientos de muestreo, el tamaño de la muestra y el
instrumento de medición (cuestionario, por teléfono, etc.) de los datos.
•
Determinar las técnicas idóneas para realizar el análisis de datos: descriptivas o inferenciales.
Nota: •
A menudo ocurre que un analista se encuentra con datos ya recolectados,
tal vez, incluso, recolectados para otros fines, lo cual imposibilita determinar si los datos son “buenos” o no. Es mucho mejor recolectar los datos propios.
•
A continuación se describe la población y la variable de interés para una investigación específica:
–
La oficina de inscripciones de nuestra universidad desea estimar el costo “promedio” actual de los libros de texto por semestre, por estudiante. La población de interés es la “matrícula estudiantil actual”,
y la variable es la “cantidad total gastada en libros de texto” por cada estudiante en este semestre.
Parámetro •
Valor numérico que resume todos los datos
de una población completa. Es un valor que describe a toda la población.
Ejemplo: La edad “promedio” en el momento de admisión de todos los estudiantes que han asistido alguna vez a una universidad o la “proporción” de estudiantes que tenían más de 21 años de edad cuando ingresaron a la universidad.
Estadística •
Valor numérico que resume los datos de la
muestra. Es un valor que describe una muestra.
Casi
todas
las
estadísticas
muestrales se determinan con ayuda de fórmulas
y
suele
asignárseles
denominaciones simbólicas.
•
Ejemplo:
La
estatura
“promedio”
encontrada al utilizar el conjunto de 25
estaturas es un ejemplo de una estadística muestral.
Determinar los términos básicos... •
Una estudiante de estadística de la
USCO,
está
interesada
en
determinar el promedio del valor en pesos de los automóviles que
pertenecen al cuerpo docente de nuestra universidad.
•
Cada
uno
de
los
términos
descritos pueden identificarse en esta situación
Determinar los términos básicos... •
La población es la colección de todos los automóviles que pertenecen a todos los miembros del cuerpo docente de la universidad.
•
Una muestra es cualquier subconjunto de esa población. Por ejemplo, una muestra serían los automóviles que pertenecen a los profesores del departamento de Ingeniería.
• •
La variable es el “valor en pesos” de cada automóvil individual.
•
Los datos serían el conjunto de valores que corresponden a la muestra obtenida ($100’000.000; $48’000.000; $30’000.000; $23’000.000...)
•
El experimento serían los métodos aplicados para seleccionar los automóviles que integren la muestra y determinar el valor de cada automóvil de la muestra. Podría efectuarse preguntando a cada miembro del departamento de matemáticas o de otras maneras.
•
El parámetro sobre el que se está buscando información es el valor “promedio” de todos los automóviles de la población.
•
La estadística que se encuentre es el valor “promedio” de todos los automóviles de la muestra.
Un dato podría ser el valor en pesos de un automóvil en particular. El automóvil del profesor Pepito Pérez está valuado en $100’000.000 pesos
VARIABLES •
Característica sobre
de
cada
individual
interés
elemento de
una
población o muestra
Ejemplo:
La
edad
de
un
estudiante que ingresa a la
universidad,
el
color
de
cabello, su estatura y su peso
su
Variable Cualitativa Clasifica o describe un elemento de una población. Las operaciones aritméticas como sumar y obtener promedios no son significativas para datos que resultan de una variable cualitativa
Cuantitativa Cuantifica un elemento de una población. Las operaciones aritméticas como sumar y obtener promedios sí son significativas para datos que resultan de una variable cuantitativa
Variable: corresponde a la característica de la Unidad de Análisis
TIPOS DE VARIABLES Variables Cuantitativas CONTINUA
DISCRETA
Variables Cualitativas NOMINAL
ORDINAL
Intervalo
Toma valores enteros Ejemplos: Número de Hijos, Número de empleados de una empresa, Número de asignaturas aprobadas en un semestre, etc. Toma cualquier valor dentro de un intervalo Ejemplos: Peso; Estatura; Temperatura, etc.
Característica o cualidad cuyas categorías no tienen un orden preestablecido. Ejemplos: Sexo, Deporte Favorito, etc. Característica o cualidad cuyas categorías tienen un orden preestablecido. Ejemplos: Calificación (S, N, A); Grado de Interés por un tema, etc. 33
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
TIPOS DE VARIABLES
Característica o cualidad cuyas categorías no tienen un orden preestablecido.
Ejemplos:
Característica o cualidad cuyas categorías tienen un orden preestablecido.
Ejemplos:
Toma valores enteros
Toma cualquier valor dentro de un intervalo
Ejemplos:
Ejemplos:
TIPOS DE VARIABLES Variables Cualitativas NOMINAL
Característica o cualidad cuyas categorías no tienen un orden preestablecido. Ejemplos:
ORDINAL
Característica o cualidad cuyas categorías tienen un orden preestablecido. Ejemplos:
Variables Cuantitativas DISCRETA
CONTINUA
Toma valores enteros
Toma cualquier valor dentro de un intervalo
Ejemplos:
Ejemplos:
Ejercicio 1 Un fabricante de medicamentos está interesado en la proporción de personas que padecen hipertensión
(presión arterial elevada) cuya condición pueda ser controlada por un nuevo producto desarrollado por su empresa. Se condujo un estudio en el que participaron 5000 personas que padecen de hipertensión, y se encontró que 80% de las personas pueden controlar su hipertensión con el medicamento. Suponiendo que las cinco mil personas son representativas del grupo con hipertensión, conteste las siguientes preguntas:
a)
¿Cuál es la población?
b)
¿Cuál es la muestra?
c)
Identifique el parámetro de interés
d)
Identifique la estadística y proporcione su valor
e)
¿Se conoce el valor del parámetro?
Ejercicio 2 •
Un técnico de control de calidad de una fábrica de maquinaria agrícola, selecciona piezas ensambladas de una línea de montaje y registra la siguiente información sobre cada pieza:
–
A: defectuosa o no defectuosa
–
B: el número de identificación del trabajador que ensambló la pieza.
–
C: el peso de la pieza.
a)
¿cuál es la población?
b)
La población ¿es finita o infinita?
c)
¿cuál es la muestra?
d)
Clasifique las respuestas para cada una de las tres variables como cualitativas o cuantitativas.
Ejercicio 3 •
Identifique las siguientes expresiones como ejemplos de variables de atributos (cualitativas) o
variables numéricas (cuantitativas)
a)
La resistencia a la rotura de un tipo de cuerda dado
b)
El color de cabello de los niños que se presentan a una audición
c)
El número de señales de alto que hay en poblaciones con menos de quinientos habitantes
d)
Si un grifo es o no defectuoso
e)
El número de respuestas contestados correctamente en una prueba estandarizada
f)
El tiempo necesario para contestar una llamada telefónica en cierta oficina de bienes raíces.
El proceso estadístico Población estadística Recolección de datos sobre los cuales se desea reunir información Conclusiones
Determinar lo que se quiere saber
Analizar las estadísticas. Determinar lo que indican sobre la población
Recolectar datos
Estadísticas de la muestra Gráfica numérica
Muestra Datos recolectados de la población
y Análisis de datos
x
Objetivo del análisis ¿Qué es necesario conocer? ¿Qué espera encontrarse? ¿Cómo se obtendrán los datos de la muestra?
Variable: corresponde a la característica de la Unidad de Análisis
TIPOS DE VARIABLES Variables Cuantitativas CONTINUA
DISCRETA
Variables Cualitativas NOMINAL
ORDINAL
Intervalo
Toma valores enteros Ejemplos: Número de Hijos, Número de empleados de una empresa, Número de asignaturas aprobadas en un semestre, etc. Toma cualquier valor dentro de un intervalo Ejemplos: Peso; Estatura; Temperatura, etc.
Característica o cualidad cuyas categorías no tienen un orden preestablecido. Ejemplos: Sexo, Deporte Favorito, etc. Característica o cualidad cuyas categorías tienen un orden preestablecido. Ejemplos: Calificación (S, N, A); Grado de Interés por un tema, etc. 41
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
ESTADÍSTICA DESCRIPTIVA
Estadística Descriptiva • -
OBJETIVO:
-
Un dato puede consistir en un solo número {58}, en un par de números {(1.66, 58)}, una terna {(1.66, 58, M)}, etc.
Resumir la información contenida en un conjunto de datos, usando para ello métodos gráficos y medidas numéricas que informan de lo más relevante.
Recordando… Cuando disponemos de un conjunto de datos, debemos identificar: 1. La característica que representan dichos datos (variable). 2. La población de la que proceden los datos (conjunto total de individuos de interés). 3. La naturaleza de los datos: 3.1. Variables cualitativas o atributos: Expresan una cualidad y no un valor numérico. Ejemplos: Sexo, Nacionalidad, Marcas de coche, Grado de Satisfacción con la Universidad, etc.. a) Cualitativa Nominal: Característica o cualidad cuyas categorías no tienen un orden preestablecido. Ejemplos: Sexo, Deporte Favorito, etc. b) Cualitativa Ordinal: Característica o cualidad cuyas categorías tienen un orden preestablecido. Ejemplos: Calificación (E,B,M,I); Grado de Interés por un tema, etc
3.2. Variables cuantitativas: Toma valores numéricos a) Cuantitativas Discretas: sólo pueden asumir ciertos valores y normalmente hay huecos entre ellos. Son conteos normalmente. Ejemplos: nº de asignaturas aprobadas, cantidad de hijos. b) Cuantitativas Continuas: puede asumir cualquier valor dentro de un intervalo. Normalmente representan magnitudes como longitud, superficie, volumen, peso, tiempo, dinero.
Formas de presentar y resumir la información de un conjunto de datos:
•A) Tabla de frecuencias A.1) Datos no agrupados A.2) Datos agrupados
•
B) Descripción gráfica B.1) Gráficos para v. cualitativas o cuantitativas discretas
B.2) Gráficos para v. cuantitativas continuas B.3) Diagramas acumulados B.4) Gráfico temporal
•
C) Descripción numérica C.1) Medidas de localización o centralización C.2) Medidas de dispersión o variabilidad C.3) Medidas de forma
A) Tabla de Frecuencias Intentan resumir la información recogida en la muestra, de forma que no se pierda nada de información (o poca). – Frecuencias absolutas: Es el número de veces que se presenta un valor o categoría de una variable. Se representa por fi. – Frecuencias relativas (porcentajes): Es el cociente entre la frecuencia absoluta y el número total de datos. Contabilizan el porcentaje de individuos de cada modalidad. Se representa por hi. – Frecuencias acumuladas: Contabilizan el número de individuos que toman un valor menor o igual que el dado en una modalidad. Sólo tienen sentido para variables cuantitativas (numéricas) Se representa por Fi y Hi.
¿Para qué se construyen las tablas de frecuencias ? 1.
ORDENAR
2. AGRUPAR 3. RESUMIR información
Ejemplo •
¿Cuántos individuos tienen menos de 2 hijos? frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
•
¿Qué porcentaje de individuos tiene 6 hijos o menos? 97,3%
•
¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? 2 hijos
Número de hijos
N° Hijos 0 1 2 3 4 5 6 7 Ocho+ Total
Frec. 419 255 375 215 127 54 24 23 17 1509
Porcent. (válido) 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0
Porcent. acum. 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0
≥50%
Problema de Investigación: Se quiere establecer el perfil de las industrias de alimentos en conserva en función de algunas características.
EJEMPLO
Unidad de Análisis: Industria de alimentos en Conserva Población: Industrias de Conservas del país
Variables - Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal) - Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta) - Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de producción. (cuantitativa continua) - Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares (Muy Bien, Bien, Regular, Mal). (cualitativa ordinal) Datos Industria nº 1 2 . . . 299 300
Tipo A B . . . D C
Nº Empleados 100 150 . . . 250 300
Superficie 1000,6 1200,4 . . . 800,3 4000,2
Calificación Muy Bien Bien . . . Mal Regular
49
Problema de Investigación: Se quiere establecer el perfil de las industrias de alimentos en conserva en función de algunas características.
EJEMPLO TABLAS DE FRECUENCIA Tipo de Industria A B C D Total
(1)
Frecuencia Absoluta (Fj)
Unidad de Análisis: Industria de alimentos en Conserva Población: Industrias de Conservas del país Frecuencia Relativa (fj)
300
Numero de Empleados <100 [100-150[ . . [950-1000] Total
Porcentaje (%)
1
Frec. Absoluta (Fj)
100
Frec.Relativa (fj) o %
Calificación Muy Bien Bien Regular Mal Total
Frec. Absol. Acum. (FAAj)
Frec. Absoluta (Fj)
Frec.Relativa (fj) o %
300
Frec. Absol. Acum. (FAAj)
Frec. Relat. Acum. (fraj) o %
300
1 (o 100)
1 (o 100)
(2)
Frec. Relat. Acum. (fraj) o %
(3) 300 300
1 (o 100%)
(4)
Superficie (mt2) <200 [200-400[ . . [50000-5200] Total
1 (o 100%)
Frec. Absoluta (Fj)
300
Frec.Relativa (fj) o %
1 (o 100%)
Frec. Absol. Acum. (FAAj)
Frec. Relat. Acum. (fraj) o %
300
1 (o 100%)
50
TIPOS DE GRÁFICOS
1. Gráfico de Sectores Circulares (de Torta) Distribución de las unidades de análisis de acuerdo a variable 1
Distribución de las unidades de análisis de acuerdo a variable 1
D 10%
D 10% C 40%
A 20%
A 20%
B 30%
Distribución de las unidades de análisis de acuerdo a variable 1 C 40%
B 30% D 10%
C 40%
A 20%
B 30%
51
TIPOS DE GRÁFICOS
2. Gráfico de Barras
Numero de unidades de análisis de acuerdo a variable 1
Proporción de unidad de análisis de acuerdo a variable 1
D
variable 1
500
300 200
C B A
100 0
0 A
B
C
D
variable 1 Porcentaje de unidad de análisis de acuerdo a variable 1
D variable 1
Nº
400
C B A 0
20
40
60
% unidad de análisis
80
100
0,2
0,4
0,6
0,8
1
Proporción de unidad de análisis
-Este tipo de gráfico se utiliza generalmente para representar la frecuencia de las categorías de una variable cualitativa. -Cuando una variable es cuantitativa se puede utilizar este tipo de gráfico sólo si la variable se ha transformada en categorías. -Hay distintas versiones de estos gráficos (por ejemplo en Excel), y en algunos casos son muy útiles para describir el comportamiento de una variable en distintos grupos.
52
TIPOS DE GRÁFICOS
3. Histograma
Histograma Distribución de los hijos de trabajadores de la empresa de acuerdo a edad
10
5
Nº
Frecuencia
15
0 7
8
9
10
11
12
13
14
edad edad
Ejemplo En el gráfico se puede observar -El número de hijos , de menor edad (7-8 años), -Los de mayor edad (13-14 años) -Que la mayoría de hijos de los trabajadores están entre los 10 y 12 años.
Histograma - Permite la representación de la frecuencia de una variable Cuantitativa. - El eje x se refiere a la variable. - El eje y se refiere a la frecuencia (Nº , %). - Cada barra representa la frecuencia de la variable en la población en estudio (o la muestra). -El histograma se puede construir desde los datos de la tabla de frecuencia de la variable en estudio. 53
TIPOS DE GRÁFICOS
5. Polígono de Frecuencia
Distribución de los hijos de trabajadores de
la empresa de acuerdo a edad
Nº Frecuencia
15
10
edad 5
0 7
8
9
10
11
edad
12
13
14
-Esta representación se basa en el Histograma. -Sólo es útil para variables cuantitativas. -El eje x se refiere a la variable. - El eje y se refiere a la frecuencia (Nº , %). -Los puntos que permiten la unión de las líneas representa el centro de clase (o marca de clase).
54
TIPOS DE GRÁFICOS
5. Diagrama de Caja
Edad de las personas que se realizaron angioplastía entre 1980 y 2000 100 90 80 70
Edad
60 50 40 30 20 10 0 N=
584
1473
Mujeres
Hombres
- Permite identificar gráficamente la mediana, los cuartiles 1 y 3 (percentiles 25 y 75), mínimo y máximo de una variable. - Sólo es útil para variables cuantitativas. -El eje x permite identificar la poblacion en estudio. - El eje y representa los valores de la variable en estudio.
55
MÉTODOS GRÁFICOS PARA DESCRIBIR UNA VARIABLE CUALITATIVA
Ejemplo. En una planta embotelladora se registraron 28 accidentes y de acuerdo con la parte del cuerpo lesionada, dedos (D), ojos (O), brazos (B) y piernas (P); se registró lo siguiente: D, D, D, D, D, D, D, D, D, D, D, D, D, D, D, D, D, D, D, D, O, O, O, O, O, O, O, O, B, B, B, B, P, P, P, P, P, P, P, P Se pide organizar los datos.
Frecuencias Frecuencia de categoría o frecuencia absoluta (fi)
• Representa
el número de observaciones que caen en esa categoría Frecuencia de categoría relativa o frecuencia relativa (hi) fi hi n Es la proporción del número total de observaciones que caen en esa categoría. También se expresa en porcentajes.
Distribución de los accidentes según la parte del cuerpo lesionada Lesión Dedos Ojos
Brazos Piernas
Frecuencia Frecuencia relativa h i (fi) (hi)
fi n
%
Distribución de los accidentes según la parte del cuerpo lesionada Lesión
Frecuencia Frecuencia relativa h i (fi) (hi)
fi n
%
Dedos
20
0,5
50
Ojos
8
0,2
20
Brazos
4
0,1
10
Piernas
8
0,2
20
Total
40
1
100
Para representar gráficamente la distribución de frecuencias de una variable cualitativa se utilizan las barras y los sectores circulares.
Nota: Si trabajamos con variables nominales las categorías pueden ser colocadas en cualquier orden. En el caso de escala ordinal las categorías deberán ser colocadas en orden.
Accidentes de trabajo según la parte lesionada
FI
25 20
15 20 10 8
5
4
8
0
Dedos
Ojos
Brazos
Piernas
ACCIDENTES DE TRABAJO SEGÚN LA PARTE LESIONADA
Piernas 20% Brazos 10%
Ojos 20%
Dedos 50%
Ejercicio. Completa la tabla de frecuencias realizada en una empresa que intenta diagnosticar el mal funcionamiento de los equipos electrónicos y a partir de ella, elabora el gráfico de barras y el sector circular.
Tipo de falla
fi
hi (%)
Hardware Software Conexiones deficientes Chips de tamaño incorrecto Otros
6 22 13 2 5
fi h i n
Ejercicio. Completa la tabla de frecuencias y a partir de ella, elabora el gráfico de barras y el sector circular. Tipo de falla
fi
hi (%)
Hardware Software Conexiones deficientes Chips de tamaño incorrecto Otros TOTAL
6 22 13 2 5 48
0,125 0,458 0,271 0,042 0,104 1
fi h i n
Ejercicio Los siguientes datos corresponden a lugares favoritos de vacaciones de empleados de una empresa:
los los
Mar – Montaña – Campo – Mar – Mar – Montaña – Campo – Mar – Mar – Montaña – Campo – Mar – Campo Completa la siguiente tabla y luego conclusiones: Lugar Campo Mar Montaña Total
Frecuencia Absoluta
obtén al menos dos
Frecuencia Relativa
Frecuencia Relativa %
Lugar Campo Mar Montaña Total
Frecuencia Absoluta Frecuencia Relativa 4 6 3 13
0,308 0,461 0,231 0,999
Frecuencia Relativa % 30,769 46,153 23,076 99,998
¿ Qué conclusión puedes inferir?
MÉTODOS GRÁFICOS PARA DESCRIBIR DATOS CUANTITATIVOS 1. DISCRETOS
Frecuencias Frecuencia de categoría absoluta acumulada (Fi)
• Representa
el número de observaciones que caen hasta esa categoría
Frecuencia de categoría relativa acumulada (Hi)
Fi Hi n
Es la proporción del número total de observaciones que caen hasta esa categoría. También se expresa en porcentajes.
Ejemplo:
Construir la distribución de frecuencias del número de trabajadores que se ausentaron en 25 días laborables:
2 1 2 4
3 2 1 3
3 2 0 2
0 1 1 4
1 3 2 2
2
3
3
1
0
Distribución del número de trabajadores que se ausentaron x 0 1 2 3 4
Conteo
fi
hi
Fi
Hi
fi h i n
F Hi i n
Distribución del número de trabajadores que se ausentaron x
Conteo
fi
hi
Fi
Hi
0
///
3
0,12
3
0,12
1
//// /
6
0,24
9
0,36
2
//// /
8
0,32
17
0,68
3
//// /
6
0,24
23
0,92
4
//
2
0,08
25
1
25
1
T
25
fi h i n
F Hi i n
• ¿Que porcentaje de los 25 días faltaron 3 trabajadores?
• ¿Que porcentaje de los días faltaron 2 ó menos trabajadores?
• ¿Cuántos días no faltó ningún trabajador?
• ¿Que porcentaje de los 25 días faltaron 3 trabajadores?
24%
• ¿Que porcentaje de los días faltaron 2 ó menos trabajadores?
68%
• ¿Cuántos días no faltó ningún trabajador? 3 dias
Representación gráfica
N° DÍAS
N° de trabajadores que se ausentaron
9 8
8 7
6
6
6
5 4
3
3
2
2 1
0 0
1
2
3
4
N°TRABAJADORES
Ejercicio Los siguientes datos corresponden a las notas obtenidas por un curso de 24 alumnos en un trabajo de matemáticas: 3,2 4,2 3,9 3,2 5,6 5,0
5,6 3,2
6,0 4,2
2,8 5,6
3,9 6,0
4,2 6,0
4,2 3,2
5,0 6,0
5,0 4,2
3,9 5,0
Ordenemos estos datos en una tabla: Anota en tu cuaderno una tabla de frecuencias que considere • Nombre de variable: Notas • Frecuencia Absoluta • Frecuencia relativa (ambas) Si tu resultado es un decimal, usa 3 dígitos después de la coma
Tabla de Frecuencias Nota
2,8 3,2 3,9
4,2 5,0 5,6 6,0
Frecuencia Absoluta fi
Frecuencia Relativa hi=fi/N
Frecuencia Relativa Porcentual (%) hi*100
Nota
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Relativa Porcentual (%)
2,8
1
0,041
4,166
3,2
4
0,166
16,666
3,9
3
0,125
12,500
4,2
5
0,208
20,833
5,0
4
0,166
16,666
5,6
3
0,125
12,500
6,0
4
0,166
16,666
Total
24
0,997
100
¿Qué conclusiones puedes obtener de la tabla anterior?
Ejercicio En una clase de 30 alumnos se ha preguntado el número de hermanos que tienen, el resultado ha sido el siguiente:
2 1
1
0
1
2
1
5
3
6
1 2
0
3
0
1
1
2
3
4
4
2
1
1
1
2
0
3
1
1
Tabla de Frecuencias Si presentamos esta información en una tabla de frecuencias , queda como sigue:
N ° de hermanos
Frecuencia absoluta
Frecuencia relativa
Frecuencia relativa porcentual
Si presentamos esta información en una tabla de frecuencias , queda como sigue: N ° de hermanos 0 1 2 3 4 5 6
Frecuencia absoluta
Frecuencia relativa
Frecuencia relativa porcentual
4 12 6 4 2 1 1
0,133 0,400 0,200 0,133 0,066 0,033 0,033
13,333 40,000 20,000 13,333 6,666 3,333 3,333
MÉTODOS GRÁFICOS PARA DESCRIBIR DATOS CUANTITATIVOS 2. CONTINUOS
Hasta el momento sólo hemos trabajado con una pequeña cantidad de datos. ¿Y si tenemos muchos datos? Tabla de Frecuencias de datos agrupados En ocasiones, el agrupar los datos en intervalos, nos puede ayudar para realizar un mejor análisis de ellos.
Imágenes tomadas de https://pt.slideshare.net/ABELEO/intervalos-1571515/4
Definiciones: •Rango:
Diferencia entre el máximo y el mínimo valor de una variable.
R = Obs.máx. - Obs.mín.
ത : •Marca de clase ( 𝑋)
Representante de un intervalo, y corresponde al promedio entre los extremos de éste.
𝑋ത = ሾ𝑎+2 𝑏ሿ
•Tamaño o la amplitud de un intervalo de clase:es la diferencia
entre sus fronteras superior e inferior. Si en una distribución de frecuencia todos los intervalos de clase tienen la misma amplitud, esta amplitud común se denota c. Es el cociente entre el valor del rango y la cantidad de intervalos que se desea obtener. Se recomienda tomar como longitud de los intervalos un valor entero que sea mayor o igual al cociente obtenido.
𝑐 = 𝑅𝑘 Cantidad de intervalos Regla de Sturges: k = 1 + 3.322 log n
Nivel de colesterol en la sangre de una muestra de hombres estadounidenses que tienen entre 25 y 34 años de edad , que fueron atendidos en centros médicos de New York y sufren de hipertensión arterial , en el año 2001
Nivel de Colesterol (mg/100 ml)
Cantidad de hombres
80-120
13
120-160
15
160-200
44
200-240
29
240-280
9
Observa: El rango de cada intervalo es de 40.
¿Cuál es la variable de interés? ¿Qué se mide?
PROCEDIMIENTO 1º Calcule el rango (R) o recorrido R = Obs.máx. - Obs.mín. Ej: R = 4.75 - 0.02 R= 4.73 2º Determine el número de intervalos (K). K = 1 + 3.32 Log(n) k= 1+3.32Log(30)
K =5.875 K = 6 (siempre es un número entero, se aproxima por exceso)
3º Determine el Tamaño del Intervalo de Clase(c).
𝑐 = 𝑅𝑘 c= 4.73/6 c = 0.79 (porexceso) 4°Elabore la tabla de frecuencias a partir de la información anterior.
Marca de clase • Es el promedio de los límites inferior y
superior de una determinada clase o intervalo 𝑋ത = ሾ𝑎+2 𝑏ሿ
Lím. inf i Lím. sup i X 2 ' i
Tabla de frecuencias de los tiempos de control CPU K
Intervalo
1
[0.02 , 0.81)
2
[0.81 , 1.60)
3 4 5 6
Conteo
fi
hi
Fi
Hi
xi'
Representaciones gráficas
Polígono
Histograma
Ojiva
Histograma de los tiempos
fi
13 12 11 10 9 8 7 6 5 4 3 2 1 0
.395 .345 .295 .245 .195 .145 .095 .045
-.005 000
000
001
002
003
004
004
005
Tiempos
hi
Ojiva de los tiempos FI
30 27 24 21 18 15 12 9 6 3 0 000
001
002
002
003
004
005
TIEMPOS
Ejemplo: Los siguientes datos expresados en metros, corresponden a las estaturas de 80 estudiantes de Cuarto semestre de comunicación social. Analice los datos y presentelos mediante una tabla de frecuencias para datos agrupados con 6 intervalos y realice un histograma, un polígono de frecuencia y una ojiva. 1,67 1,84 1,78 1,82 1,86 1,77 1,83 1,76
1,72 1,86 1,77 1,69 1,8 1,67 1,77 1,76
1,81 1,73 1,67 1,7 1,77 1,74 1,75 1,79
1,72 1,84 1,83 1,81 1,8 1,75 1,77 1,88
1,74 1,87 1,83 1,66 1,76 1,78 1,77 1,66
1,83 1,83 1,72 1,76 1,88 1,77 1,84 1,8
1,84 1,81 1,71 1,75 1,75 1,74 1,83 1,72
1,88 1,77 1,85 1,8 1,79 1,73 1,79 1,75
1,92 1,73 1,84 1,79 1,87 1,83 1,82 1,79
1,75 1,75 1,93 1,84 1,79 1,76 1,76 1,77
Estatura Mayor: 1,93 metros Estatura Menor: 1,66 metros Rango: 1,93 metros - 1,66 metros = 0,27 metros = 27 cm. Formar 6 intervalos. Para calcular el tamaño de intervalo de cada uno dividimos 27 (rango) y 6 (cantidad de intervalos), obteniendo finalmente 4,5 5
Luego los intervalos de la tabla son: Intervalo 1,65 – 1,69 1,70 – 1,74 1,75 – 1,79 1,80 – 1,84 1,85 – 1,89 1,90 – 1,94
Marca de Clase
Frecuencia Absoluta
1,67 1,84 1,78 1,82 1,86 1,77 1,83 1,76
1,72 1,86 1,77 1,69 1,8 1,67 1,77 1,76
1,81 1,73 1,67 1,7 1,77 1,74 1,75 1,79
1,67 1,75 1,73 1,85 1,75 1,88 1,78 1,77 1,79
1,72 1,84 1,75 1,84 1,80 1,75 1,77 1,77 1,88
1,81 1,86 1,78 1,93 1,79 1,79 1,74 1,84 1,66
1,72 1,84 1,83 1,81 1,8 1,75 1,77 1,88
1,72 1,73 1,77 1,82 1,84 1,87 1,73 1,83 1,80
1,74 1,87 1,83 1,66 1,76 1,78 1,77 1,66
1,83 1,83 1,72 1,76 1,88 1,77 1,84 1,8
1,74 1,84 1,67 1,69 1,86 1,79 1,83 1,79 1,72
1,84 1,81 1,71 1,75 1,75 1,74 1,83 1,72
1,83 1,87 1,83 1,70 1,80 1,77 1,76 1,82 1,75
1,88 1,77 1,85 1,8 1,79 1,73 1,79 1,75
1,84 1,83 1,83 1,81 1,77 1,67 1,83 1,76 1,79
1,92 1,73 1,84 1,79 1,87 1,83 1,82 1,79
1,88 1,81 1,72 1,66 1,80 1,74 1,77 1,76 1,77
1,75 1,75 1,93 1,84 1,79 1,76 1,76 1,77
1,92 1,77 1,71 1,76 1,76 1,75 1,75 1,76
Tabla de Frecuencias
Intervalo
Marca de ഥ) Clase (𝑿
Frecuencia Absoluta (fi)
Frecuencia Relativa (hi)
6
Frecuencia Absoluta Acumulada (Fi) 6
0,075
Frecuencia Relativa Acumulada (Hi) 0,075
1,65 – 1,70)
1,67
1,70 – 1,75)
1,72
12
18
0,15
0,225
1,75 – 1,80)
1,77
30
48
0,375
0,6
1,80 – 1,85)
1,82
22
70
0,275
0,875
1,85 – 1,90)
1,87
8
78
0,1
0,975
1,90 – 1,95)
1,92
2
80
0,025
1
80
1
Ejercicio 1. Los siguientes datos representan el tiempo (en
segundos) que 30 trabajadores estuvieron al control de la unidad central de procesos (CPU) de una computadora mainframe grande.
0.02
0.75
1.16
1.38
1.94
3.07
0.15
0.82
1.17
1.4
2.01
3.53
0.19
0.84
1.19
1.42
2.16
3.76
0.47
0.92
1.22
1.59
2.41
4.50
0.71
0.96
1.23
1.61
2.59
4.75
Ejercicio 2: Se pregunta a un grupo de turistas por su lugar de procedencia luego de su arribo al aeropuerto “El Dorado” durante el mes de enero, obteniendo los siguientes datos: Argentina
Argentina
Venezuela
Argentina
Bolivia
Bolivia
Bolivia
Argentina
Bolivia
Argentina
Brasil
Argentina
Brasil
Argentina
Venezuela
Argentina
Bolivia
Venezuela
Argentina
Brasil
Venezuela
Brasil
Argentina
Venezuela
Argentina
Bolivia
Argentina
Venezuela
Argentina
Argentina
Venezuela
Argentina
Venezuela
Venezuela
Brasil
Argentina
Venezuela
Venezuela
Argentina
Bolivia
Venezuela
Venezuela
Argentina
Venezuela
Argentina
Argentina
Bolivia
Venezuela
Bolivia
Bolivia
Ejercicio 3: El número de huéspedes que atendió el hotel “Suramericano” durante los últimos 50 días fue: 7 3 7 2 6
2 3 3 5 2
4 3 7 2 6
3 4 4 3 4
6 8 6 7 6
4 5 5 2 5
6 3 4 4 3
8 5 5 5 4
2 5 5 5 6
7 5 8 4 8
Ejercicio 4: El valor de las compras en revistas del hotel “Suramericano” durante los últimos 32 días fue: 5,2
10,2
7,0
7,1
10,2
8,3
9,4
9,2
6,5
7,1
6,6
7,8
6,8
7,2
8,4
9,6
8,5
5,7
6,4
10,1
8,2
9,0
7,8
8,2
5,3
6,2
9,1
8,6
7,0
7,7
8,3
7,5
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS
GRACIAS GRACIAS
GRACIAS
QUIZ #1 •
Durante el mes de febrero, en Pitalito se
#2 •
Durante el mes de Enero, en Pitalito se
han registrado las siguientes temperaturas
registraron las siguientes temperaturas
máximas diarias
máximas diarias 29, 31, 28, 29, 33, 32, 31,
29, 33, 22, 21, 20, 34, 33, 33, 29, 29, 31,
30, 31, 31, 27,
31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29,
28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30,
29, 30, 30, 31, 30, 31
31, 30, 31, 34, 33, 33. a) Construya la tabla de frecuencia para
a) Construya la tabla de frecuencia para
datos agrupados puntualmente y halle el
datos agrupados puntualmente y halle el
porcentaje de días en que la
porcentaje de días en que la
temperatura estuvo por debajo de los
temperatura sobrepaso los 30°C
30°C
Diagrama de Pareto
• “Cuando
se analizan las causas de un problema, en general, son unas pocas las responsables de una mayor parte. A estas pocas se les llama fundamentales (vitales), al resto, que son muchas pero ocasionan una pequeña parte del problema se les denomina causas triviales”
Alberto Prat.
•
Ejemplo. En Florida ingenieros civiles están diseñando caminos con los más modernos métodos de construcción orientados hacia la seguridad en respuesta al hecho de que en 1988 más personas murieron en Florida a causa de caminos en malas condiciones que
por armas de fuego. Un total de 135 accidentes de tráfico ocurridos durante un año han sido atribuidos a caminos mal construidos (Tampa Tribune, 14 de noviembre de 1989). En la tabla que sigue se muestra un desglose de las malas condiciones de los caminos que causaron los accidentes. Construya e interprete un diagrama de Pareto para estos datos.
Mala condición del camino
N° de decesos
Obstrucciones sin advertencia
7
Reparaciones/construcción del camino
39
Material superficial suelto
13
Orillas del camino blandas o bajas
20
Agujeros, surcos, etc.
8
Agua estancada
25
Superficie desgastada
6
Otros
17
Total
135
N° de decesos
Frecuencia relativa
Proporción acumulada
Reparaciones/construcción del camino
39
0.29
0.29
Agua estancada
25
0.19
0.47
Orillas del camino blandas o bajas
20
0.15
0.62
Material superficial suelto
13
0.10
0.72
Agujeros, surcos, etc.
8
0.06
0.78
Obstrucciones sin advertencia
7
0.05
0.83
Superficie desgastada
6
0.04
0.87
Otros
17
0.13
1.00
Total
135
1.00
Mala condición del camino
001 001
001 000
000
000
001
001
001
001
001
001 001
000 000
000
001
000 000
000
000
000
000
000
Superficie desgastada
Agujeros, surcos, etc.
000
Orillas del camino blandas o bajas
000
000
CAUSAS
PROPORCIÓN ACUMULADA
001
Reparaciones/construcción del camino
FRECUENCIA
Diagrama de Pareto de fracasos de constructoras por seis causas subyacentes