Curso Basico De R

  • Uploaded by: Any Mary Jl
  • 0
  • 0
  • March 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Curso Basico De R as PDF for free.

More details

  • Words: 6,462
  • Pages: 129
Loading documents preview...
Curso Básico de

con

RENATO LEÓN CASTEX 2019

Introducción a

¿Qué es R? • R es un lenguaje de programación y un entorno para el análisis estadístico y la realización de gráficos. Debido a su naturaleza es fácilmente adaptable a una gran variedad de tareas. • El término "entorno" significa que R es un sistema totalmente planificado y coherente, en lugar de una acumulación incremental de herramientas muy específicas e inflexibles, como suele ser el caso con otros programas de análisis de datos.

¿Qué es R? • R se distribuye en forma gratuita, bajo los término del Proyecto GNU: Promoción del desarrollo colaborativo de software y conocimiento mediante el uso de licencias libres. • R se desarrolla en forma colaborativa con la participación de estadísticos de todo el mundo bajo el “Grupo Nuclear de Desarrollo de R”.

• R está disponible para los sistemas operativos Windows, Macintosh, Unix y Linux

¿Qué es R? • R abarca una amplia gama de técnicas estadísticas, que van desde los modelos lineales a las más modernas técnicas de clasificación, pasando por los test clásicos y el análisis de series temporales. • R proporciona una amplia gama de gráficos que además son fácilmente adaptables y extensibles. La calidad de los gráficos producidos y la posibilidad de incluir en ellos símbolos y fórmulas matemáticas, permiten su inclusión en publicaciones que suelen requerir gráficos de alta calidad.

Un poco de historia… R comenzó a ser desarrollado en 1992 por Robert Gentleman y Ross Ihaka, de departamento de Estadística de la Universidad de Auckland (Nueva Zelanda), con el objetivo de disponer de un lenguaje para enseñar cursos introductorios de estadística. El nombre del programa deriva de las iniciales de los nombres de sus dos autores.

Un poco de historia… • La primera versión del programa sale en 1994; en 1995 adopta una licencia de software libre GNU. • En 1997 se funda el R-Core Group (grupo de voluntarios que se encargan de mantener el código del programa). • Desde el año 2000 a la actualidad el número de usuarios de R se ha ido incrementando exponencialmente, así como el número de personas que contribuyen aportando nuevas librerías.

Un poco de historia… En la actualidad R se ha ido posicionando como una herramienta para el análisis de datos (Data Science), compitiendo con el también popular lenguaje Python.

¿Cómo obtener R? • R se descarga desde el sitio: https://www.r-project.org/

¿Cómo obtener R? • A continuación aparece un listado de sitios del mundo desde donde se descarga. Buscamos Chile en la lista de países y nos encontraremos con tres link desde donde bajarlo.

¿Cómo obtener R? • Una vez seleccionado uno de los link, llegamos a la pantalla donde seleccionaremos la versión de R, según el sistema operativo que utilizamos.

¿Cómo obtener R? • Al seleccionar uno de los sistemas operativos (por ejemplo Windows), somos direccionados a la siguiente pantalla.

• En este caso pichamos el link que dice “Install R for the first time”

¿Cómo obtener R? • Finalmente llegamos a la página desde donde podemos iniciar la instalación de R, pinchando en el link que dice “Download R 3.5.3 for Windows”

Empezando a usar

Empezando a usar R Una vez instalado el programa, cuando ejecutamos R , aparece la ventana GUI del programa (Graphical User Interface) con un mensaje de apertura

Empezando a usar R Al ver la pantalla inicial, mas de alguno se estará preguntando ¿y como se activa el menú con el conjunto de funciones disponibles? (como en Excel) No existe tal menú. Lo que tenemos es un “prompt” que es el símbolo >. Las expresiones (comandos) en R se escriben directamente a continuación del “prompt”. ¿Es decir debo conocer los comandos que se usan en R? ¡Así es!, pero antes que digas ufff… veamos lo siguiente:

Empezando a usar R Los software que funcionan con un menú de funciones (botones) son muy cómodos pero acotados, es decir, sólo puedo ejecutar lo que existe en el menú y cualquier requerimiento especial queda afuera (el cuál quizás aparezca en la próxima versión) Por otra parte, estos softwares contienen una gran cantidad de funciones, muchas de ellas no muy conocidas y cuando se requieren hay que recorrer los menú y submenú buscando el comando que debemos ejecutar.

Empezando a usar R R es extensible, esto significa que hay una gran cantidad de rutinas y programas que otros usuarios han dejado a disposición para que cualquiera lo use. Pero si lo que quiero hacer no esta disponible, lo puedo programar. Al requerir ingresar los comandos, esto nos obliga a aprender su lenguaje de programación y entender lo que estamos haciendo, pero cómo dijo Steve Jobs: “Cada persona en este país debería saber cómo programar una computadora… porque eso te enseña a pensar”

Empezando a usar R R tiene una sintaxis básica sencilla e intuitiva, con lo que es muy fácil familiarizarse, lo que se traduce en un aprendizaje rápido y cómodo. R tiene una gran comunidad de usuarios, estructurados en torno a la Comprehensive R Archive Network (CRAN), que desarrolla cada día nuevos paquetes (a la fecha hay mas de 14.000 paquetes disponibles) que extienden sus funcionalidades y van cubriendo de manera permanente las necesidades computacionales y estadísticas de sus usuarios. Ver: https://cran.r-project.org/web/packages/

Índice de Paquetes disponibles en R

Si seleccionamos cualquiera de ellos (por ejemplo, el primero del listado anterior), se obtiene un resumen de sus características

Tanta información no nos debe abrumar ya que existen una gran cantidad de sitios y comunidades en la web donde podemos bajar libros, manuales de usuarios, interactuar con otros usuarios, hacer consultas, etc.

Usando RStudio Existen interfaces gráficas para trabajar con R, entregando un entorno integrado que permite utilizar y programar en R y que disponen de un conjunto de herramientas que facilitan el uso de este lenguaje. En este curso utilizaremos una de las interfaces mas conocida como es RStudio.

Usando RStudio Para instalar RStudio, se debe descargar del sitio https://www.rstudio.com/

Usando RStudio

Antes de empezar Antes de empezar a usar R, lo primero que vamos hacer es crear una carpeta de trabajo en nuestro computador. A partir de esto, por defecto, todo el trabajo que realicemos quedará guardado dentro de esta carpeta. Por otra parte R buscará dentro de esta carpeta todo lo que necesitemos leer. Session – Set Working Directory – Choose Directory

Antes de empezar

Empezando a trabajar con R Durante la mayor parte del curso, usaremos RStudio de manera interactiva: 1. Escribimos una instrucción en la consola, a la derecha de la marca de inicio (prompt). 2. La ejecutamos pulsando la tecla Enter 3. R la evaluará y, si corresponde, escribirá el resultado en la línea siguiente de la consola 4. R abrirá una nueva línea en blanco encabezada por una marca de inicio, donde esperará una nueva instrucción.

Empezando a trabajar con R Ejemplo:

Empezando a trabajar con R La pantalla de inicio de RStudio está dividida en tres partes. La de la izquierda se llama consola y es el espacio donde se trabaja en forma interactiva.

Empezando a trabajar con R Cada vez que inicia RStudio, aparece en la consola un texto con la presentación de R. Usted puede borrarlo, presionando el icono de la escoba que se encuentra en el sector superior derecho.

Empezando a trabajar con R En el sector derecho de la pantalla encontrará dos ventanas, con una serie de pestañas que explicamos a continuación.

Empezando a trabajar con R Files: muestra el contenido de la carpeta de trabajo actual. Al hacer clic sobre un fichero de esta lista, se abrirá en la ventana de ficheros. Plots: muestra los gráficos que hayamos producido durante la sesión.

Packages: muestra todos los paquetes instalados y que están cargados en la sesión actual Help: aparecerá la ayuda que pidamos

Empezando a trabajar con R Environment: muestra la lista de los objetos actualmente definidos (el concepto de “objeto” lo veremos mas adelante) History: muestra la lista de todas las instrucciones que hayamos ejecutado durante la sesión Adicional a estas tres ventanas, RStudio dispone de una cuarta ventana que se abre en el sector superior izquierdo, sobre la consola y cuyo uso lo revisaremos mas adelante.

Empezando a trabajar con R Existen funciones y tablas de datos útiles que no vienen con la instalación básica de R, sino que forman parte de paquetes (packages), que se tienen que instalar y cargar para poder usarlos. Un package es una colección de funciones, datos y código R que se almacenan en una carpeta conforme a una estructura bien definida, fácilmente accesible para R. Para instalar un packages, se ingresa en la consola la instrucción: install.packages(“nombre”, dep=TRUE) Las comillas son obligatorias. El parámetro dep=TRUE obliga a R a instalar no sólo el packages requerido, sino todos aquellos de los que dependa para funcionar correctamente.

Empezando a trabajar con R Una segunda opción para instalar un packages es pulsar el botón Install de la barra superior de la pestaña packages, en la ventana inferior derecha. RStudio pide el nombre del packages a instalar. Se recomienda dejar marcada la opción Install dependencies para que se instalen también los packages necesarios para su funcionamiento.

Empezando a trabajar con R Una vez instalado un packages, se debe cargar para poder ser utilizado. Esto se puede hacer de dos formas, la primera es ingresar en la consola la instrucción: library(nombre) La segunda opción es marcarlo en la lista que aparece en la pestaña packages

Empezando a trabajar con R Cuando cerramos RStudio los packages instalados en la sesión permanecen instalados pero la carga se pierde, por lo tanto, si queremos volver a usarlo tendremos que volver a cargarlos. Los packages son creados por miembros de la comunidad del entorno R y hasta la fecha en la biblioteca hay casi 15.000 packages disponibles. Por lo tanto antes de pensar en escribir una función, se recomienda consultar los packages disponibles. Hay packages que no se encuentran en el entorno R y que, por lo tanto se cargan de otra manera, lo que explicaremos mas adelante.

Usando

como calculadora

Usando R como calculadora Cuando se trabaja en modo interactivo en la consola de R, hay que escribir las instrucciones a la derecha de la marca > (prompt). Para evaluar una instrucción al terminar de escribirla se pulsa la tecla Enter.

Se pueden escribir comentarios en R utilizando el signo #

Usando R como calculadora Si la expresión que entramos no está completa, R no la evaluará y en la línea siguiente esperará a que la completemos mediante la marca de continuación que es un signo +. Además si cometemos un error (por ejemplo de sintaxis) R nos avisará con un mensaje de error.

Usando R como calculadora Se puede agrupar más de una instrucción en una sola línea separándola con el signo punto y coma: ; Al pulsar la tecla Enter, R las ejecutará todas, una tras otra, en le orden en que la hayamos escrito

Usando R como calculadora Números reales: operaciones y funciones básicas En los números reales, la separación entre la parte entera y la decimal se indica con un punto (no con una coma, de lo contrario R nos dará un mensaje de error).

Usando R como calculadora Números reales: operaciones y funciones básicas Los operadores aritméticos que se utilizan en R se muestran en la siguiente tabla: Operación Suma Resta

Multiplicación

Signo

+ -

Cociente entero

* / ^ %/%

Resto división entera

%%

División Potencia

Usando R como calculadora Números reales: operaciones y funciones básicas A continuación podemos ver algunos ejemplos del uso de los operadores aritméticos. Nótese que el orden de precedencia de los operadores es el usual.

Usando R como calculadora Números reales: operaciones y funciones básicas Ejemplo del uso de los operadores aritméticos Cociente entero (%/%) y Resto división entera (%%).

Usando R como calculadora Números reales: operaciones y funciones básicas El objeto pi representa el número real π. También se puede usar dentro de una operación.

Usando R como calculadora Números reales: operaciones y funciones básicas ¡Atención! No podemos omitir el signo de multiplicación (*) de lo contrario R arroja error.

Usando R como calculadora Números reales: operaciones y funciones básicas Cuando un número es muy grande o muy pequeño, R emplea la llamada notación científica para dar una aproximación.

Usando R como calculadora Números reales: operaciones y funciones básicas Las funciones numéricas básicas que se utilizan en R se muestran en la siguiente tabla: 𝑭𝒖𝒏𝒄𝒊ó𝒏=Signo 𝑥 = 𝑠𝑞𝑟𝑡 𝑒 𝑥 = 𝑒𝑥𝑝 ln 𝑥 = 𝑙𝑜𝑔 log10 𝑥 = log 10 𝑛! = 𝑓𝑎𝑐𝑡𝑜𝑟𝑖𝑎𝑙 𝑛 = 𝑐ℎ𝑜𝑜𝑠𝑒 𝑚

𝑭𝒖𝒏𝒄𝒊ó𝒏=Signo 𝑐ℎ𝑜𝑜𝑠𝑒 sin 𝑥 = sin cos 𝑥 = 𝑐𝑜𝑠 tan 𝑥 = 𝑡𝑎𝑛 sin−1 𝑥 = 𝑎𝑠𝑖𝑛 cos −1 𝑥 = 𝑎𝑐𝑜𝑠 tan−1 𝑥 = 𝑎𝑡𝑎𝑛 𝑥 = 𝑎𝑏𝑠

Las funciones de R se aplican a sus argumentos entre paréntesis. Si la función tiene mas de un argumento, estos se tienen que especificar en el orden requerido y separado por comas.

Usando R como calculadora Números reales: operaciones y funciones básicas A continuación veamos algunos ejemplos de aplicación de las funciones numéricas básicas.

Usando R como calculadora Números reales: operaciones y funciones básicas Note que cuando se comienza a escribir una función, R entrega las opciones disponibles y una breve explicación sobre la función.

Usando R como calculadora Números reales: operaciones y funciones básicas Cuando el resultado de la función no existe, R arroja el resultado NaN que es el acrónimo de Not a Number y un mensaje de atención.

Usando R como calculadora Cifras significativas y redondeos En cada momento, R decide cuántas cifras muestra de un número según el contexto. Si queremos obtener una cantidad n de cifras significativas (máximo 22) de un número x, podemos emplear la función: print(x,n)

Usando R como calculadora Cifras significativas y redondeos Por otra parte, para redondear un número x a una cantidad específica n de cifras decimales y trabajar sólo con esas cifras, se utiliza la función: round(x,n)

Usando R como calculadora Definición de variables R funciona mediante los llamados objetos, que son estructuras de diferentes tipos que sirven para realizar distintas tareas. Un tipo de objeto son las variables las cuales sirven para guardar datos. Por ejemplo, si queremos crear una variable x que contenga el valor de π2 , podemos escribir:

Usando R como calculadora Definición de variables Se puede usar como nombre de una variable cualquier palabra que combine letras mayúsculas y minúsculas (R las distingue), con o sin acento (recomendamos no utilizar palabras con acentos), dígitos (0 al 9) y puntos (.) y guion bajo (_) siempre que empiece con una letra o un punto. Aunque no esta prohibido no es una buena idea utilizar nombres que representan una función (por ejemplo sqrt)

Usando R como calculadora Definición de variables Note que en la medida que se definen variables, en la ventana superior derecha, en la pestaña Environment, aparecen los nombres de dichas variables y el valor que contiene. Esto será muy útil ya que en la medida que son evaluadas, se puede conocer el valor que toman y detectar algún error de cálculo.

Aplicación de

: Regresión Lineal

Aplicación de R: Regresión Lineal Vamos a ilustrar el uso de R mediante el cálculo de la recta de regresión lineal. Para esto aplicaremos algunas funciones de R. Para partir vamos a recordar en que consiste una regresión lineal.

Aplicación de R: Regresión Lineal Sea un conjunto de puntos en el plano cartesiano R2 :

x1 , y1 , x2 , y2 ,..., xn , yn  que representan pares de observaciones de dos variables numéricas. Queremos describir cómo depende la variable dependiente y de la variable dependiente x, a partir de estas observaciones.

Para ello, buscaremos una función:

y  f (x) que mejor represente la relación de dependencia entre x e y

Aplicación de R: Regresión Lineal Esta función nos entregará un modelo matemático del comportamiento de las observaciones realizadas, lo que permitirá entender mejor los mecanismos que relacionan las variables bajo estudio y hacer predicciones sobre futuras observaciones. La primera opción es estudiar si los puntos: satisfacen una relación lineal.

( xi , yi ) i 1,...n

En este caso se busca la recta de ecuación y  b1 x  b0 con b0 , b1  R que aproxime mejor los puntos dados, en el sentido que aproxime mejor los puntos dados, en el sentido de que la suma de los cuadrados de las diferencias entre los valores de yi y sus aproximaciones b1 x  b0 sea mínima

 n 2 Min  ( yi  (b1 xi  b0 )   i 1 

Aplicación de R: Regresión Lineal Consideremos la siguiente tabla que entrega la altura media de una muestra de niños a determinadas edades: Edad (años)

Altura (cm)

1

76.11

2

86.45

3

95.27

5

109.18

7

122.03

9

133.73

11

143.73

13

156.41

Aplicación de R: Regresión Lineal Vamos a almacenar esta información en R mediante lo que se llama una tabla de datos o data frame. Para crear una data frame, en primer lugar guardaremos cada columna de la tabla anterior, como una lista ordenada de números, la cuál llamaremos vector, a la cuál le pondremos un nombre adecuado. Para definir la lista ordenada de números o vector, utilizaremos la función c() que significa “concatenar”, es decir agrupa un conjunto de datos. Al primer vector le llamaremos edad y al segundo altura

Aplicación de R: Regresión Lineal Ahora vamos a construir un data frame de dos columnas, una para la edad y otra para la altura y lo llamaremos datos1. Esto se realiza a través de la función data.frame.

Aplicación de R: Regresión Lineal Al analizar un conjunto de datos siempre es conveniente empezar con una representación gráfica que nos permita hacernos una idea de sus características. En este caso vamos a dibujar la distribución de los datos utilizando la función plot. Al ejecutar esta instrucción, el gráfico resultante se abrirá en la ventana inferior derecha, en la pestaña plot

Aplicación de R: Regresión Lineal Para una mejor visión del gráfico vamos a maximizar la ventana, presionando el icono “maximizar ventana” que se encuentra a la derecha de la barra. Como se puede observar los puntos siguen aproximadamente una recta.

Aplicación de R: Regresión Lineal Ahora vamos a calcular la recta de regresión. Dada una familia de puntos ( xn , yn ) n 1,...k si llamamos x al vector ( xn ) n 1,...k de sus abscisas y al vector ( yn ) n 1,...k de sus ordenadas, su recta de regresión se calcula por medio de la instrucción lm (“lineal model) que tiene la siguiente sintaxis:

lm(y~x, data=nombre del data frame) Para R el símbolo ~ significa “en función de”, es decir lm(y~x) significa “recta de regresión de y en función de x”. Para nuestro ejemplo la instrucción es:

lm(altura~edad, datos=datos1)

Aplicación de R: Regresión Lineal

El resultado obtenido significa que la recta de regresión tiene termino independiente 73.968 (el punto donde la recta intersecta al eje de las y) y el coeficiente de x es 6,493 (el coeficiente de la variable edad). es decir la recta es:

y  6.493x  73.968

Aplicación de R: Regresión Lineal Ahora, podemos superponer al gráfico anterior, empleando la función abline. Esta función permite añadir una recta al gráfico activo en la pestaña Plots:
Aplicación de R: Regresión Lineal Para evaluar numéricamente si la relación lineal que hemos encontrado es significativa o no, podemos usar el coeficiente de correlación R2 . Este coeficiente toma valores entre 0 y 1. Cuanto mas se aproxime la recta de regresión al conjunto de puntos, más cercano será a 1.

Para conocer el valor de R2 y otros datos estadísticos, utilizaremos la función: summary(lm(…))

En general la función summary aplicada a un objeto de R nos entrega un resumen de los contenidos de este objeto.

Aplicación de R: Regresión Lineal

Aplicación de R: Regresión Lineal Este cuadro nos muestra, entre otras cosas, que el coeficiente de correlación (“Multiple R-squared”) es de 0.992, lo que indica que la recta de regresión aproxima muy bien los datos. Si sólo queremos conocer el valor de Multiple R-squared, añadimos el sufijo $r.squared a la instrucción summary. Los sufijos que comienzan con $ se utiliza para obtener componentes de un objeto

Aplicación de R: Regresión Lineal Vamos a ver un segundo ejemplo de regresión lineal, pero esta vez con datos que están en un archivo externo. Revisaremos como importar esta información para poder realizar los cálculos que nos permitan un modelo lineal que relaciones dos variables y evaluar el grado de dicha correlación.

Aplicación de R: Regresión Lineal El matemático Karl Pearson1 recopiló en el año 1903 las alturas de 1078 parejas formadas por un padre y un hijo. Hemos guardado estos datos en un archivo Excel. Vamos a continuación como importar estos datos a R. Vamos a usar estos datos para estudiar si hay una relación lineal entre la altura de un hijo y la de su padre.

(1)

Karl Pearson fue un prominente científico, matemático y pensador británico, que estableció la disciplina de la estadística matemática. Desarrolló una intensa investigación sobre la aplicación de los métodos estadísticos en la biología y fue el fundador de la bioestadística.

Aplicación de R: Regresión Lineal Los primero que debemos hacer será cargar los datos en un data frame. La forma mas fácil de llevar a cabo esta acción es a través del menú Import Dataset de la pestaña Environment de la ventana superior derecha de RStudio. Al seleccionar sobre este menú R ofrece la posibilidad de importar ficheros desde la red o nuestro computador.

Aplicación de R: Regresión Lineal Una vez especificada la ruta donde se encuentra el archivo con los datos, estos quedan listos para ser importados. Para eso se presiona el botón Import

Aplicación de R: Regresión Lineal Esta pantalla indica que los datos han sido correctamente importados.

Aplicación de R: Regresión Lineal

A continuación repetimos los mismos pasos que en el ejemplo anterior. Primero vamos a obtener el gráfico de los puntos, a través de la instrucción: plot(Pearson)

Aplicación de R: Regresión Lineal Luego realizamos el cálculo de los coeficientes de la regresión, a través de la instrucción: lm(Hijos~Padres, data=Pearson)

Entonces la recta de regresión es:

y  0.5141x  86.0720

Aplicación de R: Regresión Lineal Vamos a dibujar la recta de regresión, utilizando la instrucción: abline(lm(Hijos~Padres, data=Pearson))

Aplicación de R: Regresión Lineal A continuación, obtenemos el resto de la información sobre esta regresión, en particular el coeficiente R-squared para analizar el grado de correlación entre ambas variables.

El coeficiente R2 =0.2513, es bastante bajo lo que indica que la regresión no es muy buena.

Estadística Descriptiva con

Estadística Descriptiva con R Vamos a revisar como podemos analizar datos cuantitativos usando R. En particular utilizaremos las medidas de tendencia central, de posición, de dispersión y uso de gráficos. Para eso utilizaremos un data frame llamado consumo, que contiene los datos de minutos de consumo telefónico de una muestra de clientes de una empresa del rubro 90

77

91

83

119

110

91

110

92

100

113

83

110

83

119

83

119

77

Estadística Descriptiva con R Lo primero que debemos hacer es cargar los datos a R en un data frame que llamaremos consumo y para eso vamos a usar la función c.

Ahora vamos a hacer es un análisis de frecuencia de estos datos. Lo primero es calcular las frecuencias absolutas y para eso se utiliza la función: table(nombre del data frame)

Estadística Descriptiva con R

Note que R nos entrega los datos ordenados de menor a mayor y bajo ellos la cantidad de veces (frecuencia) que aparecen. A continuación lo que podemos hacer es obtener un gráfico de esta distribución de frecuencia, para eso utilizamos la instrucción: plot(table(consumo))

Estadística Descriptiva con R

Por ahora no vamos hacer mayor cuestión de la presentación del gráfico, en los siguientes cursos veremos como mejorar su aspecto.

Estadística Descriptiva con R También podemos calcular otros tipos de frecuencias, como son las frecuencias relativas, las frecuencias absolutas acumuladas y las frecuencias relativas acumuladas. Esto se logra con las siguientes instrucciones: • Frecuencias relativas (con dos decimales): round(prop.table(table(consumo)),2) • Frecuencias absolutas acumuladas cumsum(table(consumo))

• Frecuencias relativas acumuladas (con dos decimales): round(cumsum(prop.table(table(consumo))),2)

Estadística Descriptiva con R

Estadística Descriptiva con R Podemos mejorar la presentación de estos resultados, mostrando las frecuencias en una tabla. Para eso definiremos una tabla de frecuencias como data frame, que llamaremos tabla_df, que contiene vectores, que definimos con la instrucción as.vector, con cada frecuencia que calculamos.

Estadística Descriptiva con R Medidas de Tendencia Central Las medidas de tendencia central son las que dan un valor representativo de todas las observaciones; las mas importantes son la moda (valor o valores de máxima frecuencia), la media o promedio y la mediana (valor central en una lista ordenada de datos) Para calcular las medidas de tendencia central se utilizan las siguientes funciones: • Media: mean(data frame) • Mediana: median(data frame) • Moda: as.numeric(names(table(data frame) == max(table(data frame)

Estadística Descriptiva con R

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad

La media por sí sola no es una descripción completa o suficiente de los datos. También se requieren números descriptivos que midan la variabilidad o dispersión de las observaciones con respecto a la media. No existen dos cosas exactamente iguales. Este es uno de los principios básicos del control de calidad estadístico. En todas las áreas hay variaciones. Aunque dos conjuntos de datos tengan la misma media, las observaciones individuales de uno de ellos podrían variar con respecto a la media más que las del segundo. Las principales medidas de dispersión son el Rango, la Varianza y la Desviación Estándar.

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad Amplitud o Rango Amplitud o Rango es la diferencia entre la observación mayor y la menor Cuanto mayor es la dispersión de los datos con respecto al centro de la distribución, mayor es la amplitud o el rango. Como la amplitud o el rango sólo tiene en cuenta la observación mayor y la menor, puede estar muy distorsionada si hay una observación excepcionalmente extrema.

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad Para calcular el rango en R se utiliza la función: diff(range(data frame)) La opción range entrega los valores mínimo y máximo de un conjunto de datos. La opción diff calcula su diferencia.

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad Varianza La varianza poblacional σ2 , es la suma de los cuadrados de las diferencias entre cada observación y la media poblacional dividida por el tamaño de la población, N: N

  2

2 ( x   )  i i 1

N

N



x i 1

2 i

N



2

La varianza muestral, s2, es la suma de los cuadrados de las diferencias entre cada observación y la media muestral dividida por el tamaño de la muestra n menos 1. n

n

 ( x  x)  x n x 2

s2 

i 1

i

n 1



i 1

2

i

n 1

2

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad R entiende que siempre estamos trabajando con muestras, por lo el cálculo que realiza corresponde al estadístico de la varianza muestra. La función de R que permite calcular la varianza de un conjunto de datos es: var(data frame) Para el caso de nuestro ejemplo se tiene:

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad Desviación Estándar La desviación estándar σ se define como la raíz cuadrada de la varianza: N

  El estadístico es:

2 ( x   )  i i 1

N n

s 

2 ( x  x )  i i 1

n 1

Estadística Descriptiva con R Medidas de Dispersión o Variabilidad Al igual que en la caso anterior, R entiende que siempre estamos trabajando con muestras, por lo el cálculo que realiza corresponde al estadístico de la desviación estándar muestral. La función de R que permite calcular la desviación estándar de un conjunto de datos es: sd(data frame) Para el caso de nuestro ejemplo se tiene:

Probabilidades con

Probabilidades con R Vamos a demostrar con algunos ejercicios particulares, la forma como podemos usar R cuando nos enfrentamos a problemas probabilísticos. Esto es sólo una demostración de la potencia que tiene este programa, en el ámbito de las probabilidades. Además del uso de funciones específicas, veremos algunos casos que nos introducirá en el mundo de la programación en R, es decir, el uso de ficheros de instrucciones o “script”.

Probabilidades con R Distribuciones especiales de probabilidad Dado el conocimiento, a través del estudio de diferentes fenómenos probabilísticos, ha sido posible modelarlos y definir expresiones matemáticas que representen su comportamiento y nos permiten calcular probabilidades de manera rápida y precisa.

La mayoría de estos modelos fueron definidos hacia varios siglos atrás y hasta el día de hoy tienen una inmensa utilidad. Para el caso de las variables aleatorias discretas, existen dos funciones o distribuciones de probabilidades que veremos en detalle: 1. Distribución Binomial 2. Distribución de Poisson

Probabilidades con R Distribución Binomial (*) Sea un proceso que consiste en una sucesión de n pruebas independientes, donde en cada una de ellas sólo hay dos posibles resultados, mutuamente excluyentes (usualmente llamados “éxito” o “fracaso”). Si la probabilidad de “éxito” en una prueba es p, entonces el número de “éxitos” en n pruebas tendrá una distribución binomial y su función de probabilidad viene dada por:

P( x) 

n! p x (1  p) n  x x!(n  x)!

(*) La distribución binomial se deriva de un procedimiento conocido como “Ensayo de Bernoulli“, nombrado así en honor del matemático suizo Jacob I Bernoulli (1654-1705). Cuando en un experimento aleatorio puede ocurrir sólo uno de dos resultados mutuamente excluyentes (hombre o mujer, sano o enfermo, etc.) el ensayo se llama de Bernoulli

Probabilidades con R La distribución binomial se utiliza en diversas aplicaciones en las que se quiere encontrar la probabilidad de ocurrencia discretas. Antes de utilizar la distribución binomial, se debe analizar la situación específica para ver si: 1. En la aplicación se realizan varias pruebas, cada una de las cuales sólo tiene dos resultados: si o no, encendido o apagado, dentro de norma o fuera de norma, etc. 2. La probabilidad p de “éxito” es la misma en cada prueba

3. La probabilidad del resultado de un prueba no afecta a la probabilidad del resultado de otras pruebas (sucesos independientes)

Probabilidades con R Si X sigue una distribución binomial B(n,p), entonces: P(X=k) = dbinom(k,n,p) Ejemplo:

En una fábrica de cojinetes se ha calculado que la proporción de piezas defectuosas en la población de productos es 0,1. Se obtiene una muestra aleatoria compuesta por 15 piezas ¿Cuál es la probabilidad de obtener 3 cojinetes defectuosos?

Probabilidades con R La Distribución de Poisson (*) Sea X una variable aleatoria discreta que puede tomar los valores 0,1,2,…,n. Se llama Distribución de Poisson, con parámetro λ a la función de probabilidad de X, dada por:

P( X  x) 

x e   x!

Donde e es la base de los logaritmos naturales (e=2,71828) y λ es el parámetro de la distribución.

Simeón Denis Poisson (1781 - 1840), fue un físico y matemático francés al que se le conoce por sus diferentes trabajos en el campo de la electricidad, también hizo publicaciones sobre la geometría diferencial y la teoría de probabilidades. En 1837 publicó un trabajo, en el cual describe la probabilidad como un acontecimiento fortuito ocurrido en un tiempo o intervalo de espacio bajo las condiciones que si la probabilidad de un acontecimiento ocurre es muy pequeña, pero el número de intentos es muy grande, entonces el evento ocurre algunas veces.

Probabilidades con R La distribución de Poisson es una importante distribución de probabilidad discreta para algunas aplicaciones entre las que se encuentran: • El número de falla de un sistema informático en un día • El número de pedidos de recambio de piezas en un mes dado • El número de naves que llega a un terminal en una mañana • El número de camiones de reparto que llegan a un almacén en una hora • El número de abolladuras en una lámina de metal que se utiliza para construir un filtro • El número de pasajeros que llegan a tomar un vuelo cada 15 minutos entre las 15:00 y las 16:00, durante los días de la semana • El número de clientes que llegan a una caja de supermercado durante un determinado intervalo de tiempo.

Probabilidades con R Si X sigue una distribución de Poisson entonces: P(X=k) = dpois(k,λ) Ejemplo:

Se sabe que a un servicio llegan 5 clientes al día en promedio. ¿Cuál es la probabilidad que lleguen 8 clientes en un día?

Probabilidades con R Distribución Normal Una de las distribuciones mas importantes es la llamada distribución normal. Esta importancia esta dada por la experiencia empírica de modelar fenómenos en distintos ámbitos de las ciencias (matemáticas, económicas, sociales, biológicas, etc.) y donde el resultado es una distribución normal.

Probabilidades con R Distribución Normal (*) Una variable aleatoria X tiene distribución normal con parámetros μ y σ si la función de densidad de X está dada por:

Donde μ es la media y σ la desviación estándar Se usa la notación X ~ N(μ,σ) para indicar que una variable aleatoria X tiene distribución normal con parámetros μ y σ.

(*) La formula para la distribución normal fue publicada por Abraham De Moivre el 12 de Noviembre de 1733. Otros matemáticos aportaron a su estudio y aplicación entre los cuales se destaca Carl Fiedrich Gauss

Probabilidades con R Distribución normal estándar La distribución normal estándar es aquella que tiene una media igual a 0 y una desviación estándar igual a 1. N(0,1) La ecuación para la distribución normal es:

Probabilidades con R Sea X una variable aleatoria cuya función de densidad de probabilidad corresponde a una distribución normal de media μ y desviación estándar σ. Esta distribución normal se puede transformar a una distribución normal estándar, a través de una variable aleatoria Z definida como:

z

x



N(μ, σ) N(0,1)

μ σ=1

μ

x

μ=0

z

Probabilidades con R Sea Z una variable aleatoria cuya función de densidad de probabilidad corresponde a una distribución normal estándar, para encontrar la probabilidad de que z tome un valor entre dos puntos cualquiera z0 y z1 se debe calcular el área limitada por las perpendiculares levantadas en esos puntos, la curva y el eje horizontal.

z0

z1

Probabilidades con R Distribución Normal con R Si X sigue una distribución normal N(μ,σ), entonces podemos calcular probabilidades con las siguientes funciones: P(X ≤ k) = pnorm (x,µ,σ) Ejemplo 1: Sea X una variable aleatoria continua que sigue una distribución normal N(170,12), ¿Cuál es la probabilidad que X≤180?

Probabilidades con R Ejemplo 2: Sea X una variable aleatoria continua que sigue una distribución normal N(170,12), ¿Cuál es la probabilidad que X rel="nofollow">168?

Probabilidades con R Ejemplo 3: Una empresa produce ampolletas cuya duración sigue una distribución normal que tiene una media de 1.200 horas y una desviación estándar de 250 horas. Si elegimos una ampolleta en forma aleatoria ¿Cuál es la probabilidad de que dure entre 900 y 1.300 horas?

Probabilidades con R Teorema Central del Límite R es una excelente herramienta para ayudar en la comprensión de conceptos estadísticos, que puede parecer áridos en un primer momento, pero que luego se descubre su importancia en su aplicación en casos reales. Vamos a tomar como ejemplo el “Teorema Central del Límite”. Para ello, en primer término vamos a ver su enunciado y luego utilizaremos R para ver su interpretación.

Probabilidades con R Teorema Central del Límite Sea X1 , X2 , ….. Xn un conjunto de variables aleatorias independiente e idénticamente distribuidas, de una distribución con media µ y varianza σ2 , entonces si n es suficientemente grande, la variable aleatoria

1 n X   Xi n i 1 Tiene aproximadamente una distribución normal con media µ y varianza σ2/n Es importante remarcar que este teorema no dice nada acerca de la distribución de X, excepto la existencia de media y varianza

Probabilidades con R Teorema Central del Límite Para aclarar este concepto, vamos a realizar el siguiente experimento: tomamos una muestra aleatoria simple en una población normal N(μ,σ) Para facilitar la explicación hemos partido por lo mas sencillo que es trabajar con una distribución normal, pero este experimento se puede hacer con cualquier otra (Poisson, Uniforme, Exponencial, etc.) Para que R tome una muestra aleatoria de tamaño n de una distribución normal N(μ,σ), se utiliza la función: rnorm (n, μ,σ)

Probabilidades con R Teorema Central del Límite Ejemplo: Si se desea obtener una muestra aleatoria de tamaño 25, en una población normal N(170,12), se obtiene:

Si volvemos a ejecutar esta función, obtendremos otro conjunto de datos aleatorios.

Probabilidades con R Teorema Central del Límite Si tomamos varias muestras aleatorias de tamaño 25 en una población normal N(170,12), y calculamos su media se tiene:

Como podemos ver, cada vez que se toma una muestra, se obtiene una media diferente. Como a priori no podemos predecir cual será la media en cada muestra, entonces la media muestral es una variable aleatoria.

Probabilidades con R Teorema Central del Límite También podemos observar que las medias muestrales son parecidas a las media de la población (µ=170).¿Siempre es así?

Para contestar a esta pregunta vamos a repetir el procesos varias veces. Esto lo haremos creando una función que llamaremos “Media_Muestral”.

Probabilidades con R Teorema Central del Límite Se puede repetir m veces este proceso, utilizando la función: replicate()

Ahora vamos a graficar la distribución de frecuencias de estas medias muestrales mediante un histograma, al cual le vamos a superponer una densidad normal. (El detalle de la funciones gráficas se verán en el Curso Intermedio de R)

Probabilidades con R

¿Qué ocurre si aumentamos el tamaño de la muestra, por ejemplo, n=50, n=100 y n=500?

Probabilidades con R ¿Qué ocurre si aumentamos el tamaño de la muestra, por ejemplo, n=50, n=100 y n=500?

Los resultados muestran que a medida que aumenta el tamaño de la muestra, las medias muestrales se concentran alrededor de la medida poblacional, es decir las desviación estándar disminuye. Veamos esto gráficamente.

Probabilidades con R

Probabilidades con R

Probabilidades con R

Comentarios Finales • Con los contenidos entregado en este curso básico, esperamos que los alumnos hayan aprendido a utilizar las funciones estadísticas básicas de R • Lo que hemos visto, permite conocer la lógica de funcionamiento de R y el potencial que tiene como herramienta estadística de alto nivel. • Los invitamos a practicar e investigar para continuar desarrollando las habilidades en R, muy importante hoy en día por su relación con la transformación digital que esta viviendo el mundo.

Related Documents

Curso Basico De R
March 2021 0
Curso Basico De Mandalas
February 2021 0
Curso Basico De Computacion
February 2021 2
Curso Basico De Sushi
January 2021 1

More Documents from "Jose Manuel"

Curso Basico De R
March 2021 0
Soal Soal
January 2021 1
Curso De Piano
February 2021 1
Acordes
February 2021 1
March 2021 0