Trabajo Final Programa Formativo: Bloque: El Proceso Etl Enviar A: [email protected]

  • Uploaded by: Carlos González Salcedo
  • 0
  • 0
  • January 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Trabajo Final Programa Formativo: Bloque: El Proceso Etl Enviar A: [email protected] as PDF for free.

More details

  • Words: 4,709
  • Pages: 21
Loading documents preview...
TRABAJO FINAL Programa formativo: Máster en Big Data y Business Intelligence

Bloque: El proceso ETL Bloque 5. El proceso ETL.

Enviar a: [email protected]

Escuela de Negocios Europea de Barcelona Página 1

Instrucciones del Trabajo Final A continuación, se adjunta el trabajo final que debes realizar correctamente para la obtención del título acreditativo del curso que estás realizando. Recuerda que el equipo de tutores está a tu completa disposición para cualquier duda que tengas a lo largo de su desarrollo. Recuerda que no se realizan correcciones parciales del trabajo, solo se admite la versión finalizada. Dicho envío se realizará en esta plantilla y las respuestas deberán ir redactadas a continuación del enunciado. La presentación de los casos prácticos deberá cumplir los siguientes requisitos: 

Letra Arial 12



Márgenes de 2,5



Interlineado de 1,5



Todos los campos de la portada deben estar cumplimentados



Tener una correcta paginación

Los casos entregados deben ser originales e individuales. Cualquier similitud entre ejercicios de distintos alumnos, ejemplos y/o extractos de la Red u otros documentos, conllevará la devolución inmediata de los ejercicios y la no obtención de la titulación en el caso de reiteración. Recuerda que solo podrás enviar hasta dos veces por asignatura el trabajo final, en caso de no superarse en esos intentos, el alumno/a deberá abonar el precio correspondiente a los créditos de la asignatura para poder volver a ser evaluado. Los trabajos solo serán aceptados en formato de procesador de texto (Word, docx, odt, etc.) o en pdf. En caso de presentar otro formato deberá ser consultado con el asesor y si es necesario, proporcionar el software necesario para su lectura.

Página 2

El archivo que se enviará con el trabajo deberá llevar el siguiente formato: ddmmaa_Nombre del Bloque_Apellidos y Nombres.pdf Ejemplo: 11052018_Estrategia Empresarial_Garcia Pinto Marina.pdf La extensión del trabajo no podrá sobrepasar las 18 páginas, sin contar la portada, bibliografía y anexos.

Criterios de Evaluación El trabajo final se evaluará en función de las siguientes variables: 

Conocimientos adquiridos (25%): Se evaluarán los conocimientos adquiridos a lo largo de la asignatura mediante el análisis de los datos teóricos presentes a lo largo del trabajo presentado por el alumno/a.



Desarrollo del enunciado (25 %): Se evaluará la interpretación del enunciado por parte del alumno/a y su desarrollo de manera coherente y analítica.



Resultado final (25%): Se evaluará el resultado final del enunciado, si el total del redactado aporta una solución correcta a lo planteado inicialmente y si el formato y presentación se enmarca dentro de los parámetros establecidos.



Valor añadido y bibliografía complementaria (25%): Se evaluarán los aportes complementarios por parte del alumno/a para la presentación y conclusión del trabajo final que den un valor añadido a la presentación del enunciado: bibliografía complementaria, gráficos, estudios independientes realizados por el alumno/a, fuentes académicas externas, artículos de opinión, etc. Todas las fuentes, tanto impresas como el material en línea, deberán ir anexadas al trabajo siguiendo la normativa APA.

Página 3

ENUNCIADO Hierros S.A. es una empresa familiar dedicada a la venta de productos de ferretería y maquinaria ubicada en el barrio del Eixample en Barcelona. La empresa lleva más de cien años en activo y dispone de una importante cartera de clientes, tanto a nivel personal como profesional, cuyos datos conforman una enorme base de datos con información realmente valiosa pero a la que no se le da un uso correcto. En relación a esta información, comentar que disponemos de datos de hace unos ochenta años, aproximadamente. Por supuesto los datos de los primeros años se registraron en formato papel, pero poco a poco fueron informatizándose. El principal problema con todos los datos e informaciones de los clientes reside en el hecho de que dichos datos no se encuentran unificados, es decir, cada departamento cuenta con su propia base de datos y los valores utilizados no coinciden, además de encontrarse datos registrados en castellano y otros en catalán, y en términos económicos, algunos de ellos están expresados en pesetas y otros en euros. Comentar que todas las bases de datos están informatizadas en archivos Excel, en los que nos encontramos con las siguientes categorías: -

Nombre y apellidos.

-

Nombre de la empresa.

-

DNI o CIF.

-

Teléfono.

-

Dirección.

-

Email.

-

Histórico de compras.

-

Ticket medio.

-

Tipos de productos que compra con más frecuencia y cantidades.

En breve Miguel, el hijo del actual propietario, heredará el negocio y consciente de la importancia que tiene para el desarrollo del negocio disponer de una buena base de datos que le permita conocer de primera mano cómo son sus Página 4

clientes así como poder tomar decisiones estratégicas acertadas, acude a ti para que le ayudes a ordenar y unificar los datos, así como a comprobar que los datos de que dispone son válidos y a eliminar aquellos que han perdido validez, como pueden ser registros duplicados o disponer de informaciones de clientes que ya han fallecido.

Página 5

SE PIDE Teniendo en cuenta lo aprendido durante el curso y el enunciado presentado: 1. Valorando la situación de la actual base de datos de Hierros S.A., ¿consideras bueno que se lleve a cabo un proceso de ETL? Justifica tu respuesta considerando los beneficios que ello reportaría a la empresa de Miguel. Además, será importante establecer los objetivos de la puesta en marcha de este proceso. 2. Teniendo en cuenta la información que se tiene de la empresa recogida en las bases de datos, ¿crees que sería interesante recoger otro tipo de información?, ¿qué información añadirías? Justifica tu respuesta. 3. Describe las actividades que llevarías a cabo en cada fase del proceso de ETL (limpieza, extracción, transformación y carga). 4. Tal y como se ha comentado en el enunciado, Hierros S.A. lleva más de cien años en activo, hecho que implica que se disponga de una gran cantidad de datos de la mayoría de sus clientes. Ello provoca que pueda haber datos con valores erróneos, datos mal introducidos, datos duplicados, valores que no coinciden, etc. Ello provocará que sea necesario llevar a cabo un proceso para establecer la calidad de los datos y detectar los errores. Señala aquí los errores con los que puedes toparte en este proceso, teniendo en cuenta lo que hemos expuesto en el enunciado. Propón también de qué manera podemos solucionar dicho error. Es importante que justifiques tu elección.

Página 6

EL PROCESO ETL

Carlos González Salcedo

Página 7

Punto 1. Es claro que la empresa Hierros SA se encuentra en un momento de transformación y quiere continuar su producción y su mejora digitalizando todo lo posible sus datos. La información que posee de sus clientes es muy rica y le será de enorme relevancia para tomar acciones de marketing, mejoras en los procesos de producción e incluso en los propios productos y ofertas que se lancen al mercado. Para ello tiene información de todas las compras de los últimos 80 años, pero es claro que no se pueden realizar análisis complejos con la estructura actual de los datos. Personalmente, y dedicándome al análisis de datos desde hace casi diez años, esta información tiene un enorme potencial pero para poder trabajar con ella ha de realizarse un exhaustivo proceso de ETL que mejore la recogida de los mismos, en un entorno mucho más productivo y con mejores capacidades sobre el que se pueda trabajar después con mayor facilidad y, si cabe la posibilidad, aumentar el número de variables y de información que se recoja para poder segmentar después a los clientes, conocer sus comportamientos de compras, etc. En resumen, los principales problemas con los que se encuentra la empresa actualmente son: 

Datos no unificados, diferentes datos para distintos departamentos



Datos registrados en castellano y en catalán



Datos registrados en pesetas y en euros



Falta de información en algunos registros



Duplicidad



Información obsoleta, clientes fallecidos Claramente, son muchos los beneficios que obtendrá la empresa tras

implementar un correcto y completo proceso de ETL.

Página 8

Podemos mencionar varios de los beneficios que reportaría a la empresa: 

Reducimos el riesgo de recogida de datos incorrecto o incompleto. Dado que todos los datos tienen una estructura común, será más fácil reducir los riegos de tener datos que no podamos utilizar en los análisis por su falta de información.



Crear un repositorio común. De esta manera, habrá un dato único para toda la empresa y al que podrá tener acceso todo aquel que necesite información. Así, la información es unívoca y sin posibilidad de error dado que todas las consultas apuntarán a la misma entidad con la misma información.



Unificar los sistemas. Podemos agregar información de otras fuentes de datos y teniendo en cuenta que cada vez más las empresas utilizan información abierta para cruzarla con la propia y enriquecer sus análisis, con todo el proceso que vamos a llevar a cabo todo eso será mucho más ágil y efectivo. Se pueden incorporar, por ejemplo, información del INE o de RRSS que incrementen mucho más la efectividad de las campañas de marketing.



Aumentar el potencial analítico. Con toda la información recogida y estructurada es claro que el potencial que tiene una base de datos de estas características es enorme. Desde marketing hasta la dirección financiera podrán tener información en tiempo real de las compras que se están realizando, pueden crearse reportes con información histórica o incluso predecir cuáles van a ser los productos más demandados en el futuro próximo.



Según el punto anterior, ayudará a agilizar posibles cambios en la cadena de producción o de venta, reducción de stocks, reducción de costes de almacenamiento, etc. En definitiva, maximizar los espacios y los tiempos en la producción.

Página 9

Por tanto, en base a todas las ventajas que tiene implementar un buen proceso ETL en una empresa como Hierros SA, los principales objetivos que han de plantearse deberán ser: 

Creación de un departamento del gobierno del dato que se encargue de la calidad de los datos y de la propia gobernabilidad de los datos para que siempre se recojan de la mejor manera posible y con un criterio unificado. Entre las tareas de este departamento estarán: definir los formatos de cada una de las variables, tipo de base de datos (el más común y que puede ser relevante en este caso es el modelo estrella), normalización de direcciones, cómo cubrir valores nulos o missing, etc.



Decidir

el

criterio

para

eliminar

información

duplicada,

valores

incorrectos, etc. 

Acordar qué información debe recogerse y cuál no.



Decidir el idioma en que se recogerá toda la información y que será único a partir de la implantación del proceso. Para poder llevar a cabo todo este proceso, deberemos elegir unas

buenas herramientas que nos permitan que este trabajo sea los más ágil posible y que respondan adecuadamente a la hora de cargar la información y poder trabajar con ella. Dada mi experiencia personal, una buena herramienta para este tipo de casos es PDI (Pentaho Data Integration) o también llamado Kettel. Actualmente es una de las herramientas más utilizadas y potentes del mercado, además de ser OpenSource, que han implementado muchas empresas por su versatilidad para diseñar la integración en base a las necesidades de la empresa para construir y explotar el Data Warehouse (DWH). Es considerada por Gartner como una herramienta líder en ETL y que cumple las características más importantes que han incluir un software de este tipo. En concreto, esta consultora destacó la conectividad, la capacidad de entrega de datos, de metadatos y de modelado de datos, además de destacar su diseño y entorno de desarrollo y administración.

Página 10

Las principales ventajas de esta herramienta son, como hemos comentado, su gratuidad, por lo que el coste en este caso es cero, salvo que contratemos la edición de pago que incluye servicio técnico; una enorme comunidad de foros y de códigos abiertos que serán muy útiles a la hora de comenzar con la implementación del proceso; está creado bajo las plataformas de desarrollo de Java y MySQL, lo que le hace ser una tecnología puntera y es una herramienta muy versátil que permite trabajar en diferentes plataformas cuando se trabaja con la integración de datos.

Punto 2. Como hemos comentado anteriormente, el modelo de base de datos que mejor puede adaptarse a la base de datos que estamos generando sería un modelo estrella. Por tanto, lo mejor será crear diferentes entidades con información relevante y con un campo clave primaria que después nos permita cruzar esa información con el resto de entidades para realizar los análisis y las acciones finales de marketing. Hay mucha información que podría ser relevante recoger y que puede ser utilizada en los análisis posteriores, para ello, nuestra recomendación será: 

Catálogo de productos y servicios. Es claro que lo primero que debemos crear y recoger es la información de todos los productos y servicios ofrecemos o hemos ofrecido en algún momento. Por ejemplo, en esta entidad debería recogerse información como el nombre del producto, id del producto para poder cruzar con el resto de entidades, fecha de inicio y fecha de fino si ya ha sido descatalogado por algún motivo, incluso un grupo de producto si se quisieran agrupar los productos en base alguna de sus características (tornillería, herramientas, madera, etc.).



Datos de cliente. Esta información ya se está recogiendo, pero deben completarse todas las características como nombre y apellidos, DNI, teléfono, email, dirección, código postal, si autónomo o de una empresa o particular, etc.

Página 11



Información de la compra o de la visita. Hay que recoger toda la información del momento de la compra: día de la compra, hora, importe, productos adquiridos, id_cliente que lo ha realizado, personal que realiza la venta, si hay sido online o presencial, incluso se puede incluir algún tipo de pregunta adicional al cliente como por dónde ha conocido la empresa Hierros SA para poder medir efectividades de las campañas o motivo de las visitas. Un dato muy interesante pero muy difícil de recoger sería duración de la visita para poder gestionar tiempos de los empleados en caja, en reposición o en atención al cliente.



Además de información de compras deberá recogerse información, si la hubiese, de las devoluciones, con su motivo de devolución, fecha y hora, id_cliente, producto devuelto, etc.



Como a partir de ahora se van a realizar acciones de marketing y campañas por diferentes canales (SMS, email, etc.) habrá que recoger información de las campañas, como fecha de inicio y fecha de fin de la campaña, clientes impactados, descripción de la campaña, etc.



También, si van a realizarse lanzamiento de encuestas masivas para medir la satisfacción del cliente (NPS) deberán generarse entidades que recojan toda la información de las respuestas de las encuestas enviadas, con el id_cliente para poder asignar las respuestas con las ventas.



Respecto a información mucho más compleja de recoger estaría interesante poder relacionar la información de las ventas con la información que se extraen en RRSS si queremos implementar nuestra presencia en las mismas.

Página 12

Punto 3. Como sabemos, el proceso de ETL lo componen cuatro fases. Analicemos cuáles serían las actividades que vamos a realizar en cada una de ellas. Limpieza. Es una de las fases más importantes del proceso ETL, y en este caso en concreto será de las más apropiadas. Es un paso fundamental pues nos asegurará una buena calidad de datos, que es un de los principales problemas de la compañía actualmente, dado que están incompletos, obsoletos en algunos casos y no de forma homogénea. Lo primero que tenemos que realizar es unificar los datos. Para ello debemos normalizar nomenclaturas (recordemos que tenemos datos en pesetas y en euros). Así mismo, organizamos bien los campos con la información clara que debe tener cada uno de ellos (por ejemplo, las direcciones han de estar en un campo el tipo de vía y en otro campo el nombre de la calle completo). También debemos normalizar el tipo de datos de cada campo, la longitud máxima del mismo en caso de ser tipo texto, etc. Otro punto importante será validar que todos los datos que tenemos están completos. Así, buscaremos la manera de completar datos que no aparezcan (por ejemplo, a partir del prefijo de los teléfonos intentar completar la población o el código postal y, viceversa, a través de la población completar datos del teléfono). También podemos borrar direcciones de email obsoletas (@terra.es), nombres completos de algunos campos (si no aparece el descriptor completo, es decir, casos en los que no se ha escrito correctamente alguna palabra; por ejemplo, sexo: hombre donde puede aparecer casos como “hombre” o “h”). De esta forma, de manera definitiva, buscaremos la estandarización completa de los datos, tipo de datos para cada uno de los campos, valores posibles que puede tomar (hombre/mujer; calle/avenida), longitud máxima, alfanumérico con letra al inicio o al final (DNI/NIF/NIE), etc.

Página 13

Extracción. En este punto debemos conocer cuáles son las fuentes desde las que se van a extraer los datos, cómo son los ficheros y de qué tipo y cuáles son sus formatos. Realizaremos un primer chequeo para validar los mismos de manera que conozcamos qué datos son los que se extraen de cada fuente (interna o externa) y poder asegurar una mínima coherencia entre ellos. Tenemos que conocer bien cómo se realiza este proceso, pues en función del volumen de los datos que se extraigan de ciertas fuentes puede ser lento y costos en tiempo de ejecución. Además, tendremos que trabajar también en asegurarnos que esta extracción esté los más alienada posible con el tipo de datos que queremos transformar, pues evitaremos pérdida de tiempo innecesario que, en grandes volúmenes de datos, pueden resultar enormes retrasos en las cargas. Después, obviamente, tendremos que preparar los formatos y el tipo de datos de manera adecuada para que podamos pasar a la fase de transformación. Los modos de extracción que llevaremos a cabo deberán ser dos. El primero, Full Extract, lo utilizaremos para toda aquella información que pueda variar completamente, siempre desde un margen de fechas acotado. El segundo de ellos será el modo Incremental y de actualización. Este modo lo aplicaremos en todos los registros que hayan sufrido modificaciones desde la última fecha acordada. Conocemos que los más importante en la tarea de extracción es que cause el mínimo impacto posible en el sistema origen, es decir, que no afecte en su normal funcionamiento. Por ello esta tarea suele programarse en horas de baja actividad laboral. Además, debe evitarse que se provoque algún problema de seguridad.

Página 14

Transformación. Este proceso principalmente consiste en la aplicación de una serie de reglase de negocio sobre los datos extraídos en la tarea anterior para transformarlos en datos que puedan ser cargados en la nueva fuente. En este caso, tendremos información interna y externa, incluso en diferentes idiomas, por lo que debemos realizar esta tarea con especial cuidado para poder trabajar posteriormente en análisis con los datos adecuados. Las acciones que tendremos que realizar en este paso serán: · Reformateo de datos. · Conversión de unidades: tenemos datos en euros y en pesetas y deben recogerse y asegurarnos que así sea, de una única manera. · Selección de columnas. Probablemente muchas de las columnas no sean necesarias cargarlas en el DWH dado que contendrán o bien información irrelevante o incluso, valores nulos. · Dividir una columna en varias. Esto puede ser útil para trabajar con los datos posteriormente. Un claro ejemplo es separar el nombre y los apellidos del cliente en diferentes columnas. · Lookups. Tendremos que hacer diferentes cruces para completar información de las diferentes fuentes. Por ejemplo, para calcular el campo de si un cliente era existente o nuevo. · Traducir códigos. Por ejemplo, si el nombre del tipo de vía de la dirección de un cliente aparece en catalán o en castellano. Carga. Esta fase es la final del proceso. En ella, los datos que hemos preparado en el punto anterior serán cargados en el sistema definitivo. Deberemos utilizar las técnicas de carga tanto de acumulación simple como de Rolling. Esto se debe a que la primera de las técnicas la aplicaremos a los datos que cargamos hasta una fecha acordada, realizando un resumen de todas las transacciones

Página 15

comprendidas en el periodo de tiempo seleccionado y transportando el resultado como una única transacción al DWH. La técnica de Rolling la utilizaremos para mantener varios niveles de granularidad. Así, podremos calcular y almacenar información resumida en varios niveles con agrupaciones, por ejemplo, en base al tiempo u otro nivel que creamos adecuado. Será el caso de totales por mes, semana o día. Utilizando ambas técnicas, podremos mantener tanto el histórico de los datos para tener mayor antigüedad en los análisis que propongamos y tener así una mayor evolución y, de la misma manera, información completa de los datos diarios. Las cargas, como hemos analizado anteriormente, se realizarán todas a partir de las doce de la noche de manera diaria. Su duración estimada no debería alcanzar las cuatro horas, por lo que dejamos el suficiente margen para solucionar posibles problemas que surjan durante la carga antes del comienzo de la jornada laboral de la empresa.

Punto 4. Se ha analizado y se ha concluido que evidentemente la empresa Hierros SA necesita un exhaustivo proceso de ETL. La antigüedad de la empresa, se tienen datos desde hace ochenta años, con los continuos cambios en la toma de datos, las variaciones en el tipo de datos, etc., hacen que los datos necesiten un proceso de validación y evaluación detallado. Una de las vías que se tendrá también que analizar y mejorar es homogeneizar la toma de datos. Es decir, todo lo que puedan ser cuestionarios que haya que rellenar para completar datos, por ejemplo, en la ficha de cliente, deberán ya partir con la normalización que será de gran ayuda para las validaciones posteriores. Esto, si por ejemplo, cuando tengamos que rellenar la ficha de un nuevo cliente el tipo de dirección es un desplegable, no habrá más opción que elegir una de las posibles de la lista, ya sea calle, avenida, plaza, etc. De la misma manera, introduciremos un reconocimiento de provincias y

Página 16

poblaciones que sean elegibles en base a un desplegable con una validación del código postal que machee que todos estos datos están alineados en la ficha de cliente. Se introducirá además la característica de cuáles serán los campos obligatorios para completar antes de pasar a la siguiente pestaña de datos, para evitar dejar valores nulos o missing que puedan ser un problema en las cargas posteriores. Otro de los aspectos relevantes a tener en cuenta es que habrá que distinguir en el valor de la información que recoge cada campo. Es decir, no será lo mismo si en un de los campos se recoge el valor del tique de la compra que será muy útil para analizar las ventas, el stock y en general, las cuentas de la compañía, con un campo que recoge el número de la calle en la ficha del cliente donde habita, dado que en principio no tenemos envío a domicilio posible en la empresa. Es decir, que habrá que clasificar en información crítica, media o básica cada uno de los campos que se quieren cargar en los sistemas. Entre los principales errores que nos podremos encontrar serán los siguientes: - Duplicidad en datos de clientes: un mismo cliente podrá estar dado de alta varias veces con pequeñas variaciones en los datos que hagan parecer que se tratan de diferentes clientes. - Errores en la carga de datos: es probable que la trabajar con tantos ficheros no tengamos datos de algunos de los meses, o de algún periodo concreto o de quizá de un grupo de clientes en concreto. Esto puede deberse a un fallo en la carga de los datos de un fichero concreto en algún momento del tiempo o la pérdida del fichero en un momento puntual. - Errores de traducción a la hora de interpretar los datos en español o en catalán. - Datos económicos en diferentes escalas: ya hemos comentado que tenemos datos en pesetas y otras en euros. - Datos erróneos en la recogida: es uno de los problemas que debemos solucionar en la captura de los datos. En el momento de recogida de los datos,

Página 17

hasta ahora no hay ningún tipo de validación de que la recogida está siendo completa y/o válida. - Datos con longitud no completa: es muy probable que la longitud de alguno de los campos no será la correcta, lo que provocará que los datos estén incompletos, direcciones sin terminar o palabras cortadas. - Datos nulos o missing: hemos comentado cómo solucionar estos registros que tienen alguno de sus campos en valores nulos. Podremos intentar completar desde el resto de información que nos proporcionan el resto de campos. Muchas de las soluciones a este listado de errores las hemos mencionado y detallado anteriormente. Principalmente la mejor manera de solucionar estos errores será desde la validación inicial de los datos en el momento de introducirlos en el sistema, lo que nos permitirá empezar a reducir notablemente los errores en el futuro, hasta una normalización del resto de datos. Esto es, deberemos buscar la normalización en la direcciones postales (validación del código postal, provincia, municipio, calle, etc. con misma nomenclatura), normalización en los datos económicos (todo deberá aparecer en euros y los valores en pesetas deberán ser calculados en euros), mismo idioma para todos los campos, completar los datos que no aparecen y pueden ser informados a partir del resto, establecer una misma unidad de medida (todo los datos deberán aparecer en milímetros) y normalización de DNI/NIE. También deberemos actualizar nuestro catálogo de productos para mantenerlo al día de los productos y servicios que se comercializan actualmente y los que se han estado comercializando. Otro de los errores y mejoras que deberemos introducir en la versión de Excel que se esté utilizando en los diferentes entornos. Esto es, que todos los ordenadores y en cualquier sistema donde se pueden recoger datos, se deberá tener la misma versión de Excel con las mismas validaciones iniciales que propongamos. Claro es que, si no unificamos esto, seguiremos teniendo valores incorrectos y errores al inicio del proceso de la toma de datos.

Página 18

La herramienta que utilizaremos en el proceso de data cleaning será Pentaho Data Integration puesto que incluye la validación de datos.

En definitiva, es un trabajo que deberá ser exhaustivo, minucioso y riguroso, pero que ayudará enormemente a la empresa a poder calcular sus ventas, analizar el stock, por tanto, reducir los costes de roturas de stock, de almacenamiento, etc. incluso poder analizar la afluencia de clientes en ciertas épocas u horas del año, tipos de productos que se venden en función del día de la semana, análisis de la salud financiera de la empresa, etc., siempre con datos fiables y que de verdad puedan ser utilizados para tomar decisiones basadas en la realidad.

Página 19

Bibliografía - Talend.com (2020). ¿En qué consiste un proceso de ETL (Extraer, Transformar y Cargar)? https://www.talend.com/es/resources/what-is-etl/ - Cognodata.com (2019). Procesos ETL: cómo obtener valor de los datos. https://www.cognodata.com/blog/procesos-etl/ - SAS.com (2019). ETL. Qué es y por qué es importante. https://www.sas.com/es_es/insights/data-management/what-is-etl.html - Docs.microsoft.com (2019). Extracción, transformación y carga datos (ETL). https://docs.microsoft.com/es-es/azure/architecture/data-guide/relationaldata/etl - Blog.powerdata.es (2013). Procesos ETL: Definición, Características, Beneficios y Retos. https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/procesosetl-definici-n-caracter-sticas-beneficios-y-retos - Diego Krauthamer, comisión de investigación (UAI, 2019). Ventajas del uso de herramientas ETL sobre ANSI SQL. http://imgbiblio.vaneduc.edu.ar/fulltext/files/TC104930.pdf - Comunidad IEBSchool (2019): Procesos ETL. ETL. Ejemplo en una Planta de procesamiento. https://comunidad.iebschool.com/procesosetl/2019/11/13/ejemplo-de-procesoetl-en-una-planta-de-procesamiento/ - Explodat.cl (2020). Data Analytics. Ejemplo de Procesos ETL en Calidad de Datos. https://explodat.cl/Analytics/business-intelligence/ejemplo-de-procesos-etl-encalidad-de-datos/

Página 20

- Juan Chamorro Rodríguez, Universidad Carlos III de Madrid (2016). Aplicación Web para la elaboración y gestión de procesos ETL en Big Data. https://earchivo.uc3m.es/bitstream/handle/10016/26989/TFG_Juan_Chamorro_Rodrigu ez_2016.pdf - Aprender Big Data (2020). Comparativa herramientas ETL más usadas en la empresa. https://aprenderbigdata.com/herramientas-etl/ - Docs.microsoft.com (2018). Tutorial de SSIS: Crear un paquete ETL sencillo. https://docs.microsoft.com/es-es/sql/integration-services/ssis-how-to-create-anetl-package?view=sql-server-ver15 - Portal SQL (2019). Construir procesos ETL con SSIS. http://www.portalsql.es/index.php/2019/01/02/construir-desplegar-y-agendarprocesos-etl-con-ssis/ - Datamanagement.es (2020). Procesos ETL con SQL Server Integration Services – SSIS. https://datamanagement.es/2020/04/06/proceso-etl-con-sql-server-integrationservices-ssis/ - Edutecne.utn.edu.ar (2019). Tutorial Data Warehouse SQL Server. http://www.edutecne.utn.edu.ar/sist-gestion-II/SQL%20%20Tutorial%20ETL%20-%20Parte%201.pdf - Dataprix.com (2010). Herramientas ETL. ¿Qué son, para qué valen? Productos más conocidos. ETL’s Open Source. https://www.dataprix.com/es/blog-it/respinosamilla/herramientas-etl-son-valenproductos-mas-conocidos-etls-open-source

Página 21

Related Documents


More Documents from "John Corrales"