El proceso ETL (extraer, transformar, cargar) es un proceso de gestión de datos que permite extraer y mover datos desde múltiples fuentes, transformarlos y cargarlos en el destino.
Existe una serie de herramientas ETL que se encargan de extraer, transformar y cargar datos; sin embargo, con el paso del tiempo unas plataformas han destacado más que otras en función de su efectividad y popularidad dentro del mundo Big Data. En este post, te familiarizamos con el proceso ETL por medio de siete conceptos clave.
Fase de extracción
El objetivo de un proceso ETL (extracción, transformación, carga) es producir datos limpios y accesibles que pueden utilizarse para analíticas u operaciones comerciales. Esta primera fase, la fase de extracción, consiste en la ingesta de datos, de manera que podrás extraer los datos desde una o distintas fuentes de datos que, además, pueden ser de diferente índole.
Fase de transformación
La fase de transformación de ETL es donde se produce la operación más crítica. La transformación modifica los datos en bruto para que presenten los formatos correctos. Aquí se produce la normalización en la que se define qué datos entrarán en juego, cómo se formatean y almacenan, y otras consideraciones básicas que definirán las etapas sucesivas.
Por otra parte, se genera la clasificación y se maximiza la eficiencia de los almacenes de datos agrupando y clasificando elementos en colecciones de datos. Las normas de transformación determinarán cómo se clasifica cada dato y dónde se trasladará a continuación.
Fase de carga
Esta última, la fase de carga, recolecta los datos extraídos, procesados, clasificados y llevados a este proceso que consiste en, finalmente, entregarlos al sistema de destino.
Después de que se haya preparado todo el proceso de los macrodatos y una vez se hayan leído, postergado, agrupado, normalizado y limpiado los datos, lo último que nos queda es la última fase de carga, que es esa ingesta de datos en el sistema de destino.
Estrategia proyecto ETL: análisis
La primera etapa de la estrategia proyecto ETL consiste en definir el alcance del proyecto de integración de datos planteado para disponer de una visión clara de los requisitos que deben cumplir todos los procesos ETL (extract, transform, load).
Por otra parte, en esta primera etapa se deben evaluar y analizar los datos origen. Es decir, tendrás que identificar la ubicación de los datos origen y realizar un análisis de volumetrías.
Estrategia proyecto ETL: diseño
Esta etapa de la estrategia proyecto ETL consiste en:
- Diseño de los Modelos Destino: diseño del Modelo Lógico y Físico de datos del sistema destino.
- Diseño Mapa Fuente-Destino de los datos: diseño detallado de los mapas lógicos y técnicos de carga de los campos de origen y destino.
- Diseño del Plan de Pruebas: en la última fase de esta etapa se realiza el diseño que se utilizará en la realización del plan de pruebas.
Estrategia proyecto ETL: construcción
En esta etapa se produce la construcción de los procesos ETL, planeación y desarrollo de las implicaciones del ETL.
En suma, se genera la ejecución y carga de los datos, es decir, la ingesta de los datos a manipular. Finalmente, se lleva a cabo la ejecución del Plan de Pruebas, de manera que se certifique que los procesos están bien construidos y que los datos corresponden a los requisitos establecidos.
Estrategia proyecto ETL: implantación
Por medio de esta etapa de implantación de la estrategia proyecto ETL podrás encontrar las siguientes funciones:
- Implantación de los procesos ETL: traslado de los procesos a entorno de producción real.
- Carga de los datos históricos: solo si es necesario y adecuado su uso.
- Planificación y ejecución de los procesos: finalmente se desarrollan todos los diseños y rutas de acción que se han pensado.
Aprende más sobre el Big Data
Por medio de este post, te has acercado a siete de los conceptos clave del proceso ETL. Sin embargo, en KeepCoding sabemos que aún falta mucho por aprender sobre el mundo Big Data.
Por ello, te aconsejamos asistir al Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Aquí, podrás aprenderlo todo sobre la variedad de herramientas y sistemas a partir de una metodología impartida tanto desde la teoría como desde la práctica. ¡Apúntate!