En este artículo veremos cómo crear un flow o flujo en Trifacta, una herramienta diseñada para la transformación y la analítica de datos. Trifacta busca mejorar la calidad de los datos almacenados en una base de datos, con la finalidad de hacer una transformación de datos que permita reducir los volúmenes de datos grandes a información que sea compacta.
¿Qué es Trifacta?
Trifacta es una herramienta sumamente útil. Ofrece no solo posibilidades para el análisis y organización de los datos, sino un sistema de sugerencias que permiten corregir errores con base en las recomendaciones que el mismo programa nos hace. En caso de que el archivo corregido no quede como esperábamos, tenemos la opción de deshacer todos los cambios y volver el archivo a su estado original.
Flow en Trifacta: create a flow to wrang your data
La información alojada en un almacén de datos o en las fuentes de datos
debe sufrir ciertos cambios antes de poder usarse. Lo que busca Trifacta es crear tipos de datos estructurados que se alojen en las bases de datos y puedan usarse de manera óptima y eficiente.
Para lograr este cometido, existe una opción denominada flujo en Trifacta. En el momento de crear un flujo en Trifacta, nos va a aparecer un mensaje que dice: “Create a flow to wrang your data”, lo cual se traduce como “crea un flujo para ordenar tus datos”.
Esta frase es importante, porque brinda el punto de partida para un concepto valioso en la creación de un flujo en Trifacta: el wrangling.
El data wrangling o simplemente wrangling es un proceso según el cual se mapean o convierten datos de forma que pasan de un estado bruto a otro formato en el que sea más fácil tratarlos. Este proceso también se conoce como preparación de datos o dataprep.
Sea cual sea el nombre que le demos, este es un proceso que consiste en realizar tareas de limpieza y preparación de volúmenes de datos que, en un principio, pueden tornarse complejos. Con el trabajo realizado en el wrangling, quedan accesibles y mejoren su calidad.
Funciones del data wrangling
Algunas de las funciones que ofrece el data wrangling son:
- Facilita la extracción de datos de cualquier tipo de fuente, ya sean bases de datos relacionales y NoSQL o archivos de formato plano.
- Permite que se extraigan partes específicas de un conjunto de datos de manera automática.
- Posibilita el examen de datos para la posterior recopilación de estadísticas y resúmenes sobre esa información.
- Permite corregir errores que se presenten en un conjunto de datos.
- Permite integrar datos de diferentes fuentes para que se conviertan en información valiosa.
- Permite enriquecer los datos de forma manual o automática.
- Permite crear conjuntos de datos posteriores a la aplicación del data wrangling
Crear un flujo en Trifacta
Lo primero que haremos será abrir la página de Trifacta. Una vez allí, encontraremos una pestaña en la esquina superior izquierda que tiene el símbolo de un flujo de datos. Vamos a hacer clic en esa pestaña y se abrirá un área de trabajo, donde se nos permitirá crear el flujo en Trifacta. Clicamos en el botón que dice “Create Flow”:
Lo que haremos será tomar una fuente de datos previamente creada. En nuestro caso serán unas hojas de cálculo que contienen varios registros de clientes, producto de la recolección de datos en una feria de empleo.
Como han sido diversos agentes los que han depositado la información en la base de datos, puede que algunos datos no estén organizados o sean inservibles, de ahí la necesidad de crear un flujo en Trifacta para organizar dicha información.
Vamos a darle un nombre y una descripción al flujo en Trifacta:
Con esto, ya hemos creado el flujo en Trifacta, para el que, después, habrá que agregar e importar datasets.
¿Cómo seguir avanzando?
En este post has aprendido qué son los flows o flujos en Trifacta y qué relación tienen con el data wrangling. Si quieres seguir formándote acerca del amplio mundo del Big Data con la guía de profesionales en el sector, inscríbete en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Con la ayuda de esta formación íntegra e intensiva, podrás, en pocos meses, educarte en lo necesario para convertirte en un gran analista de datos. ¡Consúltanos para obtener más información y da el paso que te cambiará la vida!