El este artículo te enseñaremos a añadir recipes en Trifacta. En otro post, hemos visto cómo crear un flujo en Trifacta; a este flujo era necesario añadirle datasets, es decir, conjuntos de datos que se muestran en los sistemas de almacenamiento.
Una vez se han cargado los datasets a mostrar, podemos añadir recipes en Trifacta o recetas, un conjunto de pasos que permiten preparar las fuentes o datasets. A continuación te explicamos cómo hacerlo.
¿Qué son los recipes en Trifacta?
Los recipes en Trifacta contienen una serie de pasos que se aplican a conjuntos de datos y se van a ir añadiendo hasta conseguir que los datasets estén limpios y puedan ser transformados para outputs.
Este proceso consiste en seleccionar elementos y aplicar sugerencias u otro tipo de acciones que transformen los datasets.
Existen diferentes operaciones que se pueden realizar con los recipes en Trifacta:
- Reutilizar recipes con el mismo flujo.
- Reutilizar la copia de un recipe en el mismo flujo.
- Reutilizar un recipe en un ambiente diferente.
- Mover una copia de un recipe a un flujo diferente.
- Descargar un recipe.
Añadir recipes en Trifacta
Para añadir un recipe en Trifacta, debemos acceder al área de trabajo del flow y le hacer clic en el botón que dice “Add new Recipe”:
Nos aparecerá un área como la siguiente:
Después, aparecerá una pantalla como la siguiente:
En ella, Trifacta ya nos empieza a hacer un profiling en sus primeras fases, donde se clasifican los campos en función de su contenido. En esta primera etapa del profiling, Trifacta nos dice el tipo de datos de los campos del dataset, si son texto o números, email o fechas. Es decir, Trifacta en este punto es capaz de generar una correlación semántica entre los distintos campos con base en el contenido de los mismos.
La información de los campos en Trifacta se puede visualizar en tipo tabla (como normalmente se mantiene) o en tipo columna:
La visión tipo columna se utiliza cuando se deben hacer transformaciones de datos de toda una columna.
¿Qué es profiling?
Profiling es una de las cosas que se hace cuando se añaden recipes en Trifacta. El Reglamento General de Protección de Datos lo define, en su artículo 4, sección 4, como el tratamiento automatizado de datos personales que se utiliza para evaluar aspectos de la vida de personas físicas. Esta evaluación servirá para hacer predicciones acerca de su comportamiento, sus gustos e intereses y todo tipo de atributos que sean útiles para el marketing.
En Trifacta, el data profiling se usa para asegurar la calidad de los datos, para lo cual se evalúa la precisión de los datos y se corrobora que sean completos y válidos.
Las herramientas de profiling determinan la calidad de los datos por medio de la exploración de distribuciones de frecuencia de diferentes valores dentro y entre las tablas y columnas.
Cuanto más preciso sea el perfil creado, mayores beneficios obtendrá el proyecto en el que se esté tratando de implementar, ya que el proyecto se acorta y es posible descubrir inteligencia comercial integrada dentro de los datos.
Tipos de data profiling
- Structure profiling: este tipo de profiling se enfoca en la atención en descubrir la estructura del conjunto de datos y determinar si estos están organizados de manera consistente.
- Content profiling: los datos son los protagonistas. El trabajo del analista será observar registros de datos individuales y determinar si los datos contienen errores o algún otro tipo de problema sistemático.
- Relationship profiling: se evalúan las relaciones entre los datos. Entre muchas otras cosas, el analista en este tipo de data profiling puede observar la relación entre las diferentes tablas de un conjunto de datos.
¿Qué sigue?
El proceso de cargar datos para ser modificados dentro de la aplicación de Trifacta requiere una serie de pasos que empiezan por la creación del flujo o flow, continúan con la carga de los datasets y, posteriormente, con la importación de los recipes en Trifacta.
A pesar de ser variados, son una serie de pasos sencillos y, en Keepcoding, te explicamos uno a uno para que puedas tener la oportunidad de modificar tus propios datasets y seguir entrenándote para convertirte en analista de datos. Para profundizar en esto y muchos otros conceptos y herramientas, no te pierdas nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. ¿Quieres cambiar tu vida e impulsar tu carrera en el sector IT? ¡Pide más información y triunfa en pocos meses!