Depurar información en Trifacta

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

En este artículo te enseñaremos cuál es el proceso para depurar información en Trifacta.

Trifacta es una aplicación que sirve para la preparación, tratamiento y limpieza de datos. Para que los conjuntos de datos que se van a tratar sean útiles en distintos procesos de transformación, se debe depurar la información en Trifacta.

Para enseñarte cómo depurar información en Trifacta vamos a elegir una base de datos, creada previamente, en al que tendremos los registros de algunos clientes.

Algunos procesos para depurar información en Trifacta

Eliminar columnas

Lo primero que haremos con los datos ingresados a Trifacta desde los datasets y los recipes es eliminar columnas que no contengan datos. En nuestro caso, tenemos una columna vacía que no sirve para nada. Trifacta siempre nos dará sugerencias de lo que se debe hacer con los datos erróneos. En esta ocasión, nos sugiere eliminar las columnas, así que lo que haremos será lo que nos propone la aplicación:

depurar información en trifacta: paso 1
depurar información en trifacta: paso 2

En la parte derecha de la pantalla aparecen los cambios que hemos ido haciendo para la preparación de los datos:

depurar información en trifacta: paso 3

Hay que resaltar que los cambios se pueden deshacer en cualquier momento, se puede volver atrás, se puede modificar… Es decir, el recipe siempre se puede revertir.

Filtro de registros erróneos en campo teléfono

En el campo de teléfono existen algunos registros erróneos que deben corregirse. Para filtrar estos registros y que solo se visualicen los que están pendientes por corregir, debemos hacer clic en el recuadro que aparece en la esquina inferior derecha que dice “Show only affected / Rows”:

depurar información en trifacta: paso 4

Separar dos números de teléfono unidos en un mismo campo

Dos de los errores anteriores correspondían a que existían dos números de teléfono en el mismo campo. Así pues, vamos a dividir y obtener los dos teléfonos por separado. Para ello, hacemos clic en la sugerencia nombrada “Split on values matching”.

En el proceso de depurar información en Trifacta, la aplicación siempre nos va a mostrar una preview de lo que se va a hacer:

depurar información en trifacta: paso 5

Lo que hará esta opción es separar los dos números de teléfono en columnas distintas:

depurar información en trifacta: paso 6

Categorizar un valor como nulo

El otro registro de error correspondía a un número de teléfono inválido. Trifacta nos ofrece varias opciones:

  • Primero, tenemos la de borrar el registro. Esta opción no la tomaremos, pues, sin contar el número, todos los campos del registro están bien y este puede contener información valiosa.
  • La otra opción que nos ofrece es poner el campo de teléfono como nulo. Seleccionaremos esta opción:
depurar información en trifacta: paso 7

La columna azul nos muestra cómo se encuentra el campo actualmente. La columna amarilla nos muestra cómo quedaría el campo después de su respectiva modificación o “Add” (preview).

Depurar información en Trifacta

El proceso de depurar información en Trifacta consiste en eliminar o modificar elementos de una base de datos o almacén de datos que no son necesarios.

Estos datos pueden estar incompletos, incorrectos o duplicados, lo cual retrasará el proceso de análisis, de no tratarse de manera adecuada y eficiente.

Usualmente se confunden los términos depuración o limpieza de datos con el de purga de datos. Ambos conceptos son diferentes. Por un lado, purga es un proceso según el cual se eliminan conjuntos de datos viejos o inútiles para hacer espacio y poder insertar nuevos datos. Mientras tanto, depurar datos en Trifacta consiste en eliminar estos mismos datos en muchas ocasiones, pero con una finalidad distinta, ya que lo que se busca a la hora de depurar información en Trifacta es maximizar la precisión de los datos que quedan y, así, poder construir un corpus de calidad para un análisis de datos eficiente.

Scrubbing

En ocasiones se denomina scrubbing al proceso de depurar información en Trifacta y en otras plataformas. El scrubbing se hace con la finalidad, entre otras, de ahorrar tiempo y dinero y mejorar la precisión de los análisis de datos. Cuando procesamos información de una base de datos debemos ser muy cuidadosos con verificar que esta información no posee errores de ningún tipo, ya que este hecho, tal como puede pasar desapercibido, puede causar grandes daños en un proyecto o empresa.

¿Quieres saber más?

Existen muchísimos procesos por medio de los cuales se puede depurar información en Trifacta, lo importante es que sepas utilizar de manera óptima la herramienta de sugerencias que la aplicación pone a tu disposición.

Si quieres seguir aprendiendo sobre Trifacta y otras tantas herramientas importantes en el análisis de datos, tienes a tu disposición nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el cual aprenderás cómo manejar estos programas y abordarás temáticas relacionadas con el Big data. ¡Inscríbete y conviértete en un experto en pocos meses!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado