Organizar y depurar información en Talend

El proceso de organizar y depurar información en Talend implica el establecimiento de una correlación semántica entre el contenido de los registros incluidos en la base de datos para determinar el tipo de campo. Es decir, el primer profiling que se realiza para depurar información en Talend se ejecuta por medio del contenido de los campos, de modo que los campos, como podría ser el email, ya son etiquetados por Talend como email. Esto se debe a que el programa nos clasifica los estados (de Estados Unidos) y, en general, crea un formato de etiqueta para cada columna.

¿Qué encontrarás en este post?

Depurar información en Talend: detección de errores

En Talend existe un medidor de calidad de los datos que permite evaluar el nivel de relevancia de los datos que se tienen. Así pues, la barra verde indica que los datos no contienen errores, mientras que la barra amarilla nos muestra los sectores con errores y la blanca hace referencia a los datos nulos.

Lo que se pretende con este dataset es hacer un análisis de datos que permita realizar operaciones de calidad con los datos y brinda una experiencia de usuarios mejorada en contextos variables.

Para ello, deberemos transformar y cargar el job. Debemos buscar dentro del job si existe algún error de ejecución o de incompatibilidad con los datos, para posteriormente poder ejecutar el job.

Depurar información en Talend: corrección de errores

Tenemos una base de datos de potenciales clientes a la cual le modificaremos unos datos para que quede accesible a todo el público. entre esos cambios tenemos:

Errores en la columna state

Lo primero que haremos para depurar información en Talend es verificar la información de la columna state, que Talend nos señala como errónea.

En la parte inferior derecha, nos aparece un histograma en el que se clasifican los estados por tipos:

Si hacemos clic encima de una de las barras del histograma, nos filtra la información según la categoría que hayamos escogido. Para eliminar el filtro, clica en el texto con la x que aparece en la parte superior media de la pantalla, que dice «rows with […]».

Lo que haremos ahora es filtrar la información por los valores erróneos que hay en la columna. Para ello, le daremos a la barra de calidad encima de la columna state, que aparece en amarillo, y seleccionamos la opción que dice «Select rows with invalid values for state«. De este modo, aparecerán solo los campos de la columna state que contienen errores:

Corregiremos el primer campo con error, en el cual el estado se pone como «pi», pero Talend detecta que no existe ningún estado relacionado con esos caracteres que tenga, a su vez, correlación con el campo Cedar Rapid, de la columna City. Cambiamos ese «pi» por IA, que corresponde al Estado de Iowa, en donde queda la ciudad Cedar Rapids.

Una vez corregimos esto, desaparece el error y, en el lado izquierdo, aparece el historial del error corregido:

Los otros errores en los campos corresponden a una palabra mal escrita. En la columna estado se están poniendo las dos primeras iniciales y en estas aparece el nombre del estado completo (Texas). Así pues, cambiaríamos «Texas» por «TX» y el error desaparece. Como la corrección se hará en varias celdas, tachamos la opción que dice «Apply to all cells with this value»:

Errores en la columna email

Para poder seguir con el proceso de depurar información en Talend, debemos corregir el error que aparece en la columna email. Aplicamos el filtro para que aparezcan solo los campos con error y vemos que Talend nos sugiere varias cosas. La más factible es borrar el registro que contiene el error, ya que no hay otro tipo de información de contacto con la que podamos acceder a la información de la persona:

Nombres con espacios no indicados

En el proceso de depurar información en Talend nos encontramos con un registro en el que el nombre tiene espacios no válidos antes y después:

Si vemos que Talend nos ofrece muchas opciones y no encontramos una adecuada, podemos filtrar escribiendo el nombre de la función que queremos ejecutar. En este caso será «Remove…» para «Remove trailing and leading characters»:

Así pues, el proceso de depurar información en Talend puede ser largo y tedioso, pero va a ser muy fructífero con previsión de futuro para obtener datos de calidad y accesibles para todo el público.

¿Qué sigue?

Todo lo que hemos visto en este post forma parte del temario que se enseña en el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva que te servirá para adquirir, en pocos meses, todos los conocimientos teóricos y prácticos necesarios para convertirte en un analista de datos profesional. ¡Dale un giro a tu vida y apúntate!

Organizar y depurar información en Talend

Depurar información en Talend: detección de errores

Depurar información en Talend: corrección de errores

Errores en la columna state

Errores en la columna email

Nombres con espacios no indicados

¿Qué sigue?

IMPULSA TU CARRERA A TU MEDIDA