Dividir palabras de un mismo campo en Trifacta

En este artículo realizaremos el proceso de dividir palabras de un mismo campo en Trifacta.

En el proceso de limpieza de un conjunto de datos, nos podemos encontrar con casos en los que existen palabras de un mismo campo en Trifacta que deberían ir separadas. Este proceso de división se llevará a cabo en el tutorial de este post.

¿Qué encontrarás en este post?

Dividir palabras de un mismo campo en Trifacta

Puede que, cuando estamos en el proceso de depurar información, nos encontremos que en nuestro recipe hay un campo de nombres que contiene los nombres y apellidos de una persona, pero también contiene el área en el que se desempeñan. Pues bien, para optimizar estos datos tendríamos que separarlos por columnas, de tal modo que nombre, apellido 1, apellido 2 y área queden en diferentes columnas. Así, podrá trabajarse mejor con estos datos.

Para dividir palabras de un mismo campo en Trifacta lo que tendremos que hacer será, primero, situarnos en la columna a editar:

dividir palabras de un mismo campo en Trifacta: paso 1

Seleccionamos los espacios en blanco en los campos a modificar y escogemos, entre el grupo de sugerencias, la que mejor se adecúe a nuestra situación determinada. Para este caso escogeremos la opción que nos sugiere separar los nombres y áreas por columnas:

dividir palabras de un mismo campo en Trifacta: paso 2

Una vez modificado el recipe, nos quedarán todos estos datos, que antes estaban juntos, en columnas separadas:

dividir palabras de un mismo campo en Trifacta: paso 3

Ahora, lo que haremos será cambiar las etiquetas de los nombres, de modo que:

GEN_EMP_RAZ_CON_NOMBRE1 quede como GEN_EMP_RAZ_CON_NOMBRE
GEN_EMP_RAZ_CON_NOMBRE2 quede como GEN_EMP_RAZ_CON_APELLIDO1
GEN_EMP_RAZ_CON_NOMBRE3 quede como GEN_EMP_RAZ_CON_APELLIDO2
GEN_EMP_RAZ_CON_NOMBRE4 quede como GEN_EMP_RAZ_CON_CARGO

dividir palabras de un mismo campo en Trifacta: paso 4

A continuación, quitaremos los paréntesis presentes en el campo cargo. Para ello, seleccionamos el carácter de abrir paréntesis y vemos las sugerencias que nos hace Trifacta. Entre esas opciones está la de replace el paréntesis por un espacio en blanco. Escogemos esa opción y hacemos lo mismo con el carácter de cerrar paréntesis. Al final nos quedará una columna como la que se muestra a continuación:

dividir palabras de un mismo campo en Trifacta: paso 5

Estandarizar mayúsculas y minúsculas

Supongamos que, además de estar juntos nombres y apellidos, en la misma columna se entremezclan campos con mayúsculas y minúsculas de manera indiscriminada.

Además de dividir palabras de un mismo campo en Trifacta, también se pueden estandarizar mayúsculas y minúsculas de diferentes columnas. Para ejecutar este procedimiento, trabajaremos con la columna provincia, en la cual algunas de las provincias están escritas con mayúscula y otras con minúscula.

Para cambiar esto, vamos a hacer clic encima de la columna y, entre las sugerencias, buscamos la que dice Uppercase GEN_EMP_RAZ_COD_PROV. Esta sentencia lo que hará será convertir todas las minúsculas que encuentre en mayúsculas:

Uppercase y lowercase

En el mundo de la programación y del Big Data, te habrás encontrado con los términos uppercase y lowercase como referencia a la transformación de caracteres a mayúscula y a minúscula, respectivamente.

Estos conceptos tienen su origen en la prensa impresa, en donde se imprimían los textos por medio de moldes hechos de pequeñas piezas de metal. Estos moldes se guardaban en unos cajones o cases. La distribución de los moldes dentro de los cajones era muy cuidadosa, de modo que las letras mayúsculas, que no se usaban tan frecuentemente, iban en la parte de arriba de los cajones (uppercase) y las letras minúsculas, que eran las que más se usaban, iban en la parte de abajo (lowercase).

Así pues, la función uppercase convierte las letras minúsculas en mayúsculas y la función lowercase convierte las letras mayúsculas en minúsculas.

Como dato curioso, podemos decirte que la función Proper convierte la primera letra de cada palabra en mayúscula si está en minúscula, o en minúscula si está en mayúscula.

¿Cuál es el siguiente paso?

Ahora ya sabes cómo dividir palabras de un mismo campo en Trifacta, una función muy útil a la hora de hacer la preparación y organización de datos. Recuerda que toda la temática abordada en este artítculo forma parte de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, donde podrás instruirte, de la mano de los mejores profesionales, en todo lo necesario para incursionar en el mundo del Big Data. En poco tiempo, habrás obtenido una formación completa que te ayudará a alcanzar tus metas. ¡Pide más información y triunfa en el sector IT!

Dividir palabras de un mismo campo en Trifacta

Dividir palabras de un mismo campo en Trifacta

Estandarizar mayúsculas y minúsculas

Uppercase y lowercase

¿Cuál es el siguiente paso?

IMPULSA TU CARRERA A TU MEDIDA