Talend es una herramienta que tiene muchas utilidades y funciones; entre ellas se encuentra la de estandarizar el campo de email en Talend, una funcionalidad de la que te hablaremos en este post.
El proceso de estandarizar consiste en aplicar una serie de reglas de un modelo a otro, buscando siempre mejorar la calidad de los datos que se modifican.
El proceso de estandarización forma parte de la denominada integración de datos, una práctica que consiste en consolidar datos de fuentes de datos distintas en un solo dataset o conjunto de datos que permita a las empresas tener datos consistentes y de mayor calidad.
Data integration
El data integration o integración de datos es un proceso que consiste en reunir datos de diferentes fuentes y agruparlos para que queden más completos y parecidos entre sí.
Existen diferentes técnicas de integración de datos que se pueden usar con la finalidad de conectar las rutas de datos de los sistemas de origen hacia los sistemas de destino. Entre ellas están:
- Procesos ETL, que significa extracción, transformación y carga de datos. Los diferentes conjuntos de datos pasan por todos estos procesos y, finalmente, se cargan en un data warehouse (almacén de datos) o en una base de datos tradicional.
- Se cargan los datos en algún sistema de Big Data y se transforman de manera posterior para usarse en analítica de datos.
- Captura de datos modificados: se identifican los cambios de datos en las RTDB o Real-time database (bases de datos en tiempo real) para ser aplicados en un data warehouse u otros repositorios disponibles.
- Los datos de una base de datos se copian en otra u otras bases de datos para que la información alojada en las mismas se mantenga sincronizada para copias de respaldo.
- Los datos de los distintos sistemas ofrecen una combinación virtual para poder generar una vista en conjunto y evitar el tedioso proceso de cargar datos en un nuevo repositorio.
- Streaming data integration: esta es una técnica en tiempo real en la que los diferentes flujos de datos se integran de manera continua y alimentan a sistemas de análisis y data warehouses.
Herramientas de integración de datos
- Integración manual.
- Integración basada en aplicaciones.
- Integración de datos middleware.
- Acceso uniforme a los datos.
- Integración de datos físicos.
¿Cómo estandarizar el campo de email en Talend?
Para estandarizar el campo de email en Talend trabajaremos con las columnas disponibles en la base de datos “Potenciales_Clientes”. Imaginemos que de esta base de datos la empresa solo quiere datos limpios y de alta calidad del cliente o de los clientes, de modo que en el campo de email los emails generalistas (@gmail, @hotmail, @yahoo, etc.) se deben descartar para acceder solo a los datos de emails corporativos.
En este caso, tendríamos que estandarizar el campo de email en Talend para que esta aplicación ejecute una limpieza de datos que permita obtener una calidad de los datos óptima. Así, las fuentes de datos que usen las empresas en los procesos corporativos y la toma de decisiones serán las más adecuadas.
Lo que haremos para poder estandarizar el campo de email en Talend es extraer las distintas partes del email y seleccionar los dominios de proveedores de correos electrónicos más comunes y generalistas. Estos dominios los eliminaremos.
Esto lo haremos con una función que se denomina “Extract email parts…”. Buscaremos la función en el cuadro de búsqueda del recuadro de sugerencias y la seleccionamos:
Siguiendo con el proceso de estandarizar el campo de email en Talend, haremos un filtro en el histograma de la columna “email_domain” para que aparezcan solo los dominios que corresponden a @gmail. Borramos los emails que aparecen, ya que solo nos interesan los emails corporativos.
Para borrarlos, clicamos en una de las funciones que aparece en el cuadro de sugerencias y se denomina “Delete theres filtered rows”, la cual eliminará las filas que corresponden a correos generales. Así, solo nos quedarían los dominios de empresas reales con correos corporativos, por lo que habremos podido estandarizar el campo de email en Talend.
¿Quieres especializarte?
En este artículo hemos ejecutado el proceso de estandarizar el campo de email en Talend, de modo que solo quedaran dominios útiles para fines corporativos. Si quieres especializarte en la gestión del Big Data y el análisis de los macrodatos, no puedes perderte el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Te formarás con el acompañamiento de profesionales y adquirirás la teoría y la práctica necesarias para entrar de lleno en el mercado laboral y triunfar frente a tus competidores. ¡No lo dudes y solicita información para descubrir cómo impulsar tu vida profesional!