Fusión por lookup en Talend

Contenido del Bootcamp Dirigido por: | Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Entre todas las opciones que Talend permite llevar a cabo, se puede realizar una fusión por lookup en Talend. En este proceso se realiza principalmente en los modelos multidimensionales y, en este post, te explicamos en qué consiste.

¿Qué son modelos multidimensionales?

El modelo multidimensional es un método que se utiliza para ordenar datos en la base de datos y permite que los usuarios reciban respuestas rápidas a las solicitudes realizadas creando y examinando datos comparativos.

Los modelos multidimensionales representan los datos en forma de cubos. Estos cubos se pueden modelar y observar desde distintas perspectivas. Se miden por dimensiones y tablas de hechos.

Las dimensiones son perspectivas o entidades sobre las cuales una organización mantiene registros. Los hechos son medidas numéricas y la tabla de hechos contiene nombres de los hechos o medidas de las tablas dimensionales relacionadas.

modelo multidimensional

Conexiones de fila: lookup en Talend

Las conexiones de fila en Talend manejan los datos reales y pueden ser de diferentes tipos:

  • Principal o main: es la más usada. Transmite flujos de datos de un componente a otro.
  • Búsqueda o lookup.
  • Rechazo o reject: conecta un componente de procesamiento a un componente de salida.
  • Salida o output: conecta un componente tMap a uno o varios componentes de salida.
  • Únicos/duplicados o uniques/duplicates: la conexión uniques recopila filas que se encuentran primero en el flujo entrante, mientras que las conexiones duplicates recopilan posibles duplicados de las primeras filas encontradas.
  • Combinados o combine: combina un componente CombinedSQL con otro.

La conexión lookup conecta un componente de un subflujo a un componente de flujo principal. Una fila de búsqueda o lookup se puede cambiar a una fila principal o main en cualquier momento y a la inversa.

Las filas lookup en Talend son conexiones entrantes de flujos de datos secundarios o de referencia. Estos datos dependen de manera directa o indirecta del flujo primario. La relación de dependencia que se crea se traduce con un mapeo gráfico y una clave de expresión.

Existen tres tipos de modelos de carga lookup:

  • Load once o cargar una vez.
  • Reload at each row o recargar en cada fila.
  • Reload ad each row (cache) o recargar en cada fila (caché).

Realizar un lookup en Talend

Lo que haremos en este post será trabajar con la columna State, de la base de datos «Potenciales_Clientes». Esta columna muestra el nombre de los estados (de Estados Unidos) a los que pertenecen cada uno de los clientes. Debemos hacer un lookup en Talend y unirlo con otra fuente para obtener el nombre del estado.

Para hacer un lookup en Talend, debemos seleccionar una de las columnas con la que trabajaremos y hacemos clic izquierdo en el icono de los dos círculos pequeños unidos por una pequeña intersección; este icono dice «Lookup: combine two datasets»:

lookup en talend: paso 1

Lo que nos va a permitir el lookup en Talend es elegir otra fuente que contenga los estados y un código de nexo de unión y nos va a permitir insertar esa descripción como campo nuevo en la fuente.

Una vez le damos al icono, nos va a aparecer un cuadro de diálogo en donde haremos clic en el símbolo +, ubicado en la esquina inferior izquierda:

lookup en talend: paso 2

En el recuadro que nos aparece elegimos la fuente donde sabemos que está el otro campo que queremos añadir a la fuente original. En nuestro caso, seleccionaremos la fuente que dice Business «Unit Regions With States». Acto seguido, clicamos en el botón verde que dice «Add»:

lookup en talend: paso 3

Seleccionamos el checkbox que dice «Add to Dataset» y, al confirmar, automáticamente se nos añadirá al dataset la columna que hemos elegido de una fuente externa a la fuente original:

lookup en talend: paso 4

Este proceso se denomina fusión por lookup en Talend.

¿Quieres seguir aprendiendo?

Además de aprender a realizar una función por lookup en Talend, hemos visto qué son las conexiones multidimensionales y qué tipos de conexiones de filas existen en Talend.

Todas estas temáticas abordadas son una parte del plan de estudio disponible en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el cual verás cómo trabajar con herramientas como Talend y muchas más. En esta formación íntegra e intensiva de tan solo 8 meses podrás aprender todo lo necesario para incursionar en el mercado laboral IT, donde encontrarás las mejores oportunidades. ¡Solicita más información y comienza un nuevo camino lleno de éxitos!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado