Existe la posibilidad de exportar una fuente limpia en Talend y, en este artículo, te enseñaremos cómo puedes hacerlo. Una fuente de datos es la ubicación de la que provienen los datos que se utilizan.
¿Qué es una fuente de datos?
Una fuente de datos puede provenir de cualquier entidad que almacene datos. Así pues, la fuente de datos de un sistema de gestión de bases de datos es la base de datos misma, la cual puede estar ubicada en un disco o en un servidor; la fuente de datos de un ordenador puede ser un archivo, una hoja de cálculo, un archivo XML o cualquier tipo de datos codificados dentro de un programa.
Las fuentes dependen de la aplicación o del campo en el que se piense o se desarrolle. Los sistemas informáticos, por ejemplo, pueden tener múltiples fuentes de datos definidas, dependiendo de su propósito o función.
En el entorno de las bases de datos, las fuentes de datos se denominan con el nombre de fuente de datos (DSN).
Las fuentes de datos limpias son grupos de datos que están manipulados de modo que brindan una experiencia de usuarios mejorada. El concepto de fuentes limpias está inmerso dentro de la integración de datos, que consiste en la extracción, transformación y carga de los datos de forma que toda la información que sufra estos procesos ETL quede lista para utilizarse en el Big Data, Google Analytics y otros procesos y herramientas que sirven en la ciencia de datos.
Existen distintos conjuntos de herramientas que colaboran en el proceso de data integration y, entre ellas, está Talend. Es un programa que sirve para trabajar con datos en bruto y convertirlos en datos que puedan usarse en los distintos procesos ya mencionados.
Cómo exportar una fuente limpia en Talend
El proceso de exportar una fuente limpia en Talend consiste en exportar los datos que ya han pasado por un proceso de limpieza o purga y ahora pueden ser visualizados en otras aplicaciones y utilizados para procesos de business intelligence o data analytics.
Para exportar una fuente limpia en Talend tenemos que hacer clic en el botón verde ubicado en la esquina superior derecha de la pantalla, donde dice «Export»:
Nos aparecerán tres opciones para hacer la exportación: Local CSV file, Local XLSX file y Local TABLEU file.
Local CSV file
El CSV es el acrónimo de comma separated values, un tipo de archivo de texto que tiene un formato para guardar los datos en formato de tabla.
El archivo CSV contiene conjuntos de datos de texto sin formato alguno, separados por comas, en donde cada nueva línea en el archivo representa una fila de la base de datos y cada fila de la base de datos tiene una o más campos separados por una coma.
Local XLSV file
Este es un tipo de archivo creado por Microsoft Excel que almacena datos en formato de hojas de cálculo. Estos datos contienen celdas en forma de filas y columnas; también puede contener gráficos, funciones matemáticas, estilos y formatos.
Local TABLEU file
Tableu tiene varios formatos de archivos, entre ellos están:
- Workbooks (.twb)
- Bookmarks (.tbm)
- Packaged Workbooks (.twbx)
- Extract (.hyper o .tde)
- Data source (.tds)
- Packaged data source (.tdsx)
Siguiendo con el proceso de exportar una fuente limpia en Talend, en nuestro caso guardamos el dataset en formato XLSX, para abrirlo con Microsoft Excel. El resultado final es este:
El fichero que obtenemos lo podemos guardar e incluir en cualquier informe o proceso que sea necesario para el análisis y poder integrarlo en nuestro sistema.
¿Te ha gustado este artículo?
Ya sabes qué es una fuente limpia en Talend, cuáles son los tipos de fuentes que existen y cómo exportar la fuente limpia en Talend. Estos temas y muchos más los puedes encontrar detallados en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, donde te formarás de forma tanto teórica como práctica de la mano de grandes profesionales en el sector. ¿Deseas acceder al mercado laboral IT, un sector de altos sueldos y gran empleabilidad? ¡Únete a KeepCoding y sigue el camino del éxito!