Barras de calidad e histogramas en Trifacta

Contenido del Bootcamp Dirigido por: | Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Las barras de calidad e histogramas en Trifacta son elementos añadidos para facilitar la visualización de posibles errores en el proceso de transformación de los datasets.

Las barras de calidad e histogramas en Trifacta funcionan a modo de estadísticas que nos dicen cuáles son, por ejemplo, los registros válidos en función de los tipos de datos que se han detectado y cuál es el conjunto de datos que no corresponde con ese tipo.

Barras de calidad e histogramas en Trifacta

Barras de calidad

Las barras de calidad son una representación gráfica que generan un primer profiling de la calidad de la información. Estas barras son tremendamente útiles en tanto nos brindan un punto de apoyo para empezar el proceso de preparación de los datasets o conjuntos de datos.

Las barras de calidad rojas indican que hay errores en los registros; las verdes indican que todo está bien, que los registros son correctos, y la negra hace alusión a los registros que están vacíos.

Histogramas

Los histogramas son representaciones gráficas de puntos de datos organizados en rangos que el usuario ha especificado. Son similares a los gráficos de barras y pueden concentrar grandes volúmenes de datos en una imagen que sea fácil de visualizar e interpretar.

El eje Y vertical representa el recuento de números o el porcentaje de ocurrencias en los datos de cada columna. A su vez, las columnas se pueden utilizar para visualizar patrones de distribución de los datos.

Los histogramas se usan para demostrar cuántas variables de cierto tipo se desarrollan en un rango definido. Asimismo, muestran los diferentes tipos de datos que se encuentran en los recipes.

Uso de los histogramas

Los histogramas se usan generalmente cuando:

  • Los datos son numéricos.
  • Se desea ver la forma de distribución de los datos.
  • Se necesita analizar si un proceso cumple con los requisitos del cliente.
  • Se requiere analizar cómo se ve el resultado del proceso de un proveedor.
  • Se necesita observar si se ha producido un cambio de proceso de un periodo de tiempo a otro.
  • Se desea comunicar la distribución de datos de forma simple y eficaz a otras personas o implicados.

Histogramas vs. diagramas de barras

Usualmente la gente confunde los términos histograma y diagrama de barras, utilizándolos de manera indistinta. Una de las principales diferencias es que los histogramas suelen utilizarse en datos continuos, unos tipos de datos cuantitativos que pueden reducirse a niveles cada vez más finos. Un ejemplo de dato continuo sería el peso de un producto, que se puede medir en libras, kilos, gramos, miligramos o toneladas.

Los diagramas de barras, por el contrario, se usan para análisis de datos categóricos o nominales. Estos son datos cualitativos que describen características de un elemento, animal o persona. Los datos nominales o categóricos definen la pertenencia de un objeto a una categoría o clase en relación con sus atributos. Por ejemplo, si clasificamos los productos por su tipo: frutas, verduras, carnes, estos serían datos nominales o categóricos.

diagramas de barras vs. histogramas

Uso de las barras de calidad e histogramas en Trifacta

Las barras de calidad e histogramas en Trifacta son útiles, ya que miden ciertos parámetros de clasificación de la información. La información que entra a los datasets en Trifacta es información en bruto, son datos que aún no han sido procesados y requieren procesos de carga, transformación y extracción para su correcto uso.

Esta es una de las funcionalidades de las barras de calidad e histogramas en Trifacta, dado que estas herramientas evalúan la calidad de los datos en función de sus tipos, ya sean cualitativos o cuantitativos, nominales o numéricos. Todos estos datos son traídos desde un flow, pasando por un dataset, y posteriormente, terminando en un recipe, que es la receta final de la primera fase de transformación de los datos.

A partir de las barras de calidad e histogramas en Trifacta, se pueden empezar a ejecutar procesos de depuración y limpieza de datos para luego sacar fuentes en limpio que ayuden en la toma de decisiones empresariales y colaboren en estrategias de negocio.

¿Quieres seguir aprendiendo?

En este post has visto qué son las barras de calidad e histogramas en Trifacta y cómo estos miden los parámetros de calidad de los datos por medio de su categorización en diferentes tipos. Si te interesa esta temática, puedes seguir aprendiendo al inscribirte en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el que estarás acompañado de los mejores profesionales para que, en tan solo 8 meses, culmines tu proceso y te conviertas en un analista de datos profesional. ¡Pide ahora más información!

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado