Los errores atípicos en Talend, también conocidos como outliers (en estadística) o valores atípicos, son valores que en un campo de observación estándar y panorámico lucen muy distintos a los demás valores del mismo grupo de datos. En este post te enseñaremos cómo corregir algunos de esos errores atípicos en Talend, de tal modo que la calidad de los datos que tengas mejore exponencialmente en relación a las necesidades de información que se tengan.
¿En qué consisten los errores atípicos en Talend?
Los valores o errores atípicos en Talend se definen como los desplazamientos en el nivel de una serie que no tienen forma de ser explicados. Pueden tener una influencia en análisis predictivos de datos y afectar seriamente los resultados si no se hace una detección temprana y a tiempo y se corrigen de manera eficaz.
Los errores atípicos en Talend deben manejarse con muchísimo cuidado y examinarse de cerca, ya que en ocasiones es necesario eliminarlos de los análisis de datos para poder avanzar en el proceso que se esté realizando.
Asimismo, puede suceder que Talend nos arroje errores que dicen ser atípicos, pero que en realidad solo son producto de un mal error de digitación u otros factores que no están contemplados en la analítica. De ahí la importancia de revisarlos minuciosamente.
Entre las causas más comunes de ocurrencia de errores atípicos en Talend se encuentran:
- Error de entrada de datos: este error es muy fácil de arreglar, simplemente se tiene que observar la ubicación del mismo, corregirlo y hacer el análisis de datos nuevamente.
- Problema del proceso: en este caso lo que habría que hacer es una investigación exhaustiva para determinar qué ha sido lo que ha ocasionado el error atípico.
- Factor faltante: esta es una causa más compleja, ya que para su solución debe determinarse que no se haya tenido en cuenta algún factor o factores que puedan afectar el proceso.
- Probabilidad aleatoria: en este caso el error atípico se ha producido debido a las probabilidades, para lo cual deberá realizarse un análisis con y sin el valor atípico para ver su comportamiento e impacto en los resultados.
Tipos de errores atípicos en Talend
Existen diferentes tipos de errores atípicos que se pueden presentar con los datos, estos son:
- Error atípico aditivo.
- Error atípico innovador.
- Error atípico de cambio de nivel.
- Error atípico de cambio transitorio.
- Error atípico aditivo estacional.
- Error atípico de tendencia local.
Corregir errores atípicos en Talend
Trabajaremos con la base de datos “Potenciales_clientes”, en la cual se encuentra la columna de clasificación de los clientes. En el histograma de la columna, ubicado en la esquina inferior derecha, podemos observar que hay muchísimo sesgo, teniendo en cuenta que se observan valores muy altos y valores muy bajos respecto a la media:
Si hacemos clic en la barra del histograma que muestra los valores más altos, nos damos cuenta de que los números que aparecen son siempre “999”. Por tanto, podríamos inferir que se decidió que a los campos que no tuvieran un valor digitado se les asignaría ese valor (“999”) por defecto.
Esto nos distorsiona muchísimo el análisis de dicha columna y es necesario corregirlo rellenando el campo con un valor de 0 en vez de 999:
Para cambiar el valor, lo que hacemos es rellenar el cuadro de búsqueda del recuadro de sugerencias con la palabra “Fill…”. Después, seleccionamos la opción que dice “Fill cells with value…”. Le ponemos el cero como valor predeterminado y le damos al botón “Submit”:
Al final, una vez corregido este error, quitamos el filtro y ya solo nos quedan por corregir los errores de números que están por debajo de 0. Para ello, vamos a la columna y filtramos los errores:
Lo que haremos con estos valores es corregir el valor absoluto y quitar el negativo, para lo cual buscaremos en la barra del recuadro de sugerencias la palabra “Calculate absolute value…”:
Aplicamos los cambios con el botón “Submit” y listo; con esto queda corregido el error de calidad de los datos por valores atípicos.
¿Quieres seguir aprendiendo?
Recuerda que si quieres seguir aprendiendo sobre esta herramienta y otras tantas, puedes inscribirte en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, que tiene una duración de 8 meses. En este tiempo, aprenderás todo lo relacionado con el Big Data y podrás aspirar a mejores oportunidades laborales. En Keepcoding tenemos a los mejores profesionales dispuestos a ayudarte en todo momento. ¡Anímate a pedir más información y sigue tu sueño!