Los valores atípicos o los outliers en R son una observaciones que se encuentran a una distancia anormal de otros valores de la muestra.
La definición está abierta, todo depende de qué datos se quieran descartar (reemplazar por NA).
Los podemos identificar mediante diagramas de dispersión o diagramas de cajas.
Una forma podría ser considerar outlier todo lo que esté fuera del rango:
Donde un valor típico de k es 1.5
Lo podemos reemplazar por un valor extremo, por la media, moda, etc. o descartarlo al igual que los NA o valores no disponibles.
Tipos de outliers
Existen muchas razones para que aparezcan los outliers, por ejemplo, a veces ocurre que hay valores atípicos cuando se recopilan datos sobre salarios, ya que existen algunas personas que ganan mucho más dinero que el resto de los miembros de la empresa.
Los outliers en R también pueden aparecer debido a un error experimental, de medición o de codificación. Por ejemplo, si vemos un outlier del peso de alguien con 655 kilogramos, esto podría ser un error de codificación, ya que lo más probable es que el peso de esa persona sea de 65.5 kilogramos.
O si tenemos la estatura de alguien que mide 210 centímetros, lo cual en algunos países es un promedio muy inusual. No obstante, si comparamos esta altura en un dataset que contenga la altura de diferentes jugadores de baloncesto, va a ser una estatura un poco más normal, ya que es bien sabido que los jugadores de baloncesto son mucho más altos que el promedio.
Por eso, es necesario distinguir dos tipos de outliers:
- Los valores extremos.
- Los errores.
Los valores extremos son respuestas posibles, pero muy poco probables.
¿Cómo tratar con los outliers en R?
Existen muchos datasets en donde hay una gran cantidad de outliers:
In [88] : boxplot (mouse_data [ , 1])
Muchas veces no es necesario eliminarlos. A veces cuando se eliminan los outliers en R se elimina también información valiosa. Si están seguidos, como se muestra en la gráfica anterior, no es necesario ni conveniente eliminarlos.
¿Qué papel cumplen los outliers en R en el análisis exploratorio?
El análisis exploratorio consiste en observar nuestros datos, echarles un primer vistazo para ver qué tenemos, qué debemos y podemos arreglar y cómo vamos a trabajar con el dataset que tenemos.
Los primeros pasos en el análisis exploratorio consisten en observar y para esto las mejores opciones son las gráficas, todas aquellas que nos permitan analizar los datos en un panóptico.
Los histogramas son una excelente opción; también puedes pintar funciones de densidad de probabilidad. En estas opciones vemos claramente los outliers en R.
También podemos pintar un boxplot para ver si realmente hay outliers en R, tal y como hicimos en el gráfico anterior.
Si encontramos outliers es importante tratarlos con cuidado, mirar a ver si tienen sentido o si simplemente son errores de medición, o quizás fueron causados por algún usuario que ingresó mal los datos. También pueden ser usuarios que tengan una conexión de red demasiado mala o demasiado buena.
Hay otros factores a tener en cuenta, como los externos y de conocimiento individual. Por ejemplo, el tiempo mínimo de retardo que tienen las redes 4G son de 40 milisegundos, esto quiere decir que si en el gráfico, histograma, boxplot o cualquier otro elemento que hayas dibujado para tu dataset salen datos que estén por debajo de ese rango, es que las muestras están mal medidas y a lo mejor deberías hacer un proceso de limpieza de datos.
Lo mismo pasa si tienes medidas, por ejemplo, de 100 milisegundos y de repente te sale una medida de dos horas; tiene que haber algo que está mal ahí y deberías empezar a mirar curvas de probabilidad para verificar si existen outliers en R.
Ahora que sabes qué son y cómo funcionan los outliers en R, vas a tener la oportunidad de entender un poco mejor todo el proceso de limpieza de datos, análisis exploratorios y toda la parte que tenga que ver con tener información previa sobre los datos que vamos a tratar.
Si quieres seguir aprendiendo sobre esta temática y otras tantas, puedes seguir con nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, con el que, en muy pocos meses, podrás aprender todas las temáticas necesarias para incursionar en un mercado laboral lleno de oportunidades de empleo que te brindarán la posibilidad de un mejor futuro. ¡Solicita más información y sigue persiguiendo tus sueños!