Visualizar outliers con variables categóricas

Montana Martín López | Última modificación: 2 de agosto de 2024 | Tiempo de Lectura: 3 minutos

Existe una manera de visualizar outliers que, si bien no es muy utilizada, resulta útil cuando se trabaja con variables categóricas o seudocategóricas. Hay que aclarar que para variables continuas este método no sirve para nada.

Recordemos que los valores atípicos o outliers son valores que se encuentran a una distancia anormal de otros valores de la muestra. Para visualizar outliers podemos utilizar un diagrama de dispersión o un diagrama de caja, estos permiten identificar dónde se encuentran los outliers.

Visualizar outliers

Vamos a a seguir trabajando con un dataset que ya hemos visto en otros artículos; este trata sobre la estimación del precio de viviendas en un sector de Estados Unidos. El conjunto de datos se encuentra alojado en Kaggle. Para cada vivienda se tienen los siguientes atributos:

Atributo	Descripción
id	identificador de la vivienda
date	fecha
price	precio
bedrooms	número de habitaciones
bathrooms	número de baños/aseos
sqtf_living	superficie habitable (en pies al cuadrado)
sqft_lot	superficie de la parcela (en pies al cuadrado)
floors	número de plantas
waterfront	indica si la vivienda tiene acceso a un lago
view	tipo de vista (variable numérica)
condition	condición de la vivienda (variable numérica)
grade	medida de la calidad de la construcción (variable numérica)
sqft_above	superficie por encima del suelo (en pies al cuadrado)
sqft_basement	superficie del sótano (en pies al cuadrado)
yr_built	año de construcción de la vivienda
yr_renovated	año de renovación de la vivienda
lat	latitud de la parcela
long	longitud de la parcela
sqft_living15	superficie habitable promedio de los 15 vecinos más cercanos
sqft_lot15	superficie de la parcela promedio de los 15 vecinos más cercanos

La variable bedrooms es categórica, por tanto, trabajaremos con ella:

#Visualizar outliers
house_data ['bedrooms'].value_counts ()

3 9824

4 6882

2 2760

5 1601

6 272

1 199

7 38

8 13

0 13

9 6

10 3

11 1

33 1

Name: bedrooms, dtype: int64

Decimos que en las variables continuas no sirve para nada porque lo que hacemos es utilizar un value_counts, un método que nos devuelve una serie que contiene recuentos de valores únicos (como el resultado anterior). El resultado aparecerá en orden descendente, lo que quiere decir que el primer elemento que aparezca será el que se encuentre con más frecuencia. Por eso en nuestro resultado el 3 es el número que aparece primero, porque es el que tiene mayor número de ocurrencias. El value_count excluye valores NA por defecto; no obstante, podemos modificar esto por medio del parámetro dropna.

También existe una forma de simplificar los resultados que aparecen por medio de bins. Los bins son agrupaciones de datos; de este modo, si le decimos al algoritmo que bins = 2, nos devuelve unos resultados de dos líneas y en esas dos líneas agrupa los conjuntos de datos, digamos, por ejemplo, entre 3 y 7 y entre 7 y 33.

¿Cuáles de estos datos representan una anomalía? Esto es difícil de saber.

La forma de filtrar con Pandas es muy sencilla:

#visualizar outliers
#house_data_2 va a ser el dataset inicial, tal que las habitaciones son menores que 9
house_data_2 = house_data [house_data ['bedrooms'] < 9]

#Visualizar outliers
house_data_2.plot (kind = 'scatter', x = 'bedrooms', y = 'price')
plt.xlabel ('# bedrooms')
plt.ylabel ('pricee ($)')
plt.show ()

Lo que observamos es que, al haber quitado los datos anómalos y al ser bedrooms una variable seudocategórica, vemos el gráfico que se propone como resultado.

La interpretación de este gráfico tiene ciertos problemas, ya que hay cierta tendencia a que, cuantas más habitaciones tenga la casa, más cara será. Esa tendencia se acaba en 5; en 6 hay algunas excepciones, pero 6, 7 y 8 parecen más baratas que 5, 4 e, incluso, que 3.

Ahora lo que faltaría es evaluar el porcentaje de registros eliminados. Esto se haría con la ecuación (registros iniciales – registros tras la eliminación) / registros totales * 100. Veamos:

#Visualizar outliers
print (f 'Porcentaje de registros eliminados: {((house_data.shape [0] - house_data_2.shape [0]) / house_data_shape [0]) * 100} %')

Porcentaje de registros eliminados: 0.050895294498691354%

Este es un buen número, teniendo en cuenta que estamos quitando anomalías.

#Visualizar outliers
house_data_2.shape

(21602, 19)

Ahora que hemos visto cómo visualizar outliers y cómo eliminarlos de los registros de resultados, podemos seguir aprendiendo sobre una de las disciplinas más demandadas de la actualidad: el Big Data. Para ello tenemos el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la cual tendrás la oportunidad de aprende todo lo necesario para incursionar en este mundillo. Los mejores profesionales te acompañarán en tu proceso de aprendizaje a nivel teórico y práctico. ¡Anímate y solicita más información ahora!

Visualizar outliers con variables categóricas

Visualizar outliers

IMPULSA TU CARRERA A TU MEDIDA