En este artículo haremos un análisis exploratorio básico del conjunto de datos o BD de viviendas House sales in King County, USA, para familiarizarnos con los datos y, posteriormente, aplicar técnicas de machine learning sobre ellos.
El análisis exploratorio básico de datos o exploratory data analysis, EDA por sus siglas en inglés, es el proceso de investigación que se realiza de manera previa sobre los datos para descubrir, por medio de la estadística descriptiva, datos atípicos, relaciones entre variables y así poder comprobar hipótesis o verificar suposiciones.
¿Qué encontrarás en este post?
ToggleAnálisis exploratorio básico: funcionamiento
Lo que vamos a hacer es estimar precios de casas. Las skills prácticas, lo que vamos a entrenar, son:
- Creación de nuevas características.
- Técnicas de regresión avanzada como random forest o gradient boosting.
Podemos observar en una de las pestañas del dataset una descripción de los datos:
Lo que estamos viendo aquí es que los datos están muy trabajados.
Tenemos una descripción muy visual y gráfica de cada uno de los componentes del dataset. Esto puede llegar a convertirse en un arma de doble filo, ya que no siempre vamos a tener datasets así, tan explicados. A veces solo van a ser conjuntos de datos desordenados que tendremos que tratar desde cero para poder hacer analítica y generar hipótesis con ellos, con lo que el análisis exploratorio básico se complicará un poco más.
Aquí podemos observar, por tanto, los tipos de datos que tenemos, con histogramas y gráficas. Tenemos los missing, la media de cada uno de los componentes, así como también vemos el estándar.
Lo que haremos es intentar estimar en función de estas características.
Análisis exploratorio básico de estimación del precio de una vivienda
Para cada vivienda, se tienen los siguientes atributos:
Atributo | Descripción |
id | identificador de la vivienda |
date | fecha |
price | precio |
bedrooms | número de habitaciones |
bathrooms | número de baños/aseos |
sqtf_living | superficie habitable (en pies al cuadrado) |
sqft_lot | superficie de la parcela (en pies al cuadrado) |
floors | número de plantas |
waterfront | indica si la vivienda tiene acceso a un lago |
view | tipo de vista (variable numérica) |
condition | condición de la vivienda (variable numérica) |
grade | medida de la calidad de la construcción (variable numérica) |
sqft_above | superficie por encima del suelo (en pies al cuadrado) |
sqft_basement | superficie del sótano (en pies al cuadrado) |
yr_built | año de construcción de la vivienda |
yr_renovated | año de renovación de la vivienda |
lat | latitud de la parcela |
long | longitud de la parcela |
sqft_living15 | superficie habitable promedio de los 15 vecinos más cercanos |
sqft_lot15 | superficie de la parcela promedio de los 15 vecinos más cercanos |
Vamos a utilizar DataFrames de Pandas, un módulo de Python de código abierto para el análisis de datos que proporciona estructuras de datos fáciles de utilizar.
Aquí nosotros haremos varias cosas. Lo más representativo de este conjunto de datos es que claramente ya ha sido limpiado, ya ha pasado por un preprocesamiento. ¿Cómo sabemos esto? Porque, entre otras cosas, las variables categóricas ya han sido codificadas.
Así pues, con este dataset lo que haremos será un análisis exploratorio básico de este dataset, que incluye, entre otras cosas, carga de los datos, exploración de los mismos y análisis de sus diferentes características para poder determinar hipótesis o corroborar alguna suposición que ya teníamos.
¿Qué sigue?
En otro artículo veremos en qué consiste cada uno de los pasos a tener en cuenta en el análisis exploratorio básico, por ahora, queremos ofrecerte la oportunidad de que conozcas uno de los mercados laborales mejor pagados en la actualidad por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que adquirirás toda la fundamentación teórica y práctica para seguir forjando tu camino hacia el éxito. Recuerda que estamos para acompañarte durante todo tu proceso. ¡Anímate y solicita más información ahora!