Análisis exploratorio básico: Precios de viviendas

En este artículo haremos un análisis exploratorio básico del conjunto de datos o BD de viviendas House sales in King County, USA, para familiarizarnos con los datos y, posteriormente, aplicar técnicas de machine learning sobre ellos.

El análisis exploratorio básico de datos o exploratory data analysis, EDA por sus siglas en inglés, es el proceso de investigación que se realiza de manera previa sobre los datos para descubrir, por medio de la estadística descriptiva, datos atípicos, relaciones entre variables y así poder comprobar hipótesis o verificar suposiciones.

¿Qué encontrarás en este post?

Análisis exploratorio básico: funcionamiento

Lo que vamos a hacer es estimar precios de casas. Las skills prácticas, lo que vamos a entrenar, son:

Creación de nuevas características.
Técnicas de regresión avanzada como random forest o gradient boosting.

Podemos observar en una de las pestañas del dataset una descripción de los datos:

Lo que estamos viendo aquí es que los datos están muy trabajados.

Tenemos una descripción muy visual y gráfica de cada uno de los componentes del dataset. Esto puede llegar a convertirse en un arma de doble filo, ya que no siempre vamos a tener datasets así, tan explicados. A veces solo van a ser conjuntos de datos desordenados que tendremos que tratar desde cero para poder hacer analítica y generar hipótesis con ellos, con lo que el análisis exploratorio básico se complicará un poco más.

Aquí podemos observar, por tanto, los tipos de datos que tenemos, con histogramas y gráficas. Tenemos los missing, la media de cada uno de los componentes, así como también vemos el estándar.

Lo que haremos es intentar estimar en función de estas características.

Análisis exploratorio básico de estimación del precio de una vivienda

Para cada vivienda, se tienen los siguientes atributos:

Atributo	Descripción
id	identificador de la vivienda
date	fecha
price	precio
bedrooms	número de habitaciones
bathrooms	número de baños/aseos
sqtf_living	superficie habitable (en pies al cuadrado)
sqft_lot	superficie de la parcela (en pies al cuadrado)
floors	número de plantas
waterfront	indica si la vivienda tiene acceso a un lago
view	tipo de vista (variable numérica)
condition	condición de la vivienda (variable numérica)
grade	medida de la calidad de la construcción (variable numérica)
sqft_above	superficie por encima del suelo (en pies al cuadrado)
sqft_basement	superficie del sótano (en pies al cuadrado)
yr_built	año de construcción de la vivienda
yr_renovated	año de renovación de la vivienda
lat	latitud de la parcela
long	longitud de la parcela
sqft_living15	superficie habitable promedio de los 15 vecinos más cercanos
sqft_lot15	superficie de la parcela promedio de los 15 vecinos más cercanos

Vamos a utilizar DataFrames de Pandas, un módulo de Python de código abierto para el análisis de datos que proporciona estructuras de datos fáciles de utilizar.

Aquí nosotros haremos varias cosas. Lo más representativo de este conjunto de datos es que claramente ya ha sido limpiado, ya ha pasado por un preprocesamiento. ¿Cómo sabemos esto? Porque, entre otras cosas, las variables categóricas ya han sido codificadas.

Así pues, con este dataset lo que haremos será un análisis exploratorio básico de este dataset, que incluye, entre otras cosas, carga de los datos, exploración de los mismos y análisis de sus diferentes características para poder determinar hipótesis o corroborar alguna suposición que ya teníamos.

¿Qué sigue?

En otro artículo veremos en qué consiste cada uno de los pasos a tener en cuenta en el análisis exploratorio básico, por ahora, queremos ofrecerte la oportunidad de que conozcas uno de los mercados laborales mejor pagados en la actualidad por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que adquirirás toda la fundamentación teórica y práctica para seguir forjando tu camino hacia el éxito. Recuerda que estamos para acompañarte durante todo tu proceso. ¡Anímate y solicita más información ahora!

Análisis exploratorio básico de BD: Estimación precio de una vivienda

Análisis exploratorio básico: funcionamiento

Análisis exploratorio básico de estimación del precio de una vivienda

¿Qué sigue?

IMPULSA TU CARRERA A TU MEDIDA