Análisis exploratorio básico de BD sobre estimación del precio de una vivienda

Autor: | Última modificación: 9 de diciembre de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post: ,

En este artículo haremos un análisis exploratorio básico del conjunto de datos o BD de viviendas House sales in King County, USA, para familiarizarnos con los datos y, posteriormente, aplicar técnicas de machine learning sobre ellos.

El análisis exploratorio básico de datos o exploratory data analysis, EDA por sus siglas en inglés, es el proceso de investigación que se realiza de manera previa sobre los datos para descubrir, por medio de la estadística descriptiva, datos atípicos, relaciones entre variables y así poder comprobar hipótesis o verificar suposiciones.

Análisis exploratorio básico: funcionamiento

Lo que vamos a hacer es estimar precios de casas. Las skills prácticas, lo que vamos a entrenar, son:

  • Creación de nuevas características.
  • Técnicas de regresión avanzada como random forest o gradient boosting.

Podemos observar en una de las pestañas del dataset una descripción de los datos:

Análisis exploratorio básico

Lo que estamos viendo aquí es que los datos están muy trabajados.

Análisis exploratorio básico de BD sobre estimación del precio de una vivienda 1

Tenemos una descripción muy visual y gráfica de cada uno de los componentes del dataset. Esto puede llegar a convertirse en un arma de doble filo, ya que no siempre vamos a tener datasets así, tan explicados. A veces solo van a ser conjuntos de datos desordenados que tendremos que tratar desde cero para poder hacer analítica y generar hipótesis con ellos, con lo que el análisis exploratorio básico se complicará un poco más.

Análisis exploratorio básico de BD sobre estimación del precio de una vivienda 2

Aquí podemos observar, por tanto, los tipos de datos que tenemos, con histogramas y gráficas. Tenemos los missing, la media de cada uno de los componentes, así como también vemos el estándar.

Lo que haremos es intentar estimar en función de estas características.

Análisis exploratorio básico de estimación del precio de una vivienda

Para cada vivienda, se tienen los siguientes atributos:

AtributoDescripción
ididentificador de la vivienda
datefecha
priceprecio
bedroomsnúmero de habitaciones
bathroomsnúmero de baños/aseos
sqtf_livingsuperficie habitable (en pies al cuadrado)
sqft_lotsuperficie de la parcela (en pies al cuadrado)
floorsnúmero de plantas
waterfrontindica si la vivienda tiene acceso a un lago
viewtipo de vista (variable numérica)
conditioncondición de la vivienda (variable numérica)
grademedida de la calidad de la construcción (variable numérica)
sqft_abovesuperficie por encima del suelo (en pies al cuadrado)
sqft_basementsuperficie del sótano (en pies al cuadrado)
yr_builtaño de construcción de la vivienda
yr_renovatedaño de renovación de la vivienda
latlatitud de la parcela
longlongitud de la parcela
sqft_living15superficie habitable promedio de los 15 vecinos más cercanos
sqft_lot15superficie de la parcela promedio de los 15 vecinos más cercanos

Vamos a utilizar DataFrames de Pandas, un módulo de Python de código abierto para el análisis de datos que proporciona estructuras de datos fáciles de utilizar.

Aquí nosotros haremos varias cosas. Lo más representativo de este conjunto de datos es que claramente ya ha sido limpiado, ya ha pasado por un preprocesamiento. ¿Cómo sabemos esto? Porque, entre otras cosas, las variables categóricas ya han sido codificadas.

Así pues, con este dataset lo que haremos será un análisis exploratorio básico de este dataset, que incluye, entre otras cosas, carga de los datos, exploración de los mismos y análisis de sus diferentes características para poder determinar hipótesis o corroborar alguna suposición que ya teníamos.

¿Qué sigue?

En otro artículo veremos en qué consiste cada uno de los pasos a tener en cuenta en el análisis exploratorio básico, por ahora, queremos ofrecerte la oportunidad de que conozcas uno de los mercados laborales mejor pagados en la actualidad por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que adquirirás toda la fundamentación teórica y práctica para seguir forjando tu camino hacia el éxito. Recuerda que estamos para acompañarte durante todo tu proceso. ¡Anímate y solicita más información ahora!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Trabajo? Aprende a programar y consíguelo.

¡No te pierdas la próxima edición del Aprende a Programar desde Cero Full Stack Jr. Bootcamp!

 

Prepárate en 4 meses, aprende las últimas tecnologías y consigue trabajo desde ya. 

 

Solo en España hay más de 120.400 puestos tech sin cubrir, y con un sueldo 11.000€ por encima de la media nacional. ¡Es tu momento!

 

🗓️ Próxima edición: 13 de febrero

 

Reserva tu plaza descubre las becas disponibles.