Análisis exploratorio básico de BD: Estimación precio de una vivienda

| Última modificación: 7 de noviembre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

En este artículo haremos un análisis exploratorio básico del conjunto de datos o BD de viviendas House sales in King County, USA, para familiarizarnos con los datos y, posteriormente, aplicar técnicas de machine learning sobre ellos.

El análisis exploratorio básico de datos o exploratory data analysis, EDA por sus siglas en inglés, es el proceso de investigación que se realiza de manera previa sobre los datos para descubrir, por medio de la estadística descriptiva, datos atípicos, relaciones entre variables y así poder comprobar hipótesis o verificar suposiciones.

Análisis exploratorio básico: funcionamiento

Lo que vamos a hacer es estimar precios de casas. Las skills prácticas, lo que vamos a entrenar, son:

  • Creación de nuevas características.
  • Técnicas de regresión avanzada como random forest o gradient boosting.

Podemos observar en una de las pestañas del dataset una descripción de los datos:

Análisis exploratorio básico

Lo que estamos viendo aquí es que los datos están muy trabajados.

Tenemos una descripción muy visual y gráfica de cada uno de los componentes del dataset. Esto puede llegar a convertirse en un arma de doble filo, ya que no siempre vamos a tener datasets así, tan explicados. A veces solo van a ser conjuntos de datos desordenados que tendremos que tratar desde cero para poder hacer analítica y generar hipótesis con ellos, con lo que el análisis exploratorio básico se complicará un poco más.

Aquí podemos observar, por tanto, los tipos de datos que tenemos, con histogramas y gráficas. Tenemos los missing, la media de cada uno de los componentes, así como también vemos el estándar.

Lo que haremos es intentar estimar en función de estas características.

Análisis exploratorio básico de estimación del precio de una vivienda

Para cada vivienda, se tienen los siguientes atributos:

AtributoDescripción
ididentificador de la vivienda
datefecha
priceprecio
bedroomsnúmero de habitaciones
bathroomsnúmero de baños/aseos
sqtf_livingsuperficie habitable (en pies al cuadrado)
sqft_lotsuperficie de la parcela (en pies al cuadrado)
floorsnúmero de plantas
waterfrontindica si la vivienda tiene acceso a un lago
viewtipo de vista (variable numérica)
conditioncondición de la vivienda (variable numérica)
grademedida de la calidad de la construcción (variable numérica)
sqft_abovesuperficie por encima del suelo (en pies al cuadrado)
sqft_basementsuperficie del sótano (en pies al cuadrado)
yr_builtaño de construcción de la vivienda
yr_renovatedaño de renovación de la vivienda
latlatitud de la parcela
longlongitud de la parcela
sqft_living15superficie habitable promedio de los 15 vecinos más cercanos
sqft_lot15superficie de la parcela promedio de los 15 vecinos más cercanos

Vamos a utilizar DataFrames de Pandas, un módulo de Python de código abierto para el análisis de datos que proporciona estructuras de datos fáciles de utilizar.

Aquí nosotros haremos varias cosas. Lo más representativo de este conjunto de datos es que claramente ya ha sido limpiado, ya ha pasado por un preprocesamiento. ¿Cómo sabemos esto? Porque, entre otras cosas, las variables categóricas ya han sido codificadas.

Así pues, con este dataset lo que haremos será un análisis exploratorio básico de este dataset, que incluye, entre otras cosas, carga de los datos, exploración de los mismos y análisis de sus diferentes características para poder determinar hipótesis o corroborar alguna suposición que ya teníamos.

¿Qué sigue?

En otro artículo veremos en qué consiste cada uno de los pasos a tener en cuenta en el análisis exploratorio básico, por ahora, queremos ofrecerte la oportunidad de que conozcas uno de los mercados laborales mejor pagados en la actualidad por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva en la que adquirirás toda la fundamentación teórica y práctica para seguir forjando tu camino hacia el éxito. Recuerda que estamos para acompañarte durante todo tu proceso. ¡Anímate y solicita más información ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado