Ejemplo estadístico de la evolución de la población española

| Última modificación: 9 de julio de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Este ejemplo estadístico de la evolución de la población española, al igual que otro tipo de ejemplos aleatorios, proponen un aprendizaje más práctico de los conocimientos adquiridos, puesto que estos te servirán de guía una vez vayas a realizar determinado análisis de estadística en el manejo del Big Data.

Por esta razón, en este post, te exponemos un breve ejemplo estadístico de la evolución de la población española, con el fin de profundizar en la teoría y potenciar los resultados arrojados en tu población de datos.

Ejemplo estadístico de la evolución de la población española

Para este ejemplo estadístico de la evolución de la población española hay que partir de la distribución por edad de la población española a comienzos del año 2020. En este puede puede verse cómo el número de personas de más de 41 años parece estar representado más o menos por una línea a partir de la siguiente operación:

poblacion_raw<-read.csv("data/9663bsc.csv",skip=0,fileEncoding="ISO-8859-1",header=T, sep=';',stringsAsFactor=F)
poblacion_raw$Total <-  as.numeric(gsub('\\.', '', poblacion_raw$Total))

library(dplyr)
library(tidyr)

poblacion <- poblacion_raw %>% pivot_wider(names_from = Sexo, values_from = Total)  %>% 
 mutate(edad=as.numeric(gsub("año(s|)","",Edad.simple))) %>% drop_na() %>% select(-c(Periodo,Edad.simple)) %>%
 rename(Total='Ambos sexos') %>% arrange(edad) %>% mutate(nacimiento=2019-edad) %>% filter(edad>43)

head(poblacion)
Attaching package: ‘dplyr’


The following object is masked from ‘package:MASS’:

    select


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union


Warning message in mask$eval_all_mutate(quo):
“NAs introduced by coercion”

La tabla gráfica de este ejemplo estadístico de la evolución de la población española para la variable de personas con más de 41 años sería:

ggplot(data=poblacion,aes(x=edad,y=Total))+geom_line()

model<-lm(data=poblacion,Total~poly(edad,12))
#model<-lm(data=poblacion,Total~edad+I(edad^2)+I(edad^3)+I(edad^4)+I(edad^5)+I(edad^6)+I(edad^7)+I(edad^8)+I(edad^9)+I(edad^11))
summary(model)

Finalmente, el gráfico arrojado por los resultados se ilustraría de la siguiente forma:

library(MASS)
model_optim<-stepAIC(model,trace=FALSE,direction = "both")
model_optim
model<-lm(data=poblacion,Total~edad+I(edad^2)+I(edad^3)+I(edad^4)+I(edad^5)+I(edad^6)+I(edad^7)+I(edad^8)+I(edad^9))
summary(model)
poblacion$predicted <- predict(model,poblacion)
ggplot(data=poblacion,aes(x=edad))+geom_point(aes(y=Total))+
 geom_line(aes(y=predicted),color="blue")

Sin embargo, si te fijas con detenimiento en el residuo, podrás notar la diferencia entre el valor real y el esperado. Esto, llevándose al contexto español, te permitirá ver cómo todavía hoy se puede ver que en los primeros años de la postguerra hubo menos nacimientos.

ggplot(data=poblacion,aes(x=nacimiento,y=Total-predicted))+geom_point(color="black")+
 geom_line(color="blue")

Ahora que conoces el desarrollo de este ejemplo estadístico de la evolución de la población española, te recomendamos continuar aprendiendo sobre cómo se puede presentar el manejo del Big Data.

Por ello, te aconsejamos investigar nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, en el que aprenderás sobre las principales herramientas del Big Data de la mano de grandes profesionales. En menos de nueve meses, te habrás convertido en todo un experto. ¡Empieza ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado