Dentro del mundo de los macrodatos, tener en cuenta la representación de los resultados arrojados se presenta como un conocimientos primordial, por ello, el histograma en estadística Big Data se comporta como una de las herramientas de esquematización más utilizada para un estudio estadístico.
En efecto, a pesar de que dentro del ecosistema del Big Data hay una gran variedad de alternativas para el manejo de los macrodatos, en cuanto a los análisis estadísticos los histogramas se emplean mucho dada la facilidad de comprender los resultados arrojados en esta representación.
Por este motivo, en el desarrollo de este post, te explicamos qué es el histograma en estadística Big Data, de manera que puedas utilizarlo en tu procesamiento de tus datos.
¿Qué es un histograma en estadística Big Data?
El histograma en estadística Big Data es la representación gráfica de una variable en forma de barras, en la que la superficie de cada barra es proporcional a la frecuencia de los valores representados.
Por otra parte, el histograma en estadística Big Data te puede servir para ver cómo se distribuyen los datos aleatorios que han sido arrojados en el procesamiento de los macrodatos. Para que comprendas en profundidad cómo funciona este tipo de gráfico, a continuación te compartimos un ejemplo a partir del análisis de la población española en 2021:
Análisis de la población española en 2021
Para el desarrollo de este ejercicio, se han descargado los datos oficiales del Instituto Nacional de Estadística (INE), donde se encuentra cómo se presenta la población residente por fecha, sexo y edad a fecha del uno de enero de 2021.
A continuación, el ejemplo te lo expondremos a partir de la inscripción de los comandos hasta el desarrollo del histograma en estadística Big Data. Te aconsejamos mirar detalladamente cada uno de los pasos:
poblacion_raw<-read.csv("data/9663bsc.csv",skip=0,fileEncoding="ISO-8859-1", header=T, sep=';',stringsAsFactor=F) head(poblacion_raw,7)
A data.frame: 7 × 4
# Ejemplo uso grepl poblacion_raw[which(grepl("y más",poblacion_raw$Edad.simple)),]
A data.frame: 6 × 4
str(poblacion_raw)
'data.frame': 324 obs. of 4 variables: $ Edad.simple: chr "Total" "Total" "Total" "0 años" ... $ Sexo : chr "Ambos sexos" "Hombres" "Mujeres" "Ambos sexos" ... $ Periodo : chr "1 de enero de 2021" "1 de enero de 2021" "1 de enero de 2021" "1 de enero de 2021" ... $ Total : chr "47.394.223" "23.224.861" "24.169.362" "338.786" ...
poblacion_raw$Total <- as.numeric(gsub('\\.','',poblacion_raw$Total)) str(poblacion_raw)
'data.frame': 324 obs. of 4 variables: $ Edad.simple: chr "Total" "Total" "Total" "0 años" ... $ Sexo : chr "Ambos sexos" "Hombres" "Mujeres" "Ambos sexos" ... $ Periodo : chr "1 de enero de 2021" "1 de enero de 2021" "1 de enero de 2021" "1 de enero de 2021" ... $ Total : num 47394223 23224861 24169362 338786 173576 ...
poblacionTotal <- poblacion_raw[poblacion_raw$Sexo=='Ambos sexos', c("Total","Edad.simple")] poblacionMujeres <- poblacion_raw[poblacion_raw$Sexo=='Mujeres', c("Total","Edad.simple")] colnames(poblacionMujeres)[1] <- "Mujeres" poblacionHombres <- poblacion_raw[poblacion_raw$Sexo=='Hombres', c("Total","Edad.simple")] colnames(poblacionHombres)[1] <- "Hombres"
#head(poblacionMujeres) #head(poblacionHombres)
poblacion_total_mujeres <- merge(poblacionTotal, poblacionMujeres, by="Edad.simple") poblacion<-merge(poblacion_total_mujeres, poblacionHombres, by="Edad.simple") poblacion$edad <- as.numeric(gsub("año(s|)","", poblacion$Edad.simple)) poblacion$Edad.simple <- NULL poblacion <- na.omit(poblacion) poblacion <- poblacion[order(poblacion$edad),] head(poblacion)
A data.frame: 6 × 4
tail(poblacion)
A data.frame: 6 × 4
#library(dplyr) #library(tidyr) library(tidyverse)
head(mutate(select(poblacion_raw, Edad.simple, Total), new_column=1))
A data.frame: 6 × 3
poblacion_raw |> select(Edad.simple, Total) |> mutate(new_column=1) |> head()
A data.frame: 6 × 3
poblacion <- poblacion_raw |> pivot_wider(names_from = Sexo, values_from = Total) |> mutate(edad=as.numeric(gsub("año(s|)","",Edad.simple))) |> drop_na() |> select(-c(Periodo,Edad.simple)) |> rename(Total='Ambos sexos') |> arrange(edad) #arrange(desc(Edad)) head(poblacion)
A tibble: 6 × 4
library(ggplot2) options(repr.plot.height=4,repr.plot.width=8 , repr.plot.res = 400) ggplot(data=poblacion, aes(x=edad, y=Total))+geom_col()+ geom_vline(xintercept = 67, color="red")+ geom_vline(xintercept = 81, color="green")+ geom_vline(xintercept = 44, color='blue')
ggplot(data=poblacion, aes(x=edad))+ geom_col(aes(y=Hombres),fill="blue")+ geom_col(aes(y= -Mujeres),fill="red")+ scale_y_continuous(breaks=seq(-5e5,5e5,length.out=11), labels=abs(seq(-5e5,5e5,length.out=11)))+ xlab("Edad")+ylab("Mujeres Hombres")+ggtitle("Pirámide poblacional de España")+ coord_flip()
#poblacion$porcentaje <- (poblacion$Hombres/poblacion$Mujeres-1)*100 poblacion$porcentaje <- with(poblacion, (Hombres/Mujeres-1)*100) ggplot(data=poblacion, aes(x=edad, y=porcentaje))+ geom_col(aes(fill=porcentaje>0))+ geom_hline(yintercept=7, color='red')+ geom_vline(xintercept=21, color='blue')
Por medio de este post te presentamos qué es un histograma en estadística Big Data, de manera que puedas implementarlo durante el procesamiento de tus macrodatos. No obstante, debes tener en cuenta que esta es una de las diversas formas de esquematizar el estudio estadístico de la información, ¡así que todavía queda mucho más aprender!
Nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning te permitirá consolidar tus conocimientos y poner a prueba tus destrezas en este ámbito de transformaciones y acciones en Spark. En el transcurso de esta formación, aprenderás a utilizar sus métodos de inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. ¡No lo dudes más, matricúlate y empieza ahora!