Ejemplo estadístico del CSV de la edad española

| Última modificación: 26 de septiembre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Llevar a cabo ejercicios prácticos, como un ejemplo estadístico del CSV de la edad española, puede servir para ensayar cómo se pueden implementar ciertas estrategias que facilitan el procesamiento de tus datos. Por ello, es de suma importancia hacer varios y poner en práctica diferentes tipos, como ejemplos de probabilidad, de media, mediada, moda, etc.

Por esta razón, una de las recomendaciones que se le hace a un data scientist para conseguir resultados arrojados asertivos es el método de ensayo y error, de manera que los procesos se pulan lo suficiente como para potenciar las decisiones tomadas a partir de los datos.

Por esta razón, en este post, te exponemos un ejemplo estadístico del CSV de la edad española para que puedas practicar cómo funciona este tipo de análisis.

¿Para qué sirve la estadística en el Big Data?

Para comprender el ejemplo estadístico del CSV de la edad española, primero nos gustaría que recordaras para qué sirve y cómo se utiliza la estadística para el manejo del Big Data.

La estadística en el Big Data se basa en entender las variables de los macrodatos y la relación entre las variables que se encuentran entre ellos. Debes tener en cuenta que la estadística te facilita la comprensión de cómo es la población de los datos, es decir, cuál es su valor y qué tipo de preguntas se le pueden realizar.

Por otra parte, los estudios estadísticos cuentan con ciertos elementos, como son los estimadores, los percentiles, la moda, las asignaciones, la varianza, los tests estadísticos, las operaciones, etc. Por medio de estos, podrás mejorar los resultados arrojados.

Ejemplo estadístico del CSV de la edad española

Para este ejemplo estadístico del CSV de la edad española se va a partir del CSV (Código Seguro de Verificación) del INE (Instituto Nacional de Estadística). Los cálculos y sus resultados responderán a las siguientes preguntas: ¿cuál es la media de edad de la población española? ¿Y la mediana? ¿Y la moda?

Ahora, te recordamos que la función de la media es:

library(dplyr)
library(tidyr)
poblacion_raw<-read.csv("data/9663bsc.csv",skip=0,fileEncoding="ISO-8859-1",
                        header=T, sep=';',stringsAsFactor=F)

poblacion_raw$Total <- as.numeric(gsub('\\.','',poblacion_raw$Total))
poblacion <- poblacion_raw %>% 
 pivot_wider(names_from = Sexo, values_from = Total)  %>% 
 mutate(edad=as.numeric(gsub("año(s|)","",Edad.simple))) %>% 
 drop_na() %>%
 select(-c(Periodo,Edad.simple))%>%
 rename(Total='Ambos sexos') %>% 
 arrange(edad)
#arrange(desc(Edad))
head(poblacion)

Warning message in mask$eval_all_mutate(quo):
“NAs introduced by coercion”

Por otra parte, se realizará el cálculo de la moda de la siguiente forma:

poblacion[which.max(poblacion$Total),]
paste("La moda de la edad es:",poblacion[which.max(poblacion$Total),"edad"],"años")

‘La moda de la edad es: 44 años’
En cuanto al cálculo de la mediana, este se desarrollará a partir de:

poblacion$ratio <- poblacion$Total/sum(poblacion$Total)

poblacion$cum_ratio <- cumsum(poblacion$ratio)
library(ggplot2)
ggplot(poblacion, aes(x=edad,y=cum_ratio))+geom_line()+geom_point()

Este cálculo para el ejemplo estadístico del CSV de la edad española arrojaría la siguiente gráfica:

plot(abs(poblacion$cum_ratio-0.5))
grid()

En definitiva, el valor de la mediana es:

poblacion$edad[which.min(abs(poblacion$cum_ratio-0.5))]

44
Mientras, el valor de la media es el siguiente:

sum(poblacion$edad*poblacion$Total)/sum(poblacion$Total)

43.3059455894582

Aprende muchos más sobre el Big Data

En este post, te hemos expuesto un breve ejemplo estadístico del CSV de la edad española para poder ilustrar cómo funciona un análisis de este tipo para el manejo de los macrodatos, ya que por medio de estos podrás practicar cómo se desarrollan y cuál de ellos es más adecuado para tu procesamiento de los macrodatos.

Por seguir formándote, te ofrecemos nuestro Bootcamp Big Data, Inteligencia Artificial & Machine Learning, que tiene como fin convertirte en todo un experto en el manejo de los macrodatos. En su transcurso, verás todo lo relacionado con el desarrollo de herramientas, lenguajes y sistemas fundamentales dentro del universo del Big Data. En menos de nueve meses, aprenderás en profundidad cuestiones como la clasificación, exploración y visualización del estudio de datos. ¡Apúntate!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado