Ejemplo estadístico de censo

Autor: | Última modificación: 4 de agosto de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Antes de abordar cualquier problema de Machine Learninges obligatorio mirar los datos, ver qué podemos preguntarles y qué información podemos sacar de ellos. Para esto, puedes desarrollar prácticas como un ejemplo estadístico de censo que te ayude a comprender más en profundidad cómo funciona una población de datos.

De hecho, el análisis exploratorio de datos es el primer paso que todo data scientist tiene que tomar. Por esta razón, en este post, te compartimos un breve ejemplo estadístico de censo para que practiques cómo funciona la estadística para el Big Data.

¿Cómo funciona la estadística en el Big Data?

Antes de exponer el ejemplo estadístico de censo que te servirá como práctica, te recordamos que la estadística en el Big Data se basa en entender las variables de la información y la relación entre las variables que se encuentran en ella. Las estadísticas te ayudan a comprender cómo es tu población de los datos. Para ello, esta cuenta con ciertos componentes o estadísticos como son la moda, los estimadores, la varianza, los percentiles, los tests estadísticos, las operaciones, las asignaciones, etc.

Ejemplo estadístico de censo

Para este ejemplo estadístico de censo, vamos a partir de ciertos datos extraídos de este dataset que comprende una serie de niveles académicos y características separadas por género como población de datos.

Así que, a continuación, te compartimos cuáles son las variables a considerar en este ejemplo estadístico de censo:

  • age: continuous.
  • workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
  • fnlwgt: continuous.
  • education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
  • education-num: continuous.
  • marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
  • occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
  • relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
  • race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
  • sex: Female, Male.
  • capital-gain: continuous.
  • capital-loss: continuous.
  • hours-per-week: continuous.
  • native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
adult<-read.csv("data/adult.data.txt",
                col.names=c("age","workclass","fnlwgt","education","education-num","marital-status",
                           "occupation","relationship","race","sex","capital-gain","capital-loss","hours-per-week",
                           "native-country","50k"), stringsAsFactor=T)

str(adult)
Ejemplo estadístico de censo 1
levels(adult$education)
numlevels<-length(levels(adult$education))
adult$education<-factor(adult$education,levels(adult$education)[c(4,5,6,7,1,2,3,8:numlevels)])
  1. ‘ 10th’
  2. ‘ 11th’
  3. ‘ 12th’
  4. ‘ 1st-4th’
  5. ‘ 5th-6th’
  6. ‘ 7th-8th’
  7. ‘ 9th’
  8. ‘ Assoc-acdm’
  9. ‘ Assoc-voc’
  10. ‘ Bachelors’
  11. ‘ Doctorate’
  12. ‘ HS-grad’
  13. ‘ Masters’
  14. ‘ Preschool’
  15. ‘ Prof-school’
  16. ‘ Some-college’
levels(adult$education)
  1. ‘ 1st-4th’
  2. ‘ 5th-6th’
  3. ‘ 7th-8th’
  4. ‘ 9th’
  5. ‘ 10th’
  6. ‘ 11th’
  7. ‘ 12th’
  8. ‘ Assoc-acdm’
  9. ‘ Assoc-voc’
  10. ‘ Bachelors’
  11. ‘ Doctorate’
  12. ‘ HS-grad’
  13. ‘ Masters’
  14. ‘ Preschool’
  15. ‘ Prof-school’
  16. ‘ Some-college’
model <- glm(data=adult, formula=X50k ~ age+education+sex, family = binomial())
model
Ejemplo estadístico de censo 2
paste("Un hombre tiene ",exp(model$coefficients["sex Male"]),"veces más posibilidades de ganar más de 50k$ que una mujer")

‘Un hombre tiene 3.74680967166826 veces más posibilidades de ganar más de 50k$ que una mujer’

paste("Cada año que pasa hay ",exp(model$coefficients["age"]),"veces más posibilidades de ganar más de 50k$")

‘Cada año que pasa hay 1.04299004917257 veces más posibilidades de ganar más de 50k$’

paste("Una persona con Master tiene ",exp(model$coefficients["education Masters"]),"veces más posibilidades de ganar más de 50k$ que alguien con solo 1st-4th")

‘Una persona con Master tiene 53.2797505562325 veces más posibilidades de ganar más de 50k$ que alguien con solo 1st-4th’

adult_master<-subset(adult,education==" Masters")
model <- glm(data=adult_master, formula=X50k ~ age+sex, family = binomial())
summary(model)
Ejemplo estadístico de censo 3
model <- glm(data=adult_master, formula=X50k ~ age*sex, family = binomial())
summary(model)
Ejemplo estadístico de censo 4
confint(model)

Waiting for profiling to be done…

A matrix: 4 × 2 of type dbl

.2.5 %97.5 %
(Intercept)-2.152097567-0.74404632
age0.0017920950.03289757
sex Male-0.1058388111.64892422
age:sex Male-0.0066331380.03234786

¿Cómo seguir aprendiendo Big Data?

Por medio de este post, te has podido acercar a un ejemplo estadístico de censo, a partir del que has tomado datos reales, es decir, te has acercado a un población de datos reales que te prepararan como profesional una vez te enfrentes a tu propia exploración y procesamiento de los macrodatos. Sin embargo, la estadística posee muchas variantes por estudiar ¡Así que aún queda mucho más por aprender sobre el Big Data y su manejo para convertirte en un experto!

Para continuar con tu formación, te recomendamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, puesto que esta formación intensiva te acercará a muchos más sistemas, lenguajes y herramientas que trabajan con los macrodatos, de forma que te convertirás en un data scientist profesional al saber escoger las mejores alternativas para un procesamiento de datos. De hecho, KeepCoding se reconoce por formar profesionales curiosos, cuestionadores, amantes del trabajo eficaz y buscadores incansables de la autosuperación y del desafío intelectual. ¡Apúntate y triunfa en el sector IT!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!