Antes de abordar cualquier problema de Machine Learning, es obligatorio mirar los datos, ver qué podemos preguntarles y qué información podemos sacar de ellos. Para esto, puedes desarrollar prácticas como un ejemplo estadístico de censo que te ayude a comprender más en profundidad cómo funciona una población de datos.
De hecho, el análisis exploratorio de datos es el primer paso que todo data scientist tiene que tomar. Por esta razón, en este post, te compartimos un breve ejemplo estadístico de censo para que practiques cómo funciona la estadística para el Big Data.
Ejemplo estadístico de censo
Para este ejemplo estadístico de censo, vamos a partir de ciertos datos extraídos de este dataset que comprende una serie de niveles académicos y características separadas por género como población de datos.
Así que, a continuación, te compartimos cuáles son las variables a considerar en este ejemplo estadístico de censo:
- age: continuous.
- workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
- fnlwgt: continuous.
- education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
- education-num: continuous.
- marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
- occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
- relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
- race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
- sex: Female, Male.
- capital-gain: continuous.
- capital-loss: continuous.
- hours-per-week: continuous.
- native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
adult<-read.csv("data/adult.data.txt", col.names=c("age","workclass","fnlwgt","education","education-num","marital-status", "occupation","relationship","race","sex","capital-gain","capital-loss","hours-per-week", "native-country","50k"), stringsAsFactor=T) str(adult)
levels(adult$education) numlevels<-length(levels(adult$education)) adult$education<-factor(adult$education,levels(adult$education)[c(4,5,6,7,1,2,3,8:numlevels)])
- ‘ 10th’
- ‘ 11th’
- ‘ 12th’
- ‘ 1st-4th’
- ‘ 5th-6th’
- ‘ 7th-8th’
- ‘ 9th’
- ‘ Assoc-acdm’
- ‘ Assoc-voc’
- ‘ Bachelors’
- ‘ Doctorate’
- ‘ HS-grad’
- ‘ Masters’
- ‘ Preschool’
- ‘ Prof-school’
- ‘ Some-college’
levels(adult$education)
- ‘ 1st-4th’
- ‘ 5th-6th’
- ‘ 7th-8th’
- ‘ 9th’
- ‘ 10th’
- ‘ 11th’
- ‘ 12th’
- ‘ Assoc-acdm’
- ‘ Assoc-voc’
- ‘ Bachelors’
- ‘ Doctorate’
- ‘ HS-grad’
- ‘ Masters’
- ‘ Preschool’
- ‘ Prof-school’
- ‘ Some-college’
model <- glm(data=adult, formula=X50k ~ age+education+sex, family = binomial()) model
paste("Un hombre tiene ",exp(model$coefficients["sex Male"]),"veces más posibilidades de ganar más de 50k$ que una mujer")
‘Un hombre tiene 3.74680967166826 veces más posibilidades de ganar más de 50k$ que una mujer’
paste("Cada año que pasa hay ",exp(model$coefficients["age"]),"veces más posibilidades de ganar más de 50k$")
‘Cada año que pasa hay 1.04299004917257 veces más posibilidades de ganar más de 50k$’
paste("Una persona con Master tiene ",exp(model$coefficients["education Masters"]),"veces más posibilidades de ganar más de 50k$ que alguien con solo 1st-4th")
‘Una persona con Master tiene 53.2797505562325 veces más posibilidades de ganar más de 50k$ que alguien con solo 1st-4th’
adult_master<-subset(adult,education==" Masters") model <- glm(data=adult_master, formula=X50k ~ age+sex, family = binomial()) summary(model)
model <- glm(data=adult_master, formula=X50k ~ age*sex, family = binomial()) summary(model)
confint(model)
Waiting for profiling to be done…
A matrix: 4 × 2 of type dbl
. | 2.5 % | 97.5 % |
---|---|---|
(Intercept) | -2.152097567 | -0.74404632 |
age | 0.001792095 | 0.03289757 |
sex Male | -0.105838811 | 1.64892422 |
age:sex Male | -0.006633138 | 0.03234786 |
¿Cómo seguir aprendiendo Big Data?
Por medio de este post, te has podido acercar a un ejemplo estadístico de censo, a partir del que has tomado datos reales, es decir, te has acercado a un población de datos reales que te prepararan como profesional una vez te enfrentes a tu propia exploración y procesamiento de los macrodatos. Sin embargo, la estadística posee muchas variantes por estudiar ¡Así que aún queda mucho más por aprender sobre el Big Data y su manejo para convertirte en un experto!
Para continuar con tu formación, te recomendamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, puesto que esta formación intensiva te acercará a muchos más sistemas, lenguajes y herramientas que trabajan con los macrodatos, de forma que te convertirás en un data scientist profesional al saber escoger las mejores alternativas para un procesamiento de datos. De hecho, KeepCoding se reconoce por formar profesionales curiosos, cuestionadores, amantes del trabajo eficaz y buscadores incansables de la autosuperación y del desafío intelectual. ¡Apúntate y triunfa en el sector IT!