Practicar por medio de cuestiones como un ejemplo estadístico del peso de los niños al nacer es una de las estrategias más funcionales para potenciar los conocimientos teóricos, puesto que de esta forma se llevan a la práctica y se profundizan.
De manera que, una vez se estudian factores como la media, la mediada, la probabilidad, los test estadísticos, etc, podrás utilizar datos aleatorios que te ayuden a comprender mucho mejor estos estudios desde la práctica.
De hecho, desarrollar ejemplos prácticos es uno de los mejores métodos para formalizar los estudios antes de implementarlos a un procesamiento de datos real en una organización. Por esta razón, en este post te exponemos un ejemplo estadístico del peso de los niños al nacer.
Ejemplo estadístico del peso de los niños al nacer
Para el ejemplo estadístico del peso de los niños al nacer usaremos este dataset que contiene información de bebés recién nacidos y sus padres.
De esta manera, podrás usarlo como regresión para ver cuáles son los factores que más afectan al peso del niño. Como habrás podido notar, se emplearán las siguientes variables:
Nombre | Variable |
---|---|
Birthweight | Peso al nacer (libras). |
Gestation | Semanas que duró la gestación. |
motherage | Edad de la madre. |
mnocig | Número de cigarros al día fumados por la madre. |
mheight | Altura de la madre (pulgadas). |
A partir de allí, se produce el siguiente desarrollo en la inscripción para el análisis del ejemplo estadístico del peso de los niños al nacer:
bwt<-read.csv("data/birthweight_reduced.csv") str(bwt)
library(GGally) options(repr.plot.height=5,repr.plot.width=7) ggpairs(bwt[,c("Gestation","motherage","mnocig","mheight","Birthweight")], #lower = list(continuous = wrap("density", alpha = 0.8,size=0.2,color='blue')) lower = list(continuous = wrap("points", alpha = 0.3,size=0.1,color='blue')) )
Este ejemplo estadístico del peso de los niños al nacer con sus respectivas variables generaría los siguientes gráficos:
model<-lm(data=bwt, formula = Birthweight ~ Gestation+motherage+mnocig+mheight) summary(model)
confint(model)
A matrix: 5 × 2 of type dbl
2.5 % | 97.5 % | |
---|---|---|
(Intercept) | -22.20496254 | -6.644928693 |
Gestation | 0.22107441 | 0.440169668 |
motherage | -0.03746888 | 0.068295387 |
mnocig | -0.05041666 | -0.001846692 |
mheight | 0.01801221 | 0.248570832 |
De esta manera, se evidencia que los valores que más influencia parecen ser aquellos que presentan un pvalor (Pr) más bajo, es decir, el número de * que hay a la derecha de cada fila indica su grado de confianza.
De igual forma, la variable que más parece influir es la gestación, dado que por cada semana de gestación el bebé gana 0.33062 libras de peso. En cambio, por cada cigarro al día que fuma la madre el peso del bebé podría disminuir en 0.02613 libras.
Por otra parte, la altura de la madre también parece tener cierta influencia; por cada pulgada más que mida la madre el bebé pesará 0.13329 libras más. En cambio, la edad de la madre parece no tener ningún efecto estadístico significativo.
model<-lm(data=bwt, formula = Birthweight ~ Gestation+mnocig+mheight) summary(model)
confint(model)
A matrix: 4 × 2 of type dbl
2.5 % | 97.5 % | |
---|---|---|
(Intercept) | -21.61203867 | -6.439988997 |
Gestation | 0.22207108 | 0.439087856 |
mnocig | -0.04638373 | -0.001099777 |
mheight | 0.01870990 | 0.247064970 |
predict(model, data.frame(Gestation=37.5, mnocig=0, mheight=65))
1: 7.00839947915333
En este post, te hemos expuesto un breve ejemplo estadístico del peso de los niños al nacer, por medio del que podrás practicar cómo funciona este tipo de estudio a partir de datos reales que potenciarán tus conocimientos teóricos a través de la práctica. Desde KeepCoding te aconsejamos seguir realizando este tipo de ejemplo y continuar aprendiendo sobre el manejo del Big Data.
Nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning es ideal para ti. En él, verás cómo el análisis exploratorio de datos es el primer paso que todo data scientist tiene que tomar. Para ello, es fundamental tener un buen conocimiento de estadística que te permita saber si ciertas variables tienen relación o no o si varios grupos de datos se pueden considerar diferentes o iguales. ¿A qué estás esperando para empezar? ¡Apúntate ya!