3 ejemplos de probabilidad en estadística Big Data

Autor: | Última modificación: 26 de julio de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post:

Los ejemplos de probabilidad en estadística Big Data sirven para practicar la forma en la que se puede desarrollar un estudio de los macrodatos. Por esta razón, antes de abordar un tipo de análisis estadístico profesional, resulta más provechoso realizar pruebas con anterioridad para potenciar tu rendimiento una vez sea profesional.

Por esta razón, en este artículo, te exponemos tres ejemplos de probabilidad en estadística Big Data para que puedas ensayar cómo se realizan este tipo de estadísticos.

3 ejemplos de probabilidad en estadística Big Data

A continuación te mostramos tres ejemplos de probabilidad en estadística Big Data que son, en primer lugar, uno sobre las estadísticas del Covid, el segundo con datos de recién nacidos y su peso al nacer y, por último, un ejemplo sobre el origen de la vida.

Ejemplo probabilidad COVID

En este ejemplo sobre la probabilidad de haber sufrido Covid, hay que partir de suponer que se tiene una población donde cinco de cada 1000 personas han sido infectadas por este virus.

De manera que ahora hay que ilustrar una curva en la que se represente en el eje Y la probabilidad de encontrar al menos un contagiado en función del número de personas dado por el eje X, para ello se aplicarían las siguientes operaciones:

p <- 5/1000
x <- 1:1000

prb <- 1-dbinom(x=0, size=x, prob=p)
plot(x, prb, xlab='Numero de personas', ylab='Probabilidad')
grid()
3 ejemplos de probabilidad en estadística Big Data 1

Ahora, debes pintar una curva donde se represente en el eje Y la probabilidad de encontrar exactamente dos contagiados en función del número de personas dado por el eje X.

prb <- dbinom(x=2, size=x, prob=p)
plot(x, prb, xlab='Numero de personas', ylab='Probabilidad')
grid()
3 ejemplos de probabilidad en estadística Big Data 2

Por otra parte, pintar una curva donde se represente en el eje Y la probabilidad de encontrar dos o más contagiados en función del número de personas dado por el eje X.

prb <- 1-dbinom(x=0, size=x, prob=p)-dbinom(x=1, size=x, prob=p)
plot(x, prb, xlab='Numero de personas', ylab='Probabilidad')
grid()
3 ejemplos de probabilidad en estadística Big Data 3

Ejemplo del peso al nacer

Para este ejemplo, hay que leer el dataset que se encuentra en data/birthweight_reduced.csv. A partir de allí, te quedas con la columna Birthweight. ¿Sigue una distribución gaussiana?

bwt <- read.csv('data/birthweight_reduced.csv')
weight <- bwt$Birthweight
hist(weight)
3 ejemplos de probabilidad en estadística Big Data 4
qqnorm((weight-mean(weight))/sd(weight))
qqline((weight-mean(weight))/sd(weight), col='orange', lwd=2)
grid()
3 ejemplos de probabilidad en estadística Big Data 5

Ejemplo del origen de la vida

Los datos de este ejemplo del origen de la vida están basados en:

La siguiente tabla muestra la complejidad de ADN, eliminando las redundancias, de diferentes grupos de animales y su aparición en la tierra:

3 ejemplos de probabilidad en estadística Big Data 6

Las columnas significan:

  • Especies: especies de animales.
  • Genoma completo: longitud del genoma de una especie medido en pares de bases de ADN.
  • Genoma completo: longitud del genoma de una especie, eliminando la redundancia, medido en pares de bases de ADN.
  • Aparición: cuando ese conjunto de especies aparecieron.

Con estos datos tratar de obtener una regresión que indique cuándo apareció un organismo con solo un par de bases genéticas, de manera que esto podría marcar el origen de la vida.

¿Qué columna habría que coger para hacer la regresión de la del genoma completo o el que elimina la redundancia?

Ten en cuenta que es mejor usar escalas logarítmicas, como se expone a continuación:

df<-data.frame(especie=c("mamíferos","peces","gusanos","eucariotas","procariotas"),
           gen_total=c(3.2e9,4.8e8,9.7e7,2.9e6,5e5),
          gen_reduc=c(4.8e8,1.6e8,7.2e7,2.9e6,5e5),
          aparicion=c(-125,-500,-1000,-2100,-3550))
library(ggplot2)
library(reshape2)

options(repr.plot.height=3,repr.plot.width=7)
dfm<-melt(df,id=c("especie","aparicion"))
dfm

A data.frame: 10 × 4.

3 ejemplos de probabilidad en estadística Big Data 7
options(repr.plot.height=3,repr.plot.width=7, repr.plot.res = 300)

ggplot(data=dfm,aes(x=aparicion,y=value))+
 geom_point(aes(shape=variable,color=variable))+theme_bw()
3 ejemplos de probabilidad en estadística Big Data 8
dflog<-df
dflog[,2:3]<- log10(dflog[,2:3])
#dflog[,4]<- -log10(-dflog[,4])
dflog

dfm<-melt(dflog,id=c("especie","aparicion"))

options(repr.plot.height=3,repr.plot.width=7)

ggplot(data=dfm,aes(x=aparicion,y=value))+geom_point(aes(shape=variable,color=variable))+theme_bw()

A data.frame: 5 × 4.

3 ejemplos de probabilidad en estadística Big Data 9
3 ejemplos de probabilidad en estadística Big Data 10
ggplot(data=dfm,aes(x=value,y=aparicion,shape=variable,color=variable))+
  geom_point()+geom_line()+theme_bw()
3 ejemplos de probabilidad en estadística Big Data 11
model_total <- lm(data=dflog, formula=aparicion~gen_total)
summary(model_total)
3 ejemplos de probabilidad en estadística Big Data 12
confint(model_total)

A matrix: 2 × 2 of type dbl:

3 ejemplos de probabilidad en estadística Big Data 13
predict(model_total, data.frame(gen_total=1),interval = 'prediction')

A matrix: 1 × 3 of type dbl.

3 ejemplos de probabilidad en estadística Big Data 14
model_reduc <- lm(data=dflog, formula=aparicion~gen_reduc)
summary(model_reduc)
3 ejemplos de probabilidad en estadística Big Data 15
predict(model_reduc, data.frame(gen_reduc=1),interval = 'prediction')

A matrix: 1 × 3 of type dbl.

3 ejemplos de probabilidad en estadística Big Data 16
df_test<-data.frame(gen_reduc=1:10)
df_test$pred <- predict(model_reduc, df_test)
df_test

A data.frame: 10 × 2.

3 ejemplos de probabilidad en estadística Big Data 17

Continúa aprendiendo sobre el Big Data

En el transcurso de este post, te hemos expuesto tres ejemplos de probabilidad en estadística Big Data que esperamos que te ayuden a comprender cómo se puede llevar a cabo un análisis estadístico de probabilidad para el manejo de los macrodatos. Sin embargo, sabemos que estos siguen siendo solo un primer acercamiento dentro de toda esta amplia rama, ¡así que todavía queda mucho por aprender sobre el Big Data!

Para ello, desde KeepCoding te ofrecemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Gracias a él, podrás profundizar en el análisis de los datos mediante el reporting y, para ello, aprenderás a usar una herramienta denominada Tableau, muy conocida en el mundo del Business Intelligence. Además, comprenderás que el análisis visual es el objetivo final en un proyecto de Big data, ya que, a través de este, se puede proporcionar información muy útil para una empresa como respuesta a los problemas de negocio con un aspecto personalizado, ágil e inmediato. ¡No dudes en apuntarte!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!