Distribución conjunta en estadística Big Data

Autor: | Última modificación: 2 de agosto de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post:

La Distribución conjunta en estadística Big Data es uno de los estadísticos de probabilidad dispuestos entre dos eventos. Su importancia, precisamente, se encuentra en que las variables sean analizadas de manera conjunta, por lo que sus resultados arrojados se presentan como un cuadro comparativo entre diferentes variables.

Por esta razón, en el desarrollo de este post, te compartimos todo lo relacionado con la distribución conjunta en estadística Big Data desde sus variables discretas hasta las continuas, con el fin de que puedas implementar este tipo de cálculo en tu estudio estadístico.

Distribución conjunta en estadística Big Data

La distribución conjunta en estadística Big Data consiste en tener en cuenta dos variables A y B, que se refiere a la distribución de probabilidad de la intersección de ambos eventos.

Por otra parte, la distribución conjunta en estadística Big Data se representa como P(B,A) o P(B ∩ A).

Variables discretas

Para ejemplificar cómo funciona la distribución conjunta en estadística Big Data a partir de dos variables discretas, te presentamos un ejemplo mediante datos inventados.

Imagina que tienes una tabla de contingencia que presenta el número de personas a las que les gusta Star Trek o Star Wars en función del sexo:

tbl<-as.table(matrix(c(122,58,214,120),dimnames = list(c("Star Trek","Star Wars"),c("Mujeres","Hombres")),nrow=2))
tbl
Distribución conjunta en estadística Big Data 1

Probabilidad marginal

En esta población, ¿cuál es la probabilidad de que a alguien le guste Star Wars?

Distribución conjunta en estadística Big Data 2
print("La probabilidad de que a alguien le gusta Star Trek o Star Wars es:")
rowSums(tbl)/sum(tbl)

[1] «La probabilidad de que a alguien le gusta Star Trek o Star Wars es:»

Distribución conjunta en estadística Big Data 3

Probabilidad conjunta

¿Cuál es la probabilidad de que una persona elegida al azar sea hombre y le guste Star Wars?

Distribución conjunta en estadística Big Data 4
print("La matriz de la probabilidad conjunta es:")
prop.table(tbl

[1] «La matriz de la probabilidad conjunta es:»

Distribución conjunta en estadística Big Data 5

Probabilidad condicional

Suponiendo que te fijas solamente en los hombres, ¿cuál es la probabilidad de que Star Wars sea la película más interesante?

Distribución conjunta en estadística Big Data 6
print("La matriz condicional para mujeres y hombres:")
prop.table(tbl,margin = 2)

[1] «La matriz condicional para mujeres y hombres:»

Distribución conjunta en estadística Big Data 7

Ahora, suponiendo que te fijas solamente en los fans de Star Wars, ¿cuál es la probabilidad de que el fan sea hombre?

Distribución conjunta en estadística Big Data 8
print("La matriz condicional para Star Trek y Star Wars :")
prop.table(tbl,margin = 1)

[1] «La matriz condicional para Star Trek y Star Wars :»

Distribución conjunta en estadística Big Data 9

Propiedades

Distribución conjunta en estadística Big Data 10

Variables continuas

Ahora, con el fin de mostrar cómo funciona la distribución conjunta en estadística Big Data con variables continuas, también te exponemos datos aleatorios.

Dos variables independientes

En este caso: P(B,A)=P(B)·P(A).

Es fácil verlo, porque su matriz de covarianza se parece a una matriz diagonal.

N<-10000
A<-rnorm(N,mean=0,sd=0.5)
B<-rnorm(N,mean=0,sd=1)
df<-data.frame(A,B)

print(paste("Matriz de covarianza:"))
cov(df)

library(ggplot2)
ggplot(df, aes(x=A, y=B))+geom_density2d(aes(colour=..level..)) + 
  stat_density2d(aes(fill=..level..,alpha=..level..),geom='polygon',colour='black') + 
  scale_fill_continuous(low="green",high="red") +    
  geom_point(alpha=0.2,size=0.1)+
  theme_bw()+theme(legend.position="none")+xlim(c(-5,5))+ylim(c(-5,5))

[1] «Matriz de covarianza:»
A matrix: 2 × 2 of type dbl

Distribución conjunta en estadística Big Data 11
Distribución conjunta en estadística Big Data 12

Como son independientes, la probabilidad condicional de B respecto a A es igual a la probabilidad de B.

P(B|A)=P(B)

dfPartialProbs<-data.frame(B=B,var="P(B)")
dfPartialProbs<-rbind(dfPartialProbs,data.frame(B=df$B[df$A>-0.5 & df$A<0.5],var="P(B|-0.5<A<0.5)"))


ggplot(dfPartialProbs, aes(x=B,color=var))+geom_density()+
  theme_bw()
Distribución conjunta en estadística Big Data 13

Dos variables dependientes

En este caso de la distribución conjunta en estadística Big Data con dos variables dependientes: P(B,A)=P(B|A)·P(A)=P(A,B)=P(A|B)·P(B).

Así, la matriz de covarianza no es diagonal.

N<-10000
A<-rnorm(N,mean=0,sd=2)
B<-A+rnorm(N,mean=0,sd=2)
df<-data.frame(A,B)

print(paste("Matriz de covarianza:"))
cov(df)

library(ggplot2)
ggplot(df, aes(x=A, y=B))+geom_density2d(aes(colour=..level..)) + 
  stat_density2d(aes(fill=..level..,alpha=..level..),geom='polygon',colour='black') + 
  scale_fill_continuous(low="green",high="red") +    
  geom_point(alpha=0.1,size=0.1)+
  theme_bw()+theme(legend.position="none")+xlim(c(-10,10))+ylim(c(-10,10))

[1] «Matriz de covarianza:»
A matrix: 2 × 2 of type dbl

Distribución conjunta en estadística Big Data 14
Warning message:
“Removed 4 rows containing non-finite values (stat_density2d).”
Warning message:
“Removed 4 rows containing non-finite values (stat_density2d).”
Warning message:
“Removed 4 rows containing missing values (geom_point).”
Distribución conjunta en estadística Big Data 15

Como son dependientes, la probabilidad condicional de B respecto a A es diferente a la probabilidad de B.

Distribución conjunta en estadística Big Data 16
dfPartialProbs<-data.frame(B=B,var="P(B)")
dfPartialProbs<-rbind(dfPartialProbs,data.frame(B=df$B[df$A>-0.5 & df$A<0.5],var="P(B|-0.5<A<0.5)"))

dfPartialProbs<-rbind(dfPartialProbs,data.frame(B=df$B[df$A>3 & df$A<4],var="P(B|3<A<4)"))


ggplot(dfPartialProbs, aes(x=B,color=var))+geom_density()+
  theme_bw()
Distribución conjunta en estadística Big Data 17

Sigue aprendiendo sobre el Big Data

En el desarrollo de este post te hemos familiarizado con todo lo relacionado con lo que es la distribución conjunta en estadística Big Data, sin embargo, a pesar del conocimiento teórico y de los ejemplos prácticos, este tipo de saber exige mucha precisión, por lo que conlleva práctica y tiempo. En suma, todavía quedan muchos más temas por abordar con respecto al manejo de los macrodatos, ¡así que debe seguir aprendiendo sobre el Big Data!

Desde KeepCoding te presentamos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Por medio del mismo, podrás aprender más sobre la suite de Talend Open Studio junto a las demás herramientas Big Data a través de diferentes módulos, como el de Big Data Architecture. Además, podrás instruirte tanto de manera teórica como práctica. ¡No esperes más y apúntate ya!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Trabajo? Aprende a programar y consíguelo.

¡No te pierdas la próxima edición del Aprende a Programar desde Cero Full Stack Jr. Bootcamp!

 

Prepárate en 4 meses, aprende las últimas tecnologías y consigue trabajo desde ya. 

 

Solo en España hay más de 120.400 puestos tech sin cubrir, y con un sueldo 11.000€ por encima de la media nacional. ¡Es tu momento!

 

🗓️ Próxima edición: 13 de febrero

 

Reserva tu plaza descubre las becas disponibles.