Análisis estadístico de dos variables discretas

Autor: | Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

El análisis estadístico de dos variables discretas forma parte de las diferentes variables que trata la distribución conjunta, en la que se estudia el comportamiento de dos variables A y B, por medio de las que se refiere a la distribución de probabilidad de la intersección de ambos eventos.

Este tipo de estudio se representa como P(B,A) o P(B ∩ A). Su importancia radica en el análisis comparativo que plantea. Por ello, en este post, te presentamos cómo funciona el análisis estadístico de dos variables discretas.

Análisis estadístico de dos variables discretas

Para mostrar cómo se desarrolla un análisis estadístico de dos variables discretas, te presentamos un ejemplo a partir de datos inventados.

Para ello, imagina que tienes una tabla de contingencia que presenta el número de personas a las que les gusta Star Trek o Star Wars en función del sexo:

tbl<-as.table(matrix(c(122,58,214,120),dimnames = list(c("Star Trek","Star Wars"),c("Mujeres","Hombres")),nrow=2))
tbl
Análisis estadístico de dos variables discretas

Probabilidad marginal

En esta población, ¿cuál es la probabilidad de que a alguien le guste Star Wars?

Análisis estadístico de dos variables discretas
print("La probabilidad de que a alguien le gusta Star Trek o Star Wars es:")
rowSums(tbl)/sum(tbl)

[1] «La probabilidad de que a alguien le gusta Star Trek o Star Wars es:»

Análisis estadístico de dos variables discretas

Probabilidad conjunta

¿Cuál es la probabilidad de que una persona elegida al azar sea hombre y le guste Star Wars?

Análisis estadístico de dos variables discretas
print("La matriz de la probabilidad conjunta es:")
prop.table(tbl

[1] «La matriz de la probabilidad conjunta es:»

Análisis estadístico de dos variables discretas

Probabilidad condicional

Suponiendo que te fijas solamente en los hombres, ¿cuál es la probabilidad de que Star Wars sea la película más interesante?

Análisis estadístico de dos variables discretas
print("La matriz condicional para mujeres y hombres:")
prop.table(tbl,margin = 2)

[1] «La matriz condicional para mujeres y hombres:»

Análisis estadístico de dos variables discretas

Ahora, suponiendo que te fijas solamente en los fans de Star Wars, ¿cuál es la probabilidad de que el fan sea hombre?

Análisis estadístico de dos variables discretas
print("La matriz condicional para Star Trek y Star Wars :")
prop.table(tbl,margin = 1)

[1] «La matriz condicional para Star Trek y Star Wars :»

Análisis estadístico de dos variables discretas

Propiedades

Análisis estadístico de dos variables discretas

Variables continuas

Ahora bien, a la par del análisis estadístico de dos variables discretas pero de forma contraria, podrás encontrar las variables continuas. A continuación, te mostramos cómo se comparten estas, por ejemplo, con dos variables independientes.

Dos variables independientes

En este caso: P(B,A)=P(B)·P(A).

Es fácil verlo, ya que su matriz de covarianza se parece a una matriz diagonal.

N<-10000
A<-rnorm(N,mean=0,sd=0.5)
B<-rnorm(N,mean=0,sd=1)
df<-data.frame(A,B)

print(paste("Matriz de covarianza:"))
cov(df)

library(ggplot2)
ggplot(df, aes(x=A, y=B))+geom_density2d(aes(colour=..level..)) + 
  stat_density2d(aes(fill=..level..,alpha=..level..),geom='polygon',colour='black') + 
  scale_fill_continuous(low="green",high="red") +    
  geom_point(alpha=0.2,size=0.1)+
  theme_bw()+theme(legend.position="none")+xlim(c(-5,5))+ylim(c(-5,5))

[1] «Matriz de covarianza:»
A matrix: 2 × 2 of type dbl

Análisis estadístico de dos variables discretas
Análisis estadístico de dos variables discretas

Como son independientes, la probabilidad condicional de B respecto a A es igual a la probabilidad de B.

P(B|A)=P(B)

dfPartialProbs<-data.frame(B=B,var="P(B)")
dfPartialProbs<-rbind(dfPartialProbs,data.frame(B=df$B[df$A>-0.5 & df$A<0.5],var="P(B|-0.5<A<0.5)"))


ggplot(dfPartialProbs, aes(x=B,color=var))+geom_density()+
  theme_bw()
Análisis estadístico de dos variables discretas

Aprende más sobre el Big Data

En este post, te hemos explicado cómo funciona un análisis estadístico de dos variables discretas para el manejo de los macrodatos en este amplio campo de la estadística Big Data. Pero ¡aún queda mucho más por aprender al respecto!

Por esta razón, te aconsejamos echarle un vistazo al Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante el desarrollo del mismo, podrás instruirte en uno de los grandes retos para los data scientists, que es el de ser capaces de elegir las características y herramientas adecuadas para solucionar cada problema en la gestión de los macrodatos. ¡No esperes más para inscribirte!

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado