Análisis estadístico de dos variables discretas

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El análisis estadístico de dos variables discretas forma parte de las diferentes variables que trata la distribución conjunta, en la que se estudia el comportamiento de dos variables A y B, por medio de las que se refiere a la distribución de probabilidad de la intersección de ambos eventos.

Este tipo de estudio se representa como P(B,A) o P(B ∩ A). Su importancia radica en el análisis comparativo que plantea. Por ello, en este post, te presentamos cómo funciona el análisis estadístico de dos variables discretas.

Análisis estadístico de dos variables discretas

Para mostrar cómo se desarrolla un análisis estadístico de dos variables discretas, te presentamos un ejemplo a partir de datos inventados.

Para ello, imagina que tienes una tabla de contingencia que presenta el número de personas a las que les gusta Star Trek o Star Wars en función del sexo:

tbl<-as.table(matrix(c(122,58,214,120),dimnames = list(c("Star Trek","Star Wars"),c("Mujeres","Hombres")),nrow=2))
tbl

Probabilidad marginal

En esta población, ¿cuál es la probabilidad de que a alguien le guste Star Wars?

print("La probabilidad de que a alguien le gusta Star Trek o Star Wars es:")
rowSums(tbl)/sum(tbl)

[1] “La probabilidad de que a alguien le gusta Star Trek o Star Wars es:”

Probabilidad conjunta

¿Cuál es la probabilidad de que una persona elegida al azar sea hombre y le guste Star Wars?

print("La matriz de la probabilidad conjunta es:")
prop.table(tbl

[1] “La matriz de la probabilidad conjunta es:”

Probabilidad condicional

Suponiendo que te fijas solamente en los hombres, ¿cuál es la probabilidad de que Star Wars sea la película más interesante?

print("La matriz condicional para mujeres y hombres:")
prop.table(tbl,margin = 2)

[1] “La matriz condicional para mujeres y hombres:”

Ahora, suponiendo que te fijas solamente en los fans de Star Wars, ¿cuál es la probabilidad de que el fan sea hombre?

print("La matriz condicional para Star Trek y Star Wars :")
prop.table(tbl,margin = 1)

[1] “La matriz condicional para Star Trek y Star Wars :”

Propiedades

Variables continuas

Ahora bien, a la par del análisis estadístico de dos variables discretas pero de forma contraria, podrás encontrar las variables continuas. A continuación, te mostramos cómo se comparten estas, por ejemplo, con dos variables independientes.

Dos variables independientes

En este caso: P(B,A)=P(B)·P(A).

Es fácil verlo, ya que su matriz de covarianza se parece a una matriz diagonal.

N<-10000
A<-rnorm(N,mean=0,sd=0.5)
B<-rnorm(N,mean=0,sd=1)
df<-data.frame(A,B)

print(paste("Matriz de covarianza:"))
cov(df)

library(ggplot2)
ggplot(df, aes(x=A, y=B))+geom_density2d(aes(colour=..level..)) + 
  stat_density2d(aes(fill=..level..,alpha=..level..),geom='polygon',colour='black') + 
  scale_fill_continuous(low="green",high="red") +    
  geom_point(alpha=0.2,size=0.1)+
  theme_bw()+theme(legend.position="none")+xlim(c(-5,5))+ylim(c(-5,5))

[1] “Matriz de covarianza:”
A matrix: 2 × 2 of type dbl

Como son independientes, la probabilidad condicional de B respecto a A es igual a la probabilidad de B.

P(B|A)=P(B)

dfPartialProbs<-data.frame(B=B,var="P(B)")
dfPartialProbs<-rbind(dfPartialProbs,data.frame(B=df$B[df$A>-0.5 & df$A<0.5],var="P(B|-0.5<A<0.5)"))


ggplot(dfPartialProbs, aes(x=B,color=var))+geom_density()+
  theme_bw()

Aprende más sobre el Big Data

En este post, te hemos explicado cómo funciona un análisis estadístico de dos variables discretas para el manejo de los macrodatos en este amplio campo de la estadística Big Data. Pero ¡aún queda mucho más por aprender al respecto!

Por esta razón, te aconsejamos echarle un vistazo al Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante el desarrollo del mismo, podrás instruirte en uno de los grandes retos para los data scientists, que es el de ser capaces de elegir las características y herramientas adecuadas para solucionar cada problema en la gestión de los macrodatos. ¡No esperes más para inscribirte!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado