Análisis estadístico de dos variables discretas

Autor: | Última modificación: 3 de agosto de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

El análisis estadístico de dos variables discretas forma parte de las diferentes variables que trata la distribución conjunta, en la que se estudia el comportamiento de dos variables A y B, por medio de las que se refiere a la distribución de probabilidad de la intersección de ambos eventos.

Este tipo de estudio se representa como P(B,A) o P(B ∩ A). Su importancia radica en el análisis comparativo que plantea. Por ello, en este post, te presentamos cómo funciona el análisis estadístico de dos variables discretas.

Análisis estadístico de dos variables discretas

Para mostrar cómo se desarrolla un análisis estadístico de dos variables discretas, te presentamos un ejemplo a partir de datos inventados.

Para ello, imagina que tienes una tabla de contingencia que presenta el número de personas a las que les gusta Star Trek o Star Wars en función del sexo:

tbl<-as.table(matrix(c(122,58,214,120),dimnames = list(c("Star Trek","Star Wars"),c("Mujeres","Hombres")),nrow=2))
tbl
Análisis estadístico de dos variables discretas 1

Probabilidad marginal

En esta población, ¿cuál es la probabilidad de que a alguien le guste Star Wars?

Análisis estadístico de dos variables discretas 2
print("La probabilidad de que a alguien le gusta Star Trek o Star Wars es:")
rowSums(tbl)/sum(tbl)

[1] «La probabilidad de que a alguien le gusta Star Trek o Star Wars es:»

Análisis estadístico de dos variables discretas 3

Probabilidad conjunta

¿Cuál es la probabilidad de que una persona elegida al azar sea hombre y le guste Star Wars?

Análisis estadístico de dos variables discretas 4
print("La matriz de la probabilidad conjunta es:")
prop.table(tbl

[1] «La matriz de la probabilidad conjunta es:»

Análisis estadístico de dos variables discretas 5

Probabilidad condicional

Suponiendo que te fijas solamente en los hombres, ¿cuál es la probabilidad de que Star Wars sea la película más interesante?

Análisis estadístico de dos variables discretas 6
print("La matriz condicional para mujeres y hombres:")
prop.table(tbl,margin = 2)

[1] «La matriz condicional para mujeres y hombres:»

Análisis estadístico de dos variables discretas 7

Ahora, suponiendo que te fijas solamente en los fans de Star Wars, ¿cuál es la probabilidad de que el fan sea hombre?

Análisis estadístico de dos variables discretas 8
print("La matriz condicional para Star Trek y Star Wars :")
prop.table(tbl,margin = 1)

[1] «La matriz condicional para Star Trek y Star Wars :»

Análisis estadístico de dos variables discretas 9

Propiedades

Análisis estadístico de dos variables discretas 10

Variables continuas

Ahora bien, a la par del análisis estadístico de dos variables discretas pero de forma contraria, podrás encontrar las variables continuas. A continuación, te mostramos cómo se comparten estas, por ejemplo, con dos variables independientes.

Dos variables independientes

En este caso: P(B,A)=P(B)·P(A).

Es fácil verlo, ya que su matriz de covarianza se parece a una matriz diagonal.

N<-10000
A<-rnorm(N,mean=0,sd=0.5)
B<-rnorm(N,mean=0,sd=1)
df<-data.frame(A,B)

print(paste("Matriz de covarianza:"))
cov(df)

library(ggplot2)
ggplot(df, aes(x=A, y=B))+geom_density2d(aes(colour=..level..)) + 
  stat_density2d(aes(fill=..level..,alpha=..level..),geom='polygon',colour='black') + 
  scale_fill_continuous(low="green",high="red") +    
  geom_point(alpha=0.2,size=0.1)+
  theme_bw()+theme(legend.position="none")+xlim(c(-5,5))+ylim(c(-5,5))

[1] «Matriz de covarianza:»
A matrix: 2 × 2 of type dbl

Análisis estadístico de dos variables discretas 11
Análisis estadístico de dos variables discretas 12

Como son independientes, la probabilidad condicional de B respecto a A es igual a la probabilidad de B.

P(B|A)=P(B)

dfPartialProbs<-data.frame(B=B,var="P(B)")
dfPartialProbs<-rbind(dfPartialProbs,data.frame(B=df$B[df$A>-0.5 & df$A<0.5],var="P(B|-0.5<A<0.5)"))


ggplot(dfPartialProbs, aes(x=B,color=var))+geom_density()+
  theme_bw()
Análisis estadístico de dos variables discretas 13

Aprende más sobre el Big Data

En este post, te hemos explicado cómo funciona un análisis estadístico de dos variables discretas para el manejo de los macrodatos en este amplio campo de la estadística Big Data. Pero ¡aún queda mucho más por aprender al respecto!

Por esta razón, te aconsejamos echarle un vistazo al Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante el desarrollo del mismo, podrás instruirte en uno de los grandes retos para los data scientists, que es el de ser capaces de elegir las características y herramientas adecuadas para solucionar cada problema en la gestión de los macrodatos. ¡No esperes más para inscribirte!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

La IA no te quitará el trabajo, lo hará quien sepa usarla

Conviértete en Data Scientist con el único Bootcamp que además te formará en Inteligencia Artificial Generativa para potenciar tu perfil.