¿Qué es la paradoja de Simpson en estadística Big Data?

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

La paradoja de Simpson en estadística Big Data forma parte del factor del sesgo dentro de este amplio campo del estudio estadístico que sirve para decir la diferencia entre el valor del estimador esperado y el estimador real.

De manera que conocer cómo se desenvuelven este tipo de factores dentro de un análisis de datos es imprescindible y, por eso, en este post, te explicamos qué es la paradoja de Simpson en estadística Big Data a través de un ejemplo.

¿Qué es la paradoja de Simpson en estadística Big Data?

La paradoja de Simpson o el efecto Yule-Simpson es un fenómeno en el cual una tendencia aparece en grupos diferentes pero cambia completamente cuando esos grupos se combinan.

A continuación, te mostramos cómo presentaría la inscripción de la paradoja de Simpson en estadística Big Data:

x1<-0:4
y1<-2*x1+4

x2<-10:14
y2<-2*x2-30

df<-data.frame(x=c(x1,x2),y=c(y1,y2),group=rep(c("A","B"),each=length(x1)))
library(ggplot2)
options(repr.plot.height=4,repr.plot.width=6)

ggplot(data=df,aes(x,y))+geom_point(aes(color=group),size=5)+
 geom_smooth(method = 'lm')+
 geom_smooth(method = 'lm',aes(color=group))+
 theme_bw()

print(paste("La correlación de x,y, sin tener en cuenta los grupos es:",cor(df$x,df$y)))
print(paste("La correlación de x,y, para el grupo A:",cor(x1,y1)))
print(paste("La correlación de x,y, para el grupo B:",cor(x2,y2)))

Ejemplo de paradoja de Simpson en estadística Big Data

Veamos un ejemplo de la paradoja de Simpson. Según la tabla de Timo vacunas COVID, podrás ver que de los 53,822 casos confirmados de la variante Delta Covid en personas que no estaban vacunadas, 831 se presentaron a la atención de emergencia, lo que resultó en un ingreso hospitalario durante la noche. Esto representa el 1,54% de los casos confirmados en personas no vacunadas para el ejemplo de paradoja Simpson.

Sin embargo, de los 7.235 casos confirmados de la variante Delta en personas que estaban completamente vacunadas, 190 acudieron a la atención de emergencia, lo que resultó en una hospitalización durante la noche. Esto representa el 2,6% de los casos confirmados en personas que están completamente vacunadas para el ejemplo de paradoja Simpson.

Estos datos del ejemplo de paradoja Simpson, que han sido publicados por Public Health England, te muestran que las personas que han recibido dos dosis de una vacuna Covid-19 tienen un 70,1% más de posibilidades de ser hospitalizadas con la supuesta variante Delta Covid que las personas que no están vacunadas.

Lo puedes ver a continuación con este ejemplo de la paradoja de Simpson en estadística Big Data por medio de números reales:

no_vacunados <- 831/53822
paste("Porcentaje de hospitalizados NO vacunados", round(no_vacunados*100,2))

si_vacunados <- 190/7235
paste("Porcentaje de hospitalizados SI vacunados", round(si_vacunados*100,2))

paste("Los vacunados tienen",round(si_vacunados/no_vacunados-1,3)*100,'% más posibilidades de acabar hospitalizados')

‘Porcentaje de hospitalizados NO vacunados 1.54’

‘Porcentaje de hospitalizados SI vacunados 2.63’

‘Los vacunados tienen 70.1 % más posibilidades de acabar hospitalizados’

Pero si se dividen por edad los resultados en el paradoja de simpson son otros:

no_vacunados_menores_50 <- 695/3689
no_vacunados_mayores_50 <- 136/976
paste("Porcentaje de hospitalizados NO vacunados menores de 50 ", round(no_vacunados_menores_50*100,2))
paste("Porcentaje de hospitalizados NO vacunados mayores de 50 ", round(no_vacunados_mayores_50*100,2))


si_vacunados_menores_50 <- 190/52846
si_vacunados_mayores_50 <- 27/3546
paste("Porcentaje de hospitalizados SI vacunados menores de 50 ", round(si_vacunados_menores_50*100,2))
paste("Porcentaje de hospitalizados SI vacunados mayores de 50 ", round(si_vacunados_mayores_50*100,2))


paste("Los vacunados menores de 50 tienen",round(no_vacunados_menores_50/si_vacunados_menores_50-1,3)*100,'% menos posibilidades de acabar hospitalizados')
paste("Los vacunados mmayores de 50 tienen",round(no_vacunados_mayores_50/si_vacunados_mayores_50-1,3)*100,'% menos posibilidades de acabar hospitalizados')

‘Porcentaje de hospitalizados NO vacunados menores de 50 18.84’

‘Porcentaje de hospitalizados NO vacunados mayores de 50 13.93’

‘Porcentaje de hospitalizados SI vacunados menores de 50 0.36’

‘Porcentaje de hospitalizados SI vacunados mayores de 50 0.76’

‘Los vacunados menores de 50 tienen 5140 % menos posibilidades de acabar hospitalizados’

‘Los vacunados mayores de 50 tienen 1730.1 % menos posibilidades de acabar hospitalizados’

Sigue aprendiendo del Big Data

En este post, te hemos presentado qué es la paradoja de Simpson en estadística Big Data, sin embargo, si pretendes seguir aprendiendo sobre el manejo de los macrodatos, no te pierdas este bootcamp.

Nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning cuenta con once módulos que te prepararán y pondrán a prueba tus destrezas con las principales herramientas desarrolladas para el procesamiento de los macrodatos. Para ello, también contarás con el apoyo de una serie de expertos en Big Data que te guiarán en los procesos tanto teóricos como prácticos. ¡No esperes más e inscríbete ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado