¿Qué es la paradoja de Simpson en estadística Big Data?

Autor: | Última modificación: 15 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

La paradoja de Simpson en estadística Big Data forma parte del factor del sesgo dentro de este amplio campo del estudio estadístico que sirve para decir la diferencia entre el valor del estimador esperado y el estimador real.

De manera que conocer cómo se desenvuelven este tipo de factores dentro de un análisis de datos es imprescindible y, por eso, en este post, te explicamos qué es la paradoja de Simpson en estadística Big Data a través de un ejemplo.

¿Qué es la paradoja de Simpson en estadística Big Data?

La paradoja de Simpson o el efecto Yule-Simpson es un fenómeno en el cual una tendencia aparece en grupos diferentes pero cambia completamente cuando esos grupos se combinan.

A continuación, te mostramos cómo presentaría la inscripción de la paradoja de Simpson en estadística Big Data:

x1<-0:4
y1<-2*x1+4

x2<-10:14
y2<-2*x2-30

df<-data.frame(x=c(x1,x2),y=c(y1,y2),group=rep(c("A","B"),each=length(x1)))
library(ggplot2)
options(repr.plot.height=4,repr.plot.width=6)

ggplot(data=df,aes(x,y))+geom_point(aes(color=group),size=5)+
 geom_smooth(method = 'lm')+
 geom_smooth(method = 'lm',aes(color=group))+
 theme_bw()

print(paste("La correlación de x,y, sin tener en cuenta los grupos es:",cor(df$x,df$y)))
print(paste("La correlación de x,y, para el grupo A:",cor(x1,y1)))
print(paste("La correlación de x,y, para el grupo B:",cor(x2,y2)))

Ejemplo de paradoja de Simpson en estadística Big Data

Según la tabla de Timo vacunas COVID, podrás ver que de los 53,822 casos confirmados de la variante Delta Covid en personas que no estaban vacunadas, 831 se presentaron a la atención de emergencia, lo que resultó en un ingreso hospitalario durante la noche. Esto representa el 1,54% de los casos confirmados en personas no vacunadas.

Sin embargo, de los 7.235 casos confirmados de la variante Delta en personas que estaban completamente vacunadas, 190 acudieron a la atención de emergencia, lo que resultó en una hospitalización durante la noche. Esto representa el 2,6% de los casos confirmados en personas que están completamente vacunadas.

¿Qué es la paradoja de Simpson en estadística Big Data? 1

Estos datos, que han sido publicados por Public Health England, te muestran que las personas que han recibido dos dosis de una vacuna Covid-19 tienen un 70,1% más de posibilidades de ser hospitalizadas con la supuesta variante Delta Covid que las personas que no están vacunadas.

Lo puedes ver a continuación con este ejemplo de la paradoja de Simpson en estadística Big Data por medio de números reales:

no_vacunados <- 831/53822
paste("Porcentaje de hospitalizados NO vacunados", round(no_vacunados*100,2))

si_vacunados <- 190/7235
paste("Porcentaje de hospitalizados SI vacunados", round(si_vacunados*100,2))

paste("Los vacunados tienen",round(si_vacunados/no_vacunados-1,3)*100,'% más posibilidades de acabar hospitalizados')

‘Porcentaje de hospitalizados NO vacunados 1.54’

‘Porcentaje de hospitalizados SI vacunados 2.63’

‘Los vacunados tienen 70.1 % más posibilidades de acabar hospitalizados’

Pero si se dividen por edad los resultados son otros:

no_vacunados_menores_50 <- 695/3689
no_vacunados_mayores_50 <- 136/976
paste("Porcentaje de hospitalizados NO vacunados menores de 50 ", round(no_vacunados_menores_50*100,2))
paste("Porcentaje de hospitalizados NO vacunados mayores de 50 ", round(no_vacunados_mayores_50*100,2))


si_vacunados_menores_50 <- 190/52846
si_vacunados_mayores_50 <- 27/3546
paste("Porcentaje de hospitalizados SI vacunados menores de 50 ", round(si_vacunados_menores_50*100,2))
paste("Porcentaje de hospitalizados SI vacunados mayores de 50 ", round(si_vacunados_mayores_50*100,2))


paste("Los vacunados menores de 50 tienen",round(no_vacunados_menores_50/si_vacunados_menores_50-1,3)*100,'% menos posibilidades de acabar hospitalizados')
paste("Los vacunados mmayores de 50 tienen",round(no_vacunados_mayores_50/si_vacunados_mayores_50-1,3)*100,'% menos posibilidades de acabar hospitalizados')

‘Porcentaje de hospitalizados NO vacunados menores de 50 18.84’

‘Porcentaje de hospitalizados NO vacunados mayores de 50 13.93’

‘Porcentaje de hospitalizados SI vacunados menores de 50 0.36’

‘Porcentaje de hospitalizados SI vacunados mayores de 50 0.76’

‘Los vacunados menores de 50 tienen 5140 % menos posibilidades de acabar hospitalizados’

‘Los vacunados mayores de 50 tienen 1730.1 % menos posibilidades de acabar hospitalizados’

Sigue aprendiendo del Big Data

En este post, te hemos presentado qué es la paradoja de Simpson en estadística Big Data, sin embargo, si pretendes seguir aprendiendo sobre el manejo de los macrodatos, no te pierdas este bootcamp.

Nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning cuenta con once módulos que te prepararán y pondrán a prueba tus destrezas con las principales herramientas desarrolladas para el procesamiento de los macrodatos. Para ello, también contarás con el apoyo de una serie de expertos en Big Data que te guiarán en los procesos tanto teóricos como prácticos. ¡No esperes más e inscríbete ahora!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!