Ejemplo del sesgo del superviviente en estadística Big Data

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

Cuestiones como el sesgo del superviviente en estadística Big Data te ayudan a comprender cómo es tu población de los datos y cómo debe tratarse cada uno de ellos. En efecto, las estadísticas pretenden entender las variables de la información y su relación entre ellas. De esta forma se tienen en cuenta factores como los estimadores, la varianza, los tests estadísticos, las asignaciones, etc.

Todo ello, porque esta disciplina se dedica a analizar los datos de manera minuciosa e identificar las coincidencias de variables con las que cuenta la información. Esto produce, por ejemplo, que una empresa pueda conocer cuáles son las mejores rutas y decisiones para su optimización gracias a los datos procesados.

De manera que conocer a qué se refiere este tipo de análisis es de suma importancia. Por esta razón, en este post, te explicamos qué es el sesgo del superviviente en estadística Big Data.

¿Qué es sesgo para estadística Big Data?

El sesgo (en inglés bias) funciona para indicar la diferencia entre el valor del estimador esperado y el estimador real.

Su principal característica radica en que es un estadístico, es decir, una función de la muestra que se usa para estimar un parámetro desconocido de la población de los macrodatos, de manera que se presenta como una función que sustrae los valores en una muestra de datos y hace un resumen para, posteriormente, estimar un valor que define la muestra.

Ejemplo del sesgo del superviviente en estadística Big Data

Muchas veces los datos con los que se cuenta no representan una parte fiable de la población que se pretende medir en determinada cualidad o categoría, sino una parte de aquellos valores que ya han superado ciertos filtros. A esto hace referencia el sesgo del superviviente en estadística Big Data.

En suma, este es un tipo de sesgo de selección que, a su vez, pertenece a las propiedades del muestreo. A continuación, te presentamos un breve ejemplo que clarifica cómo se presenta este tipo de análisis estadístico de los macrodatos:

Durante la segunda guerra mundial los aliados se enfrentaron con el problema de que muchos de sus aviones caían en combate. Una solución era poner más blindaje en ciertas partes estratégicas del avión en las que sufrían más daño.

Posteriormente, hicieron un estudio estadístico de las zonas más dañadas por el fuego nazi. Principalmente había más agujeros de bala en la parte central y en los extremos de las alas, tal y como muestra la siguiente imagen:

Entre el ejercito empezó una corriente que sugería añadir más blindaje a las zonas donde había más daños. ¿Sería eso una buena idea? Este es un ejemplo claro del sesgo del superviviente en estadística Big Data.

En efecto, el estadista Abraham Wald recomendó exactamente lo contrario, podríamos asumir que el fuego dañaba por igual todas las partes del avión, pero los aviones que veíamos eran aquellos que a pesar de ser alcanzados habían podido continuar volando.

Así pues, había que aumentar el blindaje en las zonas donde no había marcas de disparos, porque esos eran los aviones que no habían sobrevivido al viaje.

¿Cuál es el siguiente paso Big Data?

En el desarrollo de este post, te hemos expuesto un breve ejemplo del sesgo del superviviente en estadística Big Data; no obstante, para comprender del todo este tipo de sesgo, te aconsejamos conocer su desarrollo por medio de una prueba de ensayo y error, de manera que puedas desempeñarte efectivamente al aplicarlo.

Nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning te permitirá consolidar tus conocimientos y poner a prueba tus destrezas en este ámbito del sesgo del superviviente en estadística Big Data y en muchos otros campos de suma importancia. Además, en el transcurso de esta formación intensiva, aprenderás a utilizar sus métodos de inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. ¡No lo dudes más, matricúlate y empieza ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado