Realizar un ejemplo árboles bayesianos en estadística para practicar el manejo de los macrodatos puede ser una gran estrategia para ensayar los conocimientos sobre el teorema de Bayes y sus diferentes formas de implementarlo en el procesamiento del Big Data.
En efecto, con el aumento acelerado de datos que se produce por segundo en la actualidad, las diferentes formas de abordarla y sacar provecho de ellas es de suma importancia. Por ello, un buen data scientist debe asegurarse de estar totalmente preparado para abordarlo de manera efectiva, por lo que realizar múltiples prácticas con ejemplos y datos aleatorios es ideal.
Por este motivo, en este artículo, te compartimos un ejemplo árboles bayesianos en estadística para el manejo de los macrodatos.
Teorema de Bayes
Como primera instancia, antes de entrar al ejemplo árboles bayesianos en estadística, resulta necesario recordar de dónde proviene este tipo de análisis. Pues bien, su premisa parte del teorema de Bayes, cálculo que describe la probabilidad de un evento basado en los conocimientos previos que pueden estar relacionados con el evento estudiado.
Por otra parte, la fórmula de este teorema de Bayes es bastante simple y se relaciona con los árboles bayesianos:
En esta inscripción, se expone que A y B son las variables aleatorias y P(B)≠0:
- P(A|B) es la probabilidad condicional del evento A, sabiendo que ha ocurrido B.
- P(B|A) es la probabilidad condicional del evento B, sabiendo que ha ocurrido A.
- P(A) y P(B) es la probabilidad de observar A y B de forma independiente; conocida como la probabilidad marginal.
- P(B,A) o P(B ∩ A): es la probabilidad de que ambos eventos A y B ocurran a la vez.
- Si son sucesos independientes P(B,A)=P(B)·P(A).
- Si son sucesos dependientes P(B,A)=P(B|A)·P(A).
¿Cómo funciona?
Ahora, como preámbulo al ejemplo árboles bayesianos en estadística, te exponemos un breve ejemplo del teorema de Bayes. En este, un barco ha sido alcanzado por un disparo. ¿Cuál es la probabilidad de que ese disparo sea rojo?
Te están preguntando por P(rojo|barco). Conoces P(barco|rojo), P(barco) y P(rojo), así que por el teorema de Bayes:
Ahora, el barco ha sido alcanzado por un disparo: ¿cuál es la probabilidad de que ese disparo sea blanco?
Te están preguntando por P(blanco|barco). Conocemos P(barco|blanco), P(barco) y P(blanco), así que por el teorema de Bayes:
Probabilidad conjunta: ¿cuál es la probabilidad de que un disparo de al barco y además sea rojo?
Ejemplo árboles bayesianos en estadística
Pues bien, para el ejemplo árboles bayesianos en estadística del Big Data, vas a tener en cuenta la siguiente situación:
Estamos en el año 2025, un terrible virus ha escapado de un laboratorio de máxima seguridad y está infectando a gente alrededor de todo el mundo convirtiéndolos en zombies admiradores de Nyan Cat, aunque luego en apariencia llevan una vida normal. Se calcula que en este momento un 5% de la población mundial está infectada.
Afortunadamente, existe un test al que se puede someter a un individuo para ver si está infectado o no. Pero el test no es 100% fiable, nunca se tiene tanta seguridad.
Si la persona está infectada, el test acertará un 99% de las veces; en cambio, si no está infectada, el test acertará un 98% de las veces. Esto genera la siguiente matriz de confusión:
. | Infectado | Sano |
---|---|---|
Test=1 | 99% | 2% |
Test=0 | 1% | 98% |
Si elegimos una persona al azar y nuestro test dice que está infectado, ¿que posibilidades hay de que realmente lo esté?
Lo que queremos saber es P(Zombie=1|Test=1). Por lo que, utilizando el teorema de Bayes, la inscripción sería:
Desconocemos P(Test=1), sin embargo, podemos obtenerlo por medio de la fórmula:
Finalmente:
Aprende más sobre el Big Data
En el desarrollo de este post, te hemos expuesto un ejemplo árboles bayesianos en estadística, de manera que ahora sabes cómo implementar un análisis de este tipo en tu procesamiento de los macrodatos; sin embargo, te advertimos de que todavía queda mucho más por conocer sobre este amplio campo del manejo del Big Data.
De manera que, si quieres continuar aprendiendo y convertirte en un experto en el manejo de Big Data, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. Te ayudará a tener una visión global del mundo Big Data y explorarás de forma tanto teórica como práctica los sistemas que manejan los macrodatos. Para ello, también contarás con el apoyo de una serie de expertos en Big Data que te guiarán en los procesos tanto teóricos como prácticos. ¡Apúntate y conviértete en un data scientist profesional en menos de un año!