Las distribuciones de probabilidad son como un pronóstico del tiempo para eventos aleatorios: no te dan una certeza absoluta, pero te indican qué resultados son más probables. Imagina que tiras un dado y quieres saber qué tan probable es obtener un 6. Ahí estamos hablando de una distribución de probabilidad, que te dice qué valores puede tomar una variable aleatoria y con qué frecuencia esperas que ocurran.
Parece un tema que solo se usa en juegos de azar, pero lo cierto es que también sirve para modelar desde la demanda de productos en una tienda hasta el tiempo de vida de un componente electrónico. Quiero contarte con más detalle qué son las distribuciones de probabilidad y cómo se aplican.
¿Qué son las distribuciones de probabilidad?
Una distribución de probabilidad describe cómo se reparten los posibles valores de una variable aleatoria y qué tan probable es que ocurra cada uno. Es decir, nos dice qué valores puede tomar una variable y con qué frecuencia esperamos que aparezcan.
Matemáticamente, las distribuciones de probabilidad están definidas por su función de distribución, que indica la probabilidad acumulada hasta un cierto valor. Esta función es clave para calcular probabilidades en cualquier análisis estadístico.
Tipos de variables y su relación con las distribuciones
Quiero mostrarte las variables aleatorias:
- Variable aleatoria discreta: Solo toma valores específicos, como el número de veces que un cliente entra a una tienda en un día.
- Variable aleatoria continua: Puede tomar cualquier valor dentro de un rango, como la temperatura de una ciudad a lo largo del día.
Ten en cuenta que la división entre variables determina el tipo de distribución que se debe usar.
División de distribuciones
Las distribuciones de probabilidad se dividen en dos grandes grupos:
- Distribuciones de variable discreta
Aplican cuando la variable toma valores específicos. Ejemplos:- Distribución binomial: Modela la cantidad de éxitos en una serie de ensayos independientes.
- Distribución de Poisson: Se usa cuando queremos modelar la cantidad de eventos en un periodo de tiempo dado (por ejemplo, llamadas a una central de emergencias).
- Distribución hipergeométrica: Se aplica cuando seleccionamos elementos de una población sin reemplazo.
- Distribuciones de variable continua
Estas se usan cuando la variable puede tomar cualquier valor dentro de un intervalo. Algunos ejemplos son:- Distribución normal (Gaussiana): Modela fenómenos naturales como la estatura humana o el rendimiento académico.
- Distribución exponencial: Se usa para modelar tiempos de espera entre eventos (como el tiempo hasta la próxima avería de una máquina).
- Distribución de Cauchy: Suele aplicarse en procesos físicos como la dispersión de partículas.
Función de distribución
Cada distribución tiene una función matemática que nos ayuda a calcular probabilidades. La función de distribución acumulada (FDA) te dirá la probabilidad de que una variable aleatoria sea menor o igual a un valor dado
Para variables discretas, la función de distribución es la suma de todas las probabilidades hasta un cierto valor
Para variables continuas, en lugar de una suma usamos una integral
Tipos de distribuciones de variable discreta
No olvides que hay varias distribuciones y cada una tiene una aplicación específica:
- Distribución de Bernoulli: Modela eventos con dos posibles resultados, como «éxito» o «fracaso».
- Distribución binomial: Extensión de Bernoulli a múltiples intentos independientes.
- Distribución de Poisson: Ideal para eventos que ocurren con cierta tasa en el tiempo.
Tipos de distribuciones de variable continua
Te muestro las distribuciones continuas más usadas:
- Distribución normal: Se encuentra en muchos fenómenos naturales y sociales.
- Distribución exponencial: Útil para modelar tiempos de espera entre eventos independientes.
- Distribución de Pareto: Explica fenómenos como la distribución de riqueza en la sociedad.
¿Cómo se aplican las distribuciones de probabilidad en estadística? Ejemplos cotidianos
1. Inferencia estadística: prediciendo resultados electorales con la distribución de probabilidad
Vas a estimar el porcentaje de votos de un candidato en una elección. No puedes encuestar a toda la población, así que tomas una muestra aleatoria de 1,000 personas y encuentras que el 55% de ellas votaría por ese candidato.
Para modelar la incertidumbre de la estimación, usas la distribución normal y el teorema del límite central, que te deja calcular un intervalo de confianza:
Si la proporción muestral es p=0.55, el tamaño de la muestra es n=1000 y la desviación estándar es
Puedes calcular un intervalo de confianza del 95% para estimar el verdadero porcentaje de votos con
Esto te da un rango estimado, por ejemplo, entre 52.5% y 57.5%, lo que significa que hay una alta probabilidad de que el candidato obtenga un porcentaje de votos dentro de ese intervalo.
2. Machine Learning y toma de decisiones
En aprendizaje automático, las distribuciones de probabilidad ayudan a modelar la incertidumbre en predicciones.
Un ejemplo es un clasificador bayesiano, que calcula la probabilidad de que un correo electrónico sea spam o no basado en palabras clave.
Usando el teorema de Bayes, vas a calcular la probabilidad de que un correo sea spam dado que contiene la palabra «gratis»
Si se obtiene un valor alto, el sistema marcará el correo como spam. Así se filtrarán los correos de forma automática basándose en datos históricos.
¿Quieres aprender desde cero sobre estadística aplicada a datos? En el Bootcamp de Big Data, Data Science, Machine Learning e IA aprenderás a modelar datos, tomar decisiones basadas en probabilidades y prepararte para el mundo IT con conocimientos prácticos. ¡Empieza tu transformación hoy mismo!