Distribución Bernoulli en estadística Big Data: guía completa

| Última modificación: 8 de junio de 2026 | Tiempo de Lectura: 6 minutos
Premios Blog KeepCoding 2025

Especialista en tecnología y formación digital, con foco en el desarrollo de talento y el análisis del sector tecnológico. Mi trabajo se centra en entender cómo evolucionan las tecnologías, qué competencias demanda el mercado y cómo se produce la transición real hacia el entorno tech.

Distribución Bernoulli en estadística Big Data. La distribución de Bernoulli es la distribución de probabilidad más simple que existe, y también una de las más útiles en estadística aplicada, Big Data y machine learning. Modela cualquier experimento con exactamente dos resultados posibles: éxito o fracaso, 1 o 0, sí o no.

Y esa aparente simplicidad la convierte en la base estadística de una cantidad enorme de problemas reales: desde si un usuario hace clic en un anuncio hasta si una transacción bancaria es fraudulenta.

En entornos de Big Data donde se analizan millones de eventos por hora, la distribución de Bernoulli es el modelo estadístico subyacente de los experimentos A/B testing, los modelos de clasificación binaria y los cálculos de tasas de conversión. Entenderla bien es entender los fundamentos estadísticos que gobiernan la mayoría de las decisiones basadas en datos.


Qué es la distribución de Bernoulli

La distribución de Bernoulli lleva el nombre del matemático suizo Jacob Bernoulli (1655-1705), quien la formalizó en su obra Ars Conjectandi publicada en 1713, ocho años después de su muerte. Es la distribución de probabilidad discreta más elemental: describe el resultado de un único experimento que solo puede tener dos resultados.

Un ensayo de Bernoulli es un experimento aleatorio que cumple dos condiciones:

  • Solo tiene dos resultados posibles, convencionalmente llamados éxito (X = 1) y fracaso (X = 0).
  • La probabilidad de éxito p es constante y conocida.

La distribución de Bernoulli depende de un único parámetro:

  • p: probabilidad de éxito, con 0 ≤ p ≤ 1
  • 1 – p: probabilidad de fracaso (también llamada q)

Ejemplos cotidianos de ensayos de Bernoulli: lanzar una moneda (cara = éxito, p = 0,5), si un usuario hace clic en un anuncio (clic = éxito, p = tasa de conversión), si un correo es spam (spam = éxito, p = probabilidad de spam), si una pieza de fabricación es defectuosa (defecto = éxito, p = tasa de defectos).

Fórmula de la distribución de Bernoulli

Distribución Bernoulli en estadística Big Data

La función de masa de probabilidad (PMF) de la distribución de Bernoulli es:

P(X = x) = p^x · (1 - p)^(1-x),   donde x ∈ {0, 1}

# Lo que esto significa:
# Para x = 1 (éxito):  P(X = 1) = p
# Para x = 0 (fracaso): P(X = 0) = 1 - p

Esta fórmula es elegante porque unifica los dos casos en una sola expresión. Cuando x = 1, el término (1-p)^0 = 1, y queda P(X=1) = p. Cuando x = 0, el término p^0 = 1, y queda P(X=0) = 1-p.

Media y varianza de la distribución de Bernoulli

La distribución de Bernoulli tiene propiedades matemáticas muy directas que facilitan su uso en análisis estadístico.

Propiedades estadísticas de la distribución de Bernoulli
Propiedad Fórmula Interpretación
Media (E[X]) E[X] = p El valor esperado es la probabilidad de éxito. Si p = 0,3, en promedio se espera 0,3 «éxitos» por ensayo.
Varianza (Var[X]) Var[X] = p(1-p) La varianza es máxima cuando p = 0,5 (mayor incertidumbre) y mínima cuando p → 0 o p → 1 (resultado casi predecible).
Desviación estándar σ = √(p(1-p)) Raíz cuadrada de la varianza.
Función generadora de momentos M(t) = (1-p) + pe^t Útil para derivar los momentos de la distribución.

La varianza p(1-p) tiene una propiedad interesante: es máxima en p = 0,5 (valor = 0,25) y disminuye simétricamente hacia cero cuando p se aproxima a 0 o a 1. Esto tiene implicaciones directas en el diseño de experimentos A/B: cuando la tasa de conversión esperada es muy baja o muy alta, se necesita menos variabilidad para detectar diferencias entre variantes.

Implementación en Python con scipy

En Python, la distribución de Bernoulli está implementada en la librería scipy.stats. Estos son los usos más habituales:

from scipy.stats import bernoulli
import numpy as np
import matplotlib.pyplot as plt

# Parámetro: probabilidad de éxito
p = 0.3

# Crear la distribución de Bernoulli
dist = bernoulli(p)

# Probabilidad de éxito y fracaso
print(f"P(X=1) = {dist.pmf(1):.2f}")   # 0.30
print(f"P(X=0) = {dist.pmf(0):.2f}")   # 0.70

# Media y varianza
print(f"Media:    {dist.mean():.2f}")   # 0.30
print(f"Varianza: {dist.var():.2f}")    # 0.21

# Generar muestras aleatorias (simular 1000 ensayos)
muestras = dist.rvs(size=1000)
print(f"Proporción de éxitos en 1000 ensayos: {muestras.mean():.3f}")  # ≈ 0.300

# Visualizar la función de probabilidad
x = [0, 1]
probabilidades = [dist.pmf(xi) for xi in x]

plt.bar(x, probabilidades, color=['#E6E8FF', '#FF8D5E'], width=0.3)
plt.xticks([0, 1], ['Fracaso (0)', 'Éxito (1)'])
plt.ylabel('Probabilidad')
plt.title(f'Distribución de Bernoulli (p={p})')
plt.ylim(0, 1)
plt.show()

Para calcular propiedades de la distribución directamente con NumPy:

import numpy as np

p = 0.3

# Fórmula directa
media = p                    # 0.30
varianza = p * (1 - p)       # 0.21
desv_std = np.sqrt(varianza) # 0.458

# Función de masa de probabilidad
def bernoulli_pmf(x, p):
    return (p ** x) * ((1 - p) ** (1 - x))

print(bernoulli_pmf(1, 0.3))  # 0.3
print(bernoulli_pmf(0, 0.3))  # 0.7

Distribución de Bernoulli en Big Data: ejemplos reales

Distribución Bernoulli en estadística Big Data

En entornos de Big Data, prácticamente cualquier evento que se puede medir como binario (ocurrió / no ocurrió) sigue una distribución de Bernoulli. Estos son los casos de uso más frecuentes.

A/B testing y tasas de conversión

Un experimento A/B testing es una colección de ensayos de Bernoulli. Cada usuario que visita la página web es un ensayo: convierte (éxito, X=1) o no convierte (fracaso, X=0). La tasa de conversión observada es el estimador de máxima verosimilitud del parámetro p de la distribución de Bernoulli.

import numpy as np
from scipy.stats import bernoulli

# Simulación de A/B test
np.random.seed(42)

# Variante A: tasa de conversión del 3%
variante_a = bernoulli(0.03).rvs(size=10000)

# Variante B: tasa de conversión del 3.5%
variante_b = bernoulli(0.035).rvs(size=10000)

print(f"Conversión variante A: {variante_a.mean():.4f}")
print(f"Conversión variante B: {variante_b.mean():.4f}")
print(f"Mejora relativa: {(variante_b.mean()/variante_a.mean() - 1)*100:.1f}%")

Detección de spam (clasificación binaria)

En un sistema de detección de spam, cada correo recibido es un ensayo de Bernoulli: spam (1) o no spam (0). La probabilidad p de que un correo sea spam se estima a partir del historial de mensajes. El clasificador Naive Bayes de Bernoulli usa esta distribución directamente para modelar la presencia o ausencia de cada palabra en el mensaje.

Detección de fraude bancario

Cada transacción bancaria es un ensayo de Bernoulli: fraudulenta (1) o legítima (0). Con millones de transacciones diarias, la proporción de fraudes es el parámetro p de la distribución. La baja proporción de fraudes (p muy pequeño) implica un dataset muy desbalanceado, lo que requiere técnicas especiales de muestreo para entrenar modelos de clasificación efectivos.

Control de calidad en manufactura

En líneas de producción, cada pieza inspeccionada es un ensayo de Bernoulli: defectuosa (1) o no defectuosa (0). El parámetro p (tasa de defectos) permite calcular la probabilidad de encontrar un número específico de defectos en un lote usando la distribución binomial derivada.

Relación con otras distribuciones

La distribución de Bernoulli no es una distribución aislada: es el bloque constructor de varias distribuciones fundamentales en estadística.

Distribución Binomial

La suma de n variables aleatorias independientes de Bernoulli(p) sigue una distribución Binomial(n, p). Cuenta el número de éxitos en n ensayos.

Ejemplo: número de usuarios que hacen clic en un anuncio entre los 1.000 que lo ven.

Distribución Geométrica

Modela el número de ensayos de Bernoulli necesarios hasta obtener el primer éxito.

Ejemplo: número de correos que recibe un cliente hasta que abre uno de nuestros emails.

Esta jerarquía de distribuciones relacionadas es fundamental en estadística: entender la distribución de Bernoulli es entender el fundamento de todas las distribuciones para datos de conteo y eventos binarios.

Distribución de Bernoulli en machine learning

La distribución de Bernoulli es la base estadística de dos de los algoritmos de machine learning más usados en clasificación binaria.

Regresión logística: asume que la variable de respuesta (Y) sigue una distribución de Bernoulli. El modelo estima la probabilidad p = P(Y=1 | X) mediante la función sigmoide aplicada a la combinación lineal de los predictores. La función de pérdida (binary cross-entropy) deriva directamente de la verosimilitud de la distribución de Bernoulli.

from sklearn.linear_model import LogisticRegression
import numpy as np

# La regresión logística modela P(Y=1|X) como Bernoulli
# La función predict_proba devuelve p (probabilidad de éxito)
# La función predict devuelve 0 o 1 según el umbral de decisión

X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 0, 1, 1])   # Variable de Bernoulli

modelo = LogisticRegression()
modelo.fit(X, y)

# p estimada para nuevos datos
print(modelo.predict_proba([[4, 5]]))  # [[P(Y=0), P(Y=1)]]

Bernoulli Naive Bayes: clasificador que asume que cada característica sigue una distribución de Bernoulli (presencia o ausencia de cada término). Se usa en clasificación de texto cuando las características son binarias: si una palabra aparece en el documento o no.

from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer

# Clasificación de texto con Bernoulli Naive Bayes
corpus = ["el spam es malo", "oferta increíble gana dinero", 
          "reunión de equipo mañana", "precio especial solo hoy"]
etiquetas = [1, 1, 0, 0]   # 1 = spam, 0 = no spam (Bernoulli)

vectorizer = CountVectorizer(binary=True)   # binary=True para distribución Bernoulli
X = vectorizer.fit_transform(corpus)

modelo = BernoulliNB()
modelo.fit(X, etiquetas)

# Predecir si un nuevo mensaje es spam
nuevo = vectorizer.transform(["oferta especial gana dinero ya"])
print(modelo.predict(nuevo))  # [1] → spam
Conoce la historia de Pedro Tobarra
«

Pedro llevaba 18 años en puestos de gestión en el sector ferroviario. Tenía formación en ingeniería industrial y electrónica pero se había alejado de la programación desde la universidad. Con más de cuarenta años decidió que era el momento de reconvertirse en Data Scientist.

La estadística aplicada a los datos fue una de las bases del programa. Consiguió trabajo antes de terminar el bootcamp. Hoy trabaja en lo que estudió y dice que su empleabilidad dio un giro de 180 grados.

«
Leer el caso de éxito completo de Pedro Tobarra

Cómo aprender estadística para Big Data y Machine Learning

La distribución de Bernoulli es uno de los primeros conceptos estadísticos que aparecen en cualquier programa de Data Science o Machine Learning. Junto con la distribución binomial, normal, de Poisson y la distribución t de Student, forma el núcleo de la estadística aplicada que todo Data Scientist necesita dominar.

Para quien quiere entender cómo encaja la estadística en el ecosistema completo del análisis de datos, el artículo sobre las diferencias entre Big Data y Data Science explica cómo se complementan ambas disciplinas en proyectos reales.


Conclusión

bootcamps de

La distribución de Bernoulli es la distribución más elemental de la estadística discreta y, al mismo tiempo, la base de algunos de los modelos más usados en machine learning y Big Data. Big Data, Data Science, ML & IA Full Stack Bootcamp.

Su simplicidad (un único parámetro p, dos resultados posibles) es precisamente lo que la hace tan versátil: cualquier problema que pueda reducirse a una pregunta binaria puede modelarse con una distribución de Bernoulli.

En entornos de datos masivos, esta distribución aparece constantemente: detrás de cada experimento A/B testing, de cada modelo de clasificación binaria y de cada cálculo de tasa de conversión hay ensayos de Bernoulli.

Entender sus propiedades matemáticas (media igual a p, varianza máxima en p=0,5) y su implementación en Python con scipy es el punto de partida para construir modelos estadísticos rigurosos sobre datos reales.

La referencia estadística más completa sobre distribuciones de probabilidad y su implementación en Python está en la documentación de scipy.stats, con implementaciones de más de 100 distribuciones continuas y discretas.

Noticias recientes del mundo tech

¡CONVOCATORIA ABIERTA!

Big Data & Data Science

Full Stack Bootcamp

Clases en Directo | Acceso a +600 empresas | 98% de empleabilidad

Descárgate también el informe de tendencias en el mercado laboral 2026.

Fórmate con planes adaptados a tus objetivos y logra resultados en tiempo récord.
KeepCoding Bootcamps
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.