Los tipos de distribuciones en estadística forman parte de las funciones de probabilidad con los que podrás contar para llevar a cabo un estudio del tipo estadístico en los macrodatos, de manera que se extraiga el conocimiento de estos grandes volúmenes de datos por medio de estrategias funcionales y efectivas.
Por esta razón, en este post te explicamos cuáles son los tipos de distribuciones en estadística Big Data.
¿Cuáles son los tipos de distribuciones en estadística?
Los tipos de distribuciones en estadística son parte de las funciones de probabilidad que aparecen con mayor frecuencia cuando se realiza algún estudio estadístico.
A modo resumen, estos son los tipos distribuciones en estadística Big Data:
- Distribución uniforme: continua. Todos los valores tienen la misma posibilidad.
- Distribución Bernoulli: discreta. Dos posibles soluciones. Por ejemplo: echar una moneda al aire.
- Distribución Exponencial: continua. Tiempo medio entre ocurrencia de eventos de una distribución de Bernoulli.
- Distribución Binomial: discreta. Generalización de Bernoulli. Por ejemplo: tirar varias monedas al aire.
- Distribución Poisson: discreta. Generalización de Binomial cuando hay infinitos eventos de probabilidad muy baja.
- Distribución Gaussiana: continua. Es la distribución más usada, toda combinación de variables aleatorias tiende a una gaussiana.
- Distribución Chi cuadrado: continua. Es el cuadrado de una distribución gaussiana.
Distribuciones continuas
Entre los tipos de distribución de probabilidad en estadística se encuentran:
Distribución uniforme
Es una familia de funciones de probabilidad de distribuciones estadísticas donde cada elemento, dentro de cierto intervalo, tiene la misma probabilidad de aparecer.
Ejemplo: la lotería, todos los números tienen las mismas posibilidades.
Estimadores media y varianza:

Funciones en R:
- runif(x,min=a,max=b): genera x números aleatorios.
- dunif(x,min=a,max=b): función de densidad en el punto x (likelihood).
- punif(x,min=a,max=b): probabilidad acumulada P(X<x)=p.
- qunif(p,min=a,max=b): inversa de la probabilidad acumulada P(X<x)=p.
Podrás generar una variable aleatoria que siga una distribución uniforme mediante la función runif().
Por ejemplo, para generar 10000 muestras de una distribución uniforme entre 2 y 7 basta con ejecutar:
# set.seed(1)
myUnifVector<-runif(10000,min=2,max=7)
summary(myUnifVector)
length(myUnifVector)
Distribución Gaussiana
La distribución normal o gaussiana es posiblemente la forma de la distribución de probabilidad más utilizada. Su importancia radica en el teorema central del límite.
Su función de densidad de probabilidad es:

La función acumulativa de probabilidad no tiene una forma explícita:

Distribución chi-cuadrado
La función de distribución chi-cuadrado con k grados de libertad aparece al sumar el cuadrado de k variables que siguen gaussianas independientes. Se usa principalmente para los tests estadísticos.
Su función de distribución es:

Distribuciones discretas
Distribución de Bernoulli
Es una distribución discreta que puede tomar dos valores uno con probabilidad y otro no. Se utiliza para describir sucesos que solo tienen dos posibles resultados, como Si/No, 1/0 o Cara/Cruz.
Ejemplo: tirar una vez una moneda al aire.
Estimadores media y varianza:

La distribución de Bernoulli es un caso especial de la distribución binomial con n=1. Podrás simular una distribución de Bernoulli a partir de una uniforme simplemente comparando si el valor supera un umbral que viene determinado por la probabilidad de la distribución binomial.
Distribución binomial
La distribución binomial es una generalización de la distribución de Bernoulli para sucesos independientes, cada uno de los cuales tiene dos posibles resultados Si/No con probabilidad .
Ejemplo: tirar al aire tres monedas y mirar cuál es la probabilidad de que en dos salga cara.
Variables que definen la distribución:
- p – probabilidad de éxito de un caso individual.
- n – número de eventos totales que se desean medir.
- k – número de eventos e nlos que ha salido SI.
Estimadores media y varianza:

Distribución de Poisson
Tiene su origen en una distribución binomial a medida que n -> ∞ y p -> 0, manteniendo λ = n · p constante.
Esta distribución expresa la probabilidad de que un número de eventos dado ocurra en un intervalo de tiempo (o espacio) fijo si los eventos ocurren con una frecuencia constante y son independientes (no dependen de cuándo ocurrió el último evento).
Ejemplo: número de llamadas que cursa una antena de telefonía móvil en una franja horaria.
Estimadores media y varianza:

Distribución exponencial
Describe el tiempo que transcurre entre dos eventos que siguen una distribución de Poisson. Es decir, dado un proceso que produce eventos de forma continua e independiente a una tasa constante, el tiempo entre dos eventos vendrá dado por una distribución exponencial.
Ejemplo: tiempo entre dos llamadas consecutivas que llegan a una antena de telefonía móvil en una franja horaria.
Estimadores media y varianza:

Continúa aprendiendo sobre el Big Data
Por medio de este post, te has podido familiarizar con los tipos de distribuciones en estadística Big Data y cómo funciona cada una de estas alternativas para llevar a cabo un estudio estadístico de los macrodatos. Sin embargo, esta es una de las ramas más amplias del mundo del manejo Big Data, por lo que te aconsejamos continuar aprendiendo al respecto.
Para ello, desde KeepCoding te ofrecemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. En el desarrollo de este, te encontrarás con una serie de conocimientos base para llevar a cabo una gestión de la información apropiada según el interés y el planteamiento del problema establecido. ¡Anímate y apúntate ahora mismo!