Saber qué es la distribución discreta en estadística Big Data es un conocimiento de suma importancia, puesto que este tipo de distribución es una de las dos más amplias y utilizadas en un estudio estadístico de los macrodatos.
El otro tipo de distribución es la continua que, en contraposición, se encarga de las funciones que no se pueden abordar a partir de la discreta. En suma, cada una de estas distribuciones está conformada por más tipos de distribuciones que se especializan en determinado análisis de datos.
Así pues, este saber se remite a un estudio estadístico a partir de un proceso de probabilidad; una de las ramas de la estadística. A continuación, te presentamos qué es la distribución discreta en estadística Big Data.
¿Qué es la distribución discreta en estadística Big Data?
La distribución discreta en estadística Big Data hace referencia a un proceso que describe el nivel de ocurrencia de un valor aleatorio. De hecho, este tipo de saber parte de la rama de la probabilidad dentro de la estadística de los macrodatos.
Por otra parte, la distribución discreta en estadística Big Data trabaja con valores contables, es decir, con números enteros que puedan proyectarse bajo un análisis estadístico de probabilidad. En cuanto a su nombre, el carácter discreto hace alusión a lo aleatorio que resulta este tipo de distribuciones.
Ahora, dentro de la distribución discreta en estadística Big Data se cuenta con una variedad de distribuciones subdividas, algunas de ellas son la distribución de Bernoulli, binomial, de Poisson o exponencial. A continuación, en este post, te compartimos algunas especificidades de cada una de ellas:
Distribución de Bernoulli
Es una distribución discreta que puede tomar dos valores, uno con probabilidad y otro no. Se utiliza para describir sucesos que solo tienen dos posibles resultados, como pueden ser Sí/No, 1/0 o Cara/Cruz.
Por ejemplo: lo que va a estudiar son los resultados de tirar una vez una moneda al aire.
Para ello, podrás contar con los siguientes comandos para los estimadores de media y varianza:
La distribución de Bernoulli es un caso especial de la distribución binomial con n=1. Podrás simular una distribución de Bernoulli a partir de una uniforme simplemente comparando si el valor supera un umbral que viene determinado por la probabilidad de la distribución binomial.
Distribución de Poisson
Tiene su origen en una distribución binomial a medida que n -> ∞ y p -> 0, manteniendo λ = n · p constante.
Esta distribución expresa la probabilidad de que un número de eventos dado ocurra en un intervalo de tiempo (o espacio) fijo si los eventos ocurren con una frecuencia constante y son independientes (no dependen de cuándo ocurrió el último evento).
Por ejemplo: testar el número de llamadas que cursa una antena de telefonía móvil en determinada franja horaria.
Ahora, los comandos para los estimadores de media y varianza son:
Distribución binomial
La distribución binomial es una generalización de la distribución de Bernoulli para sucesos independientes, cada uno de los cuales tiene dos posibles resultados Sí/No con probabilidad .
Por ejemplo: al tirar tres monedas al aire y mirar cuál es la probabilidad de que en dos salga cara.
Para ello, debes tener en cuenta las variables que definen la distribución:
- p – probabilidad de éxito de un caso individual.
- n – número de eventos totales que se desean medir.
- k – número de eventos en los que ha salido SÍ.
Por otra parte, la inscripción de este tipo de distribución binomial para los estimadores de media y varianza es la siguiente:
Distribución exponencial
Describe el tiempo que transcurre entre dos eventos que siguen una distribución de Poisson. Es decir, dado un proceso que produce eventos de forma continua e independiente a una tasa constante, el tiempo entre dos eventos vendrá dado por una distribución exponencial.
Por ejemplo: realizar una estudio estadístico de probabilidad que se encargue del tiempo entre dos llamadas consecutivas que llegan a una antena de telefonía móvil durante cierta franja horaria.
Por último, la inscripción de esta función con base a los estimadores de media y varianza es:
En el desarrollo de este post, te hemos familiarizado con lo que es la distribución discreta en estadística Big Data. A pesar de ello, debes considerar que existen diferentes tipos de distribuciones según el interés y la función que se pretenda para el análisis de datos, por lo que resulta apropiado conocerlas para implementar la más adecuada en cada caso.
Para continuar con tu desarrollo y convertirte en un experto en el manejo de Big Data, desde KeepCoding te presentamos nuestro Bootcamp Full Stack Big Data, Inteligencia Artificial & Big Data. Te ayudará a tener una visión global del mundo Big Data y explorarás de forma tanto teórica como práctica cómo identificar las alternativas de gestión de datos más apropiadas para los estudios de los macrodatos, como métodos de inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. ¡Apúntate y conviértete en un data scientist profesional en menos de un año!