Distribución exponencial en estadística Big Data

| Última modificación: 4 de octubre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

La distribución exponencial en estadística Big Data es una de las diferentes distribuciones con las que puedes contar para llevar a cabo un estudio estadístico de los datos procesados. En suma, esta es una de las distribuciones continuas, por lo que si lo que buscas es profundizar en este tipo de distribuciones, ¡este post es ideal para ti!

En efecto, en el desarrollo de este artículo, te explicamos qué es y cómo funciona la distribución exponencial en estadística Big Data.

¿Para qué sirve la estadística Big Data?

Antes de entrar en materia con la distribución exponencial en estadística Big Data, te queremos recordar para qué sirve esta en el manejo del Big Data.

Principalmente, la estadística para Big Data se comporta como un proceso de reconocimiento de la información y el valor que posee el conjunto de datos que se va a procesar. Por esta razón, contiene una gran variedad de componentes, herramientas y procesos que, principalmente, se apoyan en el lenguaje de programación R, el predilecto para las operaciones y asignaciones de estadística.

Distribución exponencial en estadística Big Data

La distribución exponencial en estadística Big Data describe el tiempo que transcurre entre dos eventos que siguen una distribución de Poisson. Es decir, dado un proceso que produce eventos de forma continua e independiente a una tasa constante, el tiempo entre dos eventos vendrá dado por una distribución exponencial en estadística Big Data.

Por ejemplo: el tiempo entre dos llamadas consecutivas que llegan a una antena de telefonía móvil en una franja horaria.

Por otra parte, los estimadores de media (μ) y varianza (σ²) se extraen por medio de la siguiente fórmula:

Mientras, la función de densidad de probabilidad de la distribución exponencial en estadística Big Data se formula así:

Para valores grandes de λ, en torno a λ = 100, la distribución de Poisson tiende a una gaussiana de media μ = λ y desviación típica:

Funciones en R

La distribución exponencial en estadística Big Data con las funciones en R te permite generar una variable aleatoria que siga una distribución exponencial mediante la función rexp().

Por ejemplo: si queremos generar 10.000 muestras de varias distribuciones exponenciales con medias 2, 4 y 20, basta con ejecutar:

l<-c(2,4,20)
numSamples<-10000
myExponentialDataVector<-rexp(numSamples*length(l),l)


myExponentialDataFrame<-data.frame(val=myExponentialDataVector,lambda=rep(l,numSamples))
myExponentialDataFrame$lambda<-factor(myExponentialDataFrame$lambda)

require(ggplot2)
ggplot(data=myExponentialDataFrame, aes(x=val,colour=lambda)) + 
 geom_density(bw=0.01, kernel="rectangular")

Lo que se graficaría de la siguiente forma:

Por ejemplo

En un call-center que recibe una media de 20 llamadas cada hora, ¿cuál es la probabilidad de que el call-center tenga que esperar más de 5 min entre dos llamadas entrantes?

rate=20
paste(rate,"llamadas cada hora significa una media de una llamada cada",1/rate*60,"minutos")

’20 llamadas cada hora significa una media de una llamada cada 3 minutos’

est_time=5/60
paste("La probabilidad de tener que esperar más de",est_time,
      "horas entre dos llamadas entrantes es de",1-pexp(est_time,rate=rate))

paste("La probabilidad de tener que esperar menos de",est_time,
      "horas entre dos llamadas entrantes es de",pexp(est_time,rate=rate))

‘La probabilidad de tener que esperar más de 0.0833333333333333 horas entre dos llamadas entrantes es de 0.188875602837562’
‘La probabilidad de tener que esperar menos de 0.0833333333333333 horas entre dos llamadas entrantes es de 0.811124397162438’

En el desarrollo de este post, te hemos expuesto todo lo que necesitas saber sobre la distribución exponencial en estadística Big Data, de manera que puedas implementarla en los análisis estadísticos que realices en tu procesamiento de los datos. Sin embargo, debes recordar que existen otro tipo de distribuciones para llevar a cabo un estudio estadístico de los macrodatos. Por esta razón, te aconsejamos seleccionar la más adecuada para tu proyecto de datos para asegurar un estudio de la información eficaz.

Como todavía queda mucho por aprender, desde KeepCoding te ofrecemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. En él, podrás potenciar tus destrezas en el manejo de los macrodatos y en las múltiples herramientas, lenguajes y sistemas más popularesAdemás, aprenderás todo lo necesario para convertirte en un profesional del mundo del Big Data en menos de nueve meses. ¡Pide información y apúntate ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado