¿Qué es la estimación en estadística Big Data?

Autor: | Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos
Temas en este post:

Algunos de nuestros reconocimientos:

Premios KeepCoding

La estimación en estadística Big Data se comporta como uno de los factores más indispensables dentro de un estudio estadístico para los macrodatos. Todo buen data scientist tiene que tener una buena base de estadística, puesto que esta te permite saber si ciertas variables tienen relación o no o si varios grupos de datos se pueden considerar diferentes o iguales.

De esta manera, este tipo de análisis agilizan el desarrollo de un pronóstico de tipo más asertivo y productivo. Por este motivo, en este post te explicamos qué es la estimación en estadística Big Data.

¿Cómo funciona la estadística en el Big Data?

Como primer instancia para comprender qué es la estimación en estadística Big Data, es necesario partir de los principales propósitos de esta última, ya que consiste en entender las variables de la información y la relación entre las variables que se encuentran en ella. La estadística te ayuda a comprender cómo es tu población de los datos.

En definitiva, la estadística en el Big Data se dedica a analizar los datos de manera minuciosa para, posteriormente, identificar las coincidencias de variables con las que cuenta la información. Para ello, esta cuenta con ciertos elementos, como los percentiles, la varianza, los estimadores, la moda, los tests estadísticos, las operaciones, las asignaciones, etc.

¿Qué es la estimación en estadística Big Data?

La estimación en estadística Big Data se comporta como un proceso analítico que pretende conseguir, por medio de una muestra, un valor aproximado que resuma cierto parámetro en una población de datos.

Al igual que las demás propiedades de un muestreo, la estimación en estadística Big Data cuenta con ciertas subdivisiones según la función del estudio estadístico:

Estimación utilizando la media

La estimación utilizando la media forma parte de un caso de muestreo aleatorio simple en el que la media de la distribución original coincide con la de la muestra. Suponiendo que la media de la población total es μ y que la media de una distribución de tanques capturados es χ, entonces:

¿Qué es la estimación en estadística Big Data?

A partir de allí, su desarrollo llega a la siguiente fórmula:

¿Qué es la estimación en estadística Big Data?
a <- 1
b <- 2*mean(capturedSerialNo)-a

print(paste("Utilizando como estimador la media, el número máximo de tanques fabricados es",round(b)))

Estimación utilizando la varianza

Utilizando el mismo razonamiento que antes, se puede utilizar la varianza para calcular el máximo número de tanques. Ahora, sabrás que la varianza de la población total de tanques σ²
tiene que coincidir con la varianza de los números de serie capturados Var(X), así:

¿Qué es la estimación en estadística Big Data?

Ahora, se llega a la fórmula:

¿Qué es la estimación en estadística Big Data?
a <- 1
b <- a + sqrt(12*var(capturedSerialNo))
print(paste("Utilizando como estimador la varianza, el número máximo de tanques fabricados es",round(b)))

¿Cuál es el mejor estimador?

Otra de las inquietudes que pueden surgir al pensar en la estimación en estadística Big Data es cuál es el mejor estimador será aquel que tenga una probabilidad mayor de dar un valor cercano al correcto.

De manera que se realiza el proceso varias veces, suponiendo que se tienen diferentes intentos o diferentes tipos de tanques que probar. A continuación su inscripción:

numTries<-1e5
numCapturedTanks<-5

meanEstimated<-rep(NA,numTries)
varEstimated<-rep(NA,numTries)
for (i in 1:numTries){
    capturedSerialNo<-sample(totalPopulationSerialNo,size = numCapturedTanks)
    meanEstimated[i]<-2*mean(capturedSerialNo)-1
    varEstimated[i]<-sqrt(12*var(capturedSerialNo))+1
}
df<-data.frame(mean=meanEstimated,var=varEstimated)
margin_mean<-round(quantile(df$mean,c(0.05,0.95)))
margin_var<-round(quantile(df$var,c(0.05,0.95)))

library(ggplot2)
library(reshape2)


ggplot(data=melt(df),aes(x=value,color=variable))+geom_density()+
 scale_color_discrete("Tipo de estimador")+xlab("Número tanques estimados")
print(paste0("Estimador usando la media:    media: ",round(mean(df$mean)),"  varianza: ",round(var(df$mean)),
      "  margen: [",margin_mean[1],",",margin_mean[2],"]"))
print(paste0("Estimador usando la varianza: media: ",round(mean(df$var)),"  varianza: ",round(var(df$var)),
      "  margen: [",margin_var[1],",",margin_var[2],"]"))
¿Qué es la estimación en estadística Big Data?

Sigue aprendiendo Big Data

Por medio de este post, te hemos explicado qué es la estimación en estadística Big Data, sin embargo, existen muchas más cuestiones y factores que hay que considerar a la hora de realizar un estudio estadístico. Por ello, te recomendamos seguir aprendiendo sobre el Big Data y sus alternativas de manejo.

Desde KeepCodging, te traemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, gracias al que podrás aprender mucho más sobre los sistemas y herramientas más importantes en el universo del Big Data. De la mano de profesionales y en menos de nueve meses, te convertirás en todo un experto y serás capaz de conocer e identificar las alternativas de gestión de datos más apropiadas para los estudios de los macrodatos. ¿A qué estás esperando para empezar? ¡No dudes en solicitar más información e inscríbete ahora!

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado