La estimación en estadística Big Data se comporta como uno de los factores más indispensables dentro de un estudio estadístico para los macrodatos. Todo buen data scientist tiene que tener una buena base de estadística, puesto que esta te permite saber si ciertas variables tienen relación o no o si varios grupos de datos se pueden considerar diferentes o iguales.
De esta manera, este tipo de análisis agilizan el desarrollo de un pronóstico de tipo más asertivo y productivo. Por este motivo, en este post te explicamos qué es la estimación en estadística Big Data.
¿Qué es la estimación en estadística Big Data?
La estimación en estadística Big Data se comporta como un proceso analítico que pretende conseguir, por medio de una muestra, un valor aproximado que resuma cierto parámetro en una población de datos.
Al igual que las demás propiedades de un muestreo, la estimación en estadística Big Data cuenta con ciertas subdivisiones según la función del estudio estadístico:
Estimación utilizando la media
La estimación utilizando la media forma parte de un caso de muestreo aleatorio simple en el que la media de la distribución original coincide con la de la muestra. Suponiendo que la media de la población total es μ y que la media de una distribución de tanques capturados es χ, entonces:
A partir de allí, su desarrollo llega a la siguiente fórmula:
a <- 1 b <- 2*mean(capturedSerialNo)-a print(paste("Utilizando como estimador la media, el número máximo de tanques fabricados es",round(b)))
Estimación utilizando la varianza
Utilizando el mismo razonamiento que antes, se puede utilizar la varianza para calcular el máximo número de tanques. Ahora, sabrás que la varianza de la población total de tanques σ²
tiene que coincidir con la varianza de los números de serie capturados Var(X), así:
Ahora, se llega a la fórmula:
a <- 1 b <- a + sqrt(12*var(capturedSerialNo)) print(paste("Utilizando como estimador la varianza, el número máximo de tanques fabricados es",round(b)))
¿Cuál es el mejor estimador?
Otra de las inquietudes que pueden surgir al pensar en la estimación en estadística Big Data es cuál es el mejor estimador será aquel que tenga una probabilidad mayor de dar un valor cercano al correcto.
De manera que se realiza el proceso varias veces, suponiendo que se tienen diferentes intentos o diferentes tipos de tanques que probar. A continuación su inscripción:
numTries<-1e5 numCapturedTanks<-5 meanEstimated<-rep(NA,numTries) varEstimated<-rep(NA,numTries) for (i in 1:numTries){ capturedSerialNo<-sample(totalPopulationSerialNo,size = numCapturedTanks) meanEstimated[i]<-2*mean(capturedSerialNo)-1 varEstimated[i]<-sqrt(12*var(capturedSerialNo))+1 } df<-data.frame(mean=meanEstimated,var=varEstimated) margin_mean<-round(quantile(df$mean,c(0.05,0.95))) margin_var<-round(quantile(df$var,c(0.05,0.95))) library(ggplot2) library(reshape2) ggplot(data=melt(df),aes(x=value,color=variable))+geom_density()+ scale_color_discrete("Tipo de estimador")+xlab("Número tanques estimados") print(paste0("Estimador usando la media: media: ",round(mean(df$mean))," varianza: ",round(var(df$mean)), " margen: [",margin_mean[1],",",margin_mean[2],"]")) print(paste0("Estimador usando la varianza: media: ",round(mean(df$var))," varianza: ",round(var(df$var)), " margen: [",margin_var[1],",",margin_var[2],"]"))
Por medio de este post, te hemos explicado qué es la estimación en estadística Big Data, sin embargo, existen muchas más cuestiones y factores que hay que considerar a la hora de realizar un estudio estadístico. Por ello, te recomendamos seguir aprendiendo sobre el Big Data y sus alternativas de manejo.
Desde KeepCoding, te traemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, gracias al que podrás aprender mucho más sobre los sistemas y herramientas más importantes en el universo del Big Data. De la mano de profesionales y en menos de nueve meses, te convertirás en todo un experto y serás capaz de conocer e identificar las alternativas de gestión de datos más apropiadas para los estudios de los macrodatos. ¿A qué estás esperando para empezar? ¡No dudes en solicitar más información e inscríbete ahora!