Intervalos de confianza en estadística Big Data

Autor: | Última modificación: 19 de julio de 2022 | Tiempo de Lectura: 4 minutos
Temas en este post:

Los intervalos de confianza en estadística Big Data forman parte fundamental del desarrollo de un estudio estadístico para determinada población de datos, puesto que estos potencian o desmeritan el grado de confianza que se puede otorgar a un procesamiento de los datos y sus resultados arrojados.

En este post, te compartimos algunos de los intervalos de confianza en estadística Big Data.

Intervalos de confianza en estadística Big Data

Los intervalos de confianza en estadística Big Data hacen referencia al acierto según el margen de error que maneje determinado estudio estadístico de los datos. Sin embargo, existen diferentes tipos y, a continuación, te compartimos algunos de los intervalos de confianza en estadística Big Data más utilizados.

Intervalo de confianza para proporciones

Imagina que has realizado η experimentos independientes, cada experimento puede caber con éxito con una probabilidad ρ.

Si de los η experimentos realizados, tienes η experimentos que acaban en éxito, se estima la probabilidad como:

Intervalos de confianza en estadística Big Data 1

Pero está claro que no se tiene la misma confianza en la proporción si hacemos dos experimentos o 2000, aunque ambos ofrezcan una ρ = 0.5. Observa esta proporción:

Intervalos de confianza en estadística Big Data 2

El ejemplo anterior parece tener una mayor confianza que el siguiente:

Intervalos de confianza en estadística Big Data 3

A calcular el margen de error de esta probabilidad se le llama credibilidad de una proporción o probabilidades de cobertura.

Aproximación gaussiana asintótica

También conocida como método de Wald, el margen de error es simétrico y viene dado por la fórmula:

Intervalos de confianza en estadística Big Data 4

El problema es que esta fórmula puede llevar a dos aberraciones:

  • Para bajas proporciones, cuando η es bajo, el límite inferior puede ser negativo (Δ ρ > ρ). Para ρ cercano a 1, el límite superior puede exceder 1.
  • Intervalo Δ ρ > 0 ocurre cuando p=0 o p=1. Aunque el uso del factor corrector de continuidad puede solucionarlo:
Intervalos de confianza en estadística Big Data 5

Intervalo de confianza de proporción binominal

La distribución binomial es una generalización de la distribución de Bernoulli para nn sucesos independientes, cada uno de los cuales tiene dos posibles resultados Sí/No con probabilidad pp.

Ejemplo: tirar al aire 20 monedas y mirar cuál es la probabilidad de que salga cara 10 veces.

Variables que definen la distribución:

  • p – probabilidad de éxito de un caso individual.
  • n – número de eventos totales que se desean medir.
  • k número de eventos donde ha salido .
# Ejemplo: Tiramos 20 monedas NO TRUCADAS al aire y miramos la probabilidad de que en 10 salga cara

dbinom(x=10, size=20, prob=0.5)
num_caras <- 0:20
prob<-dbinom(num_caras, size=20, prob=0.5)
#prob<-pbinom(num_caras, size=20, prob=0.5)
plot(num_caras,prob)
Intervalos de confianza en estadística Big Data 6

En este caso, el intervalo de confianza no es simétrico y viene dado por la fórmula:

Intervalos de confianza en estadística Big Data 7
Intervalos de confianza en estadística Big Data 8

Funciones en R

Esto se puede calcular en R ejecutando la función binom.test:

binom.test(ns,n)

Exact binomial test

data: ns and n
number of successes = 323, number of trials = 1000, p-value < 2.2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2940739 0.3529724
sample estimates:
probability of success
0.323

ns<-10
nt<-20
bt<-binom.test(ns,nt)
bt

df_binom_test<-data.frame(prob_mean=seq(0,1,length.out=100))
df_binom_test$p<-dbinom(ns,nt,df_binom_test$prob_mean)

fillarea<-function(x){
            
    out<-dbinom(ns,nt,x)
    out[x<bt$conf.int[1]]<-NA
    out[x>bt$conf.int[2]]<-NA
    out
}

options(repr.plot.height=4,repr.plot.width=6)
library(ggplot2)
ggplot(df_binom_test,aes(x=prob_mean,y=p))+geom_line()+
    stat_function(fun=fillarea, geom="area",fill="green",alpha=0.2)

Exact binomial test

data: ns and nt
number of successes = 10, number of trials = 20, p-value = 1
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2719578 0.7280422
sample estimates:
probability of success
0.5

Intervalos de confianza en estadística Big Data 9

La probabilidad más alta es 0.5. Si supones que la probabilidad del evento es 0.5, es decir, el valor ns/nt, tienes:

Intervalos de confianza en estadística Big Data 10

Entonces, sabes que un 17% de las veces que en las que tengas 20 eventos, habrá exactamente 10 eventos positivos.

dbinom(ns,nt,0.5)

Intervalo de confianza usando función Beta

La fórmula de su densidad de probabilidad recuerda mucho a la de Binomial. Recuerda la fórmula de la función de distribución de Binomial:

Intervalos de confianza en estadística Big Data 11

La función de densidad de probabilidad de la función beta es:

Intervalos de confianza en estadística Big Data 12

Donde:

Intervalos de confianza en estadística Big Data 13

Estimadores media (μ) y varianza (σ²):

Intervalos de confianza en estadística Big Data 14

La moda sería:

Intervalos de confianza en estadística Big Data 15

Puedes pensar en:

  • α-1 como el número de éxitos.
  • β-1 como el número de fallos.

¿Cómo seguir aprendiendo Big Data?

En este post te hemos explicado cómo funcionan los intervalos de confianza en estadística Big Data y sus respectivas cualidades, de manera que ahora los puedes tener en cuenta a la hora de realizar un estudio estadístico del Big Data. No obstante, ¡todavía queda mucho más por aprender sobre el manejo de los macrodatos!

Desde KeepCodging, te traemos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning, gracias al que podrás aprender mucho más sobre los intervalos de confianza en estadística Big Data y, en general, sobre los sistemas y herramientas más importantes en el universo del Big Data. De la mano de profesionales y en menos de nueve meses, te podrás convertir en todo un experto y conocer e identificar las alternativas de gestión de datos más apropiadas para los estudios de los macrodatos. ¡No dudes en solicitar más información e inscríbete ahora!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Sabías que hay más de 5.000 vacantes para desarrolladores de Big Data sin cubrir en España? 

En KeepCoding llevamos desde 2012 guiando personas como tú a áreas de alta empleabilidad y alto potencial de crecimiento en IT con formación de máxima calidad.

 

Porque creemos que un buen trabajo es fuente de libertad, independencia, crecimiento y eso ¡cambia historias de vida!


¡Da el primer paso!