Fiabilidad de los coeficientes en estadística

Autor: | Última modificación: 29 de julio de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Los análisis estadísticos te facilitan la comprensión de los datos, puesto que responden a las distintas preguntas que le realices al procesamiento del Big Data. En este post, te explicamos cómo funciona la fiabilidad de los coeficientes en estadística.

Fiabilidad de los coeficientes en estadística

Para exponer la fiabilidad de los coeficientes en estadística Big Data, vamos a partir de un ejemplo. Supón que los residuos siguen una distribución gaussiana, entonces se puede calcular la varianza de cada uno de los coeficientes como:

Fiabilidad de los coeficientes en estadística 1

Donde:

  • p es el número de grados de libertad, de coeficientes. En este caso son dos: intersección y pendiente.
  • n es el número de muestras.

La media de los coeficientes viene dada por el vector β’. Con la media y la varianza podrás calcular la probabilidad de que el valor de la media estimado esté muy desviado de 0 por puro azar.

Eso aparece con el valor Pr(>|t|) en el summary del modelo: cuanto menor sea este valor, más fiable será.

vcov_matrix<-as.numeric(t(model$residuals)%*%model$residuals/(length(model$residuals)-2))*solve(t(X)%*%X)
# vcov_matrix <- vcov(model)
# 1/sum((X[,2]-colMeans(X)[2])^2) == solve(t(X)%*%X)[2,2]

paste("p-valor para intersección:",(1-pt(model$coefficients[1]/sqrt(diag(vcov_matrix))[1],8))*2)
paste("p-valor para pendiente:",(1-pt(model$coefficients[2]/sqrt(diag(vcov_matrix))[2],8))*2)

‘p-valor para intersección: 2.29549455081912e-05′
‘p-valor para pendiente: 1.32402191432845e-08′

vcov_matrix

Para averiguar la fiabilidad de los coeficientes en estadística, podrás calcular el margen de error para la intersección conociendo su desviación típica y que sigue una distribución t-student.

Para un intervalo de confianza del 95%, la fórmula de los márgenes superior e inferior es:

Fiabilidad de los coeficientes en estadística 2
library(ggplot2)
options(repr.plot.height=2,repr.plot.width=6)

mydt<-function(x,df,mn,sd){
    dt((x-mn)/sd,df)
}
df<-n-2

ggplot(data=datos, aes(x=X)) +     
    stat_function(fun=mydt,args = list(df = df,mn=model$coefficients[1],sd=sqrt(diag(vcov_matrix))[1]),color="#2222BB")+
    geom_vline(xintercept=qt(0.975,df,lower.tail = F)*sqrt(diag(vcov_matrix))[1]+model$coefficients[1])+
    geom_vline(xintercept=qt(0.025,df,lower.tail = F)*sqrt(diag(vcov_matrix))[1]+model$coefficients[1])+
Fiabilidad de los coeficientes en estadística 3

Con R podrás calcular esto automáticamente mediante el comando confint:

cnf_int<-confint(model)
cnf_int
Fiabilidad de los coeficientes en estadística 4

Por otra parte, para la fiabilidad de los coeficientes en estadística, tendrás que tener en cuenta los siguientes dos factores:

Opción interval = ‘confidence’

Un intervalo de confianza de la predicción es un rango que probablemente contiene el valor medio de la variable dependiente dados los valores específicos de las variables independientes. Estos intervalos proporcionan un rango para el promedio de la población. Estos rangos no dicen nada sobre la distribución de los puntos de datos individuales alrededor de la media de la población.

Opción interval = ‘prediction’

Un intervalo de predicción es un rango que probablemente contiene el valor de la variable dependiente para una sola observación nueva, dados los valores específicos de las variables independientes. Con este tipo de intervalo, estarás prediciendo rangos para observaciones individuales en lugar del valor medio.

pred_conf<-predict(model,datos,interval = 'confidence')
head(pred_conf)
pred<-predict(model,datos,interval = 'prediction')
head(pred)
Fiabilidad de los coeficientes en estadística 5
options(repr.plot.height=4,repr.plot.width=6)

est_Y <- X %*% model$coefficients
plot(X[,2],Y,col="blue")
points(X[,2],est_Y,col="red")
lines(X[,2],pred[,"fit"],col="red")
lines(X[,2],pred_conf[,"lwr"],col="black")
lines(X[,2],pred_conf[,"upr"],col="black")
lines(X[,2],pred[,"lwr"],col="gray")
lines(X[,2],pred[,"upr"],col="gray")


#abline(c(5,2),col="green")
Fiabilidad de los coeficientes en estadística 6

Sigue aprendiendo Big Data

Ahora que sabes cómo funciona la fiabilidad de los coeficientes en estadística, te recodamos que existen muchos más estadísticos por aprender, por ello, ¡te animamos a seguir aprendiendo sobre el Big Data!

Como propuesta, te presentamos el Bootcamp Full Stack Big Data, Inteligencia Artificial & Machine Learning. Durante el desarrollo del mismo, podrás instruirte en uno de los grandes retos para los data scientists, que ha sido el de ser capaces de elegir las características y herramientas adecuadas para solucionar cada problema en la gestión de los macrodatos. En menos de nueve meses, podrás convertirte en un experto en el manejo del Big Data. ¡Inscríbete ahora!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Trabajo? Aprende a programar y consíguelo.

¡No te pierdas la próxima edición del Aprende a Programar desde Cero Full Stack Jr. Bootcamp!

 

Prepárate en 4 meses, aprende las últimas tecnologías y consigue trabajo desde ya. 

 

Solo en España hay más de 120.400 puestos tech sin cubrir, y con un sueldo 11.000€ por encima de la media nacional. ¡Es tu momento!

 

🗓️ Próxima edición: 13 de febrero

 

Reserva tu plaza descubre las becas disponibles.