¿Qué es el histograma de residuos en R?

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El histograma de residuos en R muestra la distribución de los residuos para todas las observaciones en un modelo.

Los modelos de regresión lineal indican que los residuos se distribuyen normalmente. Una de las formas por las que podemos comprobar este supuesto es creando un histograma de residuos.

El histograma de residuos en R se utiliza para determinar si los datos de entrada son asimétricos o poseen valores atípicos. Una larga cola en una dirección del histograma de residuos en R puede indicar una asimetría en el modelo de datos; al igual que una barra muy alejada de las otras barras puede indicar que existen valores atípicos en el modelo de datos que no se distribuyen normalmente y no tienen varianza constante.

¿Cómo usar un histograma de residuos en R?

El histograma de residuos en R se usa para saber algo de la función de densidad de probabilidad de una variable aleatoria. En el eje x se dividen los valores de la variable objetivo en intervalos convenientes y sobre cada uno de esos intervalos construimos los rectángulos.

Debido a la disposición de las barras del histograma en diferentes intervalos que se usan para agrupar datos, el histograma de residuos en R no debe usarse para evaluar la normalidad de los residuos. En este caso sería mejor usar una gráfica de probabilidad normal.

Los histogramas suelen perder su efectividad cuando tienen menos de veinte puntos de datos, ya que con muestras pequeñas las barras del histograma no contendrán suficientes puntos de datos para mostrar alguna asimetría o valor atípico.

Crear un histograma de residuos en R

Lo primero que tendremos que hacer será crear los datos:

set.seed (0)


x1 <- rnorm (n = 100, 2, 1)
x2 <- normal (100, 4, 3)
y <- normal (100, 2, 3)
data <- data.frame (x1, x2, y)

x1 x2 y

1 3.262954 6.3455776 -1.1371530
2 1,673767 1,6696701 -0,6886338
3 3.329799 2.1520303 5.8081615
4 3.272429 4.1397409 3.7815228
5 2.414641 0.6088427 4.3269030
6 0,460050 5,7301563 6,6721111

El paso siguiente será ajustar el modelo de regresión lineal múltiple:

 <- lm (y ~ x1 + x2, data = data)

Lo siguiente será crear el histograma de residuos, para lo cual cargaremos las librerías necesarias:

biblioteca ggplot2 (ggplot2)

ggplot (datos = datos, aes (x = modelo $ residuales)) + geom_histogram (relleno = ' azul acero ', color = ' negro ') + labs (title = 'Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')

El resultado será el siguiente histograma:

histograma de residuos en R

¿Qué son los residuos?

Los residuos son la medida de qué tan bien una recta se ajusta a un dato individual. Son medidas de error que se cometen al estimar la variable dependiente (Y). Su fórmula es:

En un modelo de regresión lineal la información que los residuos proporcionan puede ser muy útil, aunque este tipo de modelos parten del cumplimiento que se tenga de una serie de supuestos para que las estimaciones de los parámetros sean eficientes.

Los residuos pueden ser de tres tipos:

  • Residuos nulos: cuando no existe ningún error en la estimación, ya que los valores predichos coinciden con el valor objetivo.
  • Residuos positivos: cuando el valor observado de Y es mayor que el valor objetivo, por lo tanto se supraestima la variable Y.
  • Residuos negativos: cuando el valor observado de Y es menor que el valor objetivo, por lo cual se sobrestima la variable Y.

¿Y ahora qué sigue?

Como has podido ver, los residuos son muy útiles en los modelos de regresión lineal que se usan en los análisis estadísticos del Big Data. Si quieres seguir aprendiendo sobre esta temática, puedes acceder a nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el cual te instruirás en muy poco tiempo en todo lo necesario para incursionar en uno de los mercados laborales mejor remunerados actualmente. ¡Anímate a impulsar tu vida y pide información!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado