La regularización Ridge en R es bastante similar a la regularización Lasso. Ambas tienen algo en común: introducen un factor de penalización; no obstante, mientras la regularización Lasso toma la magnitud de los coeficientes del modelo, la regularización Ridge en R puede ajustar modelos tomando el cuadrado.

¿En qué consiste la regularización Ridge en R?

Ahora vamos a aplicar una regularización L2 o regularización Ridge en R, añadamos el término:

De los coeficientes ẞ, no tenemos en cuenta la intersección. Ten en cuenta que:

Cuando λ → 0, entonces B_RIDGE B_{originalmínimoscuadrados}
Cuando λ → ∞, entonces B_RIDGE → 0

Tratamos de minimizar la suma de todos los demás:

In [ ] : lambda <- 10
#lambda <- 1000
loss_ridge <- function (beta) {
mean ((df$y - myfunction (df [ , c ('x1', 'x2', 'x3')], beta)) ^ 2) + lambda * sum (beta (c (2, 3, 4)] ^ 2)
}

x_historico <- optim_beta (myfunction, loss_ridge, maxiter = 1e4, delta = 0.0005)

In [33] : options (repr.plot.height = 4, repr.plot.width = 8)
library (ggplot2)

g1 <- ggplot (x_historico, aes (x = step)) + geom_line (aes (y = beta1), color = 'red') + theme (axis.text.x = element_text (angle = 45)) + geom_hline (yintercept = beta_real [1], color = 'black')
g2 <- ggplot (x_historico, aes (x = step)) + geom_line (aes (y = beta2), color = 'blue') + theme (axis.text.x = element_text (angle = 45)) + geom_hline (yintercept = beta_real [2],color = 'black")
g3 <- ggplot (x_historico, aes (x = step)) + geom_line (aes (y = beta3), color = 'green') + theme (axis.text.x = element_text (angle = 45)) + geom_hline (yintercept = beta real [3], color = 'black')

library (egg)
grid.arrange (g1, g2, g3, g4, nrow = 1)

La regularización Ridge en R acerca los coeficientes de las variables más correlacionadas.

También podemos usar el paquete glmnet, en este caso con a=0, ya que utiliza la siguiente función de coste:

In [34] : library (glmnet)
model <- glmnet (as.matrix (df [ , c ('x1, x2, x3')]), as.matrix (df [, 'y']), lambda = 20, alpha = 0, standardize = F)
coefficients (model)

4 x 1 sparse Matrix of class «dgCMatrix»

(Intercept) : 4.271284

x1 : 0.153316

x2 : -5.002668

x3 : 3.988487

In [ ] : fit <- glmnet (as.matrix (df [ , c ('x1, x2, x3)]), as.matrix (df [ , 'y' ]), alpha = 0, standardize = F)
par (mfrow = c (1, 3))
plot (fit, label = TRUE)
plot (fit, label = TRUE, xvar = "lambda")
plot (fit, label = TRUE, xvar = "dev")
grid ()
#print (fit)

In [36] : cvfit <- cv.glmnet (as.matrix (df [ , c ('x1', 'x2', 'x3')]),
as.matrix (df [ , 'y']),
nfolds = 10, alpha = 0, standardize = F)
plot (cvfit)

Siguiendo con el ejemplo de la regularización Ridge en R, el modelo que tiene un error cuadrático medio más bajo aparece en la variable cvfitSlambda.min.

El modelo que tiene un mayor valor de λ cuya varianza del error está dentro de 1 desviación típica del mínimo aparece en la variable cvfitSlambda. 1se.

Al hacer cross-validation, el MSE no será un valor único, sino que tendremos nfolds diferentes. De todos estos MSE podemos calcular la media y la desviación típica. El valor de lambda. 1 significa que el modelo más sencillo (A más alto) no se diferencia considerablemente del mínimo.

In [37] : cvfit$lambda.min
cvfitslambda.1se

170.653343234195

521.150651794727

In [ ] : coef(cvfit, s = "lambda.lse")

In [ ] : cvfit$gimnet.fit$dev.ratio [which (cvfit$glmnet.fit$lambda == cvfit$lambda.Ise)]

En resumen, para hacer una predicción Ridge con glmnet haríamos:

In [41] : cvfit <- cv.glmnet (as.matrix (df [ , c ('x1', 'x2', 'x3')]), as.matrix (dfl, 'y']), nfolds = 10, alpha = 0, standardize = F)
cvfit
cvfit$lambda.Ise

In [ ] : df_test <- get_example_data_frame (n = 100)

df_test [ , c ("pred")] <- predict (cvfit, newx = as.matrix (df test [ , c ('x1', 'x2', 'x3')]) , s = cvfit$lambda.Ise)
head (df_test)
caret::postResample (df_test$y, df_test$pred)

	x1	x2	x3	y	pred
	<dbl>	<dbl>	<dbl>	<dbl>	<dbl [, 1]>
1	-2.737908	28.393723	-14.879855	-205.550223	-188.330195
2	9.856348	7.857318	48.472010	154.448127	157.071228
3	4.514493	-4.054339	9.606328	63.954549	59.799378
4	-7.015591	6.995925	-41.248978	-203.017480	-193.015263
5	1.838040	8.634610	8.515860	-5.368973	-4.458573
6	6.974710	16.532167	-3.598633	-98.342603	-85.151113

RMSE: 10.5959099900708

Rsquared: 0.988084053671031

MAE: 8.27069388317708

Sabemos que al principio cuesta entender esto de la regularización Ridge en R y todos sus ejemplos, sin embargo, es solo cuestión de práctica que te vuelvas un experto en ello y des el siguiente paso en el mundo del Big Data y el data mining.

Recuerda que si quieres seguir aprendiendo sobre la regularización Ridge en R y otras temáticas relacionadas, en Keepcoding tenemos a los mejores profesionales para que te acompañen en tu proceso. Con el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en unos pocos meses aprenderás todo lo necesario para incursionar en un mercado laboral lleno de oportunidades de empleo que te cambiarán la vida. ¡No sigas esperando para solicitar más información y cambia tu futuro ahora!

Regularización Ridge en R

¿En qué consiste la regularización Ridge en R?