El cross validation en R o validación cruzada es un método que se utiliza para estimar las métricas de rendimiento y precisión en el entrenamiento de un modelo de machine learning o aprendizaje automático. Se usa mucho en la protección de modelos predictivos, para prevenir overfittings en casos donde la cantidad de datos puede ser limitada.

¿Quieres saber cómo utilizar el cross validation en R? En este artículo te enseñamos cómo hacerlo.

¿Qué encontrarás en este post?

¿Cómo funciona el cross validation en R?

Lo que hace el cross validation en R es que el conjunto de datos que nosotros le pasamos los divide internamente entre train y test. Lo divide, por ejemplo, en 5 grupos y de esos 5 grupos utiliza 4 para training y uno para test. Pero no siempre utiliza esos grupos, luego los vuelve a cambiar, por lo que si al final tienes un k-fold de 5, lo que tienes son 5 medidas de error.

El procedimiento del cross validation en R tiene un solo parámetro de ajuste denominado k, que se refiere a la cantidad de grupos en los que se dividirá una muestra de datos determinada. Cuando se elige un valor específico para k, puede usarse en lugar de k en la referencia al modelo, como k = 18 se convierte en una validación cruzada de 18 veces.

Procedimiento a seguir para el cross validation en R

Lo primero que hacemos para las técnicas de cross validation en R es la evaluación del modelo. Para ello, dividimos los datos originales en k-folds. Estos se dividen en conjunto de entrenamiento del modelo y en datos de prueba.

Luego entrenamos con (k-1) folds.

Posteriormente, calculamos el error con 1 fold.

Las medidas de error obtenidas nos permiten calcular una media del error y una desviación típica, un margen de error, que es lo que haremos a continuación:

In (21) : cvfit <- cv.glmnet (as.matrix (df [ , c ('x1', 'x2', 'x3')]), as.matrix (df [ , 'y']), nfolds = 10, alpha = 1, standarize = F)
plot (cvfit)

El modelo que tiene un error cuadrático medio más bajo aparece en la variable cvfitSlambda.min.

El modelo que tiene un mayor valor de λ, cuya varianza del error está dentro de 1 desviación típica del mínimo, aparece en la variable cvfitSlambda.lse.

Al hacer cross validation, el MSE no será un valor único, sino que tendremos nfolds diferentes. De todos estos MSE podemos calcular la media y la desviación típica. El valor de lambda 1 se refiere al modelo más sencillo (λ más alto), que no se diferencia considerablemente del mínimo.

In [ ] : options (repr.plot.height = 2, repr.plot.width = 5)
lamda se <-1
qsd009 <- function (x) {
out <- dnorm(x)
out [x> lamda_se | x< - lamda_se <- NA
out
}
xdf <- data.frame (z = c (-4, 4))
ggplot (xdf, aes (x = z)) + stat_function (fun = dnorm) +
stat_function (fun = qsd009, geom = "area", fill = "red") +
geom_text (x = 0, y = 0.2, size = 4, label = paste0 (100 * round (pnorm (lamda_se) - pnorm ( - lamda_se), 4) , "%")) +
theme linedraw()
options (repr.plot.height = 7, repr.plot.width = 7)

In [ ] : cvfit$lambda.min
cvfit$lambda.Ise

0.451184203345069

2.64259526742003

In [24] : coef (cvfit, s = "lambda.lse")

4 x 1 sparse Matrix of class “dgCMatrix”

(Intercept) : 2.324143

x1 : .

x2 : -4.710797

x3 : 3.896718

Su R ^ 2 estimado será:

In [25] : cvfit$glmnet.fit$dev.ratio [which (cvfit$glmnet.fit$lambda == cvfit$lambda.lse)]

0.8732001745813

En resumen, para hacer una predicción Lasso con glmnet tendríamos lo siguiente:

In [26] : cvfit <- cv.glmnet (as.matrix (df [ , c ('x1', 'x2', 'x3')]), as.matrix (df [ , 'y']), nfolds = 10, alpha = 1, standarize = F)

df_tests <- get_example_data_frame (n = 100)
df_test [ , c ("pred")] <- predict (cvfit, newx = as.matrix (df_test [ , c ('x1', 'x2', 'x3')]), s = cvfit$lambda.Ise)
head(df_test)
caret::postResample (df_test$y.df_test$pred)

	x1	x2	x3	y	pred
	<dbl>	<dbl>	<dbl>	<dbl>	<dbl [ , 1]>
1	1.9361383	3.972058	5.3340171	11.30191	1.534398
2	4.8417332	16.173018	8.0295401	-38.64590	-42.743196
3	9.0567426	-9.289640	9.5627518	79.14404	83.899767
4	-0.2075752	15.810312	-0.2039507	-62.10379	-73.203000
5	-8.3342531	3.095098	-45.7535663	-188.56495	-190.972616
6	-4.8014400	22.613531	-20.9445618	-192.01536	-186.498193

RMSE: 11.0277352597337

Rsquared: 0.988121820579942

MAE: 9.14338178003851

¿Qué sigue?

Ahora que hemos visto cómo funciona el cross validation en R y la librería glmnet, junto a la regularización Lasso, podemos pasar a otros conceptos más complejos que podrás abordar en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. En unos pocos meses, podrás aprender todo lo necesario para incursionar en un mercado laboral muy prolífico que te brindará mejores posibilidades de empleo en el sector IT. ¡No esperes para solicitar más información y sigue forjando tu futuro!

Cross validation en R

¿Cómo funciona el cross validation en R?

Procedimiento a seguir para el cross validation en R

¿Qué sigue?