En este artículo te enseñaremos cómo calcular el PCA con predict en R.

En un ejercicio anterior te hemos mostrado cómo calcular el PCA en R. Empezamos a trabajar con un dataset sobre la temperatura y el sol y normalizamos el pr_meteo, una matriz de rotación que también se puede normalizar con predict.

Eso es precisamente lo que haremos en este artículo; retomaremos este ejercicio y continuaremos para poder hacer el análisis de componentes y calcular el PCA con predict en R.

¿Cómo calcular el predict en R?

Lo primero que haremos será normalizar la matriz de rotación pr_meteo por medio del predict:

#Calcular el PCA con predict
head (predict (pr_meteo, as.matrix (df_meteo)))

#Calcular el PCA con predict
str (pr_meteo)

Aquí podemos observar la media y la desviación típica. En el $ center está la media y en el $ scale está la desviación típica.

Si pintamos estos valores transformados, estamos condensando toda la información que tenemos acerca de la temperatura y el sol de 12 meses. Estamos condensando 48 dimensiones (el valor de la matriz que teníamos inicialmente) en apenas 2:

#Calcular el PCA con predict
plot (pr_meteo$x [ , c (1, 2)])

El siguiente paso es pintar ciertas ciudades, para que observemos cómo se comporta la matriz de datos:

#Calcular el PCA con predict
plot (pr_meteo$x [ , c (1, 2)])

city <- 'Spain - Barcelona'
points (pr_meteo$x [rownames (pr_meteo$x) == city, 1], 
pr_meteo$x [rownames (pr_meteo$x) == city, 2],
col = 'red', pch ' * ' , cex = 3)

city <- 'Spain - Madrid'
points (pr_meteo$x [rownames (pr_meteo$x) == city, 1], 
pr_meteo$x [rownames (pr_meteo$x) == city, 2],
col = 'blue', pch ' * ' , cex = 3)

city <- 'United ArabEmirates - Dubai'
points (pr_meteo$x [rownames (pr_meteo$x) == city, 1], 
pr_meteo$x [rownames (pr_meteo$x) == city, 2],
col = 'green', pch ' * ' , cex = 3)

city <- 'Germany - Berlin'
points (pr_meteo$x [rownames (pr_meteo$x) == city, 1], 
pr_meteo$x [rownames (pr_meteo$x) == city, 2],
col = 'brown', pch ' * ' , cex = 3)

city <- 'Colombia - Bogotá'
points (pr_meteo$x [rownames (pr_meteo$x) == city, 1], 
pr_meteo$x [rownames (pr_meteo$x) == city, 2],
col = 'brown', pch ' * ' , cex = 3)

Observamos, pues, que la estrella verde corresponde a los Emiratos Árabes, el azul le pertenece a Madrid, el rojo a Barcelona y el marrón corresponde a Berlín y Bogotá.

Añadiremos la explicación de la matriz de rotación:

#Calcular el PCA con predict
pr_meteo$rotation

Para entender un poco mejor cómo funciona esto, tenemos la librería FactorMineR, a la que le pasaremos el dataframe. Viene por defecto en R.

#Calcular el PCA con predict
library ("FactorMineR")
#el res nos da el resultado del pca
res.pca <- PCA (df_meteo)
#Si hacemos un $eig nos da los autovalores y el porcentaje de la varianza
head (res.pca$eig)

	eigenvalue	percentage of variance	cumulative percentage of variance
comp 1	12.1855734	50.773223	50.77322
comp 2	6.1266932	25.527889	76.30111
comp 3	3.5048349	14.603479	90.90459
comp 4	1.1656432	4.856847	95.76144
comp 5	0.4452184	1.855077	97.61651
comp 6	0.1856726	0.773636	98.39015

El primer autovalor nos da el 50% de la varianza, tal y como se muestra en la tabla. El siguiente nos da 25% y, entre los dos, tenemos alrededor de 75%, como podemos observar en la columna 3 de cumulative percentage of variance.

Este tipo de cálculos se usa mucho. De este modo determinamos cuántos componentes necesitamos para tener un porcentaje alto de varianza y qué componentes podemos desechar sin temor a error.

#Calcular el PCA con predict
plot (res.pca$eig [ , "eigenvalue"])

Aquí pintaremos el PCA y automáticamente el algoritmo nos coge las dos dimensiones principales, la del 50% y la del 25%.

plot (res.pca, choix = "ind", autoLab = "yes")

Warning message:

“ggrepel: 290 unlabeled data points (too many overlaps). Consider increasing max.overlaps”

Aunque parezca que hay correlación, aún no debería haberla entre ninguna de las dos.

A continuación, tenemos la información de cómo van los autovectores en las dos dimensiones principales. Vemos cómo se representan cada una de las dimensiones originales de nuestra matriz.

plot (res.pca, choix = "var", autoLab = "yes")

#Calcular el PCA con predict
pr_meteo$rotation [rownames (pr_meteo$rotation)
%in% c ('Jun_sun' , 'Jun_sun' , 'May_temp' , 'Oct_temp' ), 1 : 5]

	PC1	PC2	PC3	PC4	PC5
May_temp	0.247885693	-0.00395010	0.24942737	-0.08326077	-0.02379312
Oct_temp	0.270820385	-0.05392146	0.12549324	0.12203933	0.06603039
Jun_sun	0.004585101	0.38967807	0.02680110	0.09740561	0.17924080
Jul_sun	-0.026135740	0.37319889	0.02867367	0.27506669	0.04415177

En este poste hemos visto cómo calcular el PCA con predict en R, un asunto importante cuando se trabaja con matrices y con datasets para el análisis. Si quieres seguir aprendiendo acerca de estas temáticas y otras tantas, te invitamos a seguir nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, con el que en poco tiempo aprenderás todo lo necesario para incursionar en el mercado laboral. ¡Súmate a nuestro equipo y solicita más información!

Calcular el PCA con predict en R

¿Cómo calcular el predict en R?