En otro post hemos hablado sobre la factorización por medio del singular value decomposition, cuya fórmula es X = u . Σ . v^T. Esta expresión de la factorización nos permite dos cosas desde el punto de vista del machine learning:

La primera es encontrar relaciones en los datos.
La segunda es comprimir datos.

En este artículo veremos cómo comprimir datos con autovalores y autovectores, la segunda de las funcionalidades del SVD.

Comprimir datos con autovalores y autovectores

Para aprender cómo comprimir datos con autovalores y autovectores debemos comprender cómo funciona todo el proceso en su totalidad.

Imagina que dibujamos una matriz x, que es igual a una matriz u por una matriz Σ y por una matriz v^T. Del mismo modo, cada uno de estos valores se puede reemplazar de la siguiente manera:

X = (m x r) . (r x r) . (r x n) → X = (m x n)

Esto nos sirve para comprimir datos con autovalores y autovectores. Si realizamos la operación que se muestra en la fórmula del SVD, el resultado será la X original; pero si, en cambio, decidimos reducir o poner un límite de componentes a la r (es decir, solo cogemos fragmentos de la matriz), la matriz original va a ser reconstruida. Esto se debe a que es m x n, y si m y n se reducen, la matriz también lo hará.

En este caso, en vez de agarrar todas las r de la matriz, solo se está cogiendo una pequeña porción, digamos, 10 de 50. Lo que sucede es que, aunque estemos reduciendo el número de componentes que cogemos para reconstruir la matriz X, la matriz X sigue estando reconstruida.

Da igual el número de filas y columnas, es decir, el número de r que cojamos, porque, aunque cojamos unas pocas, la matriz que estemos reconstruyendo siempre tendrá el mismo tamaño. Por tanto, siempre estaríamos reconstruyendo la matriz m x n, o sea, la matriz X.

Podemos pensar que esto no tiene sentido, ya que, aunque podemos seleccionar o acortar el tamaño de r, el resultado seguirá siendo una matriz que tiene resultado m x n. De modo que no tendría sentido coger siempre r.

Lo que sucede es que, si reducimos r, es decir, la cantidad de información que cogemos de estas matrices, la matriz x va a seguir teniendo el tamaño correcto (m x n), pero hemos perdido información.

¿Y esa pérdida de información en qué resulta? Si tenemos una imagen (ya habíamos mencionado que una imagen se puede entender como una matriz de x filas y x columnas que corresponden a los píxeles) y a esa imagen le aplicamos singular value decomposition y reconstruimos la matriz, obtendríamos la imagen original (es decir, habríamos de comprimir datos con autovalores y autovectores).

Ahora, si tenemos la imagen m x n y aplicamos singular value decomposition, pero decidimos acortar la r, decimos que sea 2 o 3, la imagen que vamos a obtener como resultado va a ser m x n también. No obstante, es posible que se vea borrosa, ya que hemos perdido información que nos ayudaba a que la imagen permaneciera nítida.

Esto nos permite comprimir datos con autovalores y autovectores.

Ya sabes cómo funciona el proceso de comprimir datos con autovalores y autovectores, por lo que puedes seguir avanzando en tu proceso de formación. Para poder acceder a las opciones laborales del Big Data, unas de las áreas en el mundo de la industria tech más prolíficas y mejor pagadas, tenemos para ti el Bootcamp IA.

Con esta formación intensiva e íntegra adquirirás los conocimientos teóricos y prácticos necesarios para obtener el trabajo de tus sueños en pocos meses. Estarás acompañado por los mejores profesionales, quienes te guiarán en tu proceso formativo, atenderán todas las dudas que tengas y te apoyarán en tus ejercicios para que puedas seguir avanzando y formándote para un mejor futuro y éxito laboral. ¡No esperes más para impulsar tu carrera y solicita información ahora!