Arquitecturas alternas de las RNN

Contenido del Bootcamp dirigido por:

Arquitecturas alternas de las RNN
¿Qué encontrarás en este post?

¿Sabes qué son las arquitecturas alternas de las RNN? Existen diferentes tipos de redes neuronales recurrentes o RNN, como many to many, de la cual se desprenden dos ramas: la primera, con equal input-output; la segunda, con unequal input-output. La más común es la primera y es la que ya hemos visto en algunos ejercicios y ejemplos.

Por eso, en este post veremos la segunda, que se encuentra entre las arquitecturas alternas de las RNN y corresponde a la arquitectura many to many con unequal input-output.

Arquitecturas alternas de las RNN: many to many unequal input – output

Entre las arquitecturas alternas de las RNN tenemos la arquitectura many to many, que funciona con distintas entradas y distintas salidas, a diferencia de la otra arquitectura many to many, que tiene las mismas entradas y las mismas salidas. Esta primera arquitectura mencionada es la que utilizó Google en el primer traductor que puso en producción.

También suele llamarse seq to seq model o sequence to sequence model.

Características

  • Propagación de las activaciones por toda la red antes de generar una predicción por capa de salida.
  • Número diferente de salidas al de entrada o viceversa.
  • Muy útil para generación de traductores de idioma.

Diferencias entre unequal and equal input-output

Existen algunas diferencias entre la arquitectura many to many con iguales entradas y salidas y la que tiene diferentes. En primer lugar, hay que decir que no van a ser iguales las celdas que vamos a tener en esta arquitectura. Digamos que lo que van a recibir como entrada va a ser un encoder y para la salida un decoder; con esto, lo que vamos a tener es un codificador para las entradas y un decodificador para las salidas.

Funcionamiento de la arquitectura

Lo que va a hacer esta arquitectura es una codificación de todas las entradas para generar un estado intermedio. Con esta representación, lo que va a hacer el decodificador es tratar de interpretar el mensaje para generar la conversión a texto.

Entonces, podemos decir que el encoder va a estar especializado en entender el idioma base y el decodificador va a estar encargado de hacer una conversión de los estados a las palabras en el idioma deseado.

Arquitecturas alternas de las RNN: funcionamiento
Arquitecturas alternas de las RNN: funcionamiento

El seq to seq, una de las arquitecturas alternas de las RNN, coge unas entradas en un texto; luego se recoge esto de manera secuencial, con un time distribute, que agarra las entradas de una en una, se las pasa al modelo y genera las salidas, también de una en una.

Si ponemos en contexto esta explicación acerca de una de las arquitecturas alternas de las RNN, lo que va a hacer este modelo es coger todas las palabras de una en una y generar salidas, de una en una también, pero no tiene por qué ser de la misma longitud.

Arquitecturas alternas de las RNN

Aquí vemos que el codificador ha recibido «Je suis étudiant» y el decodificador nos ha devuelto «I am a student». Si bien en francés también existe el artículo neutro «un», este no aparece en la frase de entrada, mientras que en la frase de salida (en inglés) sí aparece, pese a no haberse puesto en los datos de ingreso.

Estructura interna de las arquitecturas alternas de las RNN

Arquitecturas alternas de las RNN

¿Qué tiene por debajo esta arquitectura many to many unequal output-input? Cmo ya hemos mencionado, se tiene un codificador y un decodificador. Las palabras en el idioma de origen se van a codificar y van a generar un estado intermedio. Al final, esta parte intermedia lo que va a hacer es simplemente una matriz, es decir, una representación vectorial de toda la frase que será más adelante interpretada por una red. En el encoder es donde se genera el contexto. Luego, el decoder se encarga de recoger esa matriz y decodificarla.

¿Quieres seguir avanzando?

Ahora que hemos visto algunas arquitecturas alternas de las RNN, podemos dar el siguiente paso en nuestro proceso formativo y continuar aprendiendo. Para acceder a las opciones laborales del Big Data, una de las áreas en el mundo de la industria tech mejor pagadas y con más demanda, tenemos para ti el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Con esta formación de alta calidad adquirirás los conocimientos imprescindibles para conseguir el trabajo de tus sueños en pocos meses. ¡No esperes más para impulsar tu futuro y solicita información ahora!

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado