¿Qué son los algoritmos word embedding?

| Última modificación: 7 de octubre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

¿Sabes qué son los algoritmos word embedding y cuál es su función?

En otros artículos hemos visto ejercicios sobre calcular la similitud entre vectores o entre frases y cuán útil puede resultar esta funcionalidad. No obstante, con la similitud se escapaban una serie de aspectos que también son muy importantes a la hora de hacer una comparación de cualquier tipo. Estos factores son:

  • El orden de las palabras.
  • El contexto, es decir, la parte semántica y pragmática.
  • Cuestiones de orden gramatical y sintáctico, como los singulares y plurales.

Estos son aspectos de suma importancia cuya ausencia en los algoritmos de similitud entre vectores podemos solucionar gracias a los denominados algoritmos word embedding.

algoritmos word embedding

Algoritmos word embedding

Los algoritmos word embedding nos permiten introducir la variabilidad y flexibilidad que no otorgan algoritmos como el de la similitud, dentro de la forma y los componentes del vector.

Estos algoritmos son mucho más complejos que los que hemos visto anteriormente. Entre ellos se encuentran:

  • Glove.
  • Word2vec.
  • Fast2vec.

Aquí entran en juego vectores mucho más complejos, como Roberta o Bert, entre otros.

Respecto a los primeros algoritmos (Glove, Word2vec y Fast2vec), si nosotros tenemos, por ejemplo, una frase que dice “voy al banco” y otra que dice “me siento en este banco”, estas serían word embedding.

a) “voy al banco”

b) “me siento en este banco”

Esto quiere decir que por cada palabra debería haber un vector. Luego, estos vectores se pueden combinar para formar una frase, se pueden concatenar, sumar, restar… Hay muchas formas de crear un vector para una frase a partir de los algoritmos word embedding o los vectores individuales de las palabras que componen esa frase.

Entonces, en los algoritmos que hemos visto, las palabras banco de cada oración tendrían un mismo vector:

a) “voy al banco

b) “me siento en este banco

Tendrían un mismo vector porque estos algoritmos no tienen en cuenta el contexto o el significado de la frase. Es decir, la frase “voy al banco” puede hacer referencia a varias cosas, el diccionario de la lengua española de la Real Academia Española, menciona las diferentes acepciones para banco, entre las que se encuentran:

  1. Asiento para varias personas.
  2. Pieza de trabajo de los carpinteros.
  3. Un sitio en el mar que tiene poca profundidad, en comparación con los sitios a su alrededor. Esto también se aplica para bancos de arena.
  4. Cardumen, es decir, un conjunto grande de peces que van en la misma dirección.
  5. Empresa financiera que trabaja con el dinero de las personas.
  6. Lugar en donde se pueden almacenar órganos o tejidos, entre otros, para poder investigar.
  7. En los retablos, el banco es la base que sostiene todo el retablo.
  8. Tierra que se encuentra junto a un cuerpo de agua.
  9. En biología, un banco es una extensión de tierra que tiene árboles.

Con la frase “voy al banco” como mínimo podríamos haber tenido 5 o 6 acepciones de las que presentamos aquí. Esto ratifica la importancia de brindar un contexto a las oraciones por medio de los algoritmos word embedding.

Por tanto, se esperaría que el vector o embedding que representa a la palabra banco en cada una de las oraciones sea distinto.

Como habíamos mencionado, los algoritmos como glove, word2vec o fast2vec no tienen en cuenta estos factores, no proponen vectores separados para las diferentes acepciones de la palabra banco que tenemos.

No obstante, algoritmos como los que mencionamos luego (Roberta y Bert, entre otros) sí tienen en cuenta estos factores, de forma que en estas dos frases los vectores que representan la palabra banco son distintos en cada una de las dos frases.

Es decir, la representación que le estamos dando a la palabra banco en la frase “voy al banco” y a esa misma palabra en la frase “me siento en este banco” va a ser muy distinta. Ambas palabras no van a tener los mismos componentes en el vector, gracias a los algoritmos word embedding.

Ahora que hemos visto cómo funcionan los algoritmos word embedding, podemos seguir aprendiendo sobre Big Data. Con el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva e íntegra, podrás adquirir todos los conocimientos teóricos y prácticos necesarios para adentrarte en el mercado laboral IT de manera rápida y eficiente. ¡Anímate a seguir avanzando en este mundillo y solicita más información ahora para transformar tu vida!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado