Una variación de las word embedding

| Última modificación: 12 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

¿Sabes qué son las word embedding? En este post te mostraremos una variación de las word embedding con una explicación del funcionamiento del sistema de recomendaciones de Amazon.

Las word embedding no son más que representaciones de palabras con vectores de números; por ello, vamos a ver una variación de las word embedding para ver cómo es su funcionamiento en determinadas situaciones y cuál es su uso más óptimo.

Variación de las word embedding: Amazon

En Amazon, los sistemas de recomendaciones son un poco más complejos que en el ejemplo de word embedding que hemos hecho en otro post, ya que es muy complicado medir si funcionan o no.

Amazon puede recomendarte muchos productos, pero ¿cuántas veces has hecho clic encima del producto para verlo y cuántas de esas pocas veces has comprado el producto? ¿Cómo sabe el equipo de Amazon que se encarga de esta parte que las sugerencias de productos te han gustado? Los estudios de mercado aquí se vuelven mucho más complejos que, por ejemplo, en una tienda de ropa en una ciudad.

Se pueden usar distintos mecanismos para hacer este tipo de procedimientos y, en este post, veremos una variación de las word embedding que consiste en coger una matriz y dividirla en subpartes. Si multiplicamos, sumamos o restamos con esas matrices, nos va a dar como resultado la matriz original.

Este es un proceso de reconstrucción que nos va a permitir diferentes resultados. Por ejemplo, nosotros como empresa tenemos diversos clientes, así como una lista de productos.

Supongamos que el cliente 1 le ha dado un 5 a un producto, un 3 a otro, un 1 a otro distinto y un 0 a otro producto diferente. El cliente 2 le ha dado un 1, un 5, un 0… Por medio de una variación de las word embedding con Amazon, podríamos hacer una reconstrucción, que consiste en rellenar los huecos que están vacíos.

¿Cómo se hace esto? Rellenar los huecos vacíos no es más que intentar generar o predecir qué le podría gustar, por ejemplo, al cliente 2, a partir de toda la información que tenemos del resto de clientes y en función de lo que le gusta a él. Hay un algoritmo que se denomina Singular Value Decomposition o SVD, el cual podría ser una variación de las word embedding, aunque requeriría de procedimientos muchísimos más complejos para que funcionara de manera correcta y óptima.

¿Qué son las eord embeddings?

Las word embedding son vectores que tenemos por cada palabra. Por ejemplo, en la categoría animales, dog tendrá un vector numérico, horse tendrá otro, cow tendrá otro, y así sucesivamente con cada uno de los animales que estén presentes en la categoría o, en su defecto, en el espacio vectorial.

Todos estos vectores van a tener las mismas dimensiones, que en general suelen ser más o menos 300. Esto lo que indica es el tamaño del espacio vectorial donde residen los vectores.

Es decir, cada uno de los vectores que haya en un espacio vectorial tienen el mismo número de componentes y se han generado siguiendo el mismo procedimiento y las mismas propiedades.

Para generar las propiedades, que se hace con redes neuronales, se pueden tener en cuenta diferentes factores, entre ellos algunos que pertenecen a una variación de las word embedding, de las tantas que hay.

Veamos un ejemplo. Supongamos que tenemos la siguiente frase: «Me gustan los perros y …». Si nosotros vamos a definir el vector para perros, podríamos tener en cuenta propiedades como: La palabra es…

  • ¿Singular o plural?
  • ¿Adjetivo, sustantivo, adverbio, etc.?
  • ¿Va precedida de un artículo?
  • ¿Es femenina o masculina?

Todas estas propiedades se pueden definir. Las word embeddings son justo eso, vectores que nos permiten identificar palabras, al mismo tiempo que son vectores únicos por palabra.

¿Quieres seguir aprendiendo?

Gracias a esta explicación sobre las word embeddings y el ejemplo de una variación de las word embedding, seguro que entiendes el concepto mucho mejor. Puedes seguir aprendiendo sobre este mundillo con el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva e íntegra en la que adquirirás, en pocos meses, todos los conocimientos teóricos y prácticos que te ayudarán a entrar en este demandado sector. ¡Solicita información y anímate a cambiar tu futuro!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado