En este artículo veremos un ejemplo de word embedding y qué tienen que ver estos con los espacios vectoriales.
Word embedding y espacios vectoriales
Los espacios vectoriales se usan constantemente en machine learning, por ejemplo, los word embeddings. En ese caso, estaríamos mapeando las palabras a vectores en un espacio vectorial o embedding space.
Hay que mencionar que no solo se pueden mapear palabras o documentos a un espacio vectorial, sino que podemos crear un espacio vectorial de cualquier cosa.
Por ejemplo, imagina que tenemos una tienda de ropa; podríamos mapear los vestidos a un espacio vectorial de dimensiones n y luego recomendarle a un cliente los vestidos más parecidos a los que le gustan (empleando cosine similarity, por ejemplo).
¿A qué nos referimos con un espacio vectorial de dimensiones n? Básicamente, son features del modelo que estamos creando. Por ejemplo:
- Personas: edad, peso, altura, color del pelo, color de ojos…
- Casas: número de habitaciones, precio de venta, año de construcción…
- Coches: velocidad máxima, tiempo de aceleración, precio…
El número de dimensiones lo defines tú cuando estás creando el modelo.
Ejemplo de word embedding
Veamos un ejemplo de word embedding para poder entender mejor cómo funciona.
Imaginemos que tenemos una tienda en donde vendemos ropa. Ahora bien, se nos ocurre la idea de categorizar o identificar la ropa usando un vector. Tenemos, por tanto, una serie de prendas de vestir que son distintas una de la otra, ya que cada una es de un color distinto.
Entonces, lo que queremos es clasificar la ropa de tal modo que podamos decir que cada categoría tiene x o n características.
¿Qué tipo de propiedades podríamos extraer de la ropa para identificarla? Podría ser:
- Talla.
- Tejido.
- Color.
- Estampados.
- Marca.
En este ejemplo de word embedding vamos a usar todas estas propiedades para definir cada una de las prendas de vestir que tengamos en la tienda.
Aquí entra un poquillo en juego la definición de espacio vectorial. En nuestro espacio vectorial tendríamos, una serie de misceláneas de prendas de vestir de distintas marcas, colores, tallajes, etc.

Todo el espacio vectorial va a tener las mismas propiedades, y todas las prendas van a medirse utilizando las mismas propiedades.
El siguiente paso en nuestro ejemplo de word embedding será coger cada prenda de ropa y generar un vector para identificarla.
Así, tenemos la camiseta 1, la camiseta 2 y la camiseta n.
- Camiseta 1: [(talla) 40, (tejido) pana, (color) azul, (estampado) no, (marca) Adidas]
- Camiseta 2: [39, algodón, verde, sí, Puma]
Sucesivamente, lo vamos a hacer con todas las camisetas.
Al final, cada prenda va a tener un vector. Ese vector no es más que una secuencia de valores (en este caso), y esa secuencia de valores hace referencia a las propiedades que tenemos.
Ya hemos visto que los ordenadores y los algoritmos no son buenos trabajando con strings, por lo tanto, el siguiente paso en nuestro ejemplo de word embedding es convertir los valores string que tenemos en numéricos. De modo que:
- Camiseta 1: [(talla) 40, (tejido) pana → 1, (color) azul → 20, (estampado) no → 0, (marca) Adidas → 1570]
- Camiseta 2: [39, algodón → 5, verde → 65, sí → 1, Puma → 322]
Aquí ya tenemos dos vectores. Ahora la pregunta es: ¿qué podríamos hacer con estos Podríamos calcular la similitud.
Entonces, ¿cuál es la importancia del espacio vectorial, qué nos proporciona?
El espacio vectorial nos proporciona una herramienta matemática muy útil para definir ciertas propiedades que nos van a permitir crear vectores en los que cada uno de ellos va a tener las mismas propiedades, lo que nos va a permitir generar, calcular o realizar ciertas operaciones, entre ellas la similitud entre vectores.
Así pues, en este ejemplo concreto, gracias a este mecanismo y con una lógica tan sencilla como la que hemos seguido, podríamos generar un catálogo tremendamente enorme de ropa simplemente midiendo las propiedades de la ropa que ya teníamos.
¿Quieres seguir aprendiendo?
Ahora que hemos visto un ejemplo de word embedding, puedes seguir aprendiendo sobre Big Data. Si te gustaría acceder a una de las disciplinas más demandadas y mejor pagadas en todo el mercado laboral, no te pierdas el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva e íntegra en la que adquirirás, en pocos meses, todos los conocimientos que te ayudarán a lograr el trabajo de tus sueños. ¡Entra ya para solicitar información y anímate a cambiar tu vida!