¿Qué son los algoritmos jerárquicos?

Autor: | Última modificación: 10 de noviembre de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post:

Los algoritmos jerárquicos se basan en la idea central de que los objetos están más relacionados con objetos cercanos que con objetos más alejados. Estos algoritmos conectan objetos para formar clústeres en función de su distancia. Hay dos enfoques para abordar este problema de agrupamiento:

  • Aglomerativo (de abajo arriba): cada elemento comienza en su propio clúster. Iterativamente, los clústeres más similares se fusionan para finalizar con un gran clúster que contiene todos los elementos.
  • Divisivo (de arriba hacia abajo): todos los elementos pertenecen al mismo grupo. Este clúster se divide iterativamente hasta que todos los clústeres tengan solo un elemento.

División de los algoritmos jerárquicos

La fusión o división de clústeres se realiza con base en diferentes métodos y algoritmos jerárquicos para medir estas similitudes de clústeres. Entre esas opciones están:

  • Single – linkage (SLCA): la distancia entre dos clústeres es la distancia mínima que existe entre dos elementos que pertenecen a diferentes clústeres.
algoritmos jerárquicos

El single – linkage suele ser poco estable. No es muy buena opción, porque a lo mejor tienes ruido entre clústeres y/o las fronteras son muy difusas, de modo que este modelo puede hacer que, por puro azar, un punto esté más cerca o más lejos de otro.

Entonces, se suele presentar más ruido cuando se presentan este tipo de algoritmos jerárquicos.

  • Complete – linkage (CLCA): la distancia entre dos clústeres es la distancia máxima que existe entre dos elementos que pertenecen a diferentes clústeres.
¿Qué son los algoritmos jerárquicos? 1

Por el contrario, entre los algoritmos jerárquicos, este método suele ser más estable, más robusto. No obstante, presenta un problema y es que suele ser bastante pesimista.

  • Average – linkage (unweighted pair group method with arithmetic mean, UPGMA): la distancia entre dos clústeres es la distancia promedio que existe desde cualquier elemento en el primer clúster a cualquier elemento en el segundo clúster.
¿Qué son los algoritmos jerárquicos? 2

Si no te decides entre el Complete – linkage y el single – linkage, esta es la opción adecuada para ti, ya que aquí no tendrás que escoger uno u otro, porque este método es una mezcla de los dos anteriores.

De este modo, puedes medir la media de la distancia de todos los grupos, que vendría siendo la media de las distancias de todos con todos. En este caso, sería la media de las distancias entre los puntos naranjas y los azules, y viceversa.

  • Centroid – linkage: (Unweighted pair group method with centroid, UPGMC): la distancia entre dos clústeres es la distancia que existe entre los centroides de cada clúster.
¿Qué son los algoritmos jerárquicos? 3

De forma intuitiva puede parecer que este algoritmo es igual al de la media, sin embargo, no son iguales. En este último calculas un solo centroide en cada clúster y con esto mides las distancias; esto te da como resultado la media.

Estos son, pues, cuatro ejemplos que tenemos para calcular la distancia entre clústeres o grupos, es decir, cuatro algoritmos jerárquicos.

Distancias entre clústeres

La distancia entre elementos es un paso previo a esta actividad, por ello, vamos a recordar algunas generalidades. Antes de poder agrupar los elementos por su similitud y formar algoritmos jerárquicos, tenemos que definir la similitud. Para ello vamos a crear una media de la diferencia, de cómo de separados están dos elementos del grupo.

Algunos ejemplos de distancia son:

  • Distancia euclídea:
¿Qué son los algoritmos jerárquicos? 4
  • Distancia Manhattan:
¿Qué son los algoritmos jerárquicos? 5
  • Distancia Minkowsky:
¿Qué son los algoritmos jerárquicos? 6
¿Qué son los algoritmos jerárquicos? 7

Distancia con textos

  • Distancia Hamming: la distancia de Hamming entre dos cadenas de igual longitud es el número de posiciones en las cuales los símbolos son diferentes.
  • Distancia Levenshtein: la distancia Levenshtein entre dos palabras es el mínimo número de ediciones de un solo carácter (inserción, eliminación o sustitución) para que las dos palabras sean iguales.

Estas se refieren a las distancias entre grupos. Si un grupo tiene 2, 3 o más elementos, se debe realizar el clustering por medio de la división de los algoritmos jerárquicos. Este último método es más versátil, ya que se deja a decisión del usuario las diferentes caracterizaciones y agrupamientos.

¿Qué has aprendido hoy?

Con este artículo te habrá quedado que son el clustering y los algoritmos jerárquicos. Para continuar formándote, échale un ojo a nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, la formación con la que podrás pulir todos tus conocimientos y adquirir los que te falten para incursionar en el mercado laboral más prolífico del momento. Recuerda que estarás acompañado de los mejores profesionales que te guiarán en tu camino al éxito y te ayudarán a convertirte en el mejor profesional. ¡Solicita ya más información!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Trabajo? Aprende a programar y consíguelo.

¡No te pierdas la próxima edición del Aprende a Programar desde Cero Full Stack Jr. Bootcamp!

 

Prepárate en 4 meses, aprende las últimas tecnologías y consigue trabajo desde ya. 

 

Solo en España hay más de 120.400 puestos tech sin cubrir, y con un sueldo 11.000€ por encima de la media nacional. ¡Es tu momento!

 

🗓️ Próxima edición: 13 de febrero

 

Reserva tu plaza descubre las becas disponibles.