El clúster por densidad es un tipo de clusterización que utiliza el algoritmo DBSCAN, cuyas siglas quieren decir Density Based Clustering of Applications with Noise.
Este es uno de los algoritmos de clúster por densidad más famosos que existen, pero no es el único, ya que hay otros que no son tan conocidos.
¿Cómo funciona el clúster por densidad DBSCAN?
En el clúster por densidad, DBSCAN es un algoritmo de clustering basado en densidad de las observaciones para formar grupos. La agrupación DBSCAN puede encontrar distancias vecinas o valores atípicos, observaciones que no pertenecerán a ningún grupo o conjunto de datos y que se etiquetan como ruido, ya que no forman un clúster.
En DBSCAN hay 3 tipos de puntos:
- Núcleo: punto que tiene al menos minPts puntos a una distancia E. El núcleo pertenece sí o sí al clúster, porque hay muchos puntos a su alrededor.
- Puntos (densamente -) alcanzables: punto que tiene al menos un núcleo a una distancia E. Los puntos están a una distancia épsilon, una distancia x de un punto núcleo. Es como decir que tenemos dos puntos del núcleo que es el core de nuestro clúster y luego tenemos un margen de puntos que, tal vez, pertenecen al clúster y tal vez no. Esto va a depender de cómo se le mire; es decir, estos puntos están un poco en la frontera.
- Ruido: el resto de puntos. Son los puntos que no pertenecen a ningún clúster. Esta categoría es de mucha ayuda, porque evita la necesidad incesante de tener que clasificar los puntos por clúster. Con otros algoritmos como el k – means teníamos necesariamente que agrupar los puntos en algún clúster, pero aquí no es de absoluta necesidad ni relevancia, ya que existe un grupo que junta a aquellos puntos que no caben en ninguna de las categorías propuestas con anterioridad.
Todos los clústeres que hemos visto se basaban en distancias, centroides o en separación entre clústeres. Realmente cada clúster era una especie de bola, un círculo si estuviéramos trabajando en dos dimensiones, una esfera si estuviéramos trabajando en tres dimensiones. Estas esferas estaban alrededor de los centroides.
En el caso del clúster por densidad de DBSCAN no sucede así. Aquí los clústeres van a poder tener la forma que nos digan los datos, donde los parámetros E y minPts son:
- E: distancia de corte de un punto desde (punto central, que se analiza a continuación) para que se considere parte de un grupo. Comúnmente conocido como épsilon (abreviado como eps).
- minPts: número mínimo de puntos necesarios para formar un clúster. Si no hay al menos este mínimo de puntos, no puede haber clúster por densidad.
La agrupación DBSCAN en el clúster por densidad se puede resumir en los siguientes pasos.
Para cada punto P identifica los N puntos dentro de distancia E. Es decir, para cada punto P trazamos un círculo a una distancia épsilon y contamos el número de puntos que hay a esa distancia.
- si N >= minPts: etiqueta P como punto de tipo núcleo
- si N<minPts:
- Si hay un punto de núcleo a una distancia E, se etiqueta como punto densamente alcanzable.
- Si no hay un punto de núcleo a una distancia E, se etiqueta como ruido.
Un clúster estaría formado por todos los puntos de núcleo y los puntos densamente alcanzables que están densamente conectados por la distancia E. Existe una variante DBSCAN*, que solo considera los puntos de clúster como puntos de núcleo, el resto son ruido.
Lo que hace el DBSCAN es juntar elementos y los elementos que están cerca de otros elementos los considera parte de un mismo clúster.
Hay dos algoritmos del clúster por densidad: el DBSCAN y el DBSCAN*. En el DBSCAN forman parte del clúster del núcleo y los densamente alcanzables, y en el DBSCAN solo forma parte del clúster del núcleo.
Ejemplo de clúster por densidad
Veamos la imagen anterior. Observamos los puntos que hay en la imagen y lo que vamos a hacer aquí es ir punto por punto e ir trazando círculo de radio épsilon. Llegamos al punto naranja, trazamos un círculo de radio épsilon y vemos que hay más de tres puntos a su alrededor, con lo cual este pertenece a un clúster. Así podemos hacerlo con el resto para encontrar los otros clústeres.
Ahora que sabes qué es un clúster por densidad, ¿qué te parece si seguimos practicando? Por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp podrás aprender todo lo relacionado con estas temáticas y rápidamente incursionar en el mercado laboral. ¡No esperes para solicitar más información!