El algoritmo de vecinos más próximos, vecinos más cercanos o algoritmo K-NN, por K-Nearest neighbors, como suele denominarse en inglés, es un tipo de algoritmo de aprendizaje supervisado que toma un conjunto de datos y lo almacena para, posteriormente, crear un algoritmo de clasificación basado en instancias que tienen características similares. Esto significa que el algoritmo de vecinos más próximos trabaja en función del parecido de unos datos con otros para formar grupos de datos en una clasificación.
¿Qué encontrarás en este post?
ToggleUsos del algoritmo de vecinos más próximos
El algoritmo de vecinos más próximos se puede utilizar tanto en clasificación como en regresión, aunque principalmente se utiliza en la primera.
Cuando aparecen nuevos grupos de datos, se pueden clasificar de manera simple usando el algoritmo de vecinos más próximos.
¿Recuerdas que en un post anterior hablamos sobre algoritmos paramétricos vs. no paramétricos? Pues este es un algoritmo no paramétrico, ya que por medio de este no se tiene la posibilidad de hacer ninguna suposición sobre los datos subyacentes.
En ocasiones, el algoritmo de vecinos más próximos también es llamado algoritmo de aprendizaje perezoso, porque no aprende del conjunto de entrenamiento inmediatamente, sino que almacena el conjunto de datos o dataset y, en el momento de la clasificación, ejecuta determinada acción en el dataset.
Ejemplo de algoritmo de vecinos más próximos
Para tener más claridad respecto a este tipo de algoritmos, veamos un ejemplo.
🔴 ¿Quieres formarte en Inteligencia Artificial a un nivel avanzado? 🔴
Descubre nuestro Inteligencia Artificial Full Stack Bootcamp. La formación más completa del mercado y con empleabilidad garantizada
👉 Prueba gratis el Bootcamp en Inteligencia Artificial por una semanaTenemos la imagen de un animal que se parece a un perro o a un lobo. Queremos determinar cuál de los dos animales es y, para ello, usamos el algoritmo de vecinos más próximos para determinar qué animal es y poder clasificarlo.
Podemos hacer uso de este algoritmo, ya que lo que se busca es una medida de similitud, precisamente lo que nos brinda el K-NN. El algoritmo lo que hará será encontrar las características similares del nuevo conjunto de datos a las imágenes de perros y lobos y, en función de las características más similares, las colocará en la categoría de perros o lobos.
Ahora, expliquemos lo siguiente:
Tenemos una instancia señalada con color verde. La que se representa en la imagen es una clasificación binaria, porque el nuevo dato puede ser rojo o azul. Tenemos el punto verde, que no sabemos cómo clasificar.
Si el número de vecinos es 3, es decir, k = 3 (línea seguida, sin puntear), el algoritmo de vecinos más próximos va a decidir que el punto es rojo, porque de 3 puntos que hay, dos son rojos. Si k = 5 , el algoritmo escogería los 5 vecinos más cercanos y el valor incógnita marcado con verde sería azul.
También hay una ecuación matemática para formular todo esto:
f (x0) = yi
i = arg min (llxj, – x0ll2)
Esta es la forma de decidir cuáles son los más cercanos. El mínimo de la distancia es todo lo que está encerrado en el paréntesis (llxj, – x0ll2). Este es, básicamente, un algoritmo que está basado en distancias.
Resumiéndolo de otro modo: si de los n-vecinos más cercanos hay una mayoría que es de una instancia A, el nuevo dato del conjunto de datos que ingrese también será A; si de los n-vecinos más cercanos hay una mayoría que es de una instancia B, el nuevo dato que ingrese también será B.
Seguir aprendiendo sobre Big Data y machine learning
Sabemos que todo esto puede ser un poco confuso de comprender al principio, pero seguro que con buena guía y mucha práctica lograrás dominar esta temática en un abrir y cerrar de ojos. Todo esto y mucho más lo puedes conseguir con la ayuda de nuestro Bootcamp en Data Science y Big Data, una formación intensiva en la que podrás adquirir todas las herramientas, tanto teóricas como prácticas, para incursionar en el mundo techie y seguir cumpliendo tu sueño de ser un gran data scientist. ¡Anímate a impulsar tu carrera y solicita información ya!