Aprendizaje no supervisado en data mining

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El aprendizaje no supervisado en data mining es aquel que encuentra estructuras en los datos sin necesidad de intervención externa y nos puede servir para agrupar datos por similitud.

¿Qué es el aprendizaje no supervisado en data mining?

El aprendizaje no supervisado en data mining es un modo en el que no se tienen clases de salida esperadas. Recordemos que en el aprendizaje supervisado el algoritmo creará funciones a partir de ejemplos y hay un resultado esperado; con el aprendizaje no supervisado en data mining sucede de forma distinta, ya que no existe la posibilidad de saber cuál será el resultado del output.

Tipos de aprendizaje no supervisado en data mining

El aprendizaje no supervisado en data mining tiene dos grandes tipologías: el clustering y la asociación.

Clustering

El clustering es un método que sirve para agrupar objetos en diferentes secciones, de modo que se junten en un grupo los objetos que tengan más similitudes. Por ejemplo: tenemos un conjunto de animales entre los que se incluyen perros, gatos y aves. El objetivo del clustering en aprendizaje no supervisado en data mining sería separar los animales de modo que en un grupo se encuentren las aves, en otro los perros y en otro los gatos.

El análisis de conglomerados de datos busca y encuentra puntos en común entre objetos de datos y los clasifica según una detección de anomalías o de similitudes.

Existen distintos tipos de clustering, entre ellos:

  • Agrupación jerárquica.
  • Agrupamiento de K-medias.
  • K-NN o K nearest neighbors (vecinos más cercanos).
  • Análisis de componentes principales.
  • Valor singular de descomposición.
  • Análisis de componentes independientes.

Asociación

La asociación es un método que se utiliza para encontrar relaciones entre variables por medio de la determinación de conjuntos de elementos que aparecen juntos en el conjunto de datos.

Este método se usa mucho en el marketing para predecir estados de productos, como en el ejemplo que veremos a continuación.

A modo de ejemplo

Para comprender mejor cuál es la relevancia del aprendizaje no supervisado en data mining, te mostraremos un ejemplo.

Trabajaremos con datos de distribución del aceite de oliva en distintas poblaciones. Cargaremos un conjunto de datos concernientes al aceite de oliva en relación con distintas zonas geográficas. En el análisis que intentamos hacer, observamos cómo se distribuye y el modo en el que se pretende agruparlos:

In [25]: head(olive)
#Región <fct>Área <fct>Palmitic <dbl>Palmitoleic <dbl>Stearic <dbl>Oleic <dbl>Linoleic <dbl>Linolenic <dbl>Arachidic <dbl>Eicosenoic <dbl>
1Southern ItalyNorth-Apulia10.750.752.2678.236.720.360.600.29
2Southern ItalyNorth-Apulia10.880.732.2477.097.810.310.610.29
3Southern ItalyNorth-Apulia9.110.542.4681.135.490.310.630.29
4Southern ItalyNorth-Apulia9.660.572.4079.526.190.500.780.35
5Southern ItalyNorth-Apulia10.510.672.5977.716.720.500.800.46
6Southern ItalyNorth-Apulia9.110.492.6879.246.780.510.700.44
In [*]: library(GGally)

options(repr.plot.height=4, repr.plot.width=8)
ggpairs(olive[,c("palmitic","palmitoleic", "stearic", oleic, linoleic, linolenic", "arachidic", "elcosenble")], 
              lower = list (continuous = wrap("points", alpha = 0.3, size=0,1,color="blue"))
              )

Registered $3 method overwritten by “GGally’:
method from
+.99 ggplot2

aprendizaje no supervisado en data mining: resultado

El aprendizaje no supervisado en data mining es un aprendizaje automático, es decir, los algoritmos de aprendizaje utilizados en el machine learning utilizan técnicas de aprendizaje distintas y por tanto se producen resultados libres de intervención.

En este caso, proponemos una tabla con un número de grupos determinado para que el sistema los tome y los procese intentando encontrar patrones, de modo que nos brinde como resultado una tabla como la anterior.

Como conclusión

El aprendizaje no supervisado es un tanto más difícil que el aprendizaje supervisado, ya que no existe forma de saber lo preciso que será el output que conseguiremos. Tampoco tenemos datos de entrada etiquetados, por tanto, los algoritmos no conocen la salida exacta de antemano. Con el aprendizaje no supervisado en data mining estamos trabajando a ciegas y podemos obtener resultados muy variables.

Este es un tema complejo que requiere de un poco más de investigación, por lo que desde Keepcoding te proponemos nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. En pocos meses aprenderás tanto la teoría como la práctica de todo lo relacionado con esta rama del mundo IT y te prepararás para incursionar en el mercado laboral. ¡Pide más información para seguir aprendiendo y darle un giro a tu vida!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado