LDA para clases múltiples

Contenido del Bootcamp Dirigido por: | Última modificación: 16 de abril de 2024 | Tiempo de Lectura: 2 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El LDA para clases múltiples es donde podemos sacarle verdadero partido al LDA, ya que para clasificar 2 clases es prácticamente igual a la regresión logística. Cuando tenemos múltiples clases, como en el ejemplo del conjunto de datos Iris, donde teníamos tres clases (versicolor, setosa y virgínica), la idea es la misma: encontrar un plano sobre el que proyectar. Para eso utilizaremos el análisis discriminante lineal o LDA para clases múltiples con sus respectivas funciones discriminantes.

¿Cómo funciona el LDA para clases múltiples?

Consideremos que tenemos dos clases (LDA para clases múltiples) y un vector sobre el que proyectaremos las dos clases, de forma que podamos resumir el valor de cada muestra en una sola dimensión.

LDA para clases múltiples

Donde:

  • X son los datos que queremos clasificar X E RNxp (X tiene N siglas y p columnas)
  • w es el vector de proyección, w E RpxI
  • y son los datos proyectados, y E RNxI

Lo que queremos es que los datos proyectados se separen al final entre todas las clases lo máximo posible.

Podemos generalizar a K clases el problema, suponiendo que y tiene más columnas, una por cada clase que queremos clasificar:

  • wk es el vector de proyección, w E RpxI que diferencia la clase k del resto
  • yk son los datos proyectados que maximizan la separación entre la clase k y el resto, yk E RNxI

Podemos crear la matriz Y combinando todas las yk:

  • W es la matriz de proyección, w E RpxK
  • Y son los datos proyectados de forma que cada columna k maximiza la separación entre la clase k y el resto, Y E RNxK

Recordemos que Fisher lo que busca es el máximo del cociente:

Definimos la media global y para cada clase:

Sbetween es la varianza que hay entre clases, cómo se separa cada clase de la media global.

Para dos clases era:

La generalización para K clases (LDA para clases múltiples) es:

Donde Swithin es la suma de las varianzas de cada grupo. Como varían las muestras dentro de cada clase, para dos clases era:

La generalización para K clases es:

El máximo de J(w) se consigue cuando:

La solución viene dada por los autovectores, cuyos K – 1 autovalores son mayores.

Como hemos visto, el LDA es muchísimo más útil para clases múltiples que para clases individuales o solamente para dos clases. Recuerda que si quieres seguir aprendiendo sobre estas temáticas, aquí tenemos la mejor opción para ti: el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Se trata de una formación intensiva de 8 meses en la que adquirirás todos los conocimientos necesarios para incursionar rápidamente en el mercado laboral. ¡Solicita más información y emprende tu camino hacia el éxito profesional!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado