LDA para clases múltiples | KeepCoding Bootcamps

El LDA para clases múltiples es donde podemos sacarle verdadero partido al LDA, ya que para clasificar 2 clases es prácticamente igual a la regresión logística. Cuando tenemos múltiples clases, como en el ejemplo del conjunto de datos Iris, donde teníamos tres clases (versicolor, setosa y virgínica), la idea es la misma: encontrar un plano sobre el que proyectar. Para eso utilizaremos el análisis discriminante lineal o LDA para clases múltiples con sus respectivas funciones discriminantes.

¿Cómo funciona el LDA para clases múltiples?

Consideremos que tenemos dos clases (LDA para clases múltiples) y un vector sobre el que proyectaremos las dos clases, de forma que podamos resumir el valor de cada muestra en una sola dimensión.

Donde:

X son los datos que queremos clasificar X E R^Nxp (X tiene N siglas y p columnas)
w es el vector de proyección, w E R^pxI
y son los datos proyectados, y E R^NxI

Lo que queremos es que los datos proyectados se separen al final entre todas las clases lo máximo posible.

Podemos generalizar a K clases el problema, suponiendo que y tiene más columnas, una por cada clase que queremos clasificar:

w_k es el vector de proyección, w E R^pxI que diferencia la clase k del resto
y_k son los datos proyectados que maximizan la separación entre la clase k y el resto, y_k E R^NxI

Podemos crear la matriz Y combinando todas las y_k:

W es la matriz de proyección, w E R^pxK
Y son los datos proyectados de forma que cada columna k maximiza la separación entre la clase k y el resto, Y E R^NxK

Recordemos que Fisher lo que busca es el máximo del cociente:

Definimos la media global y para cada clase:

S_between es la varianza que hay entre clases, cómo se separa cada clase de la media global.

Para dos clases era:

La generalización para K clases (LDA para clases múltiples) es:

Donde S_within es la suma de las varianzas de cada grupo. Como varían las muestras dentro de cada clase, para dos clases era:

La generalización para K clases es:

El máximo de J(w) se consigue cuando:

La solución viene dada por los autovectores, cuyos K – 1 autovalores son mayores.

Como hemos visto, el LDA es muchísimo más útil para clases múltiples que para clases individuales o solamente para dos clases. Recuerda que si quieres seguir aprendiendo sobre estas temáticas, aquí tenemos la mejor opción para ti: el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Se trata de una formación intensiva de 8 meses en la que adquirirás todos los conocimientos necesarios para incursionar rápidamente en el mercado laboral. ¡Solicita más información y emprende tu camino hacia el éxito profesional!