¿Qué es el análisis discriminante lineal (LDA)?

Autor: | Última modificación: 17 de noviembre de 2022 | Tiempo de Lectura: 3 minutos
Temas en este post: ,

En 1936, Fisher formuló su teoría para el análisis discriminante lineal (Lineal Discriminant Analysis LDA), que tiene muchas utilidades como clasificador.

Su concepto es similar al del PCA, en el que se trata de realizar una reducción de similaridad. No obstante, mientras el PCA es un aprendizaje no supervisado, el LDA pertenece al aprendizaje supervisado.

Ejercicio aplicando análisis discriminante lineal

Con esta información buscaremos la proyección que mejor nos permita separar las dos clases de interés, que son el LDA y el PCA.

#análisis discriminante lineal, pte 1
options (repr.plot.height = 4, repr.plot.width = 6, repr.plot.res = 300) 

set.seed (123)
N <- 100
x1 <- rnorm (N, mean = 0, sd = 1.5)
x2 <- x1 * 2 + rnorm (N, mean = 0, sd = 1)
dfa <- data.frame (group = "A", x1 = x1, x2 = x2, stringsAsFactors = T)

x1 <- rnorm (N, mean = 1.5, sd = 1)
x2 <- x1 * 2 + rnorm (N, mean = 4, sd = 2)
dfb <- data.frame (group = "B", x1 = x1, x2 = x2, stringsAsFactors = T)

df <- data.frame (rbind (dfa.dfb))
options (repr.plot.height = 4, repr.plot.width = 8)
library (ggplot2)
ggplot (df, aes (x = x1, y = x2, color=group)) + geom_point (size = 0.1)
análisis discriminante lineal
Figura 1

Imaginemos esta nube de puntos, donde tenemos dos grupos: el grupo A y el grupo B. Queremos encontrar una línea en la que, si queremos proyectar nuestros datos, nos los divida muy bien y haya una distribución normal.

¿Qué es proyectar? Proyectar significa tomar dos vectores. Tomamos un vector por otro, hacemos el producto escalar y eso nos da una magnitud denominada proyección, es decir, la proyección de uno sobre otro. En la siguiente imagen la proyección está dada por la línea roja vertical punteada.

¿Qué es el análisis discriminante lineal (LDA)? 1
Figura 2

¿Cómo lo hacemos? Aquí te mostraremos una manera de calcular el análisis discriminante lineal.

Pintamos un vector (representado por la letra w) y ese vector es 0 en x y 1 en y, es decir, el vector va a apuntar verticalmente (como se muestra en la figura 3).

#análisis discriminante lineal, pt 2
w <- matrix (c (0.001, 1), nrow = 2)
w <- w / sqrt (sum (w ^ 2))
w

##análisis discriminante lineal, pt 3
g1 <- ggplot (df, aes (x = x1, y = x2, color = group)) + geom_point (size = 0.1) + geom_abline (slope = w [2] / w [1])
df$projection <- as.matrix (df [ , 2 : 3]) %*% w
g2 <- ggplot (df, aes (x = projection, color = group)) + geom_density ()

library (ggpubr)
ggarrange (g1, g2, ncol = 2)
library (ROCR)

pr <- prediction (df$projection, df$group)
prf_auc = performance (pr, measure = "auc")
paste ("The AUC is", prf [email protected] [[1]])

0.0009999995 [x]

0.9999995000 [y]

¿Qué es el análisis discriminante lineal (LDA)? 2
Figura 3

¿Qué estamos viendo en la parte derecha? Esta corresponde a la proyección de todos los puntos sobre esa línea. Si hacemos todos los puntos de la recta y los pintamos en una gráfica de distribución, lo que se obtiene es la imagen que se presenta en la derecha.

Posterior a esto, crearemos un dataframe que será la proyección de nuestros datos en las columnas 2 y 3. Ese dataframe lo multiplicamos por el vector w, lo que nos dará un valor.

Ahora, ¿qué tal si en vez de hacer esto: w <- matrix (c (0.001, 1), nrow = 2), hacemos esto: w <- matrix (c (1, 1), nrow = 2)?

Esto nos da una curva de separación. Es como una salida de proyección de una regresión logística, que nos está dando valores entre positivos y negativos.

Esta predicción nos permite calcular un umbral y decir la calidad de la misma. En función de dónde coloquemos el umbral, lo que está a un lado del umbral será a y lo que está al otro lado será b.

¿Qué pasa, entonces, con los puntos cruzados? Si, por ejemplo, ponemos el umbral en la mitad de las dos líneas de la gráfica de distribución, algunos puntos de la recta se tomarían como errores:

¿Qué es el análisis discriminante lineal (LDA)? 3

Los puntos rojos señalados dentro del cuadro verde se tomarían como errores, ya que están fuera del umbral. Pasa lo mismo con los puntos azules que están en la parte de abajo del umbral, también serían considerados como errores.

Con esto ya tendríamos calculado el análisis discriminante lineal.

¿Qué te pareció este post?

Si te ha gustado aprender sobre el análisis discriminante lineal y quieres seguir ampliando tus conocimientos, recuerda que puedes seguir nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva de 8 meses de duración en la cual podrás adquirir todos los conocimientos necesarios para incursionar en uno de los mercados laborales más prolíficos y con mejores ofertas de empleo. Recuerda que tenemos a los mejores profesionales para acompañarte durante todo tu proceso y que puedas seguir forjando tu futuro y construyendo tus sueños. ¡Anímate y solicita más información!

👉 Descubre más del Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp ¡Descarga el temario!

👉 Prueba el Bootcamp Gratis por una Semana ¡Empieza ahora mismo!

👉 Conoce nuestros otros Bootcamps en Programación y Tecnología

[email protected]

¿Trabajo? Aprende a programar y consíguelo.

¡No te pierdas la próxima edición del Aprende a Programar desde Cero Full Stack Jr. Bootcamp!

 

Prepárate en 4 meses, aprende las últimas tecnologías y consigue trabajo desde ya. 

 

Solo en España hay más de 120.400 puestos tech sin cubrir, y con un sueldo 11.000€ por encima de la media nacional. ¡Es tu momento!

 

🗓️ Próxima edición: 13 de febrero

 

Reserva tu plaza descubre las becas disponibles.