¿Qué es el modelo LDA?

| Última modificación: 12 de abril de 2024 | Tiempo de Lectura: 2 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

¿Sabes qué es el modelo LDA y en qué consiste? En este artículo te contaremos para qué sirve y en qué casos o situaciones es conveniente usarlo.

Origen del modelo LDA

LDA es el acrónimo de Latent Dirichlet Allocation y se traduce como Asignación Latente de Dirichlet. Su nombre se atribuye al matemático alemán Johann Peter Gustav Lejeune Dirichlet.

modelo LDA

Características del modelo LDA

El modelo LDA tiene, entre otras, las siguientes características:

  • Es un modelo probabilístico, lo que quiere decir que se basa en las probabilidades de cercanía, entre otras.
  • Es un modelo de aprendizaje no supervisado, es decir, no tenemos información a priori de los posibles topics que hay o, al menos, no están etiquetados. Aquí no tenemos que darle ningún tipo de etiquetado a los datos, simplemente le damos un texto y él, a partir del submodelo probabilístico, es capaz de hacer los cálculos pertinentes.
  • El modelo LDA asume que:
    • Documentos con topics o temáticas similares emplearán palabras similares.
    • Los documentos están compuestos por un conjunto de topics que siguen una determinada distribución.
    • Los topics están compuestos por un conjunto de palabras que, al igual que estos, siguen una determinada distribución

Aspectos a tener en cuenta

Algunas cosas que debemos tener en cuenta cuando hagamos uso del algoritmo o modelo LDA son:

  • Debe fijarse el vocabulario al inicio, es decir, antes del entrenamiento. Nosotros le damos los datos al algoritmo, no hacen falta etiquetas, pero sí es necesario pasarle el vocabulario y tenemos que hacer un preprocesamiento anticipado de esos datos, para que así tenga un buen rendimiento.
  • Debemos tener en cuenta que el modelo LDA es probabilístico basado en frecuencias, por tanto, si no aplicamos limpieza para que pueda calcular bien esas frecuencias, será un problema de cara a la generación de temas. En este caso, eliminar stopwords suele arrojar mejores resultados.
  • El modelo LDA se basa en la representación de Bag-of-words, esto es, los vocabularios con frecuencias.
  • Debemos definir previamente el número de tópicos que queremos que extraiga. En este sentido, el modelo LDA es similar al k-means.

¿Qué sigue?

Ahora que hemos visto cómo funciona el modelo LDA, podemos seguir aprendiendo acerca de una de las disciplinas más prolíficas y mejor pagadas de la actualidad. Para esta finalidad tenemos nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva de 8 meses de duración en la que aprenderás todo lo necesario para incursionar en este mundillo tan interesante y amplio. ¡Anímate a cambiar tu futuro y solicita más información ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado