¿Qué es el modelo LDA?

Sandra Navarro | Última modificación: 12 de abril de 2024 | Tiempo de Lectura: 2 minutos

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

¿Sabes qué es el modelo LDA y en qué consiste? En este artículo te contaremos para qué sirve y en qué casos o situaciones es conveniente usarlo.

¿Qué encontrarás en este post?

Origen del modelo LDA

LDA es el acrónimo de Latent Dirichlet Allocation y se traduce como Asignación Latente de Dirichlet. Su nombre se atribuye al matemático alemán Johann Peter Gustav Lejeune Dirichlet.

modelo LDA

Características del modelo LDA

El modelo LDA tiene, entre otras, las siguientes características:

Es un modelo probabilístico, lo que quiere decir que se basa en las probabilidades de cercanía, entre otras.
Es un modelo de aprendizaje no supervisado, es decir, no tenemos información a priori de los posibles topics que hay o, al menos, no están etiquetados. Aquí no tenemos que darle ningún tipo de etiquetado a los datos, simplemente le damos un texto y él, a partir del submodelo probabilístico, es capaz de hacer los cálculos pertinentes.
El modelo LDA asume que:
- Documentos con topics o temáticas similares emplearán palabras similares.
- Los documentos están compuestos por un conjunto de topics que siguen una determinada distribución.
- Los topics están compuestos por un conjunto de palabras que, al igual que estos, siguen una determinada distribución

Aspectos a tener en cuenta

Algunas cosas que debemos tener en cuenta cuando hagamos uso del algoritmo o modelo LDA son:

Debe fijarse el vocabulario al inicio, es decir, antes del entrenamiento. Nosotros le damos los datos al algoritmo, no hacen falta etiquetas, pero sí es necesario pasarle el vocabulario y tenemos que hacer un preprocesamiento anticipado de esos datos, para que así tenga un buen rendimiento.
Debemos tener en cuenta que el modelo LDA es probabilístico basado en frecuencias, por tanto, si no aplicamos limpieza para que pueda calcular bien esas frecuencias, será un problema de cara a la generación de temas. En este caso, eliminar stopwords suele arrojar mejores resultados.
El modelo LDA se basa en la representación de Bag-of-words, esto es, los vocabularios con frecuencias.
Debemos definir previamente el número de tópicos que queremos que extraiga. En este sentido, el modelo LDA es similar al k-means.

¿Qué sigue?

Ahora que hemos visto cómo funciona el modelo LDA, podemos seguir aprendiendo acerca de una de las disciplinas más prolíficas y mejor pagadas de la actualidad. Para esta finalidad tenemos nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva de 8 meses de duración en la que aprenderás todo lo necesario para incursionar en este mundillo tan interesante y amplio. ¡Anímate a cambiar tu futuro y solicita más información ahora!

Noticias recientes del mundo tech

Lenguajes de programación

Lenguajes de programación: Los 10 más importantes

qué es un bootcamp

¿Qué es un bootcamp y cuáles son sus beneficios?

Cómo hacer un menú de navegación en HTML

¿Cómo hacer un menú de navegación en HTML?

Fallo de software en control de vuelo detiene parte de la aviación global: lecciones para desarrolladores

¿Cómo hacer un menú de navegación en HTML?

Lenguajes de programación: Los 10 más importantes

¿Qué es un bootcamp y cuáles son sus beneficios?

IMPULSA TU CARRERA A TU MEDIDA

Fórmate con planes adaptados a tus objetivos y logra resultados en tiempo récord.