¿Qué es el topic modeling?

| Última modificación: 2 de julio de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El topic modeling es un conjunto de técnicas para descubrir estructuras latentes semánticas comunes (topics/temas) en un conjunto de documentos. Al final, lo que nos permite el topic modeling es, dado un documento, hallar los temas de los que se está hablando. A continuación, veremos un poco más a fondo el topic modeling.

Aspectos generales del topic modeling

El topic modeling surge a raíz de la pregunta: ¿cómo podemos sintetizar la información en una colección grande de documentos con información semiestructurada? La respuesta está alojada en la manera en la que funciona el topic modeling.

¿Qué algoritmo usamos?

El algoritmo más famoso con el que se trabaja el topic modeling es el Latent Dirichlet Allocation o LDA. Este lo que hará es agrupar en asuntos, pero sin tener conocimiento acerca del tema del que se esté tratando; simplemente va a hacer la agrupación en temas en función de diferentes parámetros. Por tanto, nosotros seremos los encargados de saber cuáles son estos temas o topics que se han clasificado en distintos grupos.

¿Qué hace el LDA?

El LDA va a estar basado en frecuencias.

topic modeling

Aquí vemos un documento con todas las palabras y, con base en la frecuencia, el algoritmo empieza a agrupar palabras en distintos topics. La temática de cada uno de ellos la damos nosotros.

¿Cómo funciona el LDA?

El número de temas no lo sabemos previamente, es decir, el algoritmo no nos indica que hay 5, 6, 3 topics en cada grupo, simplemente agrupa. Somos nosotros quienes, antes de iniciar el algoritmo, tenemos que decirle a este que nos busque n cantidad de temas dentro del documento o documentos que estemos trabajando.

Entonces, lo que hará el algoritmo es calcular las palabras más frecuentes para asignarlas aleatoriamente a cada uno del total de topics que hayamos elegido. Después, empezará a buscar las palabras que más se parecen y que son más frecuentes.

Por ejemplo, la palabra gene (propuesta en el recuadro amarillo de la imagen anterior) es la más frecuente y casi siempre aparece más cerca de la palabra dna. Entonces, como esta palabra por frecuencia y cercanía aparece mucho al lado de gene, se le asigna el mismo topic, que, en el caso de la imagen anteriormente expuesta, comprende la categoría de color amarillo. De esta forma se van asignando palabras.

¿Qué puede pasar en este caso? Pues que, dependiendo del número de temas que seleccionamos, puede suceder que la cantidad sea óptima o no. Si no es óptima, lo que pasa es que generaremos muchos topics que van a colisionar con otros. Se superpondrán entre sí y compartirán entre ellos bastantes palabras muy similares. Esto sucede porque, si bien el algoritmo ha optimizado los procesos en la medida de sus posibilidades, el número de topics propuestos no es el óptimo.

Entonces, este algoritmo lo que va a buscar es maximizar la diferencia entre palabras de los temas, mientras maximiza el parecido de esas palabras en cada uno de ellos.

Ahora que sabes cómo funciona el topic modeling y su algoritmo más famoso, el LDA, podemos seguir adelante con nuestro proceso formativo en el campo del machine learning y otras áreas relacionadas con el Big Data, como puede ser la inteligencia artificial.

Para poder acceder a las opciones laborales del Big Data, una de las áreas en el mundo de la industria tech mejor pagadas, tenemos para ti el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp. Con esta formación intensiva e íntegra de alta calidad adquirirás los conocimientos, tanto teóricos como prácticos, imprescindibles para conseguir el trabajo de tus sueños en muy pocos meses. Contarás con la guía de profesionales en el sector en todo momento y, además, esta formación también ofrece una bolsa de empleo única, creada especialmente para todos nuestros estudiantes. ¡No esperes más para impulsar tu futuro y pide información ahora!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado