Algunas generalidades del ASR

| Última modificación: 12 de julio de 2024 | Tiempo de Lectura: 2 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

En este post te contaremos algunas generalidades del ASR o automatic speech recognition, una tecnología que le posibilita a las máquinas el reconocimiento, la interpretación y la transcripción del habla humana de forma automatizada. Se basa en algunas técnicas de procesamiento de señales de audio y machine learning y, de este modo, identifica y trata de entender el lenguaje hablado.

Generalidades del ASR

El espectrograma

Generalidades del ASR

Utilizar un espectrograma es la manera más simple de traducir o interpretar lo que vemos en sonidos. Una vez tenemos el espectrograma, podemos generar un modelo de decodificación (step 2) que nos permitiría pasar del espectrograma a texto como tal. Dicho texto consiste en un conjunto de probabilidades. Después, a partir de estas probabilidades, vamos formando caracteres que luego crean una palabra.

Tipología de arquitecturas

Entre las generalidades del ASR tenemos las arquitecturas, las cuales, a su vez, tienen diferentes posibilidades:

Posibilidad 1

Generalidades del ASR: tipología de arquitecturas, posibilidad 1

Tenemos nuestro espectrograma para ver cómo evolucionan a lo largo del tiempo cada uno de los sonidos. Así pues, lo que hacemos es alimentarlo conq ué sonido puede estar representando para cada periodo de tiempo. Posteriormente, esta información la pasamos a una RNN, la cual va generando ciertas predicciones a partir de los datos brindados.

Posibilidad 2

Generalidades del ASR: tipología de arquitecturas, posibilidad 2

Otra de las posibilidades que tenemos es darle, de forma lineal, todo el espectrograma sobre la RNN, en lugar de alimentarlo por neurona, y así lo vamos distribuyendo a lo largo del tiempo con un time distributed. Lo que nos va a generar es, con base en el conjunto de espectrogramas, la probabilidad que tiene de que sea una frase u otra.

Posibilidad 3

Generalidades del ASR: tipología de arquitecturas, posibilidad 3

En este caso tenemos los espectrogramas, la RNN y la posibilidad de aplicarle un time distributed, es decir, para cada tiempo, le pasamos a la RNN la posibilidad de representación que tenga en ese tiempo (por ejemplo, en el tiempo x, tenemos la posibilidad de representación de la letra n). Le aplicamos un time distributed para que se vaya propagando a lo largo de la red y que no todo sea de golpe.

Sabemos que el Big Data tiene muchísimas vertientes y, por tanto, hay muchísimos temas en los que puedes especializarte. En KeepCoding te ofrecemos la posibilidad de aprender con los mejores profesionales, que te guiarán a través de la teoría y la práctica. Con el Bootcamp Data Science descubrirás una formación intensiva, íntegra y de alta calidad con la que, en unos meses, lograrás convertirte en un gran profesional IT. ¡Solicita ya más información y da el paso que impulsará tu carrera!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado