En este post te contaremos algunas generalidades del ASR o automatic speech recognition, una tecnología que le posibilita a las máquinas el reconocimiento, la interpretación y la transcripción del habla humana de forma automatizada. Se basa en algunas técnicas de procesamiento de señales de audio y machine learning y, de este modo, identifica y trata de entender el lenguaje hablado.
Generalidades del ASR
El espectrograma
Utilizar un espectrograma es la manera más simple de traducir o interpretar lo que vemos en sonidos. Una vez tenemos el espectrograma, podemos generar un modelo de decodificación (step 2) que nos permitiría pasar del espectrograma a texto como tal. Dicho texto consiste en un conjunto de probabilidades. Después, a partir de estas probabilidades, vamos formando caracteres que luego crean una palabra.
Tipología de arquitecturas
Entre las generalidades del ASR tenemos las arquitecturas, las cuales, a su vez, tienen diferentes posibilidades:
Posibilidad 1
Tenemos nuestro espectrograma para ver cómo evolucionan a lo largo del tiempo cada uno de los sonidos. Así pues, lo que hacemos es alimentarlo conq ué sonido puede estar representando para cada periodo de tiempo. Posteriormente, esta información la pasamos a una RNN, la cual va generando ciertas predicciones a partir de los datos brindados.
Posibilidad 2
Otra de las posibilidades que tenemos es darle, de forma lineal, todo el espectrograma sobre la RNN, en lugar de alimentarlo por neurona, y así lo vamos distribuyendo a lo largo del tiempo con un time distributed. Lo que nos va a generar es, con base en el conjunto de espectrogramas, la probabilidad que tiene de que sea una frase u otra.
Posibilidad 3
En este caso tenemos los espectrogramas, la RNN y la posibilidad de aplicarle un time distributed, es decir, para cada tiempo, le pasamos a la RNN la posibilidad de representación que tenga en ese tiempo (por ejemplo, en el tiempo x, tenemos la posibilidad de representación de la letra n). Le aplicamos un time distributed para que se vaya propagando a lo largo de la red y que no todo sea de golpe.
Sabemos que el Big Data tiene muchísimas vertientes y, por tanto, hay muchísimos temas en los que puedes especializarte. En KeepCoding te ofrecemos la posibilidad de aprender con los mejores profesionales, que te guiarán a través de la teoría y la práctica. Con el Bootcamp Data Science descubrirás una formación intensiva, íntegra y de alta calidad con la que, en unos meses, lograrás convertirte en un gran profesional IT. ¡Solicita ya más información y da el paso que impulsará tu carrera!