Google a mis au point une nouvelle technologie pour alimenter sa recherche vocale, qui, selon la société, la rendra encore plus rapide et plus précise. La nouvelle technologie utilise la classification connexionniste temporelle (CTC) et des techniques d’entraînement discriminatif en séquence. En 2012, Google est passé du modèle de mélange gaussien (GMM) aux réseaux de neurones profonds (DNN), ce qui lui a permis de mieux évaluer le son produit par l'utilisateur à ce moment-là et de fournir une précision accrue de la reconnaissance vocale.
Nos modèles acoustiques améliorés reposent sur des réseaux de neurones récurrents (RNN). Les RNN ont des boucles de rétroaction dans leur topologie, ce qui leur permet de modéliser les dépendances temporelles: lorsque l'utilisateur parle / u / dans l'exemple précédent, son appareil articulatoire provient d'un son / j / son et d'un / m / son avant. Essayez de le dire à voix haute - "musée" - cela coule très naturellement en une respiration, et les RNN peuvent capturer cela. Le type de RNN utilisé ici est un RNN à mémoire à court terme (LSTM) qui, grâce à des cellules de mémoire et à un mécanisme de déclenchement sophistiqué, mémorise les informations mieux que les autres RNN. L’adoption de tels modèles a déjà considérablement amélioré la qualité de notre système de reconnaissance.
Le changement technologique a été apporté par Google et est maintenant utilisé pour alimenter les recherches vocales dans l'application Google sur iOS et Android, ainsi que la dictée sur les appareils Android.
Source: blog de recherche Google