ISCA Archive JEP 2022
ISCA Archive JEP 2022

Architectures neuronales bout-en-bout pour la compréhension de la parole

Valentin Pelloin, Nathalie Camelin, Antoine Laurent, Renato De Mori, Sylvain Meignier

Dans cet article, nous nous intéressons au problème de la compréhension de la parole et à sa résolution dans le cadre d'architectures dites bout en bout. Les différentes architectures proposées, basées sur des modèles neuronaux encodeurs-décodeurs avec mécanisme d'attention permettent d'émettre des hypothèses de contenus sémantiques directement à partir des caractéristiques acoustiques. Une première architecture a été conçue afin d'extraire à la fois les mots prononcés et les concepts. Testée sur le corpus MEDIA, elle permet une réduction d'erreur en absolu de 2,8 points par rapport à l'état de l'art. Avec cette même architecture, nous proposons une configuration originale permettant d'émettre également des hypothèses sur les valeurs des concepts. Enfin, une architecture composée de plusieurs décodeurs neuronaux chaînés pour un seul encodeur est testée dans l'objectif d'enrichir le décodeur d'informations linguistiques en plus des informations acoustiques.