Axe 2 – Linguistique et évaluation des systèmes de traitement automatique des langues

L’analyse des systèmes de TAL est le plus souvent soit quantitative (une ou plusieurs métriques sont utilisées pour évaluer la qualité des résultats du système sur un ensemble de données de test) soit manuelle (des juges humains notent manuellement les résultats produits selon un protocole préétabli). Elle est souvent également guidée par la tâche plutôt que par la qualité linguistique des résultats produits. Par exemple, la sortie d’un système de traduction automatique est comparée à un ensemble de traductions de référence et si elle partage un nombre suffisant de segments avec cet ensemble, elle obtient un bon score même si, par ailleurs, elle contient des fautes de syntaxe ou d’orthographe. La conception de systèmes réellement utilisables exige cependant de pouvoir garantir la qualité linguistique des résultats obtenus.

Un premier objectif du GDR sera d’explorer dans quelle mesure des critères linguistiques peuvent être utilisés pour évaluer, de façon automatique, la qualité linguistique des résultats (traductions, résumés, etc. ) produits par les systèmes de TAL.

Un second objectif sera de construire, à partir des recherches conduites en linguistique formelle, des batteries de tests linguistiques qui permettent d’évaluer les systèmes de TAL.  Il existe déjà des premiers efforts visant à analyser quels types de généralisations linguistiques sont extraites par les méthodes d’apprentissage automatique contemporaines. Par exemple, (Linzen et al. 2016) a examiné dans quelles conditions un modèle de langue neuronal parvient à modéliser les contraintes d’accord. De même, (Isabelle et al. 2017) propose un jeu de tests permettant d’évaluer la capacité des systèmes de traduction automatique à traiter de différences morphologiques, lexicales ou syntaxiques entre langue source et langue cible. Des progrès substantiels dans cette direction ne seront possibles qu’à partir d’une systématisation des découvertes de linguistique fondamentale dans une forme appropriée pour le traitement informatique (jeux de tests, tâches partagées, défis scientifiques, etc.).