Axe 5 – Linguistique informatique pour les langues peu dotées ou non documentées

Présentation :

Les langues pour lesquelles peu de données existent, constituent un défi majeur pour le TAL
en ce qu’elles exigent la conception de nouvelles méthodes d’apprentissage (apprentissage
non- ou faiblement supervisé) pour lesquelles des connaissances linguistiques a priori sont
souvent requises. Cet axe du GDR vise à développer des méthodes informatiques
utiles et utilisables pour le traitement de langues peu dotées. Il s’agira par exemple, de
développer des méthodes d’apprentissage faiblement, semi ou non supervisées pour des
données de taille réduite provenant de langues peu dotées, peu écrites ou non
documentées ; de concevoir, implémenter et tester des méthodes d’expansion automatique
des données permettant d’appliquer des méthodes d’apprentissage automatique à des
données de petite taille et en particulier de corpus hétérogènes (du point de vue des variétés
de langues qui y sont présentes et des situations d’enregistrement documentées) ; d’utiliser
et d’adapter les méthodes symboliques (grammaires computationnelles, automates à états
finis) pour l’analyse et la génération de langues peu dotées (afin par exemple de valider une
grammaire et de tester sur- et sous-génération)  ; ou encore, d’exploiter des méthodes
d’apprentissage automatique pour créer des moteurs de gloses permettant de minimiser les
prétraitements.

Cet axe sera développé en lien avec l’axe « extraction de généralisations linguistiques par
des méthodes informatiques » : il est fréquent que l’on ait des données et des ressources
pour certaines langues et beaucoup moins de données (par exemple juste des textes non
annotés) pour une langue proche ou apparentée (langue de la même famille linguistique,
parfois simplement langues en contact). La recherche de généralisations et de traits partagés peut permettre d’induire des connaissances relativement poussées sur la langue
peu dotée dans ce type de configuration, y compris avec des techniques demandant
généralement beaucoup de données (comme les réseaux de neurones). Ce type de
processus doit évidemment être contrôlé sur le plan linguistique pour ne pas généraliser
indûment tout et n’importe quoi, mais il semble malgré tout précieux pour les langues peu
dotées.

 

Contacts :

Laurent Besacier

Anaïs Lefeuvre-Halftermeyer

Emmanuel Schang