Action Déméter

Outiller la linguistique de terrain avec des métagrammaires : le projet DEMETER (DEs MÉTagrammaires au service de la linguistique de TERrain)

Présentation

Nous disposons aujourd’hui de plusieurs grammaires électroniques indépendantes, généralement générées par des “métagrammaires” (des ensembles modulaires de règles plus compactes), pour traiter de langues ou d’états de langues spécifiques. Cependant, à l’exception du consortium DELPH-IN, leurs développeurs communiquent rarement. Peu d’échanges ont également lieu avec les linguistes de terrain, dont les ressources limitées se prêtent mal à l’utilisation de modèles coûteux. Les grammaires électroniques offrent pourtant la possibilité de traiter de petites quantités de données, pour annoter des corpus ou fournir des exempliers, permettant ainsi d’outiller des langues habituellement délaissées. Nous avons la volonté de rapprocher les communautés de linguistes computationnels et de terrain avec les spécialistes des corpus et des langues peu dotées pour mettre au point une plate-forme commune.

Objectifs

  1. Construire une communauté de linguistes de terrain, de linguistes computationnels et de spécialistes des corpus et des langues peu dotées autour du projet Déméter”

  2. Créer des outils autour de nos métagrammaires :

    • un système commun permettant de créer des grammaires à partir de généralisations linguistiques prédéfinies (un ensemble de librairies)

    • une plate-forme en ligne pour les héberger et permettre aux linguistes de traiter leurs données

  1. Rassembler des corpus qui serviront à développer de nouvelles métagrammaires à partir des ressources existantes

  2. Faciliter les collaborations entre linguistes et spécialistes de la description de ressources linguistiques et proposer une formation en ligne pour utiliser ces outils et les formalismes

Impact, résultats attendus pour le GdR et axes concernés

  • Mise en place d’une plate-forme pour outiller la linguistique de terrain, avec des ressources adaptées aux différents moyens de description et une formation pour les utiliser (axes 1 et 5). Nous envisageons une première version à l’automne 2020.

  • Mutualisation des travaux sur les métagrammaires générant notamment des TAG1, création d’une structure permettant d’utiliser des généralisations linguistiques venant de métagrammaires existantes (axe 4)

  • Favoriser le développement de métagrammaires, puis les interactions avec des méthodes statistiques et neuronales (axe 4)

  • Pérenniser des systèmes symboliques et accélérer le traitement de nouvelles langues (axes 3, 4 et 5)

  • Mise en relation des descriptions de langues peu dotées avec des formalismes mathématiques (axe 1)

Agenda

  1. Rassembler une communauté et définir les actions envisagées et les équipes dédiées

  2. Dresser un état des lieux de la couverture syntaxique des métagrammaires existantes

  3. Travaux en équipes

  4. Mise en ligne de la plate-forme avec des librairies combinables en une métagrammaire, un espace pour tester des descriptions linguistiques, une formation à l’utilisation des outils et des ressources…

  5. Mise à l’épreuve de la plate-forme pour quelques langues définies au préalable

  6. Rassembler et construire des corpus annotés

  7. Développement continu (au delà du GDR LIFT) 

1 Les grammaires d’arbres adjoints (TAG) sont un formalisme grammatical basé sur la réécriture d’arbres.