Présentation
Afin de promouvoir les interactions entre membres du GDR, cet axe du projet vise à collecter les données de travail des membres du GDR dans un espace partagé ; à favoriser le partage et la réutilisabilité des données linguistiques (batteries de tests linguistiques, données orales et écrites collectées par les linguistes de terrain) ; à faciliter et à standardiser les processus d’annotation des données ; à définir et à organiser des défis scientifiques communs ; ainsi qu’à définir, à partir de ces données et autour des thématiques abordées au sein du GDR, des thématiques de travail communes comme par exemple, le traitement multi niveaux (oral, lexique, morphologie, syntaxe) d’une langue non documentée. A travers ces actions, l’objectif est de promouvoir, dans la communauté linguistique, une culture de publication où le partage des données devient un élément intégral de la communication scientifique, et où la réutilisation des données est reconnue par citation obligatoire de la publication accompagnante les données. Cette culture de partage des données a déjà bénéficié à plusieures disciplines comme par exemple la bioinformatique et l’intelligence artificielle. En France, le projet BULB a récemment mis à la disposition de la communauté un corpus de données orales collectées par des linguistes de terrain sur le Mboshi (Bantu C25) afin de permettre la reproductibilité des expériences et des évaluations faites à partir de ces données. Un objectif important du GDR est de favoriser l’émergence de telles initiatives au sein de la communauté linguistique.
Contacts
Cet axe est coordonné par :
- Valentin Vydrine (LLACAN)