Datathon 2021 — Bilan

Le Groupement de recherche « Linguistique Informatique, Formelle et de Terrain (GDR LIFT) et la plateforme Collection de Corpus Oraux Numériques (Cocoon) organisaient à Orléans un atelier « Datathon de la parole » de quatre demi-journées du lundi 8 novembre 2021 au mercredi 10 novembre. L’événement s’inscrivait également dans le cadre des activités soutenues par le consortium CORLI de la Très Grande Infrastructure de Recherche Huma-Num  et par l’nstitut des Langues Rares (ILARA) de l’École Pratique des Hautes Études. L’appel à participation était ouvert à tous les chercheurs, chercheuses et doctorant.e.s qui ont un jeu de données orales et souhaitent en ouvrir l’accès (à diverses fins, y compris sa ré-utilisation à des fins de recherche nouvelles). Ce billet présente un rapide bilan, en forme d’invitation à prendre contact si vous seriez intéressé·e à participer à une réédition de cet événement en 2022.

L’atelier fournissait un cadre dans lequel travailler à la description des ressources et de leur contexte de production, en vue d’une publication électronique des données. Au fil des quatre demi-journées, les travaux pratiques (sur des jeux de données de participant.e.s) ont alterné avec des présentations générales visant à situer les enjeux et stratégies, dans un contexte de Science ouverte : dépôt, archivage et diffusion ; description des données et référencement ; articulation entre données, outils et publications. Les thématiques abordées couvraient les finalités aussi bien que les dimensions spécifiques du plan de gestion de données que sont le plan de classement, le plan de nommage, le formatage et autres étapes qui permettent d’aboutir au dépôt en archive dans les règles de l’art, dépôt qui ouvre les données à de nouvelles utilisations et recherches, dans une logique cumulative.

L’événement était hébergé à l’
Hôtel Dupanloup (qui abrite le Centre international universitaire pour la recherche). Y participaient dix déposants de divers labos (LLL, BCL [Nice], CRLAO, LLACAN, LACITO, FoReLLIS [Poitiers]) et huit organisateurs et formateurs / tuteurs (Huma-Num, BnF, LLL, LACITO, Laboratoire de Phonétique et Phonologie).

Tous les participants sont confirmés dans leur projet de déposer des données de terrain (collectées de première main) sur une plate-forme professionnelle pour archivage et diffusion. Parmi les points appréciés des déposant(e)s :
  • Le contact avec les personnes qui ont monté (et font vivre) la plate-forme Cocoon, et avec une personne du département audiovisuel de la BnF
  • Le choix de travailler sur des exemples précis (mode Travaux pratiques)
  • Le dialogue constant entre déposants et formateurs. Photo : Emmanuel Schang (licence : CC BY-NC-SA 3.0 fr)

Il reste bien sûr, pour certains participants, des incertitudes à lever concernant la publication de certains corpus. Un consentement « non standard » recueilli auprès des locuteurs (ou souvent l’absence de document attestant du consentement) est un frein. Les infos juridiques reçues de sources diverses sont parfois contradictoires, d’où une impression de flou, et une indécision. Des pistes ont été fournies afin de permettre à chacun·e d’avancer sur ce point aussi, notamment en renvoyant au groupe « Questions éthiques et juridiques » du consortium Huma-Num CORLI.

Au-delà du but premier (diffusion du rudiment d’archivistique dont les déposants ont besoin), le Datathon a fourni l’occasion de constater un vif intérêt des déposant·e·s pour la vie des corpus après leur dépôt. Les corpus comme point de rencontre entre linguistes et TAListes, entre linguistes et locuteurs des langues concernées, entre linguistes de diverses spécialités : c’est une perspective qui encourage clairement au dépôt.

Comme indiqué en introduction : n’hésitez pas à prendre contact (en écrivant à flora.badin@univ-orleans.fr et/ou alexis.michaud@cnrs.fr) si vous seriez intéressé·e à participer à une réédition de cet événement en 2022. Les informations souhaitées :

  • langues concernées (on donnera la priorité aux langues peu documentées de tous les continents)
  • description succincte du projet scientifique dans le cadre duquel les données ont été collectées
  • description des données : type de données, format et quantité (des données primaires : les enregistrements audio et/ou vidéo, ainsi que des données secondaires : transcription, annotation, traduction)
  • perspectives d’enrichissement futur

Les organisateurs: Flora Badin, Emmanuel Schang, Séverine Guillaume, Michel Jacobson, Audrey Viault, Alexis Michaud

Laboratoires organisateurs : LLL et LACITO

Ce contenu a été publié dans Conférence / Atelier, Événement. Vous pouvez le mettre en favoris avec ce permalien.