Axe 3 – Outils de collecte et d’analyse pour les linguistes

Présentation    —     Ressources   —     Contact

Présentation

Cet axe possède un double objectif :

  • promouvoir l’utilisation des outils, ressources et techniques de pointe qui facilitent le travail des linguistes et en particulier des linguistes de terrain
  • concevoir de nouveaux outils et accompagner leur développement et leur déploiement

Par exemple, pour documenter les langues en voie de disparition, il est urgent de collecter et traduire des données orales dans ces langues.  Afin de faciliter ce processus, de l’accélérer, et d’améliorer ses résultats, différents outils informatiques ont récemment été proposés par des linguistes informaticiens telle l’application mobile AIKUMA[1] développée par Steven Bird qui permet d’enregistrer la parole spontanée ainsi que la traduction et la répétition, à un rythme plus lent, de ces enregistrements[2]. Cette application a désormais pour nouvel avatar LIG-AIKUMA, développée par le LIG à Grenoble, qui propose un mode “Correction” permettant au linguiste de corriger du texte (erreurs orthographiques, syntaxiques, de prononciation, etc.) et un mode «Élicitation »  permettant d’éliciter de la parole au moyen de textes, d’images ou encore de vidéos.  Exploitant la puissance et la légèreté des téléphones portables (ordiphones), ces logiciels libres permettent, d’une part, de collecter des données orales de bonne qualité, et d’autre part, d’associer ces données à des textes numériques (traduction, transcription) directement utilisables par des processus informatiques en aval, comme par exemple, l’alignement texte/parole, mais également, dans le cas où la taille des données est suffisante, la détection et la reconnaissance automatique ou semi-automatique des éléments constitutifs d’une langue (phonèmes, morphèmes, mots formes, unités lexicales, expressions phraséologiques, structures grammaticales, etc.).

Pour donner un autre exemple, il devient de plus en plus commun en linguistique théorique comme en linguistique expérimentale d’utiliser les plongements des mots et des phrases. Ces plongements sont des vecteurs numériques dérivés automatiquement des corpus de textes qui comprennent diverses informations sémantiques sur les mots. Ils permettent par exemple d’étudier les corrélations entre variantes dérivationnelles et variation sémantique, de créer des classes sémantiques ou encore de vérifier des hypothèses sur les relations lexicales. Des plongements existent pour plus de 40 langues mais ils ne sont pas facilement utilisables par les linguistes. Une plateforme telle que rusvectores.org, qui permet à chacun de consulter les propriétés des plongements des mots et de les manipuler, a de nombreuses applications possibles pour le linguiste : elle lui permet par exemple  de rechercher les voisins d’un mot dans l’espace sémantique, de calculer les distances entre les mots, de résoudre des analogies sémantiques ou encore de visualiser les mots dans un espace distributionnel. Une plateforme qui intègre des fonctionnalités similaires et des plongements  pour différentes langues permettrait de faciliter l’utilisation des plongements par les linguistes.

Un troisième exemple concerne l’homogénéisation des plateformes d’outils d’annotation, et l’aide à l’annotation ou l’enrichissement des annotations pour lesquelles de grands progrès restent possibles. Même dans une plateforme dédiée telle qu’ELAN, la transcription requiert toujours un temps considérable (plusieurs centaines d’heures de travail pour la transcription d’un corpus de quelques heures dans une langue peu décrite est une moyenne). Le recours à des outils tiers comme FLEx ou (The Field Linguist’s) Toolbox, ou encore Praat pour l’annotation phonétique/phonologique, est indispensable pour améliorer le rendement du travail des annotateurs, mais leur intégration à la plateforme de documentation prédominante, ELAN, est imparfaite (ces outils ne sont pas compatibles avec les formats multimédia aujourd’hui généralisés dans le travail de terrain, et posent en outre de multiples problèmes d’incompatibilité entre plateformes et versions). On peut parler à cet égard d’une vraie difficulté à procéder à une annotation aidée. La mise au point d’outils réellement intégrés, couvrant le plus grand nombre possible des aspects de l’annotation aidée (transcription phonémique des données orales[3], annotation lexicale, morphologique et phonologique) faciliterait le travail des linguistes et ouvrirait d’autant mieux la voie à des traitements automatisés ultérieurs.

Plus généralement, de nombreux outils et techniques développés dans le domaine du TAL peuvent contribuer à accélérer la collecte des données mais également à produire des données de meilleure qualité pour l’analyse linguistique.  L’objectif de ce troisième axe est de faire connaître ces outils et ces techniques et de promouvoir leur utilisation par les linguistes et les linguistes de terrain (par exemple au cours de séminaires et/ou écoles d’été pluri-disciplinaires). A l’inverse, les échanges entre les linguistes confrontés aux exigences de la description de terrain et les informaticiens pourront contribuer à améliorer des outils disponibles ou même à créer de nouveaux outils à partir des besoins exprimés.

[1] Bird S., Gawne L., Gelbart K. and  McAlister I. Collecting Bilingual Audio in Remote Indigenous Communities. COLING, 2014 – aclweb.org

[2] La “re-dite” vise à faciliter la transcription a posteriori des données enregistrées.

[3] Adams, Oliver, Trevor Cohn, Graham Neubig, Hilaria Cruz, Steven Bird & Alexis Michaud. 2018. Evaluating phonemic transcription of low-resource tonal languages for language documentation. Proceedings of LREC 2018 (Language Resources and Evaluation Conference), 3356–3365. Miyazaki.

Ressources

En construction (avril 2019). Voir pour commencer, pour l’oral, la liste de ressources constituée dans le cadre du Consortium « corpus oraux et multimodaux » (IRCOM), et pour l’écrit, la liste d’outils d’exploration de corpus proposée dans le cadre du consortium CORLI (Corpus, Langues et Interactions, consortium né en 2016 du rapprochement des deux consortiums de linguistique « Corpus Ecrits » et « IRCOM »).

Contact

Cet axe est coordonné par :

Tatiana Nikitina
Alexis Michaud
Angélique Amelot