Axe 1 – Extraction de généralisations linguistiques par des méthodes informatiques

Présentation

La linguistique a pour objet l’étude de la langue. Elle vise notamment à extraire des généralisations et à identifier des invariants à l’intérieur d’une langue ou entre langues d’une même famille, ainsi que des universaux (syntaxiques, sémantiques, morphologiques et phonétiques). Lorsque des données sont disponibles, les méthodes d’apprentissage automatique et d’apprentissage profond exploitées dans le domaine du TAL peuvent permettre d’apprendre ces invariants ou d’extraire des généralisations de façon automatique ou tout au moins, de proposer une première analyse qui pourra guider le linguiste dans son étude. Ainsi par exemple, la phylogénétique computationnelle permet de créer, à partir de données informatisées sur les cognats, des arbres phylogénétiques. De même les ressources multilingues annotées (e.g., Universal dependencies ) créées par la communauté du TAL peuvent être utilisées, en combinaison avec des méthodes d’apprentissage, pour assister les typologues dans le travail qui consiste à classifier les propriétés des systèmes linguistiques et à établir des régularités de variation linguistique en fonction de critères appris à partir des données.

Un point important concerne l’interprétation des modèles produits par les réseaux de neurones. Ces modèles sont difficiles à appréhender, mais le fait qu’ils fournissent à l’heure actuelle les meilleurs résultats sur un certain nombre de tâches (par exemple en parsing ou en traduction automatique) rend nécessaire une exploration approfondie de leur contenu, même si celui-ci ne se laisse pas lire aussi facilement qu’un modèle symbolique ou même un modèle produit par des méthodes d’apprentissage classique. On peut imaginer tirer des informations précieuses d’une meilleure connaissance de ces modèles, avec potentiellement des conséquences sur le plan linguistique. De même, la notion de modèles multilingues a récemment montré son potentiel et on peut y voir deux intérêts complémentaires : d’une part identifier des points de convergence entre les langues (sur la base des proximités et regroupements opérés automatiquement par le système d’analyse) et d’autre part ces approches multilingues sont très efficaces pour traiter des langues peu dotées (par exemple pour mettre au point un analyseur syntaxique efficace pour une langue sans données annotées). Enfin, les modèles issus de l’approche distributionnelle sur la sémantique lexicale ouvrent également des perspectives intéressantes. Elles peuvent permettre par exemple d’étudier l’influence du contexte sur le sens des expressions lexicales ou encore d’explorer, à travers les langues, la distinction entre expressions fonctionnelles de classe fermée dites « universelles » et expressions de classe ouverte.

Ce premier axe vise d’une part, à promouvoir l’utilisation des méthodes de TAL dans la découverte d’invariants et de généralisations linguistiques et d’autre part, à stimuler le développement de méthodes informatiques permettant l’extraction de généralisations à partir de données rares . L’apport d’autres domaines de l’informatique à la linguistique pourra également être pris en compte comme par exemple, celui de la théorie des types, conçue pour la mathématique constructive et utilisée dans les langages de programmation pour la sémantique des langues naturelles (voir les travaux de Robin Cooper en Suède, Zhaohui Luo en Angleterre ou Nicholas Asher en France); celui de la méthode des continuations issue de l’informatique théorique pour la formulation d’une sémantique dynamique prenant en compte le contexte (voir les travaux de Philippe de Groote, Sylvain Pogodalla à Nancy) ou encore celui de la théorie des jeux utilisée en vérification de programmes pour la modélisation de la structure conversationnelle. On pourrait même ajouter un quatrième thème de l’informatique pertinente à la linguistique: la robotique a fait beaucoup de progrès et est sur le point d’intégrer de façon importante des données conversationnelles avec des données visuelles, une tâche qui intéressera tout linguiste intéressé dans la communication située ou communication gestuelle.

Contacts

Cet axe est coordonné par :