LINGUATEC IA, un projet pour progresser dans la voie de la numérisation de l’aragonais, du catalan, de l’euskera et de l’occitan grâce à l’intelligence artificielle

15 January, 2024 By


Ce projet européen transpyrénéen et transfrontalier jette les bases du développement de la connaissance en intelligence artificielle applicable aux langues avec peu de moyens de part et d’autre des Pyrénées ; son objectif est d’appliquer de nouveaux modèles de langage génératifs dans ces langues.

Le traitement du langage est un outil puissant pour les communautés dont les langues n’ont que peu de moyens puisqu’il permet de donner un nouveau souffle à la langue et d’encourager son utilisation de manière effective. Pour ces langues il est d’une importance vitale de surfer sur la vague de l’intelligence artificielle pour ne pas risquer d’être marginalisées. La qualité qu’a atteinte le traitement du langage naturel n’est pas à la portée de toutes les langues et la collaboration est fondamentale pour développer de nouvelles ressources et de nouveaux outils linguistiques. Il s’avère nécessaire de redoubler d’efforts en matière d’innovation en misant sur la recherche appliquée à l’intelligence artificielle dans le traitement du langage naturel.

L’objectif du projet européen EFA 104/01-LINGUATEC IA (Intelligence artificielle) co-financé par le Fonds européen de développement régional dans le cadre du 1er appel INTERREG POCTEFA 2021-2027, est de développer les connaissances en matière d’intelligence artificielle sur de nouveaux modèles de langage génératifs applicables aux langues disposant de peu de moyens et d’encourager leur utilisation pour progresser sur la voie de la numérisation de l’aragonais, du catalan, de l’euskera et de l’occitan (langues du territoire POCTEFA) afin de construire une infrastructure linguistique et intelligente transfrontalière facilitant la communication entre les locuteurs des différentes langues et l’accès multilingue à l’information.

Le consortium de ce projet transfrontalier – piloté par Elhuyar (au moyen de son centre d’intelligence artificielle Orai) et qui réunit Lo Congrés Permanent de la Lenga Occitana, HITZ zentroa (UPV/EHU), l’Université Jean Jaurès de Toulouse, l’Université de Perpignan, IKER-CNRS de Bayonne, le Gouvernement d’Aragon et l’Université de Lleida— a défini les bases de travail lors de sa réunion initiale tenue le 15 janvier à Usurbil (Gipuzkoa). Le consortium est composé d’organismes de haut niveau qui constituent une communauté scientifique autour des six langues des Pyrénées afin de les récupérer et les revitaliser. Ce projet contribue à l’articulation sociale et culturelle du territoire transfrontalier en renforçant un élément clé de la culture locale, les langues.

Les organismes intégrés dans le projet travaillent déjà dans divers domaines en rapport avec le traitement du langage, comme le développement de nouveaux algorithmes et architectures neuronales adaptés aux situations informatiques et aux ressources linguistiques limitées. L’objectif est également d’améliorer les systèmes de transcription, de traduction automatique neuronale et de synthèse vocale de l’euskera, du catalan, de l’occitan, de l’aragonais et de leurs variantes dialectiques, combinés au français et à l’espagnol, ainsi que développer une plateforme linguistique multilingue de sous-titrage et de doublage automatique. Nous avons également prévu de créer une plateforme ou un répertoire en ligne contenant toutes les ressources, les technologies et les applications que nous développerons pour les langues des Pyrénées.

Les organismes intégrés dans ce projet sont convaincus que leur travail sera très utile à la communauté de chercheurs et d’experts travaillant actuellement dans le domaine des langues et de leur numérisation ainsi qu’aux organismes publics et privés qui pourront améliorer leurs services et les rendre accessibles en plusieurs langues ; ils sont fiers d’apporter au grand public les ressources et les outils pertinents qui les aidera à communiquer plus facilement dans un environnement multilingue.

Le projet LINGUATEC IA n’est pas nouveau. Ce projet vient prendre le relais de LINGUATEC, projet à l’origine co-financé par des fonds POCTEFA, à présent terminé. Au cours de ses trois années de réalisation et grâce au très bon niveau de développement atteint, les parties prenantes ont fait des progrès stratégiques et ont pu consolider un réseau d’excellence en intelligence artificielle pour la construction d’une infrastructure linguistique transfrontalière.