Un modèle de langage instruit pour l’occitan
L’occitan a besoin d’un modèle de langage instruit pour pouvoir survivre dans le monde numérique. La mort numérique d’une langue aboutit sur sa mort définitive. Il est indispensable que les langues désireuses de survivre dans le monde numérique développent des moyens technologiques pour ce faire, et les modèles de langage sont actuellement les outils de base du processus. L’occitan a par conséquent également besoin d’un modèle de langage instruit : c’est-à-dire qu’il est nécessaire qu’il dispose de modèles de langages capables de compiler, comprendre et répondre aux demandes des personnes usagères.
Les géants technologiques ont déjà en leur possession des modèles de langage instruits pour l’occitan, mais ils leur appartiennent et ceux sont eux qui prennent les décisions. La communauté linguistique occitane n’a aucun pouvoir pour influencer ces décisions, il est donc important que cette communauté et les langues minorisées de son environnement développent leur propres outils technologiques pour pouvoir décider de leur utilisation et de la manière dont ils sont utilisés.
Un modèle de langage instruit comporte deux versants : D’une part le modèle de langage même : un modèle capable de créer du texte, c’est-à-dire capable d’unir le mot suivant à un texte à moitié rédigé et de le compléter pour créer un texte nécessairement cohérent, grammaticalement correct et dont le contenu doit faire sens ; en d’autres termes il devra refléter une connaissance générale du monde. D’autre part le modèle de langage instruit est capable de comprendre ce que lui demande la personne usagère et de lui proposer des résultats répondant correctement à ses demandes. Il s’agit donc d’un modèle capable de répondre aux questions de la personne usagère.
« L’un des objectifs du projet Linguatec-IA est de créer un modèle de langage instruit pour l’occitan – explique Xabier Arregi, chercheur du centre HiTZ – . Nous devons pour ce faire commencer à compiler des données sur l’occitan. Nous recueillons les quelques données dont nous disposons et nous les classons. Je dis les quelques données parce que très peu de données sont disponibles pour l’occitan, comparé à d’autres langues majoritaires. Nous avons par ailleurs dû faire face à un obstacle supplémentaire, l’occitan a de nombreux dialectes mais pas de langue standard, ce qui complique considérablement ce processus et toutes les étapes suivantes ».
Une fois les données compilées, la phase expérimentale d’entraînement pour créer des modèles a démarré. Pour ce faire, « nous utilisons la même stratégie que celle utilisée pour l’euskera ; nous nous sommes basés sur un modèle de langage déjà conçu. Nous avons décidé d’utiliser le modèle Llama 3.1, un modèle multilingue mais qui connaît principalement l’anglais. Nous sommes donc partis de ce modèle et avons continué à l’entraîner pour qu’il présente également des contenus ou des textes en occitan ».
L’équipe de recherche a réalisé deux essais différents. « Nous pourrions dire que pour créer le modèle instruit de l’occitan, nous nous sommes servis d’une méthode utilisée par le centre Orai d’Elhuyar et d’une autre utilisée par le centre Hitz. Nous avons par conséquent créé les deux premiers modèles de langage instruits à partir de ces deux expériences », ajoute Arregi. Ces modèles sont en quelque sorte des résultats de laboratoire et « nous sommes en train d’évaluer leur capacité à réaliser de manière satisfaisante les tâches que nous leur confions. Nous sommes actuellement en phase d’évaluation, nous vérifions par exemple leur fonctionnement en ce qui concerne la traduction automatique », explique Arregi.
Share on Facebook Share on Twitter Share on Pinterest