Un modèle de lengatge ensenhat entà l’occitan

19 February, 2026 By

L’occitan qu’a besonh d’un modèle de lengatge ensenhat entà poder susvíver dens lo mond numeric. La mort numerica d’ua lenga que desemboca cap tà la soa mort definitiva. Qu’ei indispensable que las lengas desirosas de susvíver dens lo mond numeric e desvolòpen mejans tecnologics entad aquò har, e los modèles de lengatge que son adara los apèrs de basa deu procediment. L’occitan qu’a donc tanben besonh d’un modèle de lengatge ensenhat : qu’ei a díser que hè besonh que dispause de modèles de lengatges capables de compilar, compréner e respóner a las demandas deus usatgèrs.

Los gigants tecnologics qu’an dejà en la lor possession modèles de lengatge ensenhats entà l’occitan, mes que’us apartienen e dab aquò que son eths qui prenen las decisions. La comunautat lingüistica occitana n’a pas nat poder entà influenciar aqueras decisions, qu’ei donc important qu’aquera comunautat e las lengas minorizadas deu son environament e desvolòpen los lors apèrs tecnologics pròpis  entà poder decidir de la lor utilizacion e de la faiçon de quin son utilizats.

Un modèle de lengatge ensenhat que compòrta duas parts. De l’ua part lo quite modèle de lengatge : un modèle capable de crear tèxte, qu’ei a díser capable de maridar lo mot seguent dab un tèxte a mieitat redigit e d’ac completar entà crear un tèxte coërent, solide, gramaticaument corrècte e dont lo contiengut deu har sens ; en d’autes tèrmis que deurà estar lo rebat d’ua coneishença generau deu mond. D’auta part lo modèle de lengatge ensenhat qu’ei capable de compréner çò qui’u demanda l’usatgèr e de’u prepausar resultats qui respónian corrèctament a las soas demandas. Qu’ei donc un modèle capable de respóner a las questions deus usatgèrs.

« L’un deus objectius deu projècte Linguatec-IA qu’ei de crear un modèle de lengatge ensenhat entà l’occitan – c’explica Xabier Arregi, cercaire deu centre HiTZ – . Que devem entad aquò har començar de compilar dadas sus l’occitan. Qu’arrecaptam las quauquas dadas dont dispausam e que las classam. Que disi las quauquas dadas per’mor  hòrt chic de dadas que son disponiblas entà l’occitan, au par d’autas lengas mei espandidas. Qu’avem d’un aute costat devut har cap a un empach suplementari, l’occitan qu’a un sarròt de dialèctes mes pas de lenga estandard, çò qui complica beròi aqueth procediment e totas las estapas seguentas ».

Un còp las dadas compiladas, la fasa experimentau d’entrainament entà crear modèles qu’estó aviada. Entad aquò har, « qu’emplegam la medisha estrategia com la tà l’euskara ; que ns’èm basats sus un modèle de lengatge dejà concebut. Que decidim d’emplegar lo modèle Llama 3.1, un modèle multilingüe mes qui coneish mei que mei l’anglés. Que partim donc d’aqueth modèle e que contunèm a l’entrainar entà que presentèsse tanben contienuts o tèxtes en occitan ». L’equipa de recèrca qu’a realizat dus ensais diferents. « Que poirem díser qu’entà crear lo modèle ensenhat de l’occitan, que ns’èm servits d’un metòde utilizat peu centre Orai d’Elhuyar e d’un aute utilizat peu centre Hitz. Qu’avem creat los dus prumèrs modèles de lengatge ensenhats a partir d’aqueras duas experiéncias », ce horneish Arregi. Aqueths modèles que son resultats de laboratòri e « qu’èm a avalorar la lor capacitat a realizar de faiçon satisfasenta las tascas qui’us hidam. Qu’èm adara en fasa d’avaloracion, que verificam per exemple lo lor foncionament tà çò de la traduccion automatica », c’explica Arregi .