Un model de llenguatge instruït per a l’occità

25 febrer, 2026 By

“Un dels objectius del projecte Linguatec-IA és crear un model de llenguatge instruït per a l’occità”, explica Xabier Arregi, investigador del centre HiTZ. El model de llenguatge instruït és capaç de comprendre el que li demana la persona usuària i oferir resultats que responguin adequadament a aquestes peticions. És un model, per tant, capaç de respondre a les peticions de la persona usuària. “Per això, primer vam començar a recopilar dades de l’occità. Vam recopilar les poques dades amb què comptàvem i les vam ordenar. Dic poques perquè l’occità compta amb molt poques dades si ho comparem amb les llengües majoritàries. A més, vam tenir una dificultat addicional, ja que l’occità té moltes variants dialectals i no té una varietat estàndard, cosa que complica considerablement aquest procés i tots els passos posteriors.”

Un cop recopilades les dades, es va iniciar la fase experimental, és a dir, les tasques d’entrenament per crear models. Per això, “utilitzem la mateixa estratègia que hem fet servir per a l’euskera: ens hem basat en un model de llenguatge ja elaborat anteriorment. Decidim utilitzar el model Llama 3.1, un model multilingüe, però que sap principalment anglès. Això ens va permetre partir d’aquest model i seguir entrenant-lo perquè mostrés també continguts o textos en occità”.

L’equip investigador ha fet dues proves diferents. “Per crear el model instruït de l’occità hem utilitzat un mètode utilitzat pel centre Orai d’Elhuyar i un altre utilitzat pel centre Hitz. Per tant, hem creat els dos primers models de llenguatge instruïts a partir d’aquests dos experiments”, afegeix Arregi. Aquests models són, d’alguna manera, resultats de laboratori i “ara estem avaluant la seva capacitat per completar satisfactòriament les tasques que els demanem. En aquest moment ens trobem en aquesta fase d’avaluació, comprovant, per exemple, com funcionen amb la traducció automàtica”, explica Arregi.