Un modelo de lenguaje instruido para el occitano
El occitano necesita un modelo de lenguaje instruido para poder sobrevivir en el mundo digital. La muerte digital de una lengua conduce a su muerte definitiva. Es imprescindible que las lenguas que quieran sobrevivir en el mundo digital desarrollen tecnología, y en la actualidad los modelos de lenguaje son una de las herramientas básicas en ese proceso. Por lo tanto, el occitano necesita también un modelo de lenguaje instruido; es decir, debe contar con modelos de lenguaje capaces de recopilar, comprender y dar respuesta a las peticiones de las personas usuarias.
Los gigantes tecnológicos cuentan ya con modelos de lenguaje instruidos para el occitano, pero esos modelos están en manos de dichos gigantes y son ellos quienes toman las decisiones. La comunidad lingüística occitana no tiene posibilidad alguna de influir en esas decisiones, por lo que es importante que dicha comunidad y las lenguas minorizadas de su entorno desarrollen su propia tecnología para poder tomar decisiones sobre su uso y la manera en que se emplea.
Un modelo de lenguaje instruido consta de dos componentes. Por una parte, el propio modelo de lenguaje: un modelo capaz de crear texto, es decir, capaz de unir la siguiente palabra a un texto a medio componer y así completarlo, para crear un texto que deberá ser necesariamente coherente, gramaticalmente correcto y cuyo contenido deberá estar dotado de sentido; es decir, deberá reflejar un conocimiento general del mundo. Por otra parte, el modelo de lenguaje instruido es capaz de comprender lo que le pide la persona usuaria y de ofrecer resultados que respondan adecuadamente a dichas peticiones. Es un modelo, por tanto, capaz de responder a las peticiones de la persona usuaria.
“Uno de los objetivos del proyecto Linguatec-IA es crear un modelo de lenguaje instruido para el occitano —explica Xabier Arregi, investigador del centro HiTZ—. Para ello, primero empezamos a recopilar datos del occitano. Recopilamos los pocos datos con los que contábamos y los ordenamos. Digo pocos porque el occitano cuenta con muy pocos datos si lo comparamos con las lenguas mayoritarias. Además, tuvimos una dificultad adicional, ya que el occitano tiene muchas variantes dialectales y carece de una lengua estándar, lo que complica considerablemente este proceso y todos los pasos posteriores”.
Una vez recopilados los datos, se inició la fase experimental, es decir, las labores de entrenamiento para crear modelos. Para ello, “utilizamos la misma estrategia que hemos usado para el euskera: nos hemos basado en un modelo de lenguaje ya elaborado anteriormente. Decidimos utilizar el modelo Llama 3.1, un modelo multilingüe, pero que sabe principalmente inglés. Eso nos permitió partir de dicho modelo y seguir entrenándolo para que mostrara también contenidos o textos en occitano”.
El equipo investigador ha realizado dos pruebas diferentes. “Se podría decir que para crear el modelo instruido del occitano hemos utilizado un método usado por el centro Orai de Elhuyar y otro usado por el centro Hitz. Por lo tanto, hemos creado los dos primeros modelos de lenguaje instruidos a partir de esos dos experimentos”, añade Arregi. Dichos modelos son, de alguna manera, resultados de laboratorio y “ahora estamos evaluando su capacidad para completar de forma satisfactoria las tareas que les pedimos. En este momento nos encontramos en esa fase de evaluación, comprobando, por ejemplo, cómo funcionan con la traducción automática”, explica Arregi.
Share on Facebook Share on Twitter Share on Pinterest