LINGUATEC IA, un proyecto para avanzar en la digitalización del aragonés, catalán, euskera y occitano, mediante la inteligencia artificial

15 enero, 2024 By


Este proyecto europeo transpirenaico y transfronterizo ha sentado las bases para desarrollar conocimiento en inteligencia artificial aplicable a las lenguas con pocos recursos de ambos lados del Pirineo, y tiene el objetivo de aplicar nuevos modelos de lenguaje generativos en estas lenguas.

El procesamiento del lenguaje es una poderosa herramienta para las comunidades con lenguas con escasos recursos, que ayuda a revitalizar la lengua y a promover efectivamente su uso. Es de vital importancia para estas lenguas subirse a la ola de la inteligencia artificial, para no quedarse atrás. La calidad alcanzada en el procesamiento del lenguaje natural no está al alcance de todas las lenguas, y la colaboración resulta fundamental para desarrollar nuevos recursos y herramientas lingüísticas. Es preciso incrementar el esfuerzo en innovación, apostando por la investigación aplicada en inteligencia artificial en el procesamiento del lenguaje natural.

El objetivo del proyecto europeo EFA 104/01-LINGUATEC IA (Inteligencia Artificial), cofinanciado por el Fondo Europeo de Desarrollo Regional a través de la 1ª convocatoria INTERREG POCTEFA 2021-2027, es desarrollar conocimiento en inteligencia artificial sobre nuevos modelos de lenguaje generativos aplicables a lenguas con pocos recursos y su utilización para avanzar en la digitalización del aragonés, del catalán, del euskera y del occitano (lenguas del territorio POCTEFA) y en la construcción de una infraestructura lingüística e inteligente transfronteriza que facilite la comunicación entre los hablantes de las distintas lenguas y el acceso multilingüe a información.

El consorcio de este proyecto transfronterizo —liderado por Elhuyar (a través de su centro de inteligencia artificial Orai) y compuesto por Lo Congrés Permanent de la Lenga Occitana, HITZ zentroa (UPV/EHU), Universidad Jean Jaures de Toulouse, Universidad de Perpiñán, IKER-CNRS de Baiona, Gobierno de Aragón y Universidad de Lleida— ha sentado las bases de trabajo en su reunión inicial celebrada el 15 de enero en Usurbil (Gipuzkoa). El consorcio está formado por entidades de alto nivel que componen una comunidad científica en torno a las seis lenguas del Pirineo, con el objetivo de recuperarlas y revitalizarlas. Este proyecto contribuye a la articulación social y cultural del territorio transfronterizo, reforzando un elemento clave de la cultura local, las lenguas.

En ese sentido, las entidades participantes en el proyecto trabajan ya en diferentes ámbitos relacionados con el procesamiento del lenguaje, como es el desarrollo de nuevos algoritmos y arquitecturas neuronales adaptados a situaciones de cómputo y recursos lingüísticos limitados. Asimismo, se quiere mejorar los sistemas de transcripción, traducción automática neuronal y síntesis de voz del euskara, catalán, occitano, aragonés y sus variantes dialectales, que combinen con el francés y el español, así como desarrollar una plataforma lingüística multilingüe de subtitulado y doblaje automático. Además, está previsto crear una plataforma o repositorio online con todos los recursos, tecnologías y aplicaciones que desarrollemos para las lenguas de los Pirineos.

Las entidades que componen este proyecto creen que su trabajo será de gran ayuda tanto para la comunidad investigadora y profesional que trabaja en el ámbito de las lenguas y su digitalización, como para las entidades públicas y privadas que podrán mejorar sus servicios y hacerlos accesibles en diferentes idiomas, y se enorgullecen de proporcionar a la ciudadanía recursos y herramientas válidas que ayuden a comunicarse más fácil en un entorno multilingüe.

El proyecto LINGUATEC IA no es un proyecto que nace ahora. Se trata de un proyecto que recoge el testigo de LINGUATEC, proyecto previo cofinanciado con fondos POCTEFA, finalizado ya, en el que tras tres años de andadura y el alto nivel de desarrollo alcanzado, las entidades socias dieron un paso de carácter estratégico y consolidaron una red de excelencia en inteligencia artificial para la construcción de una infraestructura lingüística transfronteriza.