Visuel généré par l'IA
Visuel généré par l'IA

Selon un article publié par le quotidien espagnol El País, le gouvernement espagnol et le gouvernement autonome basque vont investir 10,5 millions d'euros d'ici à 2028 afin d'assurer la place de l'euskara dans les technologies de l'intelligence artificielle.

Le gouvernement espagnol et le gouvernement autonome basque ont signé un accord prévoyant un investissement de 10,5 millions d'euros d'ici 2028 afin de garantir l'avenir de la langue basque dans l'univers de l'intelligence artificielle. L'accord, publié au Journal officiel espagnol (BOE), part d'un constat sans détour : « le basque est une langue en danger d'extinction numérique ».

L'objectif est de renforcer la présence de l'euskara dans les outils numériques – smartphones, tablettes, montres connectées, assistants vocaux et systèmes d'intelligence artificielle – en créant un vaste corpus linguistique accessible aux chercheurs et aux développeurs.

Pour y parvenir, des milliers d'heures d'enregistrements audio et des millions de segments de texte seront collectés, annotés puis utilisés pour entraîner des modèles d'apprentissage automatique. Ces ressources permettront notamment de développer des systèmes de reconnaissance vocale, de traduction automatique et des assistants conversationnels capables de fonctionner en basque.

« Les téléphones, tablettes, montres connectées, applications et assistants numériques pourront ainsi interagir avec leurs utilisateurs en basque », précise l'accord signé par le ministre espagnol de la Transformation numérique et le conseiller basque à l'Industrie.

Un projet stratégique

Le projet est porté par l'association Euskorpora, qui réunit des acteurs publics et privés, parmi lesquels Vicomtech, Euskaltzaindia (l'Académie de la langue basque), Euskaltel, Kutxabank, Iberdrola, CAF, Petronor ou encore le groupe Mondragón.

Nous savons que le basque fera partie du nouvel environnement numérique. Soit nous serons acteurs de ce nouveau monde, soit nous serons condamnés à un rôle secondaire qui ne nous correspond pas et que nous ne souhaitons pas. - Le journal Lehendakari Imanol Pradales

La création du corpus se déroulera en trois étapes et aboutira à la mise à disposition, en open source, de ressources linguistiques et de modèles de langage utilisables par les entreprises, les chercheurs et les plateformes européennes.

Le modèle public ALIA

Le corpus alimentera également "ALIA", le grand modèle de langage développé par l'État espagnol. Contrairement aux grands modèles internationaux comme ChatGPT, Gemini ou Copilot, principalement entraînés en anglais, ALIA est conçu dès l'origine pour intégrer les langues de l'État espagnol : castillan, catalan, galicien, valencien et basque. Les données proviennent de nombreuses sources publiques, comme les débats parlementaires ou les publications scientifiques. Le gouvernement espagnol prévoit d'investir 10 millions d'euros supplémentaires dans ALIA. L'ambition est que le modèle comprenne les expressions idiomatiques, les références culturelles et les contextes propres à chacune de ces langues.

Le ministère affirme vouloir développer un modèle ouvert et transparent, même si son entraînement s'appuie également, comme la plupart des grands modèles actuels, sur Common Crawl, une immense base de données constituée à partir des contenus accessibles sur Internet.

Le projet basque pourrait également servir de modèle à d'autres langues minoritaires européennes. Pour le breton, la constitution de corpus linguistiques de qualité apparaît désormais comme un enjeu stratégique pour éviter le même risque d'« extinction numérique ». Les quelque 60 000 articles publiés par ABP pourraient, à terme, constituer une ressource publique précieuse, aux côtés des contenus produits par les médias, les institutions et des projets collaboratifs comme Wikipédia en breton. Encore faudrait-il que leur traduction en breton et leur relecture puissent être financées.

Le breton a lui aussi besoin d'investissements ambitieux pour assurer son avenir numérique. L'initiative espagnole montre qu'une politique publique volontariste est possible.

Note : Cet article a été préparé avec l'assistance d'outils d'intelligence artificielle. Les informations, la vérification des faits et la version finale demeurent sous la responsabilité du journaliste ou du responsable de la communication de l'organisation.

Philippe Argouarch

Ancien webmaster de la Wells Fargo Bank aux États-Unis puis de l’International Herald Tribune à Paris, je suis revenu en Bretagne en 2005 pour gérer et développer ABP.bzh, le média que j’avais créé en octobre 2003. Auteur de plus de 2700 articles signés et contributeur à de nombreux autres, que ce soit au sein de la rédaction ou avec l’IA.