El primer sistema massiu d'Inteligencia Artificial de la llengua espanyola, MarIA, comença a resumir i generar textos

10/11/2021

Cinc mesos després del seu llançament, el sistema expandeix les seues capacitats per a utilitzar el llenguatge. Les aplicacions creatives i empresarials, i aquelles relacionades amb la digitalització de l'Administració Pública augmenten

MarIA ha sigut creat a Barcelona Supercomputing Center – Centre Nacional de Supercomputación, entrenat amb més de 135 mil milions de paraules de l'arxiu web de la Biblioteca Nacional i impulsat per la Secretaria d'Estat de Digitalització i Intel·ligència Artificial, dins dels objectius de l'Estratègia Nacional d'Intel·ligència Artificial i del Pla de Recuperació

El projecte s'emmarca també en el PERTE per al desenvolupament d'una economia digital en espanyol

Pel volum i capacitats de Maria, la llengua espanyola se situa en el tercer lloc dels idiomes que disposen de models massius d'accés obert, després de l'anglés i el mandarí

Se publica en obert perquè els desenvolupadors d'aplicacions el puguen utilitzar en infinitat d'usos

El projecte Maria, el sistema de models de llengua creat al Barcelona Supercomputing Center – Centre Nacional de Supercomputación (BSC-CNS), a partir dels arxius web de la Biblioteca Nacional d'España (BNE) i impulsat per la Secretaria d'Estat de Digitalització i Intel·ligència Artificial (SEDIA) en el marc del Pla de Tecnologies del Llenguatge, ha avançat en el seu desenvolupament i la seua nova versió permet resumir textos existents i crear nous textos a partir de titulars o de paraules.

El projecte Maria, el sistema de models de llengua creat al Barcelona Supercomputing Center – Centre Nacional de Supercomputación (BSC-CNS), a partir dels arxius web de la Biblioteca Nacional d'Espanya (BNE) i impulsat per la Secretaria d'Estat de Digitalització i Intel·ligència Artificial (SEDIA) en el marc del Pla de Tecnologies del Llenguatge, ha avançat en el seu desenvolupament i la seua nova versió permet resumir textos existents i crear nous textos a partir de titulars o de paraules.

El projecte Maria és el primer sistema d'intel·ligència artificial massiu i expert a comprendre i escriure en llengua espanyola. Pel seu volum i capacitats, ha situat a la llengua espanyola en el tercer lloc dels idiomes que disposen de models massius d'accés obert, després de l'anglés i el mandarí. S'ha construït a partir del patrimoni documental digital de la Biblioteca Nacional d'Espanya, que rastreja i arxiva les webs elaborades en espanyol i s'ha entrenat amb el supercomputador Marenostrum 4. I es publica en obert perquè els desenvolupadors d'aplicacions, companyies, grups de recerca i la societat en general el puguen utilitzar en infinitat d'ús.

Els últims avanços de Maria constituïxen una fita en la consecució d'objectius de l'Estratègia Nacional d'Intel·ligència Artificial i del Pla de Recuperació, Transformació i Resiliència, amb els quals Espanya pretén liderar a nivell mundial el desenvolupament d'eines, tecnologies i aplicacions per a la projecció i ús de la llengua espanyola en els àmbits d'aplicació de la IA. En concret, el Pla Nacional de Tecnologies del Llenguatge en el qual s'emmarca este projecte, té com a objectiu fomentar el desenvolupament del processament del llenguatge natural, la traducció automàtica i els sistemes conversacionals en llengua espanyola i llengües cooficials.

Modelos per a comprendre la llengua i models per a generar textos

Un model de llenguatge és un sistema d'intel·ligència artificial format per conjunt de xarxes neuronals profundes que han sigut entrenades per a adquirir una comprensió de la llengua, del seu lèxic i dels seus mecanismes per a expressar el significat i escriure a nivell expert. Estos models estadístics complexos que relacionen paraules en textos de manera sistemàtica i massiva, són capaces de “entendre” no sols conceptes abstractes, sinó també el context d'aquests. Amb estos models, els desenvolupadors de diferents aplicacions poden crear eines per a múltiples usos, com classificar documents o crear correctors o eines de traducció.

La primera versió de Maria va ser elaborada amb RoBERTa, una tecnologia que crea models del llenguatge del tipus “codificadors”. Este tipus de models, donada una seqüència de text, generen una interpretació que pot servir per a, per exemple, classificar documents, respondre a preguntes tipus test, trobar similituds semàntiques en diferents redactats o detectar els sentiments que s'expressen en ells.

La nova versió ha sigut creada amb GPT-2, una tecnologia més avançada que crea models generatius descodificadors i afig prestacions al sistema. Els models descodificadors, donada una seqüència de text poden generar nous textos. Amb això, poden servir, per exemple, per a fer resums automàtics, simplificar redactats complicats a la mesura de diferents perfils d'usuari, generar preguntes i respostes, mantindre diàlegs complexos amb els usuaris i fins i tot redactar textos complets (que podrien paréixer escrits per humans) a partir d'un titular o d'un xicotet nombre de paraules

Estes noves capacitats converteixen a Maria en una eina que, amb entrenaments “ad hoc” adaptats a tasques específiques, pot ser de gran utilitat per a desenvolupadors d'aplicacions, empreses i administracions públiques. Per exemple, els models que fins ara s'han desenvolupat en anglés s'utilitzen per a generar suggeriments de text en aplicacions d'escriptura, per a resumir contractes o els complicats documents que detallen les prestacions d'un producte, en funció del que vol saber cada usuari, i per a buscar informacions concretes dins de grans bases de dades de text i relacionar-les amb altres informacions rellevants.

“Amb projectes com Maria, que es veuran incorporats al ‘PERTE per al desenvolupament d'una economia digital en espanyol,’ fem passos ferms cap a una intel·ligència artificial que pense en espanyol, la qual cosa multiplicarà les oportunitats econòmiques per a les empreses i la indústria tecnològica espanyola. Perquè la llengua és molt més que un mitjà de comunicació. És una projecció de la forma que tenim de veure el món, també en la nova realitat digital”, assenyala la secretària d'Estat de Digitalització i Intel·ligència Artificial, Carme Artigas.

“Com a institució responsable del depòsit legal electrònic, la Biblioteca Nacional d'Espanya (BNE) conserva milions de llocs web, milions de paraules que es repeteixen en un context determinat i que són producte de moltes recol·leccions de la web espanyola, tant de dominio.es com a selectives, realitzades des de fa anys pels equips de la BNE, la qual cosa conforma el gran corpus de l'espanyol que hui es parla al nostre país — Explica Ana Santos, directora de la BNE—. Per a nosaltres és una gran satisfacció que estos arxius resulten d'utilitat per a este projecte pioner, basat en tecnologies d'intel·ligència artificial, que permetrà que les màquines puguen comprendre i escriure en llengua espanyola, la qual cosa suposa una fita en el camp del processament del llenguatge natural”

“Agraïm la iniciativa de la SEDIA d'impulsar temes de futur, com la potenciació de l'idioma espanyol en el món digital i l'entorn de la IA — afirma el director del BSC-CNS, Mateo Valero—. Estem encantats de posar els nostres experts en llenguatge natural i intel·ligència artificial i la capacitat de càlcul de les nostres infraestructures al servei dels reptes rellevants per a la societat, com al que dóna resposta esta iniciativa”.

Entrenada amb més de 135 mil milions de paraules i 9,7 trilions d'operacions

En els models del llenguatge, el nombre de paràmetres amb els quals s'entrena el sistema és l'element que els aporta major capacitat de generalització i, per tant, intel·ligència. Les dades de la Biblioteca Nacional amb els quals s'ha entrenat Maria estan constituïts per més de 135 mil milions de paraules (135.733.450.668, concretament), que ocupen un total de 570 Gigabytes.

Per a crear i entrenar a Maria s'ha utilitzat el supercomputador Marenostrum del BSC i ha sigut necessària una potència de càlcul de 9,7 trilions d'operacions (969.ex