El primer sistema masivo de Inteligencia Artificial de la lengua española, MarIA, empieza a resumir y generar textos
10/11/2021
El proxecto MarIA, o sistema de modelos de lingua creado no Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS), a partir dos arquivos web da Biblioteca Nacional de España (BNE) e impulsado pola Secretaría de Estado de Dixitalización e Intelixencia Artificial (SEDIA) no marco do Plan de Tecnoloxías da Linguaxe, avanzou no seu desenvolvemento e a súa nova versión permite resumir textos existentes e crear novos textos a partir de titulares ou de palabras.
El proxecto MarIA, o sistema de modelos de lingua creado no Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS), a partir dos arquivos web da Biblioteca Nacional de España (BNE) e impulsado pola Secretaría de Estado de Dixitalización e Intelixencia Artificial (SEDIA) no marco do Plan de Tecnoloxías da Linguaxe, avanzou no seu desenvolvemento e a súa nova versión permite resumir textos existentes e crear novos textos a partir de titulares ou de palabras.
El proxecto MarIA é o primeiro sistema de intelixencia artificial masivo e experto en comprender e escribir en lingua española. Polo seu volume e capacidades, situou á lingua española no terceiro posto dos idiomas que dispoñen de modelos masivos de acceso aberto, despois do inglés e o mandarín. Construíuse a partir do patrimonio documental dixital da Biblioteca Nacional de España, que rastrexa e arquiva as webs elaboradas en español e adestrouse co supercomputador MareNostrum 4. E publícase en aberto para que os desenvolvedores de aplicacións, compañías, grupos de investigación e a sociedade en xeral poder utilizar en infinidade de uso.
Os últimos avances de MarIA constitúen un fito na consecución de obxectivos da Estratexia Nacional de Intelixencia Artificial e do Plan de Recuperación, Transformación e Resiliencia, cos que España pretende liderar a nivel mundial o desenvolvemento de ferramentas, tecnoloxías e aplicacións para a proxección e uso da lingua española nos ámbitos de aplicación da IA. En concreto, o Plan Nacional de Tecnoloxías da Linguaxe no que se enmarca este proxecto, ten como obxectivo fomentar o desenvolvemento do procesamento da linguaxe natural, a tradución automática e os sistemas conversacionales en lingua española e linguas cooficiais.
Modelos para comprender a lingua e modelos para xerar textos
Un modelo de linguaxe é un sistema de intelixencia artificial formado por conxunto de redes neuronais profundas que foron adestradas para adquirir unha comprensión da lingua, do seu léxico e dos seus mecanismos para expresar o significado e escribir a nivel experto. Estes modelos estatísticos complexos que relacionan palabras en textos de modo sistemático e masivo, son capaces de “entender” non só conceptos abstractos, senón tamén o contexto dos mesmos. Con estes modelos, os desenvolvedores de diferentes aplicacións poden crear ferramentas para múltiples usos, como clasificar documentos ou crear correctores ou ferramentas de tradución.
La primeira versión de MarIA foi elaborada con RoBERTa, unha tecnoloxía que crea modelos da linguaxe do tipo “codificadores”. Este tipo de modelos, dada unha secuencia de texto, xeran unha interpretación que pode servir para, por exemplo, clasificar documentos, responder a preguntas tipo test, atopar similitudes semánticas en diferentes redactados ou detectar os sentimentos que se expresan neles.
La nova versión foi creada con GPT-2, unha tecnoloxía máis avanzada que crea modelos generativos decodificadores e engade prestacións ao sistema. Os modelos decodificadores, dada unha secuencia de texto poden xerar novos textos. Con iso, poden servir, por exemplo, para facer resumos automáticos, simplificar redactados complicados á medida de diferentes perfís de usuario, xerar preguntas e respostas, manter diálogos complexos cos usuarios e mesmo redactar textos completos (que poderían parecer escritos por humanos) a partir dun titular ou dun pequeno número de palabras
Estas novas capacidades converten a MarIA nunha ferramenta que, con adestramentos “ad hoc” adaptados a tarefas específicas, pode ser de gran utilidade para desenvolvedores de aplicacións, empresas e administracións públicas. Por exemplo, os modelos que ata agora se desenvolveron en inglés utilízanse para xerar suxestións de texto en aplicacións de escritura, para resumir contratos ou os complicados documentos que detallan as prestacións dun produto, en función do que quere saber cada usuario, e para buscar informacións concretas dentro de grandes bases de datos de texto e relacionalas con outras informacións relevantes.
“Con proxectos como MarIA, que se verán incorporados ao ‘PERCHE para o desenvolvemento dunha economía dixital en español,’ damos pasos firmes cara a unha intelixencia artificial que pense en español, o que multiplicará as oportunidades económicas para as empresas e a industria tecnolóxica española. Porque a lingua é moito máis que un medio de comunicación. É unha proxección da forma que temos de ver o mundo, tamén na nova realidade dixital”, sinala a secretaria de Estado de Dixitalización e Intelixencia Artificial, Carme Artigas.
“Como institución responsable do depósito legal electrónico, a Biblioteca Nacional de España (BNE) conserva millóns de sitios web, millóns de palabras que se repiten nun contexto determinado e que son produto de moitas recoleccións da web española, tanto de dominio.es como selectivas, realizadas desde hai anos polos equipos da BNE, o que conforma o gran corpus do español que hoxe se fala no noso país — Explica Ana Santos, directora da BNE—. Para nós é unha gran satisfacción que estes arquivos resulten de utilidade para este proxecto pioneiro, baseado en tecnoloxías de intelixencia artificial, que vai permitir que as máquinas poidan comprender e escribir en lingua española, o que supón un fito no campo do procesamento da linguaxe natural”
“Agradecemos a iniciativa da SEDIA de impulsar temas de futuro, como a potenciación do idioma español no mundo dixital e a contorna da IA — afirma o director do BSC-CNS, Mateo Valero—. Estamos encantados de pór os nosos expertos en linguaxe natural e intelixencia artificial e a capacidade de cálculo das nosas infraestruturas ao servizo dos retos relevantes para a sociedade, como ao que dá resposta esta iniciativa”.
Entrenada con máis de 135 mil millóns de palabras e 9,7 trillones de operacións
Nos modelos da linguaxe, o número de parámetros cos que se adestra o sistema é o elemento que lles achega maior capacidade de xeneralización e, por tanto, intelixencia. Os datos da Biblioteca Nacional cos que se adestrou MarIA están constituídos por máis de 135 mil millóns de palabras (135.733.450.668, concretamente), que ocupan un total de 570 Gigabytes.
Para crear e adestrar a MarIA utilizouse o supercomputador MareNostrum do BSC e foi necesaria unha potencia de cálculo de 9,7 trillones de operacións (969.ex