LLMs de código aberto: O futuro da soberania digital europeia.

Recentemente, modelos de linguagem de código aberto (LLMs) ganharam destaque na agenda da soberania digital da Europa com o lançamento do projeto OpenEuroLLM, que busca desenvolver modelos abrangendo os 24 idiomas oficiais da União Europeia, além de novos candidatos à adesão. Essa iniciativa é uma resposta ao investimento crescente em tecnologia e controle local sobre infraestrutura digital, visando derrubar as barreiras estabelecidas por gigantes da tecnologia.

O que é o OpenEuroLLM?

Colaboração em Nível Europeu

O OpenEuroLLM é fruto da colaboração de cerca de 20 organizações, liderado por especialistas como Jan Hajič, um linguista computacional, e Peter Sarlin, cofundador de um laboratório de IA na Finlândia. Eles estão focados em desenvolver LLMs que não apenas sejam tecnológicos, mas que também respeitem a diversidade linguística e cultural da Europa.

Orçamento e Desafios

LLMs de código aberto: O futuro da soberania digital europeia.
Source: Techcrunch

O projeto recebeu um orçamento de 37,4 milhões de euros apenas para a construção dos modelos, o que pode parecer insignificante comparado ao que outras empresas gigantes estão investindo. Anastasia Stasenko, cofundadora da Pleias, levantou preocupações sobre se um consórcio tão amplo pode manter o foco necessário para ter sucesso. É uma dúvida válida, não é mesmo?

Expectativas e Aquele Jeitinho Europeu

Hajič espera que os primeiros modelos sejam lançados até 2026, e a versão final até 2028. Isso representa um desafio substancial, já que a base inicial de trabalho mal começou a se formar. Embora ele declare que o grupo tem experiência e conhecimento, ainda é preciso ver como tudo isso se concretiza em um modelo funcional e eficaz.

Objetivos do OpenEuroLLM

Preservação da Diversidade

O principal objetivo é criar modelos que não apenas tenham qualidade, mas que reflitam a diversidade linguística da Europa. O desafio vai além da criação de um LLM multilíngue; é essencial garantir que todas as línguas, especialmente aquelas com menos recursos digitais, sejam representadas de forma justa.

Dados e Recursos

A coleta de dados se baseia fortemente em um projeto anterior sobre tecnologias de linguagem de alto desempenho, que já disponibilizou 4,5 petabytes de dados para treinamento de modelos. Isso posiciona bem o OpenEuroLLM, mas a verdadeira questão é se eles conseguirão equilibrar a qualidade e a quantidade de dados exigidos.

A Definição de Código Aberto

Os Desafios do Código Aberto

A ideia é que o OpenEuroLLM seja um projeto verdadeiramente aberto, mas a definição de “código aberto” pode ser complicada. Existe um debate sobre se não só os modelos, mas também os dados de treinamento devem ser totalmente acessíveis. Hajič afirma que o objetivo é ter tudo o mais aberto possível, mas existem limitações, especialmente quando se trata de dados que não podem ser redistribuídos.

Cooperação em vez de Rivalidade

Outro projeto, o EuroLLM, surgiu antes do OpenEuroLLM com objetivos similares. Andre Martins, do Unbabel, ressaltou que a duplicidade pode levar a uma competição desnecessária, quando o ideal seria uma cooperação aberta entre as equipes para evitar a necessidade de reinventar a roda.

O Encontro de Ideias

Além dos desafios técnicos, o verdadeiro teste será como essas diversas organizações e suas experiências coletivas podem se unir para entregar algo de substancial para a Europa. Hajič acredita que a diversidade de expertise possa ser uma vantagem em comparação aos esforços de empresas únicas.

Expectativas de Futuro

A ideia de um modelo da EU é não apenas ser produtivo, mas também relevante e respeitoso com a soberania digital do continente. Hajič diz, “mesmo que não sejamos o modelo mais avançado, contanto que tenhamos um modelo que serve aos nossos propósitos, isso já é uma vitória”.

Conclusão

O OpenEuroLLM representa um passo significativo na busca da Europa por soberania digital na era da informação. Desafios existem, é claro, mas as oportunidades para criar algo inovador e inclusivo são ainda mais imensas. Poderão as várias entidades colaborar efetivamente para abrir novas portas e mudar o jogo com tecnologias de IA? Somente o tempo dirá, mas a esperança é que essa jornada se transforme em um modelo de desenvolvimento coletivo.

Como se diz por aí, “quem não arrisca, não petisca”. E, neste caso, a Europa está disposta a arriscar para um futuro mais autônomo e inclusivo.

Leia mais: