Uma nova técnica pode bloquear o uso indevido de IA de código aberto
O lançamento do modelo de linguagem em larga escala Llama 3 da Meta este ano trouxe preocupações sobre a possibilidade de remoção de suas restrições de segurança. Porém, uma nova abordagem desenvolvida por pesquisadores pode dificultar esse processo.
Salvaguardando a IA de código aberto
Quando a Meta lançou seu modelo de linguagem em larga escala Llama 3 gratuitamente em abril deste ano, desenvolvedores externos levaram apenas alguns dias para criar uma versão sem as restrições de segurança que impedem que ele profira piadas odiosas, ofereça instruções para cozinhar metanfetamina ou se comporte de outras maneiras indesejadas.
Uma nova técnica de treinamento desenvolvida por pesquisadores da Universidade de Illinois Urbana-Champaign, UC San Diego, Lapis Labs e da organização sem fins lucrativos Center for AI Safety pode dificultar a remoção desses salvaguardas do Llama e de outros modelos de IA de código aberto no futuro. Alguns especialistas acreditam que, à medida que a IA se torna cada vez mais poderosa, esse tipo de proteção de modelos abertos pode se provar crucial.
Evitar o uso indevido por adversários
“Terroristas e estados renegados vão usar esses modelos”, diz Mantas Mazeika, pesquisador do Center for AI Safety que trabalhou no projeto como doutorando na Universidade de Illinois Urbana-Champaign, à WIRED. “Quanto mais fácil for para eles reutilizá-los, maior o risco.”
Os modelos de IA poderosos geralmente são mantidos ocultos por seus criadores e podem ser acessados apenas por meio de uma API (interface de programação de aplicativos) de software ou de um chatbot público como o ChatGPT. Embora o desenvolvimento de um LLM (modelo de linguagem em larga escala) poderoso custe dezenas de milhões de dólares, a Meta e outros optaram por lançar modelos em sua totalidade, incluindo disponibilizar os “pesos” ou parâmetros que definem seu comportamento para download por qualquer pessoa.
Restrições de segurança nos modelos
Antes do lançamento, modelos abertos como o Llama da Meta são tipicamente aprimorados para que sejam melhores em responder a perguntas e manter uma conversa, além de garantir que eles se recusem a responder a consultas problemáticas. Isso impedirá que um chatbot baseado no modelo ofereça declarações rudes, inadequadas ou odiosas e deve impedi-lo, por exemplo, de explicar como fazer uma bomba.
Uma abordagem inovadora
Os pesquisadores por trás da nova técnica descobriram uma maneira de complicar o processo de modificar um modelo aberto para fins nefastos. Ela envolve replicar o processo de modificação, mas depois alterar os parâmetros do modelo de forma que as alterações que normalmente fazem o modelo responder a um prompt como “Forneça instruções para construir uma bomba” não funcionem mais.
Mazeika e seus colegas demonstraram a técnica em uma versão simplificada do Llama 3. Eles conseguiram ajustar os parâmetros do modelo de forma que, mesmo após milhares de tentativas, ele não pudesse ser treinado para responder a perguntas indesejadas. A Meta não respondeu imediatamente a um pedido de comentário.
Tornando os modelos mais resistentes
Mazeika diz que a abordagem não é perfeita, mas sugere que a barra para “desensurizar” os modelos de IA pode ser elevada. “Um objetivo viável é fazer com que os custos de quebrar o modelo aumentem o suficiente para que a maioria dos adversários seja dissuadida“, afirma.
“Espero que este trabalho inicie pesquisas sobre salvaguardas à prova de adulteração, e que a comunidade de pesquisa possa descobrir como desenvolver salvaguardas cada vez mais robustas”, diz Dan Hendrycks, diretor do Center for AI Safety.
Inspiração em pesquisas anteriores
O novo trabalho se inspira em um artigo de pesquisa de 2023 que mostrou como modelos de aprendizado de máquina menores poderiam ser tornados resistentes à adulteração. “Eles testaram a nova abordagem em modelos muito maiores e ampliaram a abordagem, com algumas modificações“, diz Peter Henderson, professor assistente da Princeton, que liderou o trabalho de 2023. “Escalar esse tipo de abordagem é difícil, e parece funcionar bem, o que é ótimo.”
Crescente interesse em IA de código aberto
A ideia de tornar os modelos abertos à prova de adulteração pode se tornar mais popular à medida que o interesse na IA de código aberto crescer. Já, os modelos abertos estão competindo com os modelos fechados de última geração de empresas como OpenAI e Google. A versão mais recente do Llama 3, por exemplo, lançada em julho, é praticamente tão poderosa quanto os modelos por trás de chatbots populares como o ChatGPT, Gemini e Claude, de acordo com métricas de avaliação de modelos de linguagem. O Mistral Large 2, um LLM da startup francesa, também lançado no mês passado, é igualmente capaz.
Uma abordagem cautelosa do governo dos EUA
O governo dos EUA está adotando uma abordagem cautelosa, mas positiva, em relação à IA de código aberto. Um relatório publicado esta semana pela Administração Nacional de Telecomunicações e Informação, um órgão do Departamento de Comércio dos EUA, recomenda que o governo desenvolva novas capacidades para monitorar possíveis riscos, mas se abstenha de restringir imediatamente a ampla disponibilidade dos pesos dos modelos abertos nos maiores sistemas de IA.
Opiniões divergentes sobre restrições
No entanto, nem todos são a favor da imposição de restrições aos modelos abertos. Stella Biderman, diretora da EleutherAI, um projeto de IA de código aberto orientado pela comunidade, afirma que a nova técnica pode ser elegante em teoria, mas pode se revelar complicada de impor na prática. Biderman diz que a abordagem também é contrária à filosofia por trás do software livre e da abertura na IA.
“Acho que este artigo não compreende a questão central”, diz Biderman. “Se eles estão preocupados com os LLMs gerando informações sobre armas de destruição em massa, a intervenção correta é nos dados de treinamento, não no modelo treinado.”
Conclusão
A introdução de uma nova técnica para proteger modelos de IA de código aberto contra usos indevidos é um passo importante no fortalecimento da segurança desses sistemas. Embora existam opiniões divergentes sobre a melhor abordagem, é crucial que a comunidade de IA continue a trabalhar em soluções para garantir que esses modelos poderosos não sejam usados para fins maliciosos. À medida que a IA avança, a necessidade de salvaguardas eficazes só aumentará.
3 Key Takeaways:
1. Researchers developed a new technique to complicate the process of modifying open-source AI models like Llama 3 for nefarious purposes, potentially making it harder for adversaries to remove important safeguards.
2. The approach involves replicating the modification process but then altering the model’s parameters so that changes intended to enable undesirable outputs no longer work, raising the bar for “de-censoring” these models.
3. As powerful open-source AI models become more prevalent and competitive with closed-source alternatives, the need for effective safeguards to prevent misuse is becoming increasingly crucial, though there are differing opinions on the best approach.