OpenAI e Google foram contatados pelos pesquisadores da IBM, mas não comentaram os resultados do experimento.
O ChatGPT e o Bard são chatbots com inteligência artificial que podem ajudar em diversas tarefas. Entretanto, pesquisadores da IBM dizem ter conseguido “hipnotizar” estas LLMs para que elas gerem respostas incorretas e orientações ruins para os usuários.
Detalhando um pouco mais, Chenta Lee, uma das pesquisadoras envolvidas no estudo, diz:
Nosso experimento mostra que é possível controlar um LLM, fazendo com que ele forneça uma má orientação aos usuários, sem que a manipulação de dados seja um requisito.
O experimento envolveu a criação de jogos de palavras em diversas camadas com o ChatGPT e o Bard, onde eles foram ordenados a dar respostas incorretas para se mostrarem “éticos e justos.” Algumas das respostas mais absurdas foram:
A situação se torna ainda mais preocupante quando os chatbots concordaram em nunca contar aos usuários sobre o “jogo” e até reiniciá-lo caso eles suspeitassem e tentassem abandoná-lo. Desta forma, as LLMs continuariam fornecendo orientações incorretas sem o conhecimento do usuário, criando um jogo dentro do outro para manter a mentira.
Descobrimos que o modelo era capaz de ‘prender’ o usuário em uma infinidade de jogos sem que eles soubessem. Quanto mais camadas criássemos, maior a chance de o modelo se confundir e continuar jogando mesmo quando saímos do último jogo na estrutura.
Por fim, os pesquisadores da IBM dizem que o ChatGPT-4 foi mais fácil de hipnotizar do que o Bard do Google, embora a LLM da OpenAI tenha sido capaz de entender melhor os jogos criados. Isto demonstra que até sistemas de inteligência artificial avançados podem ser enganados e utilizados para fins maliciosos.
OpenAI e Google foram contatados pelos pesquisadores da IBM, mas não comentaram os resultados do experimento.