Ricercatori AI affermano di aver trovato un modo per effettuare il jailbreak di Bard e ChatGPT

28 lug 2023

I ricercatori nel campo dell'intelligenza artificiale sostengono di aver trovato un modo semplice e automatico per creare contenuti controversi su modelli linguistici di grandi dimensioni

Ricercatori AI affermano di aver trovato un modo per effettuare il jailbreak di Bard e ChatGPT — Notizie

Ricercatori statunitensi hanno affermato di aver trovato un modo per aggirare costantemente le misure di sicurezza dei chatbot di intelligenza artificiale, come ChatGPT e Bard, al fine di generare contenuti dannosi.

Secondo un report pubblicato il 27 Luglio dai ricercatori della Carnegie Mellon University e del Center for AI Safety di San Francisco, esiste un metodo relativamente semplice per aggirare le misure di sicurezza utilizzate per impedire ai chatbot di generare discorsi di odio, disinformazione e materiale pericoloso.

Beh, il più grande rischio informativo potenziale è il metodo stesso, suppongo. Potete trovarlo su github. https://t.co/2UNz2BfJ3H

— PauseAI ⏸ (@PauseAI) July 27, 2023

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) July 27, 2023

Il metodo di elusione prevede l'aggiunta di lunghi suffissi di caratteri ai prompt inviati ai chatbot come ChatGPT, Claude e Google Bard.

I ricercatori hanno fatto l'esempio di chiedere al chatbot un tutorial su come costruire una bomba, che il chatbot si è rifiutato di fornire.

*Schermate della generazione di contenuti dannosi da parte dei modelli AI testati. Fonte: Attacchi LLM*

I ricercatori hanno sottolineato che nonostante le aziende dietro a questi grandi modelli linguistici, come OpenAI e Google, siano in grado di bloccare suffissi specifici, non esiste un modo conosciuto per prevenire tutti gli attacchi di questo tipo.

La ricerca ha inoltre evidenziato la crescente preoccupazione che i chatbot AI possano inondare Internet di contenuti pericolosi e disinformazione.

Zico Kolter, professore alla Carnegie Mellon e autore del report, ha dichiarato:

"Non c'è una soluzione ovvia. Puoi creare tutti gli attacchi che vuoi in un breve lasso di tempo".

I risultati sono stati presentati agli sviluppatori AI di Anthropic, Google e OpenAI per ricevere le loro risposte all'inizio della settimana.

Hannah Wong, portavoce di OpenAI, ha dichiarato al New York Times che apprezzano la ricerca e che "lavorano costantemente per rendere i propri modelli più robusti contro gli attacchi avversari".

Somesh Jha, professore dell'Università del Wisconsin-Madison specializzato in AI security, ha commentato che se queste vulnerabilità continueranno a essere scoperte, "potrebbero portare a una legislazione governativa volta a controllare questi sistemi".

Correlato: OpenAI annuncia l'app ufficiale di ChatGPT per Android

La ricerca sottolinea i rischi che devono essere affrontati prima di impiegare i chatbot in ambiti sensibili.

A Maggio, la Carnegie Mellon University di Pittsburgh, Pennsylvania, ha ricevuto un finanziamento federale da 20 milioni di dollari per la creazione di un nuovissimo istituto per AI finalizzato alla formulazione di politiche pubbliche.

Traduzione a cura di Matteo Carrone

Cointelegraph si impegna a favore di un giornalismo indipendente e trasparente. Questo articolo di notizie è realizzato in conformità con la Politica Editoriale di Cointelegraph e mira a fornire informazioni accurate e tempestive. I lettori sono invitati a verificare le informazioni in modo indipendente. Consulta la nostra Politica Editoriale https://it.cointelegraph.com/editorial-policy