Una nuova ricerca ha rivelato le debolezze di uno dei sistemi di intelligenza artificiale (IA) di maggior successo, un bot che gioca a Go e che può battere i migliori giocatori umani del mondo, dimostrando che la presunta superiorità dell’IA sugli umani potrebbe non essere così chiara in futuro. Lo studio solleva interrogativi sul fatto che i sistemi di IA più generali siano privi di vulnerabilità che potrebbero compromettere la loro sicurezza e affidabilità e, in effetti, le loro affermazioni di essere “sovrumani”.
“Il documento lascia un significativo punto interrogativo su come raggiungere l’ambizioso obiettivo di costruire agenti di intelligenza artificiale solidi nel mondo reale di cui le persone possano fidarsi”, afferma Huan Zhang, un informatico presso l’Università dell’Illinois a Urbana-Champaign, citato da Nature.
L’analisi, pubblicata online come preprint e non sottoposta a revisione paritaria, utilizza i cosiddetti attacchi avversari, che alimentano i sistemi di intelligenza artificiale con input progettati per indurli a commettere errori, sia per scopi di ricerca che per scopi nefasti. Ad esempio, alcuni prompt possono “jailbreak” dei chatbot, inducendoli a fornire informazioni dannose che sono stati addestrati a sopprimere. In Go, due giocatori si alternano nel posizionare pietre nere e bianche su una griglia per circondare e catturare le pietre dell’altro giocatore.
Nel 2022, i ricercatori hanno riferito di aver addestrato bot AI avversari per sconfiggere KataGo, il miglior sistema AI open source per giocare a Go, che in genere batte facilmente i migliori giocatori umani. I loro bot hanno costantemente trovato il modo di battere KataGo, anche se non erano esattamente bravi in generale: gli umani dilettanti potevano batterli. Inoltre, gli umani potevano capire i trucchi dei bot e adottarli per battere KataGo.
Si è trattato di un caso isolato oppure quel lavoro ha evidenziato una debolezza fondamentale di KataGo e, per estensione, di altri sistemi di intelligenza artificiale dotati di capacità apparentemente sovrumane?
Per indagare, nuovi ricercatori guidati da Adam Gleave, CEO di FAR AI, un’organizzazione di ricerca non-profit di Berkeley, California, e coautore del documento del 2022, hanno utilizzato bot avversari per testare tre modi per difendere le IA Go da tali attacchi. La prima difesa era quella che gli sviluppatori di KataGo avevano già implementato dopo gli attacchi del 2022: fornire a KataGo esempi di posizioni del tabellone coinvolte negli attacchi e farlo giocare da solo per imparare come giocare contro quelle posizioni.
Ma gli autori dell’ultimo articolo hanno scoperto che un bot avversario potrebbe imparare a battere anche questa versione aggiornata di KataGo, vincendo il 91% delle volte.
La seconda strategia difensiva provata dal team Gleave era iterativa: allenare una versione di KataGo contro i bot avversari, quindi allenare gli attaccanti contro il KataGo aggiornato e così via, per nove round. Ma neanche questo ha prodotto una versione imbattibile di KataGo.
Come terza strategia di difesa, i ricercatori hanno addestrato da zero un nuovo sistema di intelligenza artificiale per giocare a Go. KataGo si basa su un modello computazionale noto come rete neurale convoluzionale (CNN). I ricercatori sospettavano che le CNN potessero concentrarsi troppo sui dettagli locali e perdere di vista i modelli globali, quindi hanno creato un giocatore di Go utilizzando una rete neurale alternativa chiamata trasformatore di visione (ViT).
Ma il loro bot avversario ha trovato un nuovo attacco che lo ha aiutato a vincere il 78 percento delle volte contro il nuovo sistema ViT. In tutti questi casi, i bot avversari, pur essendo in grado di battere KataGo e altri sistemi di Go-playing di alto livello, sono stati addestrati a trovare vulnerabilità nascoste in altre IA, non a essere strateghi completi. “I bot sono piuttosto deboli, li abbiamo battuti noi stessi abbastanza facilmente”, dice Gleave.
E con gli umani in grado di usare tattiche di bot avversarie per battere i sistemi di intelligenza artificiale esperti, ha ancora senso chiamare quei sistemi sovrumani? David Wu, un informatico di New York City che per primo ha sviluppato KataGo, afferma che le forti IA Go sono “sovrumane in media” ma non “sovrumane nel peggiore dei casi”. Gleave afferma che le scoperte potrebbero avere ampie implicazioni per i sistemi di intelligenza artificiale, inclusi i grandi modelli linguistici che alimentano chatbot come ChatGPT. “La conclusione fondamentale per l’intelligenza artificiale è che queste vulnerabilità saranno difficili da risolvere”, afferma Gleave. “Se non riusciamo a risolvere il problema in un dominio semplice come Go, allora nel breve termine sembra esserci poca prospettiva di risolvere problemi simili come i jailbreak in ChatGPT”.