AGI - Gli scacchi hanno alle spalle una storia millenaria ma continuano ad avere un ruolo decisivo nel campo delle intelligenze artificiali. L’evoluzione dei motori scacchistici, dai primi modelli IBM in poi, è stata importante nelle applicazioni dei vari modelli di machine learning e deep learning e, come spiega un articolo di Quanta Magazine, potrebbe avere un ruolo molto attivo in un nuovo tipo di approccio chiamato “artificial brainstorming”.
Ma andiamo con ordine. Al centro di questa storia ci sono un uomo, Tom Zahavy, ricercatore informatico israeliano che lavora per DeepMind, e una macchina, AlphaZero ‘diversified version’, sviluppata specificatamente per affrontare dei problemi con una cassetta degli attrezzi più ampia e, come suggerito dal suo nome, diversificata nelle sue componenti.
L’importanza dei puzzle
Zahavy, come tanti appassionati, ha riscoperto gli scacchi durante la pandemia approfondendo soprattutto le tematiche relative ai motori, alle intelligenze artificiali e alla capacità dei computer di risolvere gli aspetti più complicati del gioco. E come tanti si è accorto di essere più bravo nella risoluzione dei singoli ‘puzzle’ che nelle partite vere e proprie. Ha capito, cioè, di essere abile nel trovare la risposta ai cosiddetti ‘problemi’ creati a partire da posizioni specifiche, spesso tratte da partite reali ma anche da idee artificiose e improbabili, e che servono in generale per affinare le qualità dello scacchista in tema di tattica e comprensione del gioco.
Ma i puzzle sono stati determinanti anche nello sviluppo dei motori scacchistici perché, nel corso del tempo, hanno contribuito a rivelare i loro limiti più nascosti. E questo è stato anche il punto di partenza di Zahavy. “Stavo cercando di capire cosa rende alcune di queste posizioni così difficili per i computer quando, almeno alcune di esse, possono essere risolte dagli esseri umani”. Nel sostenere questa tesi ha citato un puzzle famosissimo, ideato dal matematico Roger Penrose nel 2017 (premio Nobel per la Fisica nel 2020), in cui si dispongono sulla scacchiera i pezzi Neri più forti (come regina e torri) ma collocandoli in ‘case’ di non semplicissima lettura.
Un grande maestro, giocando con i pezzi Bianchi, potrebbe facilmente arrivare a pattare (pareggiare) la partita mentre potenti programmi di scacchi, non riuscendo a cogliere queste possibilità in toto, sarebbero portati a dedurre che il Nero abbia un chiaro vantaggio e quindi possa portare a casa la vittoria. Questa differenza di analisi, secondo Zahavy, suggerisce come i computer, seppur in grado di sconfiggere i migliori giocatori ‘umani’, abbiano ancora diversi limiti nel riconoscere e risolvere un certo tipo di problemi. La sua idea, per superare queste difficoltà, è molto semplice: ideare sistemi di intelligenza artificiale dotati di un ampio spettro di possibili comportamenti volti a superare il modello basato sulla singola esecuzione. E che soprattutto “lavorino in gruppo” per fare progressi e trovare la migliore soluzione.
Grazie all’aiuto di alcuni colleghi, Zahavy ha sviluppato un modello per unire insieme più sistemi di intelligenza artificiale, fino a un massimo di 10, partendo dall’algoritmo più potente a disposizione, AlphaZero. Questi sistemi sono tutti caratterizzati da una forte impronta decisionale ma ognuno è stato ottimizzato e addestrato nell’adottare strategie differenti. Questo nuovo modello non solo ha dimostrato di funzionare meglio di AlphaZero nel gioco classico ma si è rivelato anche più abile nell’affrontare problemi complessi come quelli proposti da Penrose.
E tutto nel modo più semplice: nel momento in cui un sistema si fosse trovato davanti a un ‘muro’ invalicabile, il programma sarebbe passato al successivo fino a trovare il modo più efficace di arginare il blocco. Non è difficile comprendere come tutto ciò possa applicarsi a situazioni esterne agli scacchi per rivelarsi assai utile nello sviluppo di tutti gli algoritmi che si occupano di intelligenza artificiale.
Come ragiona (finora) un motore di scacchi
Da sempre Zahavy si è interessato a quello che viene chiamato ‘reinforcement learning’, ovvero il sistema che utilizza le reti neurali per apprendere alcuni compiti attraverso tentativi ed errori, percependo e comprendendo l’ambiente che lo circonda e ricevendo ‘ricompense’ ad ogni nuovo traguardo. È la base da cui partono i programmi di scacchi più potenti ma è anche utilizzato in molti altri campi come quello delle auto a guida autonoma. Il motore arriva a comprendere in maniera sempre più profonda la situazione presente sulla scacchiera e le possibili ‘mosse candidate’, ovvero quelle da prendere in considerazione perché ritenute più forti. A quel punto è in grado di intraprendere azioni sempre più precise per avvicinarsi all’obiettivo finale, accumulando ‘ricompense’ e migliorando le prestazioni.
Deepmind, ha spiegato, ad esempio, come AlphaZero sia stato protagonista di un lungo percorso di perfezionamento iniziato nel 2017 con 44 milioni di partite giocate contro se stesso nelle prime 9 ore di allenamento. Ed è proprio questa infinita sequela di prove e tentativi ad averlo reso più forte di qualsiasi giocatore di scacchi in carne e ossa.
Romualdo Vitale, direttore italiano di Chess.com, la più nota e usata piattaforma online, si è laureato in matematica con una tesi proprio su Reinforcement Learning e Alphazero e all’AGI ne racconta potenzialità e limiti. “Quando AlphaZero è stato pubblicato, nel 2017, ha sconvolto il mondo scacchistico senza che i giocatori percepissero davvero la portata della sua rivoluzione.
Alcuni grandi maestri (GM) compreso Hikaru Nakamura, sono rimasti scettici di fronte al match giocato contro Stockfish (un altro forte motore, ndr) perché sostenevano che quest’ultimo fosse stato depotenziato. Ma non avevano capito che il punto della questione risiedeva nell’approccio innovativo basato proprio sul reinforcement learning e sul giocare contro sé stessi un numero incredibile di volte e non su quanto quella sfida potesse essere corretta o meno”.
Un punto che invece non è sfuggito agli esperti di Intelligenza artificiale. “Hanno capito l’importanza di un metodo che porta risultati eccellenti attraverso una tecnica, se vogliamo, semplice. Il problema del reinforcement learning è che bisogna costruire bene il sistema di ricompense altrimenti si rischiano dei buchi che possono essere rappresentati appunto dai problemi di Penrose”, spiega Vitale. “Un meccanismo costruito per dare ricompense positive può portare alla sopravalutazione di una posizione e a non cogliere un aspetto che, intrinseco nella posizione stessa, può richiedere molta capacità di astrazione. Un aspetto che non può essere compreso attraverso solamente il calcolo o l’esperienza”.
Un po’ quello che fa Alphazero che “quando si trova in una determinata posizione inizia a giocare tante partite contro sé stesso per comprenderla. Ma creando un solo algoritmo che valuti la posizione, in alcuni casi, non si raggiunge la necessaria profondità e può capitare che si arrivi a una valutazione non corretta. Spesso capita nel caso delle ‘fortezze’, come re e regina contro re, torre e pedone, dove un motore può dare un vantaggio che in realtà non c’è”.
La forza del reinforcement learning
È “uno strumento molto potente perché permette di creare delle intelligenze artificiali che sono in grado di prendere delle decisioni anche in ambienti che sono sconosciuti o solo parzialmente osservabili”, sottolinea il direttore italiano di Chess.com. “Lo si osserva bene proprio negli scacchi. Non possiamo istruire un motore dicendogli di fare la mossa migliore perché non sappiamo quale sia la mossa migliore. Però possiamo dirgli ‘gioca con te stesso innumerevoli volte’ e trai le conseguenze usando il punteggio finale delle partite come base per la tua ricompensa. Questo approccio rende gli scacchi molto utili, come banco di prova per altri esperimenti, perché hai una ricompensa molto evidente, facile. Il sistema di ricompense nell’istruzione di un’auto a guida autonoma sarà molto più complesso”.
L’esempio più facile per capire questo processo però è il famoso robottino che pulisce casa. “Vengono pre-addestrati in modo da evitare che girino a caso o su sé stessi ma quando si trovano in un ambiente nuovo, come la casa delle persone che li ha acquistati, riescono rapidamente a fasi un’idea di quanto è grande l’ambiente. Questa è la forza del reinforcement learning. Creare delle macchine che possono essere addestrate in ambienti controllati ma che si adattino molto bene quanto vengono usati in ambienti nuovi”.
I limiti del reinforcement learning’
Per Vitale c’è un altro elemento da considerare quando si parla di questi sistemi. “Dobbiamo tener presente che possono essere declinati nel settore specifico. L’obiettivo delle aziende di intelligenza artificiale è quello di creare degli algoritmi di reinforcement learning che siano in grado di risolvere un numero sempre maggiore di problemi contemporaneamente. E si applica per tutti i giochi a due come Shogi, Scacchi e Go. Le nuove versioni di Stockfish, ad esempio, dopo il 2017, includono anche le reti neurali. Gli scacchisti però cercano di ottimizzare quella che è la performance generale sul loro stile di gioco specifico e utilizzano perciò altre strategie di allenamento, come inserire il libro delle aperture e il database dei finali. Ed è fondamentale visto che AlphaZero, nella sua versione chiamata LeelaChess, a differenza di Stockfish, non gioca in maniera perfetta i finali”.
Lo si capisce osservando con attenzione i match del campionato dei motori su Chess.com. “C’è una partita in cui Stockfish perde contro LeelaChess dopo essersi intrappolato la Torre, un’idea profonda da vedere anche per una macchina che se ne accorge quando ormai è troppo tardi. Ma il punto interessante è che LeelaChess Zero non vince nel modo più pulito e lineare. Arriva in una posizione in cui ha schiacciato l’avversario ma, invece di dare subito scacco matto, decide di sacrificare dei pedoni perché tanto sa di aver comunque vinto la partita”.
La squadra di Zahavy si è accorta che il ‘reinforcement learning’, per quanto efficace, non porti a una comprensione generale del gioco. Ed è per questo che i problemi complicati come quelli di Penrose possono ancora rappresentare una sorta di punto cieco, un ostacolo in grado di mettere in difficoltà realtà avanzatissime come AlphaZero. Il motore, insomma, può entrare in crisi nell’affrontare un problema che non ha mai visto prima e di cui non ha esperienza pregressa.
Ed è proprio qui che entrano in gioco il fattore creatività e “l’importanza di fallire”. Secondo Zahavy i sistemi che usano il deep reinforcement learning non sanno riconoscere il concetto di fallimento, basilare nell’approccio umano nella risoluzione di un problema. L’essere umano, infatti, se capisce che una strada è sbagliata o fallimentare, tenterà di imboccarne un’altra.
Di contro, un sistema di intelligenza artificiale che non riconosce di aver completato il compito per cui è stato addestrato potrebbe incaponirsi nel seguire la stessa medesima strada, continuando a fare quello che ha sempre fatto, perseguendo strategie infruttuose e ritrovandosi sempre davanti al solito muro. Come nel caso dei problemi di Penrose. E questo accade perché un motore considera le sue scelte come passi ideali verso un obiettivo più grande. Obiettivo che in taluni casi non può raggiungere senza provare qualcosa di nuovo.
Il ‘brainstorming’ delle intelligenze artificiali
“La creatività è una qualità umana”, sostiene Kasparov in ‘Deep Thinking’, il suo libro di analisi delle partite giocate contro DeepBlue. Ed è proprio questa la direttrice che Zahavy ha deciso di seguire: la creatività nasce spesso da attività di brainstorming che esula dai normali approcci che un’intelligenza solitaria adotta. Questo può valere anche per le intelligenze artificiali legate ai motori scacchistici, abituati a concentrarsi sul vincere partite intere, dall’inizio alla fine, attingendo alla propria esperienza pregressa.
Un approccio che, si è visto, non è così efficace nell’affrontare singoli problemi di una certa complessità e privi di un contesto più ampio. Il ricercatore israeliano ha così immaginato un’intelligenza artificiale in grado di risolvere i puzzle grazie a un maggiore spazio creativo in cui è possibile fare brainstorming e accedere a nuove forme di apprendimento.
Il team di DeepMind ha così raccolto una serie di 53 puzzle di Penrose e 15 altri puzzle di particolare difficoltà. AlphaZero (‘versione classica’) ha risolto meno del 4% dei primi e meno del 12% dei restanti, ma i ricercatori non sono rimasti troppo sorpresi visto che si trattava di esercizi progettati per confondere i computer. Il numero di problemi risolti è nettamente migliorato nel momento in cui il motore è stato addestrato a giocare, contro sé stesso, un’intera partita partendo da ogni singolo puzzle come posizione iniziale: 96% di enigmi di Penrose e 76% dei secondi.
Basandosi su questi dati, la squadra guidata da Zahavy ha costruito un’intelligenza artificiale che avesse accesso a tutte le versioni di AlphaZero, addestrate indipendentemente a risolvere tutte quelle posizioni. L’algoritmo destinato a governare l’intero sistema capisce, di volta in volta, quale intelligenza ha le migliori possibilità di successo facendo la scelta migliore tra gli strumenti a disposizione e agendo come se si trattasse di una decisione condivisa. All’interno del codice di questo algoritmo è prevista anche una particolare ‘ricompensa’ che viene erogata ogni volta che la strategia prescelta viene estratta da una vasta gamma di possibilità.
L’osservazione dei comportamenti di AlphaZero (diversified version) ha portato anche alla scoperta di altri fenomeni interessanti: la sperimentazione di aperture scacchistiche poco note e di specifiche scelte strategiche come la decisione di quando e dove arroccare. Con l'accesso a un numero sempre maggiore opzioni, spiega Zahavy, il nuovo AlphaZero ha più opzioni a disposizione nel momento in cui si trova davanti a situazioni complicate. Un’opportunità che potrebbe trovare applicazioni in moltissimi campi e far fare un salto di qualità non solo nella comprensione del gioco degli scacchi, ma anche del nostro futuro.
Gli scacchi saranno risolti?
“Siamo ancora ben lontani da risolvere il gioco degli scacchi. I tornei tra i motori ci dimostrano che ancora è possibile vincere. Sono un gioco ancora così ricco che permette di fare errori, anche da parte di intelligenze che hanno un punteggio Elo molto più alto del nostro”, spiega ancora Vitale.
E i puzzle, come quelli di Penrose, continuano ad avere un ruolo chiave in questo senso. “È interessante il fatto che gli umani cerchino costantemente di creare posizione che siano anti-motore, dove le scelte sembrano infinite per un motore. Da questo punto di vista il nostro margine è quello di poter vedere delle idee profonde che vanno oltre l’analisi concreta delle sequenze di mosse date da una certa posizione”. La creatività, insomma, la dote amata da Kasparov che ancora distingue, per ora, gli scacchisti dalle intelligenze artificiali.