AGI - L'era delle chatbot basate sull'intelligenza artificiale, che sembrano comprendere e utilizzare il linguaggio come noi esseri umani, è iniziata. Sotto la superficie, queste chatbot utilizzano grandi modelli di linguaggio, un tipo particolare di rete neurale. Tuttavia, uno studio recente dimostra che i grandi modelli di linguaggio rimangono vulnerabili nel confondere il nonsense con il linguaggio naturale.
Per un team di ricercatori dell'Università di Columbia, si tratta di un difetto che potrebbe indicare vie per migliorare le prestazioni dei chatbot e contribuire a rivelare come gli esseri umani elaborano il linguaggio. In un articolo pubblicato online su Nature Machine Intelligence, gli scienziati descrivono come hanno sfidato nove diversi modelli di linguaggio con centinaia di coppie di frasi. Per ogni coppia, le persone che hanno partecipato allo studio hanno scelto quale delle due frasi ritenevano più naturale, cioè più probabile essere letta o ascoltata nella vita quotidiana.
I ricercatori hanno quindi testato i modelli per vedere se avrebbero valutato ogni coppia di frasi nello stesso modo in cui l'avevano fatto gli esseri umani. In test diretti, le IA più sofisticate basate su ciò che i ricercatori chiamano reti neurali trasformative tendevano a performare meglio rispetto ai modelli neurali ricorrenti più semplici e ai modelli statistici che tengono conto solo della frequenza delle coppie di parole trovate su Internet o nei database online. Tuttavia, tutti i modelli hanno commesso errori, a volte scegliendo frasi che suonano come nonsense all'orecchio umano.
"Che alcuni dei grandi modelli di linguaggio performino come fanno suggerisce che catturano qualcosa di importante che i modelli più semplici non riescono a cogliere", ha dichiarato il dottor Nikolaus Kriegeskorte, PhD, un investigatore principale presso l'Istituto Zuckerman della Columbia e coautore dell'articolo. "Il fatto che anche i migliori modelli che abbiamo studiato possano essere ingannati da frasi senza senso dimostra che nelle loro elaborazioni manca qualcosa riguardo al modo in cui gli esseri umani elaborano il linguaggio".
Consideriamo la seguente coppia di frasi che sia i partecipanti umani che le IA hanno valutato nello studio: 1. Questa è la narrazione che ci è stata venduta. 2. Questa è la settimana in cui stai morendo. Le persone che hanno ricevuto queste frasi nello studio hanno giudicato la prima frase come più probabile da incontrare rispetto alla seconda.
Ma secondo BERT, uno dei modelli migliori, la seconda frase risulta più naturale. GPT-2, forse il modello più noto, ha identificato correttamente la prima frase come più naturale, in accordo con i giudizi umani. "Ogni modello ha dimostrato punti ciechi, etichettando alcune frasi come significative che i partecipanti umani ritenevano senza senso", ha dichiarato l'autore principale Christopher Baldassano, PhD, professore assistente di psicologia alla Columbia.
"Questo dovrebbe farci riflettere sulla misura in cui vogliamo che i sistemi AI prendano decisioni importanti, almeno per ora." La buona ma imperfetta performance di molti modelli è uno dei risultati dello studio che incuriosisce di più il dottor Kriegeskorte. "Comprendere perché esista questo divario e perché alcuni modelli superino gli altri può spingere il progresso nei modelli di linguaggio", ha affermato.
Un'altra domanda chiave per il team di ricerca è se i calcoli nei chatbot basati sull'IA possano ispirare nuove domande scientifiche e ipotesi che potrebbero guidare i neuroscienziati verso una migliore comprensione del cervello umano. Potrebbero i modi in cui operano questi chatbot suggerire qualcosa riguardo al circuito dei nostri cervelli?
Un'ulteriore analisi dei punti di forza e delle debolezze delle varie chatbot e dei loro algoritmi sottostanti potrebbe contribuire a rispondere a questa domanda. "In definitiva, siamo interessati a comprendere come le persone pensano", ha dichiarato Tal Golan, autore corrispondente dell'articolo. "Questi strumenti AI sono sempre più potenti, ma elaborano il linguaggio in modo diverso dal nostro. Confrontare la loro comprensione del linguaggio con la nostra ci offre un nuovo approccio per pensare a come pensiamo".