AGI - Un sistema di apprendimento automatico si è dimostrato efficace nel rilevare le anomalie nelle partite di calcio mondiale, con future implicazioni per garantire equità nello sport e impedire pratiche di gioco d’azzardo illegali, come le scommesse truccate. A rivelarlo uno studio internazionale, pubblicato su Scientific Reports, che ha implementato cinque diversi modelli di apprendimento automatico per rilevare le anomalie nelle partite di calcio, sulla base dei dati relativi alle quote delle scommesse sportive. In particolare, sono stati addestrati quattro modelli di classificazione, noti come LR, RF, SVM e KNN, e un modello ensemble, che permette di ottenere, grazie a una serie di metodi d’insieme che usano modelli multipli, una migliore prestazione predittiva rispetto ai modelli da cui è costituito, che ha combinato i loro risultati ottimali. Tre modelli, RF, KNN e ensemble hanno raggiunto un’accuratezza superiore al 90%, mentre due modelli, LR e SVM, hanno ottenuto una precisione di circa l’80%. In secondo luogo, sono stati raccolti dati di partite in tempo reale e i cinque modelli sono stati applicati per costruire un sistema tale da rilevare le partite truccate in tempo reale. Le prestazioni del sistema sviluppato sono state convalidate utilizzando 10 partite regolari e 10 partite in cui vi sono state delle anomalie. I risultati hanno mostrato un’accuratezza dell’80% per le partite normali e del 60% per quelle anomale. Nel mondo dello sport, le partite combinate tendono a verificarsi con frequenza, il che danneggia il valore fondamentale dell’equità. Il database è stato sviluppato sulla base dei dati delle scommesse sulle partite del campionato mondiale di calcio di 12 società di scommesse, che hanno offerto una vasta raccolta di dati su giocatori, squadre, orari delle partite e classifiche dei campionati di calcio. “Il nostro metodo ensemble si discosta in modo significativo dai modelli tradizionali, offrendo una maggiore capacità di previsione grazie all’integrazione sinergica dei parametri di più modelli individuali”, hanno osservato gli autori. “Questo approccio globale consente di cogliere in modo più ricco le sfumature dei dati spesso trascurate dai singoli modelli. Mentre gli ensemble tradizionali migliorano intrinsecamente la generalizzazione dei dati”, hanno aggiunto i ricercatori. “La nostra combinazione unica, fatta di quattro modelli amplifica la resistenza all’overfitting, ovvero l’adattarsi di un modello ai dati osservati perché ha un numero eccessivo di parametri rispetto al numero di osservazioni, garantendo prestazioni coerenti su diversi terreni di dati. Questa metodologia, sostenuta dagli input di cinque modelli distinti, non solo funge da scudo contro le distorsioni, ma introduce anche un’innovativa categoria di 'avvertimento', utile su più fronti”, hanno dichiarato gli autori. Studi precedenti hanno esaminato le partite sospette utilizzando un unico modello basato sui dati delle quote dei dividendi delle partite di calcio, con un tasso di accuratezza del 70-80%. Il tasso di errore di classificazione è stato di circa il 20%. Tuttavia, i pregiudizi e gli errori inevitabili nelle analisi a modello singolo ne ostacolano l’applicazione pratica. Di conseguenza, Changgyun Kim, del Dipartimento di Intelligenza Artificiale e Software presso l’Università Nazionale di Kangwon, Jae-Hyeon Park e Ji-Yong Lee, entrambi del Centro per l’analisi dello sport e delle prestazioni presso l’Università nazionale dello sport della Corea, hanno deciso di creare una base più solida per individuare le partite sportive truccate. Tuttavia, gli scienziati riconoscono che i dati di verifica dello studio sono di dimensioni limitate, il che ha impedito di testare diversi scenari. Questa limitazione potrebbe derivare dalle dimensioni ridotte del campione. “Ciononostante – hanno sottolineato i ricercatori – un’analisi ha indicato che il nostro campione aveva una potenza dell’80% nel rilevare l’effetto osservato. Inoltre va notato che questo studio è fondamentalmente esplorativo e si colloca tra gli sforzi pionieristici in questo campo. Un altro aspetto cruciale da sottolineare è che il nostro studio ha utilizzato solo dati reali. Quando una corrispondenza viene segnalata come irregolare, si tratta di una prova concreta di cattiva condotta. Tali attività fraudolente – hanno sottolineato gli autori - sono altamente sensibili e presentano notevoli difficoltà nella raccolta di dati su larga scala: siamo pienamente consapevoli di questi vincoli”. In futuro, secondo il gruppo di ricerca, sarà necessario raccogliere un maggior numero di casi reali, ritenuti irregolari, per migliorare la precisione nell’identificazione delle partite anomale. “Tuttavia nonostante le limitazioni del nostro studio, siamo fiduciosi che i risultati potranno fornire preziose indicazioni in questo campo, gettando le basi per studi successivi più ampi", hanno concluso.