I ricercatori di DeepMind presentano AlphaStar Unplugged un balzo in avanti nell’apprendimento con rinforzo offline su larga scala, padroneggiando il gioco di strategia in tempo reale StarCraft II.

I ricercatori di DeepMind presentano AlphaStar Unplugged, un balzo in avanti nell'apprendimento con rinforzo offline su larga scala nel gioco di strategia StarCraft II.

I giochi hanno da tempo svolto un ruolo cruciale come terreno di prova per valutare le capacità dei sistemi di intelligenza artificiale (AI). Con l’evoluzione delle tecnologie AI, i ricercatori hanno cercato giochi più complessi per valutare varie sfaccettature dell’intelligenza rilevanti per le sfide del mondo reale. StarCraft, un gioco di strategia in tempo reale (RTS), si è imposto come una “sfida monumentale” per la ricerca AI a causa della sua complessità di gioco, spingendo i limiti delle tecniche di AI per navigare la sua complessità.

A differenza dei successi precedenti dell’AI nei videogiochi come Atari, Mario, Quake III Arena Capture the Flag e Dota 2, che si basavano sull’apprendimento di rinforzo (RL) online, spesso coinvolgendo la restrizione delle regole di gioco, la fornitura di abilità sovrumane o l’utilizzo di mappe semplificate, la complessità di StarCraft si è rivelata un ostacolo formidabile per i metodi di AI. Tuttavia, questi algoritmi di apprendimento di rinforzo (RL) online hanno avuto un notevole successo in questo dominio. Tuttavia, la loro natura interattiva presenta sfide per le applicazioni del mondo reale, che richiedono un’interazione e una scoperta elevate.

Questa ricerca introduce un cambiamento trasformativo verso l’apprendimento di rinforzo offline, consentendo agli agenti di imparare da set di dati fissi – un approccio più pratico e sicuro. Mentre l’apprendimento di rinforzo online eccelle nei domini interattivi, l’apprendimento di rinforzo offline sfrutta i dati esistenti per creare politiche pronte per il deployment. L’introduzione del programma AlphaStar da parte dei ricercatori di DeepMind ha segnato una pietra miliare significativa diventando la prima AI a sconfiggere un top player professionista di StarCraft. AlphaStar ha padroneggiato il gameplay di StarCraft II, utilizzando una rete neurale profonda addestrata tramite apprendimento supervisionato e apprendimento di rinforzo su dati di gioco grezzi.

Sfruttando un ampio set di dati di replay dei giocatori umani di StarCraft II, questo framework consente l’addestramento e la valutazione degli agenti senza richiedere un’interazione diretta con l’ambiente. StarCraft II, con le sue sfide distintive come la parziale osservabilità, la stochasticità e la dinamica multi-agente, rappresenta un terreno di prova ideale per spingere i limiti delle capacità degli algoritmi di apprendimento di rinforzo offline. “AlphaStar Unplugged” stabilisce un benchmark adattato a giochi intricati e parzialmente osservabili come StarCraft II, colmando il divario tra i metodi tradizionali di apprendimento di rinforzo online e l’apprendimento di rinforzo offline.

La metodologia principale di “AlphaStar Unplugged” ruota attorno a diversi contributi chiave che stabiliscono questo sfidante benchmark di apprendimento di rinforzo offline:

  1. La configurazione di addestramento ha impiegato un set di dati fissi e regole definite per garantire confronti equi tra i metodi.
  2. Viene introdotto un nuovo insieme di metriche di valutazione per misurare accuratamente le prestazioni dell’agente.
  3. Viene fornita una gamma di agenti di base ben tarati come punti di partenza per sperimentazioni.
  4. Riconoscendo lo sforzo ingente di ingegneria necessario per costruire agenti efficaci per StarCraft II, i ricercatori forniscono un agente di clonazione del comportamento ben tarato che costituisce la base per tutti gli agenti dettagliati nell’articolo.

L’architettura di “AlphaStar Unplugged” coinvolge diversi agenti di riferimento per confronti di base e valutazioni metriche. Gli input per l’API di StarCraft II sono strutturati attorno a tre modalità: vettori, unità e piani di caratteristiche. Le azioni sono composte da sette modalità: funzione, ritardo, in coda, ripeti, tag unità, tag unità target e azione mondiale. I percettroni multistrato (MLP) codificano e elaborano gli input vettoriali, i trasformatori gestiscono gli input delle unità e le reti convoluzionali residue gestiscono i piani delle caratteristiche. Le modalità sono interconnesse attraverso lo scattering delle unità, l’embedding dei vettori, il rimodellamento convoluzionale e l’utilizzo della memoria. La memoria è incorporata nella modalità vettoriale e viene utilizzata una funzione di valore insieme al campionamento delle azioni.

I risultati sperimentali mettono in luce il notevole successo degli algoritmi di apprendimento di rinforzo offline, dimostrando un tasso di vittoria del 90% contro il precedente agente AlphaStar Supervised leader. Nello specifico, queste prestazioni sono ottenute esclusivamente attraverso l’utilizzo di dati offline. I ricercatori prevedono che il loro lavoro farà progredire significativamente la ricerca sull’apprendimento di rinforzo offline su larga scala.

La matrice mostra le percentuali di vittoria normalizzate degli agenti di riferimento, scalate tra 0 e 100. Si noti che i pareggi possono influire sui totali e AS-SUP rappresenta l’agente originale AlphaStar Supervised.

In conclusione, “AlphaStar Unplugged” di DeepMind introduce una pietra miliare senza precedenti che spinge i limiti dell’apprendimento rinforzato offline. Sfruttando le intricate dinamiche di gioco di StarCraft II, questo benchmark prepara il terreno per metodologie di addestramento migliorate e metriche di performance nel campo della ricerca RL. Inoltre, evidenzia la promessa dell’apprendimento rinforzato offline nel colmare il divario tra applicazioni simulate e reali, presentando un approccio più sicuro e pratico per l’addestramento di agenti RL in ambienti complessi.