I ricercatori di UC Berkeley propongono RingAttention un approccio di intelligenza artificiale efficiente per la memoria per ridurre i requisiti di memoria dei Transformers.

I ricercatori dell'UC Berkeley propongono RingAttention un efficiente approccio di intelligenza artificiale per la memoria, al fine di ridurre i requisiti dei Transformers.

Un tipo di architettura di modelli di deep learning è chiamato Transformers nel contesto di molti modelli AI all’avanguardia. Hanno rivoluzionato il campo dell’intelligenza artificiale, in particolare nell’elaborazione del linguaggio naturale e in varie altre attività di apprendimento automatico. Si basa su un meccanismo di auto-attenzione in cui il modello valuta l’importanza di diverse parti della sequenza di input durante la previsione. Sono composti da un codificatore e un decodificatore per elaborare gli input. 

Tuttavia, aumentare la lunghezza del contesto dei Transformers richiede molto lavoro. Questo è dovuto all’auto-attenzione ereditata. L’auto-attenzione ha un costo di memoria quadratico rispetto alla lunghezza della sequenza di input, il che rende difficile scalare le sequenze di input più lunghe. I ricercatori presso UC Berkley hanno sviluppato un metodo chiamato Ring Attention per affrontare questo problema basandosi su una semplice osservazione. Hanno osservato che quando l’auto-attenzione e le operazioni della rete feedforward sono eseguite a blocchi, le sequenze possono essere distribuite su più dispositivi e facilmente analizzate.

Distribuiscono il ciclo esterno di calcolo a blocchi dell’attenzione tra gli host, con ogni dispositivo che gestisce il proprio blocco di input designato. Per il ciclo interno, calcolano l’attenzione a blocchi e le operazioni feedforward specifiche per il blocco di input designato di tutti i dispositivi. I dispositivi ospite formano un anello concettuale e inviano una copia dei loro blocchi chiave-valore utilizzati per il calcolo a blocchi al dispositivo successivo nell’anello. Ricevono anche contemporaneamente blocchi chiave-valore dal dispositivo precedente.

I calcoli a blocchi richiedono più tempo rispetto ai trasferimenti a blocchi. Il team sovrappone questi processi, risultando in nessun costo aggiuntivo rispetto ai transformers standard. In questo modo, ogni dispositivo richiede solo memoria proporzionale alla dimensione del blocco, indipendentemente dalla lunghezza del sequenza di input originale. Ciò elimina efficacemente i vincoli di memoria imposti dai singoli dispositivi. 

I loro esperimenti mostrano che Ring Attention può ridurre i requisiti di memoria dei Transformers consentendo loro di addestrare sequenze più lunghe di oltre 500 volte rispetto ai precedenti modelli di efficienza di memoria. Questo metodo consente anche di addestrare sequenze più lunghe di 100 milioni di lunghezza senza fare approssimazioni all’attenzione. Poiché Ring Attention elimina i vincoli di memoria imposti dai singoli dispositivi, è possibile ottenere dimensioni di contesto quasi infinite. Tuttavia, sarebbe necessario un gran numero di dispositivi poiché la lunghezza della sequenza è proporzionale al numero di dispositivi.

La ricerca coinvolge solo una valutazione dell’efficacia del metodo senza i modelli di addestramento su larga scala. Poiché la lunghezza del contesto scala in base al numero di dispositivi, l’efficienza del modello dipende dall’ottimizzazione; hanno solo lavorato sulle operazioni a basso livello necessarie per ottenere prestazioni informatiche ottimali. I ricercatori dicono che vorrebbero lavorare sia sulla lunghezza massima della sequenza che sulle prestazioni informatiche massime in futuro. La possibilità di un contesto quasi infinito offre molte opportunità entusiasmanti, come modelli di grandi dimensioni per video-audio-linguaggio, apprendimento da feedback estesi e tentativi ed errori, comprensione e generazione di codice e adattamento di modelli di IA per comprendere dati scientifici come sequenze di geni.