I ricercatori del MIT rendono i modelli di linguaggio autoapprendenti scalabili.

MIT researchers make self-learning language models scalable.

Gli scienziati hanno utilizzato un dataset di inferenza logica basato sulla lingua naturale per creare modelli di linguaggio più piccoli che hanno superato i loro controparti molto più grandi.

“Our research is about improving the ability of computer programs to understand and process natural language — the way humans speak and write,” says MIT CSAIL postdoc Hongyin Luo. “Our self-trained, 350-million-parameter entailment models, without human-generated labels, outperform supervised language models with 137 to 175 billion parameters.”

Socrate una volta disse: “Non è la dimensione di una cosa, ma la qualità che conta veramente. Poiché è nella natura della sostanza, non nel suo volume, che si trova il vero valore”.

La dimensione conta sempre per i grandi modelli di linguaggio (LLM)? In un panorama tecnologico abbagliato dai LLM che occupano il centro della scena, un team di ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) pensa che i modelli più piccoli non dovrebbero essere trascurati, soprattutto per i prodotti di comprensione del linguaggio naturale ampiamente utilizzati nell’industria.

A tal fine, i ricercatori hanno elaborato un approccio ai problemi di inefficienza e privacy associati ai grandi modelli di intelligenza artificiale basati su testo – un modello logicamente consapevole che supera i suoi omologhi 500 volte più grandi su alcuni compiti di comprensione del linguaggio senza annotazioni generate dall’uomo, preservando allo stesso tempo la privacy e la robustezza con alte prestazioni.

I LLM, che hanno dimostrato alcune abilità promettenti nella generazione di linguaggio, arte e codice, sono computazionalmente costosi e i loro requisiti di dati possono rischiare falle di privacy quando si utilizzano interfacce di programmazione dell’applicazione per l’upload di dati. I modelli più piccoli sono stati storicamente meno capaci, soprattutto nei compiti di multitasking e debole supervisione, rispetto ai loro omologhi più grandi.

Quindi, cosa aiuta questi modelli più piccoli a comportarsi così potenti? Qualcosa chiamato “implicazione testuale”, un modo per aiutare questi modelli a comprendere una varietà di compiti linguistici, dove se una frase (la premessa) è vera, allora l’altra frase (l’ipotesi) è probabilmente vera anche. Ad esempio, se la premessa è “tutti i gatti hanno la coda” allora l’ipotesi “un gatto tigrato ha la coda” sarebbe implicata dalla premessa. Questo concetto viene utilizzato per addestrare un “modello di implicazione” che si è dimostrato meno distorto rispetto ad altri modelli di linguaggio, dalla ricerca precedente del team. Hanno quindi creato “prompt” che i modelli possono utilizzare per capire se determinate informazioni sono implicite da una data frase o parola in base a diversi compiti. Questo metodo ha migliorato la capacità del modello di adattarsi a diversi compiti senza alcuna formazione aggiuntiva, noto come adattamento zero-shot.

Nel campo della “comprensione del linguaggio naturale”, ci sono varie applicazioni che dipendono dalla determinazione della relazione tra due pezzi di testo. Ad esempio, nella classificazione del sentiment, una dichiarazione come “Penso che il film sia buono” può essere dedotta o implicata da una recensione del film che dice “Mi piace la storia e la recitazione è fantastica”, indicando un sentimento positivo. Un’altra è la classificazione delle notizie, dove il tema di un articolo di notizie può essere inferito dal suo contenuto. Ad esempio, una dichiarazione come “l’articolo di notizie riguarda gli sport” può essere implicata se il contenuto principale dell’articolo riporta su una partita NBA. L’idea chiave era che molti dei compiti esistenti di comprensione del linguaggio naturale potessero essere riformulati come un compito di implicazione (cioè inferenza logica nel linguaggio naturale).

“La nostra ricerca si concentra sull’aumento dell’abilità dei programmi informatici di comprendere e processare il linguaggio naturale – il modo in cui gli esseri umani parlano e scrivono. I nostri modelli di implicazione autodidatti, con 350 milioni di parametri, senza etichette generate dall’uomo, superano i modelli di linguaggio supervisionati con 137 a 175 miliardi di parametri”, afferma Hongyin Luo, postdoc del MIT CSAIL e autore principale di un nuovo articolo sulla ricerca. “Questo ha il potenziale per ridisegnare il panorama dell’intelligenza artificiale e dell’apprendimento automatico, fornendo una soluzione più scalabile, affidabile ed economica per la modellizzazione del linguaggio”, dice Luo. “Dimostrando che i modelli più piccoli possono avere le stesse prestazioni dei modelli più grandi per la comprensione del linguaggio, questo lavoro apre la strada a tecnologie di intelligenza artificiale più sostenibili e rispettose della privacy”.

Il team ha scoperto che poteva migliorare ulteriormente le prestazioni del modello utilizzando una tecnica chiamata “auto-addestramento”, in cui il modello utilizza le proprie previsioni per insegnare a se stesso, apprendendo efficacemente senza supervisione umana e dati di formazione annotati aggiuntivi. Il metodo di auto-addestramento ha migliorato significativamente le prestazioni su una serie di compiti successivi, tra cui l’analisi del sentiment, la risposta alle domande e la classificazione delle notizie. Ha superato sia LaMDA che FLAN di Google nelle capacità zero-shot, i modelli GPT e altri algoritmi supervisionati.

Tuttavia, una sfida con l’auto-addestramento è che il modello può talvolta generare etichette errate o rumorose che danneggiano le prestazioni. Per superare questo problema, hanno sviluppato un nuovo algoritmo chiamato ‘SimPLE’ (Simple Pseudo-Label Editing), un processo per rivedere e modificare le pseudo-etichette fatte nelle prime fasi di apprendimento. Correggendo eventuali istanze di etichettatura errata, hanno migliorato la qualità complessiva delle etichette autogenerate. Ciò non solo ha reso i modelli più efficaci nella comprensione del linguaggio, ma anche più robusti di fronte a dati avversari.

Come per la maggior parte delle ricerche, ci sono alcune limitazioni. L’auto-addestramento su compiti di classificazione multi-classe non ha funzionato altrettanto bene come su compiti di comprensione del linguaggio naturale binari, indicando la sfida di applicare modelli di implicazione a compiti a scelta multipla.

“Questa ricerca presenta un modo efficiente ed efficace per addestrare grandi modelli di linguaggio (LLM) formulando i compiti di comprensione del linguaggio naturale come problemi di implicazione contestuali e utilizzando un meccanismo di auto-addestramento di pseudo-etichettatura per incorporare grandi quantità di dati di testo non etichettati nel processo di formazione”, aggiunge James Glass, Senior Research Scientist del CSAIL e autore dell’articolo. “Mentre il campo dei LLM sta subendo cambiamenti rapidi e drammatici, questa ricerca dimostra che è possibile produrre modelli di linguaggio relativamente compatti che si comportano molto bene nei compiti di comprensione di benchmark rispetto ai loro pari di dimensioni simili o anche modelli di linguaggio molto più grandi”.

“Il compito di implicazione è un proxy popolare per valutare la “comprensione” di un contesto dato da parte di un modello AI”, dice Leonid Karlinsky, membro del personale di ricerca presso il MIT-IBM Watson AI Lab. “È utilizzato in molte aree che analizzano modelli con input unimodali, come LLM, e multimodali, come VLM [modelli linguistici visivi], semplificando il compito di domanda-risposta su un dato contesto di input in un problema di classificazione binaria – questo contesto implica una certa conclusione (ad esempio, un testo) o no? Questo articolo propone due contributi in questo spazio. In primo luogo, propone un modo per migliorare le prestazioni NLU zero-shot (senza ulteriore taratura) e la robustezza agli attacchi avversari tramite taratura con compiti di implicazione sintetizzati (specializzati) generati per il compito NLU primario. In secondo luogo, offre un metodo SimPLE auto-supervisionato che include etichettatura pseudo e filtraggio basato sulla confidenza per migliorare ulteriormente le prestazioni NLU di grandi LLM”.

Luo e Glass hanno scritto l’articolo insieme a Yoon Kim, membro di CSAIL e professore associato nel Dipartimento di Ingegneria Elettrica e Informatica del MIT, e Jiaxin Ge dell’Università di Pechino. Il loro lavoro sarà presentato durante la riunione dell’Associazione per il Linguaggio Computazionale a Toronto, Ontario, questo luglio. Questa ricerca è stata supportata da una sovvenzione del programma di innovazione AI di Hong Kong.