Esplorazione di modelli di lingua con ottimizzazione delle istruzioni incontrare Tülu – una suite di grandi modelli di lingua (LLM) ottimizzati

Exploring language models with optimized instructions for meeting Tülu - a suite of large optimized language models (LLMs).

ChatGPT, sviluppato da OpenAI, è uno dei migliori esempi di modelli di linguaggio di grandi dimensioni (LLM) che sono stati recentemente rilasciati. I LLM, come ChatGPT, hanno conquistato il mondo con il loro potenziale incomparabile e la loro capacità di imitare gli esseri umani nell’esecuzione di varie attività. Questi modelli hanno principalmente adottato l’addestramento di fine-tuning per aiutare il modello ad acquisire l’abitudine di eseguire alcune attività comuni. Questo approccio prevede l’addestramento dei modelli su input e output supervisionati, che possono essere derivati da altri modelli.

Attualmente si stanno utilizzando vari set di dati di istruzioni aperte per gli avanzamenti correnti nei modelli di linguaggio di istruzioni. Sebbene i modelli aperti possano competere con i modelli proprietari all’avanguardia, queste affermazioni sono spesso supportate solo da una valutazione limitata, il che rende difficile confrontare i modelli in profondità e determinare il valore di varie risorse. Per affrontare questo problema, un team di ricercatori dell’Allen Institute for AI e dell’Università di Washington ha introdotto una vasta gamma di modelli di istruzioni sintonizzati con parametri che vanno da 6,7 miliardi a 65 miliardi.

Questi modelli vengono addestrati su 12 set di dati di istruzioni che vanno dai set di dati sintetici e distillati come Alpaca ai set di dati selezionati a mano come OpenAssistant. I modelli sono accuratamente testati in una varietà di aree, tra cui il ragionamento, il multilinguismo, la codifica, le conoscenze fattuali e le competenze di seguire istruzioni a intervalli aperti. Per fornire uno studio approfondito, la valutazione viene effettuata utilizzando una serie di metriche automatiche, basate sul modello e sull’essere umano.

Il team ha anche introdotto TÜLU, che è una suite di grandi modelli di linguaggio sintonizzati su una combinazione di fonti dati. Questi modelli vengono sintonizzati utilizzando una combinazione di risorse aperte di alta qualità. Il team ha esaminato le prestazioni di vari set di dati di istruzioni e il loro effetto su particolari competenze attraverso varie valutazioni. Hanno scoperto che diversi set di dati possono rivelare o migliorare particolari competenze e che né un singolo set di dati né un insieme di set di dati offre le migliori prestazioni in tutte le valutazioni.

Il team ha menzionato che una scoperta interessante della ricerca è che le valutazioni basate su benchmark non riescono a catturare le differenze nelle capacità del modello che vengono mostrate dalle comparazioni tra modelli. Il miglior modello in qualsiasi valutazione ha in media raggiunto l’83% delle prestazioni di ChatGPT e il 68% delle prestazioni di GPT-4. Il team ha dichiarato che TÜLU, con 65 miliardi di parametri, è la variante sintonizzata con istruzioni completamente pubblicamente rilasciata più grande, addestrata su sette set di dati disponibili. Ha raggiunto le migliori prestazioni medie rimanendo entro il 15% del modello con le migliori prestazioni su ogni singola attività.

Alcuni dei principali contributi menzionati nel paper di ricerca sono:

  1. I set di dati di istruzioni specifici del dominio e delle capacità sono molto efficaci nel migliorare le prestazioni del modello.
  1. I modelli di base più grandi o pre-addestrati per periodi più lunghi eseguono sempre meglio dopo la sintonizzazione dell’istruzione.
  1. Le migliori prestazioni medie tra i benchmark sono state raggiunte da TÜLU, il LLaMa sintonizzato con istruzioni sulla miscela di set di dati di istruzioni esistenti, anche se non è il migliore quando si confrontano diverse impostazioni di valutazione separatamente.
  1. Anche un modello molto grande con 65 miliardi di parametri che è stato ottimizzato su una vasta gamma di set di dati di istruzioni non raggiunge ChatGPT, anche se supera modelli più piccoli comparabili di gran lunga.
  1. Le forti correlazioni tra la valutazione delle preferenze basata sul modello per il seguimento di istruzioni a intervalli aperti e il numero tipico di token unici prodotti da un modello indicano che la valutazione delle preferenze basata sul modello contiene dei pregiudizi che possono nascondere le variazioni nelle capacità del modello.