Dentro Orca 2 il nuovo metodo di Microsoft per insegnare il ragionamento ai piccoli modelli di lingua

Dentro Orca 2 il nuovo metodo di Microsoft per insegnare il ragionamento ai giovani modelli linguistici

Il modello supera in prestazioni LLMS molto più grandi nei benchmark di ragionamento.

Creato utilizzando DALL-E

Recentemente ho avviato una newsletter educativa incentrata sull’IA, che conta già oltre 160.000 abbonati. TheSequence è una newsletter orientata all’apprendimento automatico (ML) che richiede solo 5 minuti per essere letta, senza fronzoli (senza enfasi, no notizie, ecc.). L’obiettivo è tenerti aggiornato su progetti di apprendimento automatico, articoli di ricerca e concetti. Provala iscrivendoti qui sotto:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornato sulle novità nel campo dell’apprendimento automatico, dell’intelligenza artificiale e dei dati…

thesequence.substack.com

All’inizio di quest’anno, Microsoft Research ha presentato Orca, un modello con 13 miliardi di parametri in grado di emulare i complessi processi di ragionamento esibiti da altri LLMS. In particolare, Orca apprende dai segnali di GPT-4, inclusi tracce esplicative, pensiero passo-passo meticoloso e una miriade di istruzioni complesse. Solo pochi giorni fa, Microsoft ha ampliato quella linea di lavoro con il rilascio di Orca 2, un’estensione del lavoro innovativo che si spinge ancora più a fondo nel dominio dei modelli di linguaggio ridotti (SLM). Questa nuova versione sfida gli approcci convenzionali al ragionamento, spingendo i limiti di ciò che è possibile nel campo.

Tradizionalmente, l’addestramento degli SLM è stato basato principalmente sull’apprendimento per imitazione, cercando di replicare l’output dei loro controparti più illustri. Tuttavia, Microsoft Research sostiene che questo incessante enfasi sull’imitazione potrebbe involontariamente limitare il potenziale di questi modelli più piccoli. L’obiettivo qui è quello di dare potere ai piccoli SLM per utilizzare strategie di soluzione diverse per compiti vari, differenti da quelle seguite dai loro corrispondenti più grandi.

Alla base di Orca 2 ci sono due tecniche fondamentali:

i. Taratura delle istruzioni: Questo è un concetto recente che ha guadagnato importanza nel campo degli LLM. Questa tecnica coinvolge l’apprendimento da coppie input-output, in cui l’input è costituito da descrizioni di compiti in linguaggio naturale e l’output mostra il comportamento desiderato. L’efficacia della taratura delle istruzioni è stata dimostrata nel migliorare la capacità di un modello di seguire le istruzioni sia per compiti familiari che per compiti sconosciuti, elevando la qualità complessiva dei contenuti generati e fornendo ai modelli capacità migliori di compiti “zero-shot” e competenze avanzate di ragionamento.

ii. Taratura delle spiegazioni: Sebbene la taratura delle istruzioni sia efficiente, presenta dei limiti. In particolare, può portare i modelli a generare output stilisticamente corretti ma erronei dal punto di vista dei fatti. Ad esempio, la taratura delle istruzioni verso obiettivi troppo concisi può privare il modello studente di una comprensione approfondita dei processi di ragionamento complessi, limitando quindi la sua capacità di generalizzare su compiti diversi. Per affrontare questa problematica, Orca 1 ha introdotto la taratura delle spiegazioni, un approccio innovativo volto ad addestrare i modelli studente utilizzando segnali di ragionamento più ricchi e espressivi. Ciò comporta la creazione di istruzioni di sistema che indirizzano il modello insegnante a fornire spiegazioni dettagliate mentre affronta un compito. Queste istruzioni di sistema fungono da linee guida di alto livello che gli LLM devono seguire mentre interagiscono con richieste specifiche dell’utente e sono distinte dai dialoghi iniziativa dall’utente grazie a un flag di ruolo “sistema” nell’interfaccia ChatML.

Microsoft combina queste due tecniche in Orca 2 per ottenere un tipo di ragionamento che sembra essere altamente efficiente negli SLM.

Orca 2 e Ragionamento Prudente

Il ragionamento prudente si riferisce al processo di determinare la strategia di soluzione più adatta per un determinato compito. Questo processo di selezione comprende una gamma di opzioni, che vanno dalla generazione di risposte dirette e semplici all’utilizzo di strategie più riflessive come il ragionamento passo-passo, l’indovina e verifica o spiega-quaindi-rispondi, tra gli altri. Di seguito viene spiegata la metodologia di addestramento di un Language Model (LLM) per il ragionamento prudente:

1) Inizia con una collezione diversificata di compiti, che rappresentano una sezione trasversale di sfide.

2) Basandoti sulle intuizioni derivate dalle prestazioni di Orca, prendi decisioni informate su quali compiti necessitano di strategie di soluzione specifiche, sia che si tratti di risposta diretta, passo dopo passo, spiegazione e quindi risposta, o altre.

3) Realizza istruzioni di sistema specifiche per ogni compito, adattate alla strategia selezionata, consentendo di acquisire risposte degli insegnanti per ogni compito.

4) Durante la fase di addestramento, utilizza un processo noto come “Cancellazione delle indicazioni”, in cui l’istruzione di sistema dello studente viene sostituita da una generica priva di dettagli specifici del compito, enfatizzando l’apprendimento autonomo del modello.

Il processo di ragionamento cauto è chiaramente illustrato nel seguente dialogo che mostra come il modello dello studente apprende la strategia senza iniziare con istruzioni specifiche.

Image Credit: Microsoft Research

Per addestrare Orca 2, Microsoft ha costruito un nuovo set di dati, vantando circa 817.000 istanze di addestramento. Sulla base delle fondamenta gettate da Orca 1, Orca 2 ha subito un apprendimento progressivo, attingendo a sottoinsiemi di dati da un’elaborazione di annotazioni FLAN originali, dal set di dati di Orca 1 e dal nuovo set di dati di Orca 2 appena creato. Il nucleo di questo set di dati di addestramento rimane FLAN, arricchito con sfide matematiche e una raccolta di esempi a poche iterazioni.

L’elemento centrale dell’addestramento di Orca 2 si basa su una tecnica nota come apprendimento progressivo, che si basa sull’iniziare l’addestramento con un checkpoint LLaMA-2–7B o LLaMA-2–13B, seguito dalla messa a punto sul set di dati FLAN-v2 per una singola epoca. È importante sottolineare che il set di dati FLAN-v2 comprende sia problemi senza connessione che a poche connessioni. Successivamente, il modello è stato sottoposto ad addestramento su 5 milioni di istanze di dati ChatGPT provenienti da Orca 1, coprendo tre epoche. L’ultima fase dell’addestramento ha compreso una sessione di quattro epoche su un set di dati composito, costituito da 1 milione di istanze di dati GPT-4 provenienti da entrambi Orca 1 e dai 817.000 campioni di dati di Orca 2.

Valutazione

La prova decisiva delle capacità dell’Orca 2 è stata una valutazione completa condotta da Microsoft. Questa valutazione ha coperto una vasta gamma di benchmark, che vanno dalle capacità avanzate come il ragionamento a compiti fondamentali come il completamento del testo, nonché la giustificazione, la veridicità e la sicurezza.

Image Credit: Microsoft Research

Il lavoro su Orca 2 mette in evidenza le possibilità di migliorare le capacità di ragionamento degli SLM. Attraverso un addestramento specializzato su dati sintetici, i modelli Orca 2 hanno dimostrato non solo la fattibilità, ma anche il raggiungimento di livelli di prestazioni migliori. Sfruttando un’ampia gamma di tecniche di ragionamento e identificando saggiamente la strategia di soluzione più efficace per ogni compito, questi modelli hanno dimostrato abilità che spesso eguagliano o superano modelli molto più grandi, soprattutto nel campo dei compiti di ragionamento senza connessione. Pur riconoscendo l’esistenza di limitazioni intrinseche e vincoli legati ai loro modelli di base, i modelli Orca 2 presentano una prospettiva promettente per miglioramenti futuri, soprattutto in termini di capacità di ragionamento, controllo e sicurezza rafforzati, grazie all’applicazione strategica di dati sintetici nella rifinitura post-addestramento.