Migliorare il ragionamento nei grandi modelli di linguaggio Scopri il framework delle ipotesi alle teorie (HtT) per un apprendimento basato su regole accurato e trasferibile

Migliorare il ragionamento nei grandi modelli di linguaggio scopri il framework delle ipotesi alle teorie (HtT) per un apprendimento basato su regole preciso e applicabile

Nel campo dei compiti di ragionamento, i modelli di linguaggio di grandi dimensioni (LLM) hanno dimostrato una notevole performance quando vengono forniti esempi e passaggi intermedi. Tuttavia, gli approcci che si basano sulla conoscenza implicita all’interno di un LLM possono talvolta produrre risposte errate quando la conoscenza implicita è sbagliata o incoerente con il compito in questione.

Per affrontare questo problema, un team di ricercatori di Google, Mila – Québec AI Institute, Université de Montréal, HEC Montréal, University of Alberta e CIFAR AI Chair introduce il framework Hypotheses-to-Theories (HtT) che si concentra sull’acquisizione di una libreria di regole per il ragionamento basato su LLM. HtT comprende due fasi chiave: una fase di induzione e una fase di deduzione. Nella fase di induzione, un LLM è inizialmente incaricato di generare e convalidare regole basate su un insieme di esempi di addestramento.

L’immagine sopra mostra l’applicazione di Hypotheses-to-Theories al metodo del ragionamento per la risoluzione dei problemi aritmetici in base-9. Per mantenere la concisione, alcune esempi di pochi colpi sono stati omessi. Nella fase di induzione, viene utilizzata la tecnica del Chain of Thought (CoT) per generare regole e convalidarle utilizzando campioni di addestramento.

Successivamente, le regole prodotte vengono raccolte e affinate per costruire una libreria di regole. Nella fase di deduzione, il prompt di CoT viene migliorato con la conoscenza derivata dalla libreria di regole. Le regole corrette sono indicate con segnalibri verdi, mentre quelle sbagliate sono contrassegnate in rosso. Le regole che portano frequentemente a risposte corrette vengono accumulate per stabilire una libreria di regole. Nella fase di deduzione, il LLM viene successivamente sollecitato a utilizzare la libreria di regole acquisite per il ragionamento al fine di rispondere alle domande di prova.

Nella valutazione di HtT, i ricercatori lo integrano come un miglioramento delle tecniche di prompt di pocco colpo preesistenti, come il chain-of-thought e il least-to-most prompting. Le prestazioni vengono valutate su due problemi di ragionamento multi-step sfidanti che si sono rivelati problematici per gli approcci di prompt di poco colpo attuali.

I risultati sperimentali sia sui problemi di ragionamento numerico sia su quelli di ragionamento relazionale rivelano che HtT migliora i metodi di prompt esistenti, ottenendo un aumento dell’accuratezza compreso tra l’11% e il 27%. Inoltre, le regole acquisite possono essere trasferite in modo efficace a modelli diversi e diverse forme dello stesso problema. Il metodo introdotto apre la strada a un nuovo approccio per acquisire conoscenza testuale utilizzando LLM. Si prevede che HtT consentirà una serie di applicazioni e ispirerà ulteriori ricerche nel campo degli LLM.