Questa ricerca sull’IA valuta la correttezza e la fedeltà dei modelli di istruzioni per la loro capacità di eseguire il question-answering.

La ricerca sull'IA valuta i modelli di istruzioni per la loro capacità di eseguire il question-answering.

Recentemente, i Large Language Models (LLM) introdotti hanno sorpreso la comunità di Intelligenza Artificiale (AI). Questi modelli sono stati in grado di imitare con successo gli esseri umani utilizzando un superiore Natural Language Processing (NLP), Natural Language Generation (NLG) e Natural Language Understanding (NLU). Gli LLM sono diventati famosi per imitare gli esseri umani per avere conversazioni realistiche e sono in grado di rispondere a domande semplici e complesse, generazione di contenuti, completamento del codice, traduzione automatica e sintesi del testo. L’obiettivo del NLP è rendere possibile ai sistemi informatici di comprendere e reagire a comandi dati in linguaggio naturale, consentendo alle persone di interagire con loro in modo più naturale e flessibile, il miglior esempio di ciò sono i modelli di istruzioni seguenti.

Questi modelli vengono addestrati utilizzando LLM, esempi supervisionati o altri tipi di supervisione e vengono esposti a migliaia di compiti scritti come istruzioni in linguaggio naturale. In una recente ricerca, un team di Mila Quebec AI Institute, McGill University e Facebook CIFAR AI Chair ha studiato la valutazione delle prestazioni dei modelli di istruzioni seguenti per la loro capacità di svolgere una domanda-risposta (QA) su un insieme di passaggi di testo forniti. Questi modelli possono rispondere a domande quando vengono forniti un prompt che descrive il compito, la domanda e i passaggi di testo rilevanti recuperati da un recuperatore, e le risposte prodotte da questi modelli sono note per essere naturali e informative, il che aiuta a costruire la fiducia e l’interazione degli utenti.

Questi modelli possono rispondere alle query degli utenti in modo naturale e fluente aggiungendo solo documenti e istruzioni recuperate al loro input. Tuttavia, questa ulteriore verbosità rende difficile per le metriche di valutazione QA convenzionali come la corrispondenza esatta (EM) e il punteggio F1 quantificare efficacemente le prestazioni del modello. Questo è dovuto alla possibilità che la risposta del modello possa includere più dettagli che la risposta di riferimento omette pur essendo accurata. Il team ha fornito due criteri per misurare i modelli di istruzioni seguenti in un’assicurazione di qualità (QA) potenziata dal recupero al fine di superare questo problema.

  1. Riguardo alla necessità di informazioni, accuratezza: questa dimensione valuta quanto bene il modello soddisfa le esigenze informative di un utente. Si tratta di verificare se la risposta generata include informazioni pertinenti, anche se va oltre quanto menzionato direttamente nella risposta di riferimento.
  1. Fedeltà in relazione alle informazioni fornite: questa dimensione valuta quanto bene il modello basa le risposte sulle conoscenze presentate. Un modello valido dovrebbe evitare di rispondere quando vengono presentate informazioni non pertinenti, oltre a fornire risposte precise quando sono accessibili.

Gli autori hanno valutato diversi modelli di istruzioni seguenti recenti su tre diversi set di dati di QA: Natural Questions per domande aperte, HotpotQA per domande a più passaggi e TopiOCQA per domande conversazionali. Hanno analizzato manualmente 900 risposte del modello e confrontato i risultati con diverse metriche automatiche per accuratezza e fedeltà. La loro ricerca ha suggerito che il recall, che misura la percentuale di token dalla risposta di riferimento presenti anche nella risposta del modello, correla più fortemente con la correttezza rispetto alle metriche di sovrapposizione lessicale come EM o punteggio F1. Rispetto ad altre metriche di sovrapposizione dei token per la fedeltà, la K-Precision, che è la percentuale di token di risposta del modello che esistono nella descrizione delle conoscenze, ha una correlazione più forte con i giudizi umani.

In conclusione, questo studio mira a promuovere una valutazione più approfondita dei modelli di istruzioni seguenti per i compiti di QA, tenendo conto sia dei loro vantaggi che dei loro svantaggi. Il team ha promosso ulteriori progressi in questo settore rendendo il loro codice e i dati accessibili nel loro repository GitHub