Chi è Harry Potter? All’interno del metodo di affinamento di Microsoft Research per dissociare i concetti nelle LLM

Chi è Harry Potter? Scopri come il metodo di affinamento di Microsoft Research dissociati i concetti nelle LLM

È possibile che il perfezionamento consenta alle LLMs di dimenticare le conoscenze esistenti?

Creato usando Ideogram

Recentemente ho avviato una newsletter educativa incentrata sull’intelligenza artificiale, che conta già più di 160.000 abbonati. TheSequence è una newsletter orientata all’apprendimento automatico, senza falsi preconcetti (senza esagerazioni, notizie, ecc.), che richiede solo 5 minuti di lettura. Lo scopo è tenerti aggiornato sui progetti di apprendimento automatico, articoli di ricerca e concetti. Per favore, dagli un’occhiata iscrivendoti qui sotto:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornato sulle novità nell’apprendimento automatico, intelligenza artificiale e dati…

thesequence.substack.com

Le large language models (LLMs) vengono regolarmente addestrate su grandi quantità di dati non etichettati, il che spesso porta all’acquisizione di conoscenze su argomenti incredibilmente diversi. I dataset utilizzati per la pre-formazione delle LLMs comprendono spesso materiale con diritti d’autore, suscitando preoccupazioni legali ed etiche per sviluppatori, utenti e creatori di contenuti originali. Molto spesso, è necessario eliminare conoscenze specifiche dalle LLMs al fine di adattarle a un determinato settore. Sebbene l’apprendimento delle LLM sia certamente impressionante, la dimenticanza di concetti specifici rimane un ambito di esplorazione molto recente. Sebbene i metodi di perfezionamento siano certamente efficaci per l’incorporazione di nuovi concetti, è possibile utilizzarli per dimenticare conoscenze specifiche?

In uno dei paper più affascinanti di quest’anno, Microsoft Research esplora una tecnica di dimenticanza per le LLMs. La sfida era niente meno che far dimenticare a Llama-7B ogni conoscenza su Harry Potter.

La sfida della dimenticanza nelle LLMs

Negli ultimi mesi si è assistito a un aumento dell’attenzione sui dati utilizzati per addestrare le LLMs. I riflettori si sono accesi su questioni che vanno dalla violazione del diritto d’autore alle preoccupazioni sulla privacy, al bias dei contenuti, ai dati falsi e persino alla presenza di informazioni tossiche o dannose. È evidente che alcuni dati di addestramento presentano problemi intrinseci. Ma cosa succede quando ci si rende conto che determinati dati devono essere eliminati da una LLM addestrata?

Tradizionalmente, la comunità dell’IA ha trovato relativamente semplice perfezionare le LLMs per l’incorporazione di nuove informazioni. Tuttavia, il compito di far dimenticare a queste macchine dati precedentemente appresi rappresenta una sfida formidabile. Per fare un parallelo, è come cercare di rimuovere ingredienti specifici da una torta completamente cotta, un compito che sembra quasi insormontabile. Mentre il perfezionamento può introdurre nuovi sapori, rimuovere un determinato ingrediente rappresenta un’ostacolo considerevole.

Ad aggiungere complessità c’è il costo esorbitante associato alla riesecuzione dell’addestramento delle LLMs. Il processo di addestramento di questi modelli massicci richiede investimenti che possono facilmente raggiungere decine di milioni di dollari o più. Date queste formidabili sfide, la dimenticanza rimane uno degli enigmi più complessi all’interno della sfera dell’IA. Dei dubbi permangono sulla sua fattibilità, con alcuni che mettono perfino in dubbio se raggiungere una dimenticanza perfetta sia solo un sogno lontano. In assenza di ricerche concrete sull’argomento, la scetticismo nella comunità dell’IA cresce.

Il metodo

L’approccio di Microsoft Research per la dimenticanza nei modelli di linguaggio generativi comprende tre componenti principali:

1. Identificazione dei token tramite modeling rinforzato: I ricercatori costruiscono un modello specializzato progettato per rafforzare la sua conoscenza dei contenuti da dimenticare, attraverso ulteriori perfezionamenti dei dati target, come i libri di Harry Potter. Questo processo identifica i token le cui probabilità sono aumentate in modo significativo, indicando i token correlati ai contenuti da evitare durante la generazione.

2. Sostituzione delle espressioni: Per facilitare la dimenticanza, le frasi distintive dei dati target vengono sostituite con equivalenti generici. Il modello quindi predice etichette alternative per questi token, simulando una versione di sé stesso che non ha appreso i contenuti target specifici.

3. Perfezionamento: Dotato di queste etichette alternative, il modello subisce un perfezionamento. Fondamentalmente, ogni volta che il modello incontra un contesto associato ai dati target, esso “dimentica” il contenuto originale.

In questo scenario, Microsoft Research affronta la sfida di dimenticare un sottoinsieme dei dati di addestramento di un modello di linguaggio generativo. Supponiamo che il modello sia stato addestrato su un dataset X e che un sottoinsieme Y (chiamato il target da dimenticare) debba essere dimenticato. L’obiettivo è approssimare l’effetto del riesecuzione dell’addestramento del modello sul dataset X \ Y, riconoscendo che un riesecuzione completa su X \ Y sarebbe impraticabile per i suoi tempi e costi implicati.

Una nozione iniziale per dimenticare il testo potrebbe essere addestrare il modello sul testo invertendo la funzione di perdita. Tuttavia, le scoperte empiriche indicano che questo approccio non produce risultati promettenti in questo contesto. La limitazione deriva da situazioni in cui la previsione di successo del modello di certi token non è legata alla conoscenza dei libri di Harry Potter, ma riflette piuttosto la sua comprensione generale del linguaggio. Ad esempio, prevedere “Harry” nella frase “Harry Potter si avvicinò a lui e disse: ‘Ciao. Il mio nome è'” non cancellerebbe i libri ma ostacolerebbe invece la comprensione della frase “il mio nome è” da parte del modello.

Un’altra sfida sorge quando il modello di base prevede con sicurezza token come “Ron” o “Hermione” in una frase come “I due migliori amici di Harry Potter sono”. Applicare una semplice perdita inversa richiederebbe numerosi passaggi di discesa del gradiente per modificare la previsione. Inoltre, il token più probabile semplicemente passerebbe a un’alternativa legata ai libri di Harry Potter.

Invece, l’obiettivo è fornire al modello alternative plausibili a token come “Ron” che non siano legate ai libri di Harry Potter, ma rimangano contestualmente appropriate. In sostanza, per ogni token nel testo, la domanda diventa: cosa prevederebbe un modello non esposto ai libri di Harry Potter come token successivo in questa frase? Questo è indicato come la previsione generica e il metodo di Microsoft utilizza tecniche come il potenziamento del rinforzo e i termini ancorati per ottenere queste previsioni generiche.

I Risultati

Microsoft Research ha intrapreso un’impresa ambiziosa, inizialmente considerata quasi impossibile: l’impresa di cancellare dalla memoria l’affascinante mondo di Harry Potter nel modello Llama2-7b, originariamente addestrato da Meta. Diverse fonti suggeriscono che l’addestramento del modello comprendesse l’insieme di dati “books3”, un ampio repository che include i libri iconici, insieme ad una ricca serie di altre opere letterarie protette da copyright (compresi quelli scritti da un contributore a questa ricerca).

Per illustrare la notevole profondità di conoscenza del modello, basta presentargli una richiesta apparentemente generica come “Quando Harry tornò a scuola quell’autunno” e osservare come tessera una narrazione dettagliata ambientata nell’universo magico di J.K. Rowling.

Image Credit: Microsoft Research

Tuttavia, attraverso l’applicazione della tecnica proposta da Microsoft Research, è emersa una profonda trasformazione nelle risposte del modello. Approfondiamo alcuni esempi confrontando le completamenti generati dal modello Llama2-7b originale con quelli prodotti dalla nostra iterazione ben affinata:

Image Credit: Microsoft Research

L’indagine di Microsoft Research fornisce una visione cruciale: il dimenticare, pur presentando sfide, si rivela un’impresa fattibile, come dimostrato dagli esiti favorevoli nei loro esperimenti che coinvolgono il modello Llama2-7b. Tuttavia, questo traguardo richiede una prospettiva cauta. La metodologia di valutazione attuale, basata su richieste fornite al modello e l’analisi successiva delle sue risposte, si dimostra efficace in contesti specifici. Tuttavia, potrebbe trascurare metodi più complessi e avversariali per estrarre informazioni trattenute. È concepibile che tecniche non convenzionali, come l’approfondimento delle distribuzioni di probabilità dei token, possano involontariamente rivelare la conoscenza nascosta del modello per il contenuto non appreso.

In sintesi, mentre la loro tecnica segna un promettente primo passo, la sua adattabilità a diverse categorie di contenuti rimane soggetta a un’approfondita esame. L’approccio presentato fornisce un quadro fondamentale, ma richiede ulteriori ricerche per il perfezionamento e l’espansione, soprattutto nel contesto di compiti di dimenticanza più ampi all’interno di grandi modelli di linguaggio.