Incontra YaRN un metodo efficiente dal punto di vista computazionale per ampliare la finestra di contesto dei modelli di linguaggio basati su Transformer, richiedendo il 10 volte meno token e il 2.5 volte meno passaggi di addestramento rispetto ai metodi precedenti.

YaRN è un metodo efficiente per ampliare la finestra di contesto dei modelli di linguaggio basati su Transformer, richiedendo meno token e passaggi di addestramento rispetto ai metodi precedenti.

“`html

I modelli di linguaggio di grandi dimensioni come chat GPT possono considerare un contesto più ampio nel testo, consentendo loro di comprendere e generare risposte più coerenti e pertinenti dal punto di vista contestuale. Questo è particolarmente utile in compiti come il completamento del testo, dove è cruciale comprendere l’intero contesto di un documento.

Questi modelli possono catturare relazioni complesse e dipendenze all’interno di un documento, anche se si estendono su molti token. L’estensione della finestra di contesto nel contesto di modelli di linguaggio di grandi dimensioni come GPT-3 o GPT-4 si riferisce allo span di testo o token che il modello considera durante la generazione o la comprensione del linguaggio. Questo è prezioso per compiti come la sintesi del documento, dove il riassunto deve basarsi su una comprensione completa del documento.

Il posizionamento di embedding rotativo (RoPE) migliora la capacità dei modelli di gestire dati sequenziali e catturare informazioni posizionali all’interno delle sequenze. Tuttavia, questi modelli devono generalizzare oltre la lunghezza della sequenza su cui sono stati addestrati. Ricercatori di Nous Research, Eleuther AI e dell’Università di Ginevra presentano YaRN (Yet another RoPE extension method), che può calcolare modi efficienti per estendere la finestra di contesto di tali modelli.

RoPE utilizza rotazioni di numeri complessi, un posizionamento di embedding rotativo che consente al modello di codificare efficacemente informazioni posizionali senza fare affidamento esclusivamente su embedding di posizione fissi. Ciò aiuterà il modello a catturare in modo più accurato le dipendenze a lungo raggio. I parametri che controllano le rotazioni vengono appresi durante il processo di addestramento del modello. Il modello può regolare in modo adattivo le rotazioni per catturare al meglio le relazioni posizionali tra i token.

Il metodo seguito è quello dei trasformatori compressivi, che utilizzano meccanismi di memoria esterna per estendere la finestra di contesto. Conservano e recuperano informazioni da una banca di memoria esterna, consentendo loro di accedere al contesto al di là della dimensione della finestra standard. Sono state sviluppate estensioni dell’architettura del trasformatore per includere componenti di memoria, consentendo al modello di conservare e utilizzare informazioni da token o esempi precedenti.

I loro esperimenti mostrano che YaRN riesce con successo a estendere la finestra di contesto dei LLM con soli 400 passaggi di addestramento, che rappresentano lo 0,1% del corpus di pre-addestramento originale del modello, una riduzione del 10x rispetto a 25 e una riduzione del 2,5x nel numero di passaggi di addestramento rispetto a 7. Ciò lo rende altamente efficiente in termini di calcolo per l’addestramento senza costi di inferenza aggiuntivi.

In generale, YaRN migliora tutti i metodi di interpolazione RoPE esistenti e sostituisce PI senza svantaggi e con sforzi di implementazione minimi. I modelli sintonizzati conservano le loro abilità originali su molteplici benchmark pur essendo in grado di considerare un contesto molto ampio. Ricerche future possono riguardare l’aumento della memoria, che può essere combinato con modelli NLP tradizionali. Un modello basato su trasformatore può incorporare banche di memoria esterna per memorizzare informazioni pertinenti al contesto per compiti successivi come il question-answering o la traduzione automatica.

“`