Misurando-8x7B Comprendere e Gestire la Miscela Sparsa di Esperti

Misurando-8x7B Comprendere e Gestire l'Armonia dei Diversi Esperti

Come superare in modo efficiente GPT-3.5 e Llama 2 70B

La maggior parte dei recenti modelli di linguaggio di grandi dimensioni (LLM) utilizza architetture neurali molto simili. Ad esempio, i modelli Falcon, Mistral e Llama 2 utilizzano una combinazione simile di moduli di auto-attenzione e MLP.

In contrasto, Mistral AI, che ha creato anche Mistral 7B, ha appena rilasciato un nuovo LLM con un’architettura significativamente diversa: Mixtral-8x7B, una miscela sparsa di 8 modelli esperti.

In totale, Mixtral contiene 46,7B di parametri. Tuttavia, grazie alla sua architettura, Mixtral-8x7B può essere eseguito efficientemente su hardware consumer. L’inferenza con Mixtral-8x7B è infatti significativamente più veloce rispetto ad altri modelli delle stesse dimensioni, superandoli nella maggior parte dei compiti.

In questo articolo, spiegherò cos’è una miscela sparsa di esperti e perché è più veloce per l’inferenza rispetto a un modello standard. Successivamente, vedremo come utilizzare e raffinare Mixtral-8x7B su hardware consumer.

Ho implementato un notebook che mostra il raffinamento e l’inferenza di QLoRA con Mixtral-8x7B qui:

Ottieni il notebook (#32)

Una Miscela Sparsa di Esperti

Immagine dell'autore — Immagine dell’autore

Una miscela sparsa di esperti (SMoE) è un tipo di architettura di rete neurale progettata per migliorare l’efficienza e la scalabilità dei modelli tradizionali. Il concetto di miscela di esperti è stato introdotto per consentire a un modello di apprendere diverse parti dello spazio di input utilizzando sottoreti specializzate “esperte”. In Mixtral, ci sono 8 sottoreti esperte.

Si noti che l'”8x7B” nel nome del modello è leggermente fuorviante. Il modello ha un totale di 46,7B di parametri, che sono quasi 10B di parametri in meno rispetto a quelli che 8x7B parametri produrrebbero. Infatti, Mixtral-8x7b non è un modello con 56B di parametri, poiché diversi moduli, come quelli per l’auto-attenzione, sono condivisi con le 8 sottoreti esperte.

Se si carica e stampa il modello con Transformers, la struttura del modello risulta più facile da comprendere:

MixtralForCausalLM(…

Misurando-8x7B Comprendere e Gestire la Miscela Sparsa di Esperti

Misurando-8x7B Comprendere e Gestire l'Armonia dei Diversi Esperti

Come superare in modo efficiente GPT-3.5 e Llama 2 70B

Una Miscela Sparsa di Esperti

Perfeziona il tuo personale LLM open source utilizzando le ultime tecniche

Ricercatori dell’NYU e di Google AI esplorano le frontiere dell’apprendimento automatico nella ragionamento deduttivo avanzato.

Ricercatori di Stanford e Salesforce AI sve...

Il canale dei dati non strutturati

Verso la spiegazione dell’LLM Perché ...

Come implementare la gestione dei dati nell...

Ottimizzazione del processo di elaborazione...

Migliora le tue prompt di diffusione stabil...

AI