Misurando-8x7B Comprendere e Gestire la Miscela Sparsa di Esperti

Misurando-8x7B Comprendere e Gestire l'Armonia dei Diversi Esperti

Come superare in modo efficiente GPT-3.5 e Llama 2 70B

Immagine di 8385 da Pixabay

La maggior parte dei recenti modelli di linguaggio di grandi dimensioni (LLM) utilizza architetture neurali molto simili. Ad esempio, i modelli Falcon, Mistral e Llama 2 utilizzano una combinazione simile di moduli di auto-attenzione e MLP.

In contrasto, Mistral AI, che ha creato anche Mistral 7B, ha appena rilasciato un nuovo LLM con un’architettura significativamente diversa: Mixtral-8x7B, una miscela sparsa di 8 modelli esperti.

In totale, Mixtral contiene 46,7B di parametri. Tuttavia, grazie alla sua architettura, Mixtral-8x7B può essere eseguito efficientemente su hardware consumer. L’inferenza con Mixtral-8x7B è infatti significativamente più veloce rispetto ad altri modelli delle stesse dimensioni, superandoli nella maggior parte dei compiti.

In questo articolo, spiegherò cos’è una miscela sparsa di esperti e perché è più veloce per l’inferenza rispetto a un modello standard. Successivamente, vedremo come utilizzare e raffinare Mixtral-8x7B su hardware consumer.

Ho implementato un notebook che mostra il raffinamento e l’inferenza di QLoRA con Mixtral-8x7B qui:

Ottieni il notebook (#32)

Una Miscela Sparsa di Esperti

Immagine dell'autore

Una miscela sparsa di esperti (SMoE) è un tipo di architettura di rete neurale progettata per migliorare l’efficienza e la scalabilità dei modelli tradizionali. Il concetto di miscela di esperti è stato introdotto per consentire a un modello di apprendere diverse parti dello spazio di input utilizzando sottoreti specializzate “esperte”. In Mixtral, ci sono 8 sottoreti esperte.

Si noti che l'”8x7B” nel nome del modello è leggermente fuorviante. Il modello ha un totale di 46,7B di parametri, che sono quasi 10B di parametri in meno rispetto a quelli che 8x7B parametri produrrebbero. Infatti, Mixtral-8x7b non è un modello con 56B di parametri, poiché diversi moduli, come quelli per l’auto-attenzione, sono condivisi con le 8 sottoreti esperte.

Se si carica e stampa il modello con Transformers, la struttura del modello risulta più facile da comprendere:

MixtralForCausalLM(…