Misurando-8x7B Comprendere e Gestire la Miscela Sparsa di Esperti
Misurando-8x7B Comprendere e Gestire l'Armonia dei Diversi Esperti
Come superare in modo efficiente GPT-3.5 e Llama 2 70B
La maggior parte dei recenti modelli di linguaggio di grandi dimensioni (LLM) utilizza architetture neurali molto simili. Ad esempio, i modelli Falcon, Mistral e Llama 2 utilizzano una combinazione simile di moduli di auto-attenzione e MLP.
In contrasto, Mistral AI, che ha creato anche Mistral 7B, ha appena rilasciato un nuovo LLM con un’architettura significativamente diversa: Mixtral-8x7B, una miscela sparsa di 8 modelli esperti.
In totale, Mixtral contiene 46,7B di parametri. Tuttavia, grazie alla sua architettura, Mixtral-8x7B può essere eseguito efficientemente su hardware consumer. L’inferenza con Mixtral-8x7B è infatti significativamente più veloce rispetto ad altri modelli delle stesse dimensioni, superandoli nella maggior parte dei compiti.
In questo articolo, spiegherò cos’è una miscela sparsa di esperti e perché è più veloce per l’inferenza rispetto a un modello standard. Successivamente, vedremo come utilizzare e raffinare Mixtral-8x7B su hardware consumer.
- Perfeziona il tuo personale LLM open source utilizzando le ultime tecniche
- Fai attenzione quando usi l’NOT IN in SQL
- Cosa è LangChain? Utilizzo e vantaggi
Ho implementato un notebook che mostra il raffinamento e l’inferenza di QLoRA con Mixtral-8x7B qui:
Una Miscela Sparsa di Esperti
Una miscela sparsa di esperti (SMoE) è un tipo di architettura di rete neurale progettata per migliorare l’efficienza e la scalabilità dei modelli tradizionali. Il concetto di miscela di esperti è stato introdotto per consentire a un modello di apprendere diverse parti dello spazio di input utilizzando sottoreti specializzate “esperte”. In Mixtral, ci sono 8 sottoreti esperte.
Si noti che l'”8x7B” nel nome del modello è leggermente fuorviante. Il modello ha un totale di 46,7B di parametri, che sono quasi 10B di parametri in meno rispetto a quelli che 8x7B parametri produrrebbero. Infatti, Mixtral-8x7b non è un modello con 56B di parametri, poiché diversi moduli, come quelli per l’auto-attenzione, sono condivisi con le 8 sottoreti esperte.
Se si carica e stampa il modello con Transformers, la struttura del modello risulta più facile da comprendere:
MixtralForCausalLM(…