Rivoluzionare l’efficienza dell’AI SqueezeLLM dell’UC Berkeley presenta la quantizzazione densa e sparso, unendo qualità e velocità nella gestione di grandi modelli di linguaggio.

SqueezeLLM dell'UC Berkeley rivoluziona l'efficienza dell'AI con la quantizzazione densa e sparso, migliorando la gestione di grandi modelli di linguaggio senza compromettere la qualità e la velocità.

Gli sviluppi recenti nei modelli di linguaggio grande (LLM) hanno dimostrato la loro impressionante capacità di risolvere problemi in diversi campi. Gli LLM possono includere centinaia di miliardi di parametri e vengono addestrati su enormi corpora di testo.

Studi mostrano che nell’inferenza LLM, la larghezza di banda della memoria, non la CPU, è la chiave della limitazione delle prestazioni per i compiti generativi. Ciò indica che il tasso a cui i parametri possono essere caricati e archiviati per situazioni legate alla memoria, piuttosto che le operazioni aritmetiche, diventa la principale barriera di latenza. Tuttavia, il progresso nella tecnologia della larghezza di banda della memoria è rimasto molto indietro rispetto al calcolo, dando vita a un fenomeno noto come Memory Wall.

La quantizzazione è un metodo promettente che prevede la memorizzazione dei parametri del modello con una precisione inferiore rispetto ai soliti 16 o 32 bit utilizzati durante l’addestramento. Nonostante i recenti avanzamenti come LLaMA e le sue varianti di istruzioni, è ancora difficile ottenere una buona performance di quantizzazione, specialmente con una precisione di bit inferiore e modelli relativamente modesti (ad esempio, 50 miliardi di parametri).

Uno nuovo studio dell’UC Berkeley indaga a fondo la quantizzazione a bassa precisione in bit per rivelare le carenze dei metodi attuali. Sulla base di queste scoperte, i ricercatori introducono SqueezeLLM, un quadro di quantizzazione post-training che combina una tecnica di decomposizione densa e sparsa con una strategia di quantizzazione non uniforme basata sulla sensibilità. Questi metodi consentono la quantizzazione con una precisione ultra-bassa di bit preservando al contempo una competitiva performance del modello, riducendo drasticamente le dimensioni del modello e i costi di tempo di inferenza. Il loro metodo riduce la perplessità del modello LLaMA-7B a 3 bit di precisione da 28,26 con quantizzazione uniforme a 7,75 sul dataset C4, il che rappresenta un notevole miglioramento.

Attraverso test completi sui benchmark C4 e WikiText2, i ricercatori hanno scoperto che SqueezeLLM supera costantemente gli approcci di quantizzazione esistenti di gran lunga a diverse precisioni di bit quando applicati a LLaMA-7B, 13B e 30B per compiti di modellizzazione del linguaggio.

Secondo il team, la quantizzazione a bassa precisione di molti LLM è particolarmente difficile a causa di notevoli valori anomali nelle matrici di peso. Questi valori anomali influenzano anche il loro approccio di quantizzazione non uniforme poiché distorcono l’allocazione dei bit verso valori estremamente alti o bassi. Per eliminare i valori anomali, forniscono un metodo semplice che divide i pesi del modello in componenti dense e sparse. Isolando i valori estremi, la regione centrale mostra un intervallo più stretto fino a 10, risultando in una migliore precisione di quantizzazione. Con metodi di archiviazione sparsi efficienti come Compressed Sparse Rows (CSR), i dati sparsi possono essere mantenuti in piena precisione. Questo metodo comporta un basso overhead utilizzando kernel sparsi efficienti per la metà sparsa e parallelizzando il calcolo insieme alla parte densa.

Il team dimostra il potenziale del loro quadro di quantizzazione dei modelli IF applicando SqueezeLLM ai modelli Vicuna-7B e 13B. Confrontano due sistemi nei loro test. In primo luogo, utilizzano il dataset MMLU, un benchmark multi-task che misura la conoscenza e le capacità di risoluzione dei problemi di un modello, per valutare la qualità dell’output generato. Utilizzano anche GPT-4 per classificare la qualità di generazione dei modelli quantizzati rispetto alla linea di base FP16, utilizzando la metodologia di valutazione presentata in Vicuna. In entrambi i benchmark, SqueezeLLM supera regolarmente GPTQ e AWQ, due approcci di stato dell’arte attuali. In particolare, in entrambe le valutazioni, il modello quantizzato a 4 bit funziona tanto bene quanto la linea di base.

Il lavoro mostra notevoli riduzioni di latenza e progressi nelle prestazioni di quantizzazione con i loro modelli in esecuzione su GPU A6000. I ricercatori dimostrano accelerazioni fino a 2,3 rispetto all’inferenza FP16 di base per LLaMA-7B e 13B. Inoltre, il metodo proposto raggiunge una latenza fino a 4 volte più veloce rispetto a GPTQ, dimostrando la sua efficacia nelle prestazioni di quantizzazione e nell’efficienza dell’inferenza.