Intel Researchers Propongono un Nuovo Approccio di Intelligenza Artificiale per Implementare LLM in Modo più Efficiente sui CPU

I ricercatori di Intel propongono un nuovo approccio di intelligenza artificiale per implementare LLM in modo più efficiente sui processori

I modelli di linguaggio di grandi dimensioni (LLM) hanno preso il mondo d’assalto grazie alle loro prestazioni straordinarie e al loro potenziale in una vasta gamma di compiti. Sono principalmente conosciuti per le loro capacità nella generazione di testo, nell’interpretazione del linguaggio, nella sintesi del testo e molto altro ancora. Lo svantaggio della loro adozione diffusa è la dimensione astronomicamente grande dei parametri del loro modello, che richiede una significativa capacità di memoria e hardware specializzato per l’inferenza. Di conseguenza, il dispiegamento di questi modelli è stato piuttosto impegnativo.

Un modo per ridurre la potenza di calcolo necessaria per l’inferenza potrebbe essere l’utilizzo di metodi di quantizzazione, ossia la riduzione della precisione dei pesi e delle funzioni di attivazione di una rete neurale artificiale. La quantizzazione INT8 e quella basata solo sui pesi sono un paio di modi per migliorare il costo dell’inferenza. Tuttavia, questi metodi sono generalmente ottimizzati per CUDA e potrebbero non funzionare necessariamente su CPU.

Gli autori di questo articolo di ricerca di Intel hanno proposto un modo efficace per distribuire in modo efficiente LLM su CPU. Il loro approccio supporta un flusso di quantizzazione dei pesi solo INT-4 automatico (viene applicata una bassa precisione solo ai pesi del modello, mentre quella delle funzioni di attivazione rimane alta). Hanno inoltre progettato un runtime specifico per LLM che dispone di kernel altamente ottimizzati che accelerano il processo di inferenza su CPU.

Il flusso di quantizzazione è sviluppato sulla base di un compressore neurale Intel e consente una messa a punto su diverse ricette di quantizzazione, grane e dimensioni dei gruppi per generare un modello INT4 che raggiunge l’obiettivo di accuratezza. Il modello viene quindi passato al runtime di LLM, un ambiente specializzato progettato per valutare le prestazioni del modello quantizzato. Il runtime è stato progettato per fornire un’inferenza efficiente su CPU per LLM.

Per i loro esperimenti, i ricercatori hanno selezionato alcuni dei LLM più popolari con una gamma diversificata di dimensioni dei parametri (da 7B a 20B). Hanno valutato le prestazioni dei modelli FP32 e INT4 utilizzando set di dati open-source. Hanno osservato che l’accuratezza del modello quantizzato sui set di dati selezionati era quasi pari a quella del modello FP32. Inoltre, hanno effettuato un’analisi comparativa della latenza nella generazione del token successivo e hanno scoperto che il runtime di LLM supera la soluzione basata su ggml fino a 1,6 volte.

In conclusione, questo articolo di ricerca presenta una soluzione a una delle sfide più grandi associate a LLM, cioè l’inferenza su CPU. Tradizionalmente, questi modelli richiedono hardware specializzato come le GPU, che li rende inaccessibili per molte organizzazioni. Questo articolo presenta una quantizzazione del modello INT4 insieme a un runtime LLM specializzato per fornire un’inferenza efficiente di LLM su CPU. Quando valutato su un set di LLM popolari, il metodo ha dimostrato un vantaggio rispetto alle soluzioni basate su ggml e ha fornito un’accuratezza paragonabile a quella dei modelli FP32. Tuttavia, ci sono margini di miglioramento e i ricercatori hanno intenzione di potenziare l’AI generativa su PC per soddisfare le crescenti esigenze dei contenuti generati dall’AI.