I Ricercatori di Microsoft propongono DeepSpeed-VisualChat Un Salto Avanti nell’Addestramento di Modelli di Lingua Multimodali Scalabili.

I ricercatori di Microsoft propongono DeepSpeed-VisualChat un salto in avanti nell'addestramento di modelli di lingua multimodali scalabili

I modelli di linguaggio di grandi dimensioni sono sofisticati sistemi di intelligenza artificiale creati per comprendere e produrre linguaggio simile a quello umano su larga scala. Questi modelli sono utili in diverse applicazioni, come la risposta alle domande, la generazione di contenuti e i dialoghi interattivi. La loro utilità deriva da un lungo processo di apprendimento in cui analizzano e comprendono grandi quantità di dati online.

Questi modelli sono strumenti avanzati che migliorano l’interazione uomo-computer incoraggiando un uso più sofisticato ed efficace del linguaggio in diversi contesti.

Oltre alla lettura e scrittura di testo, si stanno conducendo ricerche per insegnar loro come comprendere e utilizzare diverse forme di informazione, come suoni e immagini. Il progresso nelle capacità multimodali è estremamente affascinante e promettente. I modelli di linguaggio di grandi dimensioni (LLM), come GPT, hanno dimostrato prestazioni eccezionali in una serie di compiti legati al testo. Questi modelli diventano molto bravi in diverse attività interattive utilizzando metodi di addestramento extra come il fine-tuning supervisionato o il reinforcement learning con la guida umana. Per raggiungere il livello di competenza osservato negli specialisti umani, specialmente nelle sfide che coinvolgono la codifica, il pensiero quantitativo, il ragionamento matematico e l’interazione in conversazioni come gli assistenti virtuali a intelligenza artificiale, è essenziale affinare i modelli attraverso queste tecniche di addestramento.

Si sta avvicinando la possibilità di permettere a questi modelli di comprendere e creare materiale in diversi formati, inclusi immagini, suoni e video. Vengono applicati metodi come l’allineamento delle caratteristiche e la modifica dei modelli. I modelli di visione e linguaggio di grandi dimensioni (LVLM) sono uno di questi progetti. Tuttavia, a causa dei problemi di addestramento e della disponibilità dei dati, i modelli attuali hanno difficoltà nell’affrontare scenari complicati, come il dialogo a più immagini e a più turni, e sono limitati in termini di adattabilità e scalabilità in diversi contesti interattivi.

I ricercatori di Microsoft hanno denominato questa piattaforma DeepSpeed-VisualChat. Questo framework potenzia i modelli di linguaggio di grandi dimensioni incorporando capacità multimodali e dimostra una notevole scalabilità anche con una dimensione del modello di linguaggio di 70 miliardi di parametri. È stato formulato per facilitare chat dinamiche con dialoghi a più turni e a più immagini, fondendo senza soluzione di continuità input di testo e immagini. Per aumentare l’adattabilità e la reattività dei modelli multimodali, il framework utilizza Multi-Modal Causal Attention (MMCA), un metodo che stima separatamente i pesi di attenzione attraverso diverse modalità. Il team ha utilizzato approcci di fusione dei dati per superare i problemi dei set di dati disponibili, ottenendo un ambiente di addestramento ricco e variegato.

DeepSpeed-VisualChat si distingue per la sua notevole scalabilità, resa possibile dall’integrazione oculata del framework DeepSpeed. Questo framework presenta una scalabilità eccezionale e spinge i limiti di ciò che è possibile nei sistemi di dialogo multimodali utilizzando un encoder visivo con 2 miliardi di parametri e un decoder di linguaggio con 70 miliardi di parametri da LLaMA-2.

I ricercatori sottolineano che l’architettura di DeepSpeed-VisualChat si basa su MiniGPT4. In questa struttura, un’immagine viene codificata utilizzando un encoder visivo pre-addestrato e quindi allineata con l’output dello strato di embedding del testo utilizzando uno strato lineare. Questi input vengono alimentati in modelli di linguaggio come LLaMA2, supportati dal rivoluzionario meccanismo di Multi-Modal Causal Attention (MMCA). È significativo che durante questa procedura, sia il modello di linguaggio che l’encoder visivo rimangano congelati.

Secondo i ricercatori, il classico Cross Attention (CrA) presenta nuove dimensioni e problemi, ma la Multi-Modal Causal Attention (MMCA) adotta un approccio diverso. Per i token di testo e immagine, MMCA utilizza matrici di pesi di attenzione separate in modo che i token visivi si concentrino su se stessi e il testo permetta di concentrarsi sui token che li precedono.

DeepSpeed-VisualChat è più scalabile rispetto ai modelli precedenti, secondo i risultati reali. Migliora l’adattabilità in diversi scenari di interazione senza aumentare la complessità o i costi di addestramento. Con una scala fino a una dimensione del modello di linguaggio di 70 miliardi di parametri, offre una scalabilità particolarmente eccellente. Questo risultato fornisce una solida base per il continuo avanzamento dei modelli di linguaggio multimodali e costituisce un significativo passo avanti.