Ricercatori dell’Università Sorbonne introducono UnIVAL un modello AI unificato per compiti di immagini, video, audio e linguaggio.

Researchers from Sorbonne University introduce UnIVAL, a unified AI model for tasks involving images, videos, audio, and language.

Un grande passo avanti nella creazione di modelli generalisti è l’apparizione dei Large Language Models (LLM). Le loro straordinarie prestazioni di comprensione e generazione di testi si basano spesso sull’architettura Transformer e su un unico obiettivo di previsione del token successivo. Tuttavia, attualmente sono ostacolati dalla loro incapacità di accedere alle informazioni al di fuori del testo. Ciò sottolinea la necessità di modelli multimodali affidabili in grado di svolgere varie attività utilizzando varie modalità.

Gli sforzi recenti hanno cercato di migliorare le tecniche specifiche per compiti/modalità attraverso la costruzione di modelli multimodali più potenti. Alcuni di questi metodi cercano di includere più di due modalità, come immagine/video-testo, anche se la maggior parte di questi sforzi è dedicata a lavori immagine-testo.

Per affrontare questo problema, i ricercatori dell’Università di Sorbona hanno iniziato sviluppando modelli ad uso generale in grado di affrontare qualsiasi problema. Introducono UnIVAL, un metodo che evita di fare affidamento su una singola modalità. UnIVAL integra due modalità e tutte e quattro (testo, immagini, video e audio).

UnIVAL è il primo modello in grado di risolvere sfide di linguaggio per immagini, video e audio con un’architettura unificata, un vocabolario, un formato di input/output e un obiettivo di formazione senza richiedere grandi quantità di dati per la formazione o dimensioni di modelli massicce. Il modello a 0,25 miliardi di parametri offre prestazioni paragonabili a quelle delle opere precedenti adattate a una certa modalità. I ricercatori hanno ottenuto nuovi SoTA su diversi lavori con modelli di dimensioni simili.

La loro ricerca sull’interazione e sul trasferimento di conoscenza tra compiti e modalità preaddestrati dimostra il valore del preaddestramento multitask rispetto al tradizionale preaddestramento a singolo compito. Hanno anche scoperto che il preaddestramento del modello su modalità aggiuntive migliora la sua generalizzazione alle modalità non addestrate. In particolare, quando viene sottoposto a un’affinazione su problemi audio-testuali, UnIVAL può ottenere prestazioni competitive rispetto a SoTA senza un preaddestramento audio.

Sulla base di studi precedenti, il team presenta anche una nuova indagine sulla fusione di modelli multimodali tramite interpolazione dei pesi. Dimostrano che l’interpolazione nello spazio dei pesi può combinare con successo le competenze dei pesi di affinamento multiplo, creando modelli multitask più robusti senza alcun sovraccarico di inferenza quando si utilizza il modello preaddestrato unificato per vari compiti multimodali. La diversità delle attività multimodali può quindi essere utilizzata e riciclata mediante la media dei diversi pesi di affinamento e il preaddestramento multitask. L’interpolazione dei pesi non è mai stata testata con modelli di base multimodali prima, ma questa ricerca è la prima a riuscirci con successo.

I ricercatori menzionano anche due importanti limitazioni di UnIVAL:

  1. UnIVAL è suscettibile di allucinazioni. In particolare, può inventare nuovi oggetti nelle descrizioni visive (bias sugli oggetti), dando più peso alla coerenza che all’accuratezza.
  2. Ha difficoltà a seguire istruzioni complesse. Hanno scoperto che il modello ha prestazioni inferiori quando gli vengono date istruzioni complesse, come individuare un oggetto da un gruppo di oggetti simili, trovare cose lontane o estremamente vicine o riconoscere numeri.

I ricercatori sperano che le loro scoperte possano motivare altri scienziati e accelerare il processo di costruzione di nuovi agenti assistenti generalisti agnostici alle modalità.