Incontra MovieChat un innovativo sistema di comprensione video che integra modelli fondamentali di video e grandi modelli linguistici.

Incontra MovieChat, un sistema innovativo di comprensione video che unisce modelli di video e linguistici.

I grandi modelli di linguaggio (LLM) hanno recentemente compiuto notevoli progressi nel settore dell’elaborazione del linguaggio naturale (NLP). Aggiungere la multimodalità ai LLM e trasformarli in modelli di linguaggio multimodali di grandi dimensioni (MLLM), capaci di eseguire percezione e interpretazione multimodale, è un passo logico. Come possibile passo verso l’intelligenza artificiale generale (AGI), i MLLM hanno dimostrato straordinarie competenze emergenti in varie attività multimodali come la percezione (ad esempio, esistenza, conteggio, posizione, OCR), il ragionamento di senso comune e il ragionamento del codice. I MLLM offrono una prospettiva più simile a quella umana dell’ambiente, un’interfaccia user-friendly per l’interazione e una gamma più ampia di competenze nella risoluzione delle attività rispetto ai LLM e ad altri modelli specifici per compiti.

I MLLM centrati sulla visione esistenti utilizzano il Q-former o uno strato di proiezione di base, LLM pre-addestrati, un codificatore visivo e moduli di apprendimento aggiuntivi. Un paradigma diverso combina gli strumenti attuali di percezione visiva (come il tracciamento e la classificazione) con i LLM attraverso API per costruire un sistema senza addestramento. Alcuni studi precedenti nel settore dei video hanno sviluppato MLLM video utilizzando questo paradigma. Tuttavia, non erano mai state effettuate indagini su un modello o un sistema basato su filmati lunghi (che durano più di un minuto), e non erano mai stati stabiliti criteri per misurare l’efficacia di questi sistemi.

In questo studio, ricercatori dell’Università di Zhejiang, dell’Università di Washington, di Microsoft Research Asia e dell’Università di Hong Kong presentano MovieChat, un framework unico per le sfide di interpretazione di video lunghi che combina modelli di visione con LLM. Secondo loro, le difficoltà rimanenti per la comprensione estesa dei video includono la difficoltà di calcolo, l’uso di memoria e il collegamento temporale a lungo termine. Per fare ciò, propongono un sistema di memoria basato sul modello di memoria di Atkinson-Shiffrin, che prevede una memoria a breve termine aggiornata rapidamente e una memoria compatta a lunga durata.

Questo framework unico combina modelli di visione con LLM ed è il primo a consentire attività di comprensione di video estesi. Questo lavoro è riassunto come segue. Effettuano valutazioni quantitative rigorose e studi di caso per valutare le prestazioni sia della capacità di comprensione che del costo di inferenza, e offrono un tipo di meccanismo di memoria per ridurre la complessità di calcolo e il costo della memoria, migliorando nel contempo il collegamento temporale a lungo termine. Questa ricerca si conclude presentando un nuovo approccio per la comprensione dei video che combina modelli di linguaggio di grandi dimensioni con modelli di base per i video.

Il sistema risolve le difficoltà nell’analisi di filmati lunghi includendo un processo di memoria ispirato al modello di Atkinson-Shiffrin, composto da una memoria a breve termine e una memoria a lungo termine rappresentate da token in Transformers. Il sistema proposto, MovieChat, supera gli algoritmi precedenti che possono elaborare solo filmati contenenti pochi fotogrammi, raggiungendo prestazioni all’avanguardia nella comprensione estesa dei video. Questo metodo affronta le relazioni temporali a lungo termine riducendo l’uso di memoria e la complessità di calcolo. Il lavoro mette in evidenza il ruolo dei processi di memoria nella comprensione dei video, che consente al modello di memorizzare e richiamare informazioni pertinenti per lunghi periodi. La popolarità di MovieChat ha ripercussioni pratiche per settori come l’analisi dei contenuti, i sistemi di raccomandazione video e il monitoraggio video. Studi futuri potrebbero esaminare modi per rafforzare il sistema di memoria e utilizzare modalità aggiuntive, tra cui l’audio, per aumentare la comprensione dei video. Questo studio crea possibilità per applicazioni che richiedono una comprensione approfondita dei dati visivi. Il loro sito web ha diverse demo.