Questo articolo di AI propone di inserire il mondo tridimensionale nei modelli di linguaggio di grandi dimensioni e introdurre una nuova famiglia di modelli di linguaggio tridimensionali (3D-LLMs)’.

Questo articolo propone l'uso di modelli di linguaggio tridimensionali (3D-LLMs) per includere il mondo tridimensionale nei modelli di linguaggio di grandi dimensioni.

Negli ultimi anni, abbiamo assistito a un aumento dei modelli di linguaggio di grandi dimensioni (LLM) (come GPT4) che sono eccellenti in varie attività, tra cui la comunicazione e il ragionamento del buon senso. Ricerche recenti hanno analizzato come allineare immagini e video con LLM per una nuova generazione di LLM multimodali (come Flamingo e BLIP-2) in grado di comprendere e dare senso a visualizzazioni 2D. Tuttavia, nonostante l’efficacia di tali modelli nella comunicazione e nella presa di decisioni, si basano su qualcosa di diverso dalle nozioni più profonde presenti nel vero mondo fisico tridimensionale, che includono cose come connessioni spaziali, possibilità, fisica e interazione. Di conseguenza, tali LLM sono insignificanti rispetto agli assistenti robotici mostrati nei film di fantascienza, che possono comprendere situazioni tridimensionali e fare ragionamenti e pianificazioni basati su tali comprensioni. Per fare ciò, suggeriscono di incorporare il mondo tridimensionale nei modelli di linguaggio di grandi dimensioni e introdurre una nuova classe di LLM tridimensionali che possono elaborare varie attività tridimensionali utilizzando rappresentazioni tridimensionali (ad esempio, nuvole di punti tridimensionali con attributi associati) come input.

Figura 1

I LLM traggono beneficio da due cose quando utilizzano rappresentazioni tridimensionali delle situazioni come input: (1) Possono conservare memorie a lungo termine dell’intera scena nelle rappresentazioni tridimensionali complete anziché in osservazioni episodiche parziali. (2) Il ragionamento dalle rappresentazioni tridimensionali può dedurre caratteristiche tridimensionali come possibilità e collegamenti spaziali, andando molto oltre le capacità dei LLM basati sul linguaggio o sull’immagine bidimensionale. La raccolta di dati rappresenta una significativa barriera per addestrare i proposti LLM tridimensionali. La mancanza di dati tridimensionali rende difficile creare modelli fondamentali basati su dati tridimensionali, a differenza dell’abbondanza di dati accoppiati immagini bidimensionali e testo su Internet. Ancora più difficile da ottenere sono dati tridimensionali combinati con descrizioni verbali.

Suggeriscono una collezione di processi di generazione dati distintivi che forniscono una quantità enorme di dati tridimensionali collegati al linguaggio per risolvere questo problema. Forniscono tre processi di sollecitazione efficaci per la comunicazione tra dati tridimensionali e linguaggio, specificamente utilizzando ChatGPT. Come illustrato nella Figura 1, possono ottenere 300.000 dati tridimensionali-linguaggio in questo modo, che includono informazioni su varie attività come didascalie tridimensionali, didascalie dense, risposte a domande tridimensionali, scomposizione di attività tridimensionali, ancoraggio tridimensionale, dialogo assistito tridimensionale, navigazione e altro ancora. La difficoltà successiva è trovare attributi tridimensionali utili che corrispondano alle caratteristiche linguistiche per i LLM tridimensionali. Un metodo consiste nell’addestrare codificatori tridimensionali da zero utilizzando un paradigma di apprendimento contrastivo simile a CLIP, che allinea il linguaggio e le immagini bidimensionali. Tuttavia, questo approccio richiede molti dati, tempo e risorse GPU. Da un punto di vista diverso, diversi sforzi recenti (come idea fusion e 3D-CLR) costruiscono caratteristiche tridimensionali da foto bidimensionali multi-view. Utilizzano anche un estrattore di caratteristiche tridimensionali che crea caratteristiche tridimensionali dalle caratteristiche bidimensionali preaddestrate delle immagini multi-view renderizzate in risposta a ciò.

Molti modelli visuali-linguistici (come BLIP-2 e Flamingo) hanno iniziato di recente a utilizzare le caratteristiche CLIP preaddestrate bidimensionali per addestrare i loro VLM. Possono facilmente utilizzare i VLM bidimensionali come supporto e inserire le caratteristiche tridimensionali estratte per addestrare efficacemente i LLM tridimensionali poiché sono mappate nello stesso spazio delle caratteristiche preaddestrate bidimensionali. Il fatto che si preveda che i LLM tridimensionali abbiano una sottostante percezione spaziale tridimensionale delle informazioni li differenzia dai LLM tradizionali e dai VLM bidimensionali in diversi modi importanti. Di conseguenza, ricercatori dell’UCLA, della Shanghai Jiao Tong University, della South China University of Technology, dell’University of Illinois Urbana-Champaign, del MIT, dell’UMass Amherst e del MIT-IBM Watson AI Lab hanno creato un sistema di localizzazione tridimensionale che collega il linguaggio a luoghi geografici. Aggiungono embedding di posizione tridimensionali alle caratteristiche tridimensionali recuperate per codificare in modo più efficace le informazioni spaziali. Inoltre, aggiungono diversi token di posizione ai LLM tridimensionali. La localizzazione può quindi essere addestrata producendo token di posizione basati su descrizioni linguistiche di determinati oggetti nelle scenografie. Ciò consentirebbe ai LLM tridimensionali di registrare in modo più efficace i dati spaziali tridimensionali.

In conclusione, il loro articolo presenta i seguenti contributi:

• Presentano una nuova famiglia di modelli linguistici basati su 3D (3D-LLM) che possono elaborare una serie di compiti correlati al 3D utilizzando input da punti 3D con caratteristiche e prompt linguistici. Si concentrano su attività al di fuori del campo di vista dei modelli convenzionali o 2D-LLM, come quelle che coinvolgono la conoscenza di una scena intera, connessioni spaziali 3D, affordances e pianificazione 3D.

• Creano pipeline innovative per la raccolta di dati che potrebbero produrre molti dati in linguaggio 3D. Sulla base di queste pipeline, raccolgono un dataset con più di 300.000 punti di dati in linguaggio 3D che coprono un’ampia gamma di attività correlate al 3D, come l’ancoraggio 3D, la didascalia densa, il question answering 3D, la decomposizione delle attività, il dialogo assistito da 3D, la navigazione, ecc.

• Utilizzano un estrattore di caratteristiche 3D, che prende immagini multi-vista renderizzate ed estrae caratteristiche 3D utili. Costruiscono il loro sistema di addestramento utilizzando VLM pre-addestrati in 2D. Per addestrare i 3D-LLM a raccogliere informazioni spaziali 3D in modo migliore, hanno aggiunto un metodo di localizzazione 3D.

• ScanQA, un dataset di valutazione esterno, si comporta meglio negli esperimenti rispetto alle baselines all’avanguardia. Su ScanQA, i 3D LLM, in particolare, si comportano molto meglio delle baselines (ad esempio, 9% per BLEU-1). Il loro approccio batte i VLM 2D nei test utilizzando dataset interni per la didascalia 3D, la creazione di attività e il discorso assistito da 3D. Indagini qualitative mostrano che il loro approccio può gestire una vasta gamma di compiti in modo più dettagliato.

• Vogliono rendere i loro 3D-LLM, il dataset di linguaggio 3D e le caratteristiche 3D allineate al linguaggio del dataset disponibili per futuri studi.