Incontra Objaverse-XL un dataset aperto di oltre 10 milioni di oggetti in 3D

Incontra Objaverse-XL, un dataset di oltre 10 milioni di oggetti 3D.

Un recente progresso nell’Intelligenza Artificiale è stata l’importanza della scala nel promuovere avanzamenti in vari domini. I modelli di grandi dimensioni hanno dimostrato notevoli capacità nella comprensione del linguaggio, nella generazione, nell’apprendimento della rappresentazione, nei compiti multimodali e nella generazione di immagini. Con un numero crescente di parametri apprendibili, le reti neurali moderne consumano grandi quantità di dati. Di conseguenza, le capacità mostrate da questi modelli hanno visto miglioramenti drammatici.

Un esempio è GPT-2, che ha superato le barriere dei dati consumando circa 30 miliardi di token linguistici alcuni anni fa. GPT-2 ha mostrato risultati promettenti zero-shot su benchmark di NLP. Tuttavia, nuovi modelli come Chinchilla e LLaMA hanno superato GPT-2 consumando trilioni di token raccolti dal web. Hanno facilmente superato GPT-2 in termini di benchmark e capacità. Nella visione artificiale, ImageNet inizialmente consisteva in 1 milione di immagini ed era lo standard di riferimento per l’apprendimento della rappresentazione. Ma con l’aumento delle dimensioni dei dataset a miliardi di immagini tramite il crawling web, dataset come LAION5B hanno prodotto potenti rappresentazioni visive, come si è visto con modelli come CLIP. Il passaggio dal raccogliere manualmente i dataset al raccoglierli da fonti diverse tramite il web è stato fondamentale per questa scalabilità da milioni a miliardi di punti dati.

Mentre i dati linguistici e di immagini sono notevolmente aumentati di scala, altre aree, come la visione artificiale 3D, devono ancora recuperare. Compiti come la generazione e la ricostruzione di oggetti 3D si basano su dataset artigianali di piccole dimensioni. Ad esempio, ShapeNet dipende da designer 3D professionisti che utilizzano software costosi per creare risorse, rendendo il processo difficile da crowdsource e scalare. La scarsità di dati è diventata un collo di bottiglia per i metodi basati sull’apprendimento nella visione artificiale 3D. La generazione di oggetti 3D è ancora molto indietro rispetto alla generazione di immagini 2D, spesso affidandosi a modelli addestrati su grandi dataset 2D anziché addestrati da zero su dati 3D. La crescente domanda e interesse per le tecnologie di realtà aumentata (AR) e realtà virtuale (VR) mettono in evidenza la necessità urgente di scalare i dati 3D.

Per affrontare queste limitazioni, i ricercatori dell’Allen Institute for AI, dell’Università di Washington, Seattle, della Columbia University, di Stability AI, del CALTECH e di LAION presentano Objaverse-XL come un dataset di 3D assets di grandi dimensioni raccolto dal web. I rapidi progressi negli strumenti di authoring 3D, insieme alla maggiore disponibilità di dati 3D su internet attraverso piattaforme come Github, Sketchfab, Thingiverse, Polycam e siti specializzati come lo Smithsonian Institute, hanno contribuito alla creazione di Objaverse-XL. Questo dataset fornisce una varietà e una qualità di dati 3D significativamente più ampie rispetto agli sforzi precedenti, come Objaverse 1.0 e ShapeNet. Con oltre 10 milioni di oggetti 3D, Objaverse-XL rappresenta un aumento significativo in scala, superando i dataset precedenti di diverse ordini di grandezza.

La scala e la diversità offerte da Objaverse-XL hanno notevolmente ampliato le prestazioni dei modelli 3D all’avanguardia. In particolare, il modello Zero123-XL, pre-addestrato con Objaverse-XL, mostra notevoli capacità di generalizzazione zero-shot in modalità complesse e impegnative. Si comporta eccezionalmente bene in compiti come la sintesi di nuove viste, anche con input diversi come risorse fotorealistiche, cartoni animati, disegni e schizzi. Allo stesso modo, PixelNeRF, addestrato per sintetizzare nuove viste da un piccolo set di immagini, mostra miglioramenti notevoli quando addestrato con Objaverse-XL. Scalando i dati di pre-addestramento da mille oggetti a 10 milioni, si osservano miglioramenti costanti, evidenziando le promesse e le opportunità rese possibili dai dati a scala web.

Le implicazioni di Objaverse-XL si estendono oltre il campo dei modelli 3D. Le sue potenziali applicazioni spaziano dalla visione artificiale, alla grafica, alla realtà aumentata e all’IA generativa. La ricostruzione di oggetti 3D da immagini è da tempo una sfida nella visione artificiale e nella grafica. I metodi esistenti hanno esplorato diverse rappresentazioni, architetture di reti e tecniche di rendering differenziabili per predire forme e trame 3D da immagini. Tuttavia, questi metodi si sono principalmente basati su dataset di piccole dimensioni come ShapeNet. Con l’Obverse-XL significativamente più grande, è possibile raggiungere nuovi livelli di prestazioni e generalizzazione in modo zero-shot.

Inoltre, l’emergere dell’IA generativa in 3D è stata una sviluppo entusiasmante. Modelli come MCC, DreamFusion e Magic3D hanno dimostrato che le forme 3D possono essere generate da prompt di testo con l’aiuto di modelli di testo-immagine. Objaverse-XL apre anche opportunità per la generazione di testo-3D, consentendo progressi nella modellazione testo-3D. Sfruttando il vasto e diversificato dataset, i ricercatori possono esplorare nuove applicazioni e spingere i limiti dell’IA generativa nel dominio 3D.

Il rilascio di Objaverse-XL segna una pietra miliare significativa nel campo dei dataset 3D. La sua dimensione, diversità e potenziale per l’addestramento su larga scala promettono di far avanzare la ricerca e le applicazioni nella comprensione 3D. Sebbene Objaverse-XL sia attualmente più piccolo dei dataset immagine-testo su scala di miliardi, la sua introduzione apre la strada a ulteriori esplorazioni su come continuare a scalare i dataset 3D e semplificare la cattura e la creazione di contenuti 3D. Il lavoro futuro può anche concentrarsi sulla scelta dei punti dati ottimali per l’addestramento ed estendere Objaverse-XL per beneficiare di compiti discriminativi come la segmentazione e la rilevazione 3D.

In conclusione, l’introduzione di Objaverse-XL come un enorme dataset 3D apre nuove possibilità entusiasmanti nella visione artificiale, nella grafica, nella realtà aumentata e nell’IA generativa. Affrontando le limitazioni dei dataset precedenti, Objaverse-XL fornisce una base per l’addestramento su larga scala e apre vie per la ricerca innovativa e le applicazioni nel dominio 3D.