Meta AI svela l’innovativo I-JEPA un avanzamento rivoluzionario nella computer vision che emula l’apprendimento e il ragionamento umano e animale.

I-JEPA è un avanzamento rivoluzionario nella computer vision che emula l'apprendimento e il ragionamento umano e animale, svelato da Meta AI.

Gli esseri umani raccolgono una quantità enorme di informazioni di background sul mondo semplicemente osservandolo. Il team Meta sta lavorando allo sviluppo di computer in grado di apprendere modelli interni di come funziona il mondo per consentire loro di apprendere molto più rapidamente, pianificare come svolgere lavori difficili e adattarsi rapidamente a condizioni nuove dall’anno scorso. Perché il sistema sia efficace, queste rappresentazioni devono essere apprese direttamente dall’input non etichettato, come immagini o suoni, anziché da dataset etichettati assemblati manualmente. Questo processo di apprendimento è noto come apprendimento auto-supervisionato.

Le architetture generative sono formate dall’oscuramento o dalla cancellazione di parti dei dati utilizzati per addestrare il modello. Ciò potrebbe essere fatto con un’immagine o un testo. Poi, fanno congetture informate su quali pixel o parole mancano o sono distorti. Tuttavia, un grave svantaggio degli approcci generativi è che il modello cerca di colmare eventuali lacune di conoscenza, nonostante l’incertezza intrinseca del mondo reale. 

I ricercatori di Meta hanno appena presentato il loro primo modello di intelligenza artificiale. Confrontando rappresentazioni astratte di immagini (piuttosto che confrontare i pixel stessi), la loro Image Joint Embedding Predictive Architecture (I-JEPA) può apprendere e migliorare nel tempo.

Secondo i ricercatori, il JEPA sarà privo dei pregiudizi e dei problemi che affliggono la preformazione basata sull’invarianza perché non implica il collasso delle rappresentazioni da numerose visualizzazioni / aumenti di un’immagine a un singolo punto.

Lo scopo di I-JEPA è colmare le lacune di conoscenza utilizzando una rappresentazione più vicina al modo in cui le persone pensano. Il metodo di mascheratura multi-blocco proposto è un’altra importante opzione di progettazione che aiuta a indirizzare I-JEPA verso lo sviluppo di rappresentazioni semantiche.

Il predittore di I-JEPA può essere considerato un modello di mondo limitato e primitivo che può descrivere l’incertezza spaziale in un’immagine statica basata su informazioni contestuali limitate. Inoltre, la natura semantica di questo modello di mondo gli consente di fare inferenze su parti dell’immagine precedentemente sconosciute invece di fare affidamento esclusivamente sulle informazioni a livello di pixel.

Per vedere le uscite del modello quando richiesto di prevedere all’interno della casella blu, i ricercatori hanno addestrato un decoder stocastico che trasferisce le rappresentazioni previste da I-JEPA nello spazio dei pixel. Questa analisi qualitativa dimostra che il modello può apprendere rappresentazioni globali di oggetti visivi senza perdere traccia di dove si trovano tali oggetti nel frame.

La preformazione con I-JEPA utilizza poche risorse informatiche. Non richiede l’overhead di applicare maggiori complessità di augmentations dei dati per fornire prospettive diverse. I risultati suggeriscono che I-JEPA può apprendere rappresentazioni semantiche pre-costruite robuste senza miglioramenti personalizzati della vista. Una valutazione sperimentale lineare e semi-supervisionata su ImageNet-1K batte anche le tecniche di ricostruzione dei pixel e dei token.

Rispetto ad altri metodi di preformazione per compiti semantici, I-JEPA si difende nonostante si basi su augmentations dei dati prodotte manualmente. I-JEPA supera questi approcci in compiti di base di visione come il conteggio degli oggetti e la previsione della profondità. I-JEPA è adattabile a scenari più ampi poiché utilizza un modello meno complesso con un’inclinazione induttiva più flessibile.

Il team ritiene che i modelli JEPA abbiano il potenziale per essere utilizzati in modi creativi in ​​aree come l’interpretazione video è molto promettente. L’utilizzo e la scalabilità di tali approcci auto-supervisionati per sviluppare un modello ampio del mondo rappresenta un enorme passo avanti.