Incontra PIXART-α un modello di diffusione basato su trasformatore T2I la cui qualità di generazione di immagini è competitiva con i generatori di immagini all’avanguardia.

Incontra PIXART-α un modello di trasformazione basato sul trasformatore T2I che produce immagini di alta qualità, concorrenziali con i più avanzati generatori di immagini.

Una nuova era di sintesi fotografica fotorealistica è appena iniziata grazie allo sviluppo di modelli generativi di testo-immagine (T2I) come DALLE 2, Imagen e Stable Diffusion. Ciò ha influenzato significativamente molte applicazioni derivate, tra cui la modifica delle immagini, la produzione video, la creazione di asset 3D, ecc. Tuttavia, questi modelli sofisticati richiedono una notevole potenza di elaborazione per il training. Ad esempio, il training di SDv1.5 richiede 6K A100 GPU giorni, che costano circa $320.000. Il modello più grande e recente, RAPHAEL, richiede addirittura 60K A100 GPU giorni, che costano circa $3.080.000. Inoltre, il training causa significative emissioni di CO2 che mettono sotto stress l’ambiente; ad esempio, il training di RAPHAEL produce 35 tonnellate di emissioni di CO2, la stessa quantità di emissioni che una persona ha durante 7 anni, come si vede nella Figura 1.

Figura 1: In questa figura sono mostrati i confronti delle emissioni di CO2 e dei costi di formazione tra i produttori T2I. Vengono spesi $26.000 per la formazione di PIXART-α. Le nostre emissioni di CO2 e le spese di formazione sono solo dell’1,1% e dell’0,85% in meno rispetto a RAPHAEL.

Tale prezzo elevato crea importanti restrizioni per l’ottenimento di tali modelli sia per la comunità di ricerca che per le aziende, il che ostacola significativamente i progressi critici della comunità AIGC. Si pone una domanda cruciale riguardo a queste difficoltà: possono creare un generatore di immagini di alta qualità con l’utilizzo di risorse gestibili? I ricercatori di Huawei Noah’s Ark Lab, Dalian University of Technology, HKU e HKUST presentano PIXART-α, che riduce drasticamente i requisiti di calcolo per la formazione mantenendo la qualità competitiva di generazione di immagini rispetto ai generatori di immagini allo stato dell’arte più recenti. Suggeriscono tre design principali per fare ciò: scomposizione del piano di formazione. Scompongono il sfidante problema di produzione di testo-immagine in tre semplici sottoproblemi:

  1. Apprendimento della distribuzione dei pixel nelle immagini naturali
  2. Apprendimento dell’allineamento testo-immagine
  3. Miglioramento dell’appeal estetico delle immagini

Suggeriscono un drastico abbassamento del costo di apprendimento per il primo sottoproblema inizializzando il modello T2I con un modello di classe a basso costo. Forniscono un paradigma di formazione che consiste nel preaddestramento e nel fine-tuning per il secondo e terzo sottoproblema: preaddestramento su dati coppia testo-immagine con alta densità di informazioni, seguito da fine-tuning su dati con maggiore qualità estetica, aumentando l’efficacia della formazione. un trasformatore T2I produttivo. Utilizzano moduli di cross-attenzione per iniettare condizioni di testo e semplificareil ramo di condizione di classe che richiede molte risorse computazionali per aumentarne l’efficienza basata sul transfomer di diffusione (DiT). Inoltre, presentano un metodo di riparametrizzazione che consente al modello di immagine-testo modificato di importare direttamente i parametri del modello di condizione di classe originale.

Possedono così la conoscenza passata di ImageNet sulla distribuzione di immagini naturali per fornire al Transformer T2I una inizializzazione accettabile e accelerare la sua formazione. Informazioni di alta qualità. La loro ricerca rivela significativi difetti nei dataset esistenti di coppie testo-immagine, con LAION come esempio. Le didascalie testuali soffrono spesso di un grave effetto a coda lunga (ovvero molti sostantivi che compaiono con frequenze estremamente basse) e una mancanza di contenuti informativi (ovvero di solito descrivono solo una parte degli oggetti nelle immagini). Questi difetti riducono notevolmente l’efficacia della formazione del modello T2I e necessitano di milioni di iterazioni per ottenere allineamenti affidabili tra testo e immagine. Suggeriscono un flusso di lavoro di autoetichettatura utilizzando il modello di visione-linguaggio più avanzato per produrre didascalie sul SAM per superare questi problemi.

Il dataset SAM ha il vantaggio di avere una vasta e diversificata collezione di oggetti, il che lo rende una fonte perfetta per produrre accoppiamenti tra testo e immagine con una alta densità di informazioni più adatti per l’apprendimento dell’allineamento testo-immagine. Le loro caratteristiche intelligenti consentono alla formazione del loro modello di essere estremamente efficiente, utilizzando solo 675 giorni di GPU A100 e $26.000. La Figura 1 mostra come il loro approccio utilizzi un volume di dati di formazione inferiore (0,2% rispetto a Imagen) e un tempo di formazione inferiore (2% rispetto a RAPHAEL) rispetto a Imagen. Le loro spese di formazione rappresentano circa l’1% di quelle di RAPHAEL, risparmiando loro circa $3.000.000 ($26.000 rispetto a $3.080.000).

Riguardo alla qualità generazionale, i loro test di ricerca utente mostrano che PIXART-α offre una migliore qualità dell’immagine e un allineamento semantico rispetto ai modelli attuali SOTA T2I, Stable Diffusion, ecc .; inoltre, le sue prestazioni su T2I-CompBench dimostrano il suo vantaggio nel controllo semantico. Anticipano che i loro sforzi per addestrare in modo efficace i modelli T2I forniranno alla comunità AIGC utili spunti e aiuteranno altre realtà accademiche o aziende indipendenti a produrre i propri modelli T2I di alta qualità a prezzi più accessibili.