Rimozione e distillazione architetturale un percorso verso una compressione efficiente nei modelli di diffusione testo-immagine dell’IA.

Architectural removal and distillation for efficient compression in AI text-image diffusion models.

I Modelli di Diffusione Testo-Immagine rappresentano un approccio innovativo per generare immagini da prompt testuali. Sfruttano la potenza del deep learning e della modellizzazione probabilistica per catturare le sottili relazioni tra il linguaggio e i concetti visivi. Condizionando un modello generativo su descrizioni testuali, questi modelli imparano a sintetizzare immagini realistiche che rappresentano fedelmente l’input fornito.

Al centro dei Modelli di Diffusione Testo-Immagine si trova il concetto di diffusione, un processo ispirato alla fisica statistica. L’idea chiave alla base della diffusione è quella di affinare iterativamente un’immagine inizialmente rumorosa, rendendola gradualmente più realistica e coerente seguendo i gradienti di un modello di diffusione appreso. Estendendo questo principio alla sintesi testo-immagine, i ricercatori hanno ottenuto risultati notevoli, consentendo la creazione di immagini dettagliate ad alta risoluzione da prompt testuali con fedeltà e diversità impressionanti.

Tuttavia, la formazione di tali modelli presenta significative sfide. Generare immagini di alta qualità da descrizioni testuali richiede di navigare in uno spazio vasto e complesso di possibili interpretazioni visive, rendendo difficile garantire la stabilità durante il processo di apprendimento. Stable Diffusion stabilizza il processo di formazione guidando il modello a catturare la semantica sottostante del testo e generare immagini coerenti senza sacrificare la diversità. Ciò si traduce in una generazione di immagini più affidabile e controllata, consentendo ad artisti, designer e sviluppatori di produrre contenuti visivi accattivanti con maggiore precisione e controllo.

Un enorme svantaggio di Stable Diffusion è che la sua ampia architettura richiede significative risorse computazionali e comporta un prolungato tempo di inferenza. Per affrontare questa preoccupazione, sono state proposte diverse tecniche per migliorare l’efficienza dei Modelli di Diffusione Stabili (SDM). Alcuni metodi hanno cercato di ridurre il numero di passaggi di denoising distillando un modello di diffusione pre-addestrato, che viene utilizzato per guidare un modello simile con meno passaggi di campionamento. Altre approcci hanno impiegato tecniche di quantizzazione post-formazione per ridurre la precisione dei pesi e delle attivazioni del modello. Il risultato è una riduzione delle dimensioni del modello, una minore richiesta di memoria e un’efficienza computazionale migliorata.

Tuttavia, la riduzione ottenibile da queste tecniche non è sostanziale. Pertanto, devono essere esplorate altre soluzioni, come la rimozione degli elementi architettonici nei modelli di diffusione.

Il lavoro presentato in questo articolo riflette questa motivazione e svela il significativo potenziale delle tecniche di compressione architetturale classica nel raggiungere modelli di diffusione più piccoli e veloci. La pipeline di pre-formazione è raffigurata nella figura qui sotto.

https://arxiv.org/abs/2305.15798

La procedura rimuove più blocchi residui e di attenzione dall’architettura U-Net di un Modello di Diffusione Stabile (SDM) e pre-allena il modello compatto (o studente) utilizzando la distillazione della conoscenza a livello di caratteristiche (KD).

Alcune intuizioni intriganti sulla rimozione dell’architettura includono le fasi di down, up e mid.

Per le fasi di down e up, questo approccio riduce il numero di blocchi di residui e di cross-attenzione superflui nell’architettura U-Net preservando al contempo l’elaborazione delle informazioni spaziali cruciali. Si allinea con il metodo DistilBERT e consente l’utilizzo di pesi pre-allenati per l’inizializzazione, ottenendo un modello più efficiente e compatto.

Sorprendentemente, la rimozione della fase mid dall’U-Net originale ha poco impatto sulla qualità della generazione, ma riduce significativamente i parametri. Questo compromesso tra efficienza computazionale e qualità della generazione lo rende una scelta valida per l’ottimizzazione.

Secondo gli autori, ogni studente raggiunge un’eccezionale capacità nella sintesi di testo-immagine di alta qualità dopo la distillazione della conoscenza dal docente. Rispetto alla Diffusione Stabile, con 1,04 miliardi di parametri e un punteggio FID di 13,05, il modello BK-SDM-Base, con 0,76 miliardi di parametri, raggiunge un punteggio FID di 15,76. Allo stesso modo, il modello BK-SDM-Small, con 0,66 miliardi di parametri, raggiunge un punteggio FID di 16,98 e il modello BK-SDM-Tiny, con 0,50 miliardi di parametri, raggiunge un punteggio FID di 17,12.

Alcuni risultati sono riportati qui per confrontare visivamente gli approcci proposti e gli approcci di stato dell’arte.

https://arxiv.org/abs/2305.15798

Questo riassunto di una nuova tecnica di compressione per i modelli di diffusione Testo-Immagine (T2I) si concentra sulla rimozione intelligente degli elementi architettonici e sulle strategie di distillazione.