Incontra ScaleCrafter Sbloccare la sintesi di immagini ad ultra-alta risoluzione con modelli di diffusione pre-addestrati

Incontra ScaleCrafter Sblocca la sintesi di immagini ad ultra-alta risoluzione con modelli di diffusione pre-addestrati

Lo sviluppo delle tecniche di sintesi delle immagini ha avuto un notevole incremento negli ultimi anni, suscitando grande interesse sia dal mondo accademico che da quello industriale. I modelli di generazione testo-immagine e Stable Diffusion (SD) sono i progressi più ampiamente utilizzati in questo campo. Nonostante questi modelli abbiano dimostrato notevoli capacità, attualmente possono produrre solo immagini con una risoluzione massima di 1024 x 1024 pixel, il che è insufficiente per soddisfare le esigenze delle applicazioni ad alta risoluzione come la pubblicità.

Sorgono problemi quando si cerca di generare immagini di dimensioni superiori a queste risoluzioni di addestramento, principalmente con la ripetizione degli oggetti e le architetture degli oggetti deformate. La duplicazione degli oggetti diventa più problematica man mano che la dimensione dell’immagine aumenta se si utilizza un modello di Stable Diffusion per generare immagini alle dimensioni di 512 × 512 o 1024 x 1024, essendo stato addestrato su immagini di 512 x 512.

Nelle grafiche risultanti, questi problemi si manifestano principalmente come duplicazione degli oggetti e topologie degli oggetti non corrette. I metodi esistenti per la creazione di immagini ad alta risoluzione, come quelli basati su tecniche di diffusione congiunta e meccanismi di attenzione, trovano difficile affrontare adeguatamente questi problemi. I ricercatori hanno esaminato gli elementi strutturali dell’architettura U-Net nei modelli di diffusione individuando un elemento cruciale che causa i problemi, ovvero i campi percettivi limitati dei kernel convoluzionali. Fondamentalmente, problemi come la ricorrenza degli oggetti sorgono perché le procedure di convoluzione del modello sono limitate nella loro capacità di vedere e comprendere il contenuto delle immagini di input.

Un team di ricercatori ha proposto ScaleCrafter per la generazione visiva ad alta risoluzione durante l’infusione. Utilizza il ri-dilatazione, una soluzione semplice ma incredibilmente potente che consente ai modelli di gestire risoluzioni più elevate e rapporti di aspetto variabili in modo più efficace regolando dinamicamente il campo percettivo convoluzionale durante il processo di produzione dell’immagine. Il modello può migliorare la coerenza e la qualità delle immagini generate regolando dinamicamente il campo percettivo. Il lavoro presenta ulteriori due progressi: convoluzione dispersa e una guida al rumore ammortizzata e priva di classificatori. Con questo metodo, il modello può produrre fotografie ultra ad alta risoluzione fino a 4096 per 4096 pixel. Questo metodo non richiede alcun addestramento o fase di ottimizzazione aggiuntiva, rendendolo una soluzione praticabile per i problemi di ripetizione e struttura della sintesi di immagini ad alta risoluzione.

Per questo studio sono stati eseguiti test approfonditi che hanno dimostrato che il metodo suggerito affronta con successo il problema della ripetizione degli oggetti e offre risultati all’avanguardia nella produzione di immagini ad alta risoluzione, eccellendo soprattutto nella visualizzazione dei dettagli della texture complessa. Questo lavoro getta anche luce sulla possibilità di utilizzare modelli di diffusione che sono già stati addestrati su immagini a bassa risoluzione per generare visualizzazioni ad alta risoluzione senza richiedere molta riduzione, il che potrebbe guidare lavori futuri nel campo della sintesi di immagini e video ultra ad alta risoluzione.

Le principali contribuzioni sono state riassunte come segue.

  1. Il team ha scoperto che, anziché il numero di token di attenzione, la causa principale della ripetizione degli oggetti è il campo percettivo limitato delle procedure di convoluzione.
  1. Sulla base di questi risultati, il team ha proposto un approccio di ri-dilatazione che aumenta dinamicamente il campo percettivo convoluzionale durante l’infusione, affrontando la radice del problema.
  1. Sono state presentate due strategie innovative: convoluzione dispersa e guida al rumore ammortizzata e priva di classificatori, specificamente pensate per la creazione di immagini ultra ad alta risoluzione.
  1. Il metodo è stato applicato a un modello di generazione di testo-video ed è stato valutato in modo completo su una varietà di modelli di diffusione, comprese diverse iterazioni di Stable Diffusion. Questi test includono una vasta gamma di rapporti di aspetto e risoluzioni delle immagini, dimostrando l’efficacia del modello nel affrontare il problema della ricorrenza degli oggetti e migliorare la sintesi di immagini ad alta risoluzione.