Google AI presenta Imagen Editor e EditBench per migliorare e valutare l’inpainting di immagini guidate da testo.

(Google AI presents Imagen Editor and EditBench to improve and evaluate text-guided image inpainting.)

C’è stato un recente aumento di curiosità riguardo ai convertitori di testo in immagini. Questi modelli generativi sono sorprendentemente utili, anche se a volte producono risultati errati al primo tentativo, specialmente per i clienti con esigenze creative o di design più particolari. La modifica guidata dal testo può migliorare il processo di creazione dell’immagine permettendo un affinamento interattivo. Generare modifiche che siano fedeli ai suggerimenti del testo e compatibili con le immagini di input è una difficoltà significativa. I ricercatori di Good hanno sviluppato Imagen Editor, un modello di diffusione a cascata per l’inpainting con istruzioni di testo.

Imagen Editor può apportare modifiche che rappresentano accuratamente i suggerimenti del testo utilizzando i rilevatori di oggetti per proporre maschere di inpainting durante la formazione. Imagen Editor può catturare anche le caratteristiche più fini dell’immagine di input condizionando la pipeline a cascata sull’immagine ad alta risoluzione originale. Per migliorare l’analisi qualitativa e quantitativa, i ricercatori di Google forniscono EditBench, un benchmark standardizzato per l’inpainting di immagini guidato dal testo. EditBench analizza le modifiche di inpainting esaminando oggetti, proprietà e scene in immagini reali e sintetiche. Una valutazione umana approfondita su EditBench rivela che la mascheratura degli oggetti durante la formazione guadagna significativamente l’allineamento testo-immagine, con Imagen Editor che emerge al primo posto rispetto a DALL-E 2 e Stable Diffusion. Collettivamente, questi modelli sono più abili nella rappresentazione degli oggetti che nella rappresentazione del testo e nella gestione degli attributi di materiale/colore/dimensioni rispetto agli attributi di conteggio/forma.

Image Editor

Per modificare le immagini, utilizzare Imagen Editor, un modello basato sulla diffusione specificamente ottimizzato per Imagen. Si sforza di fornire rappresentazioni più accurate degli input linguistici, dei comandi granulari e dei risultati di alta qualità. L’immagine da modificare, una maschera binaria per identificare la regione di modifica e un suggerimento di testo sono i tre input che Imagen Editor utilizza per determinare i campioni di output.

Image Editor consente agli utenti di apportare modifiche mirate a determinate regioni di un’immagine in base a una maschera e a un insieme di istruzioni. Il modello considera gli obiettivi dell’utente e apporta modifiche realistiche all’immagine. Image Editor è un editor di immagini guidato dal testo che combina rappresentazioni linguistiche ampie con un controllo granulare per generare risultati di alta qualità. Imagen Editor è una versione migliorata di Imagen che utilizza un modello di diffusione a cascata per perfezionare l’inpainting di immagini guidato dal testo. Utilizzando tre codificatori di immagini a convoluzione di downsampling, Imagen Editor fornisce maggior contesto di immagine e maschera per ogni stadio di diffusione.

L’inpainting di immagini guidato dal testo affidabile di Image Editor si basa su tre metodi fondamentali:

Imagen Editor utilizza una policy di mascheratura del rilevatore di oggetti con un modulo di rilevatore di oggetti per generare maschere di oggetti durante la formazione invece delle maschere a casella e a tratto casuali utilizzate dai modelli di inpainting precedenti.

Imagen Editor migliora la modifica ad alta risoluzione richiedendo la concatenazione a piena risoluzione, canale per canale, dell’immagine di input e della maschera durante la formazione e l’inferenza.

Per influenzare i dati verso una certa condizionatura, in questo caso i suggerimenti di testo, i ricercatori utilizzano la guida senza classificatore (CFG) all’infusione. CFG interpola tra le previsioni dei modelli condizionati e non condizionati per ottenere un’alta precisione nell’inpainting di immagini guidato dal testo.

Generare output fedeli ai suggerimenti del testo è una difficoltà significativa nell’inpainting di immagini guidato dal testo.

EditBench

EditBench utilizza 240 foto per creare uno standard nuovo per l’inpainting di immagini guidato dal testo. A ogni immagine è associata una maschera che indica l’area che sarà modificata durante il processo di inpainting. Per aiutare gli utenti a specificare la modifica, i ricercatori forniscono tre suggerimenti di testo per ogni coppia immagine-maschera. EditBench è un benchmark di creazione di immagini guidato dal testo curato a mano che, come DrawBench e PartiPrompts, cerca di catturare varie categorie e fattori di difficoltà nella raccolta di immagini. Un’uguale suddivisione di foto naturali provenienti da dataset preesistenti di visione artificiale e immagini sintetiche prodotte da modelli di testo in immagini inclusi in EditBench.

La gamma di dimensioni di maschere supportate da EditBench è estesa e include anche maschere grandi che si estendono ai bordi delle immagini. Le domande di EditBench sono strutturate per valutare le prestazioni dei modelli su una varietà di dettagli fini in tre categorie:

  1. Attributi (come materiale, colore, forma, dimensioni e conteggio)
  2. Tipi di oggetti (comuni, rari e rappresentazione del testo)
  3. Scene (come interno, esterno, realistico o dipinto)

Valutazione

L’allineamento testo-immagine e la qualità dell’immagine su EditBench sono sottoposti a rigorosi test umani dal team di ricerca. Inoltre, confrontano e confrontano le preferenze umane con le misure computerizzate. Effettuano un’analisi di quattro modelli:

  • Editor di Immagini (IM)
  • Editor di Immagini RM (IMRM)
  • Diffusione Stabile (SD)
  • DALL-E 2 (DL2)

Per valutare i benefici della mascheratura degli oggetti durante l’addestramento, i ricercatori confrontano l’Editor di Immagini con l’Editor di Immagini RM. Per mettere il nostro lavoro in prospettiva rispetto a quello degli altri e per esaminare più ampiamente i limiti dello stato attuale dell’arte, abbiamo incluso valutazioni di Diffusione Stabile e DALL-E 2.

In sintesi

I modelli di editing di immagini forniti fanno parte di una famiglia più ampia di modelli generativi che consentono capacità precedentemente non accessibili nella produzione di contenuti. Tuttavia, portano anche il rischio di generare contenuti dannosi per individui o per la società nel suo complesso. È generalmente accettato nel modellamento del linguaggio che i modelli di generazione di testo possano riflettere e amplificare involontariamente i pregiudizi sociali esistenti nei loro dati di addestramento. L’Editor di Immagini è una versione migliorata dell’inpainting di immagini guidato dal testo di Imagen. L’Editor di Immagini si basa su una politica di mascheratura degli oggetti per l’addestramento e sull’aggiunta di nuovi strati di convoluzione per l’editing ad alta risoluzione. EditBench è una verifica di sistema su larga scala e sistematica per l’inpainting di immagini basato su descrizioni testuali. EditBench effettua test completi di sistemi di inpainting basati su attributi, oggetti e scene.