I ricercatori di Tencent presentano FaceStudio un approccio innovativo dell’intelligenza artificiale alla generazione di testo-immagine, che si concentra specificamente sulla conservazione dell’identità.

I modelli di diffusione testo-immagine rappresentano un campo intrigante nella ricerca sull’intelligenza artificiale. Hanno lo scopo di creare immagini che sembrano realistiche, basate su descrizioni testuali utilizzando modelli di diffusione. Il processo coinvolge la generazione iterativa di campioni da una distribuzione di base, trasformandoli gradualmente per assomigliare all’immagine target, considerando la descrizione testuale. Sono coinvolti più passaggi, aggiungendo rumore progressivo all’immagine generata.

I modelli di diffusione testo-immagine attuali affrontano una sfida esistente: raffigurare accuratamente un soggetto solo da descrizioni testuali. Questa limitazione è particolarmente evidente quando è necessario generare dettagli intricati, come le caratteristiche facciali umane. Di conseguenza, c’è un crescente interesse nell’esplorare la sintesi di immagini che preservano l’identità e vanno oltre gli indizi testuali.

I ricercatori di Tencent hanno introdotto un nuovo approccio focalizzato sulla sintesi di immagini che preservano l’identità per le immagini umane. Il loro modello opta per un approccio diretto in avanti, evitando i passaggi di messa a punto intricati per una generazione rapida ed efficiente delle immagini. Utilizza suggerimenti testuali ed incorpora informazioni aggiuntive da immagini di stile e identità.

Il loro metodo prevede un meccanismo di cross-attenzione multi-identità, che consente al modello di associare dettagli guida specifici da diverse identità con regioni umane distinte all’interno di un’immagine. Allenando il loro modello con set di dati contenenti immagini umane, utilizzando le caratteristiche facciali come input di identità, il modello impara a ricostruire immagini umane concentrandosi sulle caratteristiche dell’identità nelle istruzioni.

Il loro modello dimostra una notevole capacità di sintetizzare immagini umane mantenendo fedelmente l’identità del soggetto. Inoltre, consente l’applicazione delle caratteristiche facciali dell’utente su immagini stilistiche diverse, come i cartoni animati, consentendo agli utenti di visualizzarsi in vari stili senza compromettere la loro identità. Inoltre, eccelle nella generazione di idee che combinano identità multiple quando vengono fornite foto di riferimento corrispondenti.

Il loro modello mostra una prestazione superiore sia in scenari a scatto singolo che multi-shot, sottolineando l’efficacia del loro design nel preservare le identità. Mentre la ricostruzione di immagini di base mantiene approssimativamente il contenuto dell’immagine, ha difficoltà con le informazioni sull’identità dettagliate. Invece, il loro modello estrae con successo informazioni sull’identità dal ramo di guida dell’identità, portando a risultati migliorati per la regione facciale.

Tuttavia, la capacità del modello di replicare volti umani solleva preoccupazioni etiche, in particolare per quanto riguarda la possibilità di creare immagini offensive o culturalmente inappropriate. L’uso responsabile di questa tecnologia è cruciale, richiedendo l’istituzione di linee guida per prevenire il suo uso improprio in contesti sensibili.