Microsoft AI Research propone AltFreezing una nuova strategia di addestramento per una rilevazione più generale delle contraffazioni facciali

Microsoft AI Research propone AltFreezing per una rilevazione più generale delle contraffazioni facciali.

Le identità o qualità fornite da un video facciale possono ora essere facilmente cambiate e manipulate, grazie all’attuale rapido sviluppo di strumenti per la generazione e la manipolazione di volti. Ciò ha diverse utilizzazioni significative e sorprendenti per la produzione di video divertenti, film e altri tipi di media. Tuttavia, questi metodi possono anche essere utilizzati in modo malintenzionato, portando a una significativa crisi nel senso di sicurezza e fiducia della società. Di conseguenza, imparare a individuare le contraffazioni dei volti nei video è diventato di recente un problema di studio popolare.

Fino ad oggi, una linea di studio efficace cerca di distinguere tra foto reali e false cercando “artefatti” spaziali nelle immagini prodotte (come scacchiera, innaturalità e artefatti sottostanti al modello generativo, ad esempio). Queste tecniche hanno risultati notevoli nella ricerca di artefatti spazialmente collegati. Tuttavia, trascurano la coerenza temporale di un video e non rilevano gli artefatti “temporali” come sfarfallio e discontinuità nelle contraffazioni dei volti nei video. Studi recenti tengono conto di questo problema e cercano di risolverlo utilizzando suggerimenti temporali.

Le modelli risultanti possono riconoscere artefatti innaturali a livello temporale, ma devono migliorare la loro capacità di rilevare artefatti connessi allo spazio. In questo studio, si cerca di catturare artefatti spaziali e temporali per identificare ampie contraffazioni dei volti nei video. Una rete spaziotemporale efficace (3D ConvNet) può spesso cercare artefatti spaziali e temporali. Tuttavia, si scopre che un addestramento ingenuo può farla dipendere troppo facilmente dagli artefatti spaziali, ignorando gli artefatti temporali per trarre una conclusione, con conseguente scarsa capacità di generalizzazione. Questo perché una rete convoluzionale 3D può fare più facilmente affidamento sugli artefatti spaziali, poiché gli artefatti spaziali sono tipicamente più visibili delle incoerenze temporali.

Quindi, il problema è rendere la rete spaziotemporale in grado di catturare sia gli artefatti temporali che quelli spaziali. In questo studio, i ricercatori dell’Università di Scienza e Tecnologia della Cina, Microsoft Research Asia e il Centro Nazionale di Scienze Comprensive di Hefei suggeriscono un metodo di addestramento innovativo chiamato AltFreezing per raggiungere questo obiettivo. Il concetto principale è congelare alternativamente i pesi relativi allo spazio e al tempo durante l’addestramento. Una rete spaziotemporale viene costruita appositamente utilizzando blocchi res 3D che combinano una convoluzione spaziale con una dimensione di kernel di 1 × Kh × Kw e una convoluzione temporale con una dimensione di kernel di Kt × 1 × 1. Le caratteristiche a livello spaziale e temporale sono catturate tramite questi kernel convoluzionali spaziali e temporali, rispettivamente. Per superare gli artefatti spaziali e temporali, la tecnica AltFreezing promuove l’aggiornamento alternato dei due insiemi di pesi.

Inoltre, vengono forniti una serie di strumenti per creare filmati di addestramento con contenuti falsi a livello di video. Queste tecniche possono essere suddivise in due categorie. La prima è costituita da clip false, che utilizzano esclusivamente artefatti temporali e ripetono e rimuovono frame da clip reali in modo casuale. Il secondo tipo di clip viene creato mescolando un’area da una clip reale a un’altra clip reale e presenta solo artefatti spaziali. Queste tecniche di aumento video sono le prime a produrre video falsi che sono limitati sia dal punto di vista spaziale che temporale. Questi miglioramenti aiutano il modello spaziotemporale a catturare sia gli artefatti spaziali che quelli temporali. Con le due metodologie discusse sopra, possono essere all’avanguardia in vari scenari di rilevamento delle contraffazioni dei volti, compresa la generalizzazione alle contraffazioni non viste e la resilienza a diverse perturbazioni. Per confermare l’efficacia del loro framework proposto, offrono anche uno studio approfondito della loro metodologia.

Ecco i loro tre principali contributi:

• Suggeriscono di investigare gli artefatti spaziali e temporali per rilevare le contraffazioni dei volti nei video. Viene proposto un nuovo metodo di addestramento chiamato AltFreezing per raggiungere questo obiettivo.

• Offrono tecniche di aumento dei dati falsi a livello di video per spingere il modello a catturare uno spettro più ampio di contraffazioni.

• Test estensivi su cinque set di dati di riferimento, inclusa la valutazione dell’approccio proposto su manipolazioni e set di dati diversi, mostrano che raggiunge una nuova performance all’avanguardia.