Google AI Research propone VidLNs una procedura di annotazione che ottiene descrizioni video complete che sono semanticamente corrette e saldamente ancorate con localizzazioni spaziali-temporali accurate.

Google AI Research propone VidLNs, un metodo di annotazione per ottenere descrizioni video complete, semanticamente corrette e con localizzazioni spaziali-temporali precise.

La ricerca sulla visione e il linguaggio è un campo in evoluzione dinamica che ha recentemente assistito a notevoli progressi, particolarmente nei dataset che stabiliscono connessioni tra immagini statiche e didascalie corrispondenti. Questi dataset coinvolgono anche l’associazione di determinate parole all’interno delle didascalie con regioni specifiche all’interno delle immagini, utilizzando metodologie diverse. Un approccio intrigante è presentato dagli ultimi Localized Narratives (ImLNs), che offrono una soluzione interessante: gli annotatori descrivono verbalmente un’immagine mentre contemporaneamente spostano il cursore del mouse sulle regioni di cui stanno parlando. Questo processo duale di linguaggio e movimento del cursore riflette la comunicazione naturale e fornisce un ancoraggio visivo completo per ogni parola. Tuttavia, è importante notare che le immagini fisse catturano solo un singolo momento nel tempo. La prospettiva di annotare video suscita ancora più fascino, poiché i video rappresentano narrazioni complete, mostrando eventi con entità e oggetti multipli che interagiscono dinamicamente.

Per affrontare questo compito complesso e che richiede molto tempo, è stato presentato un approccio di annotazione migliorato per estendere ImLNs ai video.

Il flusso di lavoro della tecnica proposta è presentato di seguito.

Questo nuovo protocollo consente agli annotatori di creare la narrazione del video in un ambiente controllato. Gli annotatori iniziano osservando attentamente il video, identificando i personaggi principali (come “uomo” o “struzzo”) e selezionando fotogrammi chiave cruciali che rappresentano momenti significativi per ogni personaggio.

Successivamente, per ogni personaggio individualmente, viene costruita la narrazione. Gli annotatori esprimono il coinvolgimento del personaggio in vari eventi utilizzando descrizioni vocali mentre contemporaneamente guidano il cursore sui fotogrammi chiave per evidenziare oggetti e azioni rilevanti. Queste descrizioni vocali includono il nome del personaggio, le sue caratteristiche e in particolare le azioni che compie, comprese le interazioni con altri personaggi (ad esempio, “giocare con lo struzzo”) e oggetti inanimati (ad esempio, “prendere la tazza di cibo”). Per fornire un contesto completo, gli annotatori forniscono anche una breve descrizione dello sfondo in una fase separata.

L’utilizzo efficace dei fotogrammi chiave elimina il vincolo temporale, mentre la creazione di narrazioni distinte per ogni personaggio consente la disintegrazione di situazioni complesse. Questa disintegrazione facilita la rappresentazione completa di eventi complessi che coinvolgono personaggi multipli che interagiscono tra loro e con numerosi oggetti passivi. Come ImLN, questo protocollo sfrutta i segmenti di traccia del mouse per localizzare ogni parola. Lo studio implementa anche diverse misure aggiuntive per garantire localizzazioni precise, superando i risultati del lavoro precedente.

I ricercatori hanno effettuato annotazioni su diversi dataset utilizzando Video Localized Narratives (VidLNs). I video considerati mostrano scenari complessi con interazioni tra vari personaggi e oggetti inanimati, dando luogo a narrazioni affascinanti descritte attraverso annotazioni dettagliate. Di seguito è riportato un esempio.

La profondità del dataset VidLNs costituisce una solida base per varie attività, come Video Narrative Grounding (VNG) e Video Question Answering (VideoQA). La sfida di VNG appena introdotta richiede lo sviluppo di una tecnica in grado di localizzare i sostantivi da una narrazione di input generando maschere di segmentazione sui fotogrammi video. Questo compito presenta una sfida significativa, poiché il testo spesso comprende sostantivi multipli identici che richiedono disambiguazione, un processo che sfrutta indizi contestuali dalle parole circostanti. Anche se questi nuovi benchmark rimangono sfide complesse lontane dall’essere completamente risolte, l’approccio proposto mostra progressi significativi nella giusta direzione (consultare il paper pubblicato per ulteriori informazioni).

Questo è stato il riassunto di Video Localized Narratives, una nuova forma di annotazioni video multimodali che collegano la visione e il linguaggio. Se sei interessato e desideri saperne di più, ti invito a consultare i link citati di seguito.