Il montaggio video non è più una sfida INVE è un metodo di intelligenza artificiale che permette il montaggio video neurale interattivo.

Il montaggio video non è più una sfida, ma un metodo di intelligenza artificiale che permette il montaggio video neurale interattivo.

Riuscite ad immaginare Internet senza l’editing delle immagini? Tutti quei meme divertenti, le foto di Instagram stravaganti, i paesaggi affascinanti e altro ancora; sarebbero scomparsi. Non sarebbe un Internet divertente, vero?

Dai primi giorni delle fotocamere digitali, l’editing delle immagini è stata una passione per molte persone. All’inizio avevamo strumenti che potevano fare modifiche semplici, ma oggi puoi trasformare letteralmente qualsiasi cosa in un’immagine senza troppo sforzo. Gli strumenti di editing delle immagini sono progrediti notevolmente, soprattutto negli ultimi anni, grazie a tutti questi potenti metodi di intelligenza artificiale.

Tuttavia, per quanto riguarda il montaggio video, è in ritardo. Il montaggio video è qualcosa che spesso richiede competenze tecniche e software sofisticati. È necessario immergersi in strumenti complessi come Premier e FinalCut Pro e cercare di regolare ogni singolo dettaglio da soli. Non c’è da meravigliarsi se il montaggio video è una competenza molto remunerativa al giorno d’oggi. L’editing delle immagini, d’altra parte, può persino essere fatto su app mobili e i risultati sono sufficienti per gli utenti medi.

Immaginate le possibilità se il montaggio video interattivo potesse diventare altrettanto semplice da usare come il suo controparte di editing delle immagini. Immaginate di poter dire addio alle complessità tecniche e dare il benvenuto a un nuovo livello di libertà! È ora di conoscere INVE.

INVE (Editor Video Interattivo Neural) è un modello di intelligenza artificiale che affronta il problema del montaggio video, come suggerisce il nome. Propone un modo per gli utenti non professionisti di eseguire modifiche complesse ai video senza sforzo.

Il principale obiettivo di INVE è consentire agli utenti di apportare modifiche complesse ai video in modo semplice e intuitivo. L’approccio si basa su rappresentazioni di atlanti neurali stratificati, che consistono in atlanti 2D (immagini) per ciascun oggetto e lo sfondo nel video. Questi atlanti consentono modifiche localizzate e coerenti.

Il montaggio video è complicato a causa di diversi problemi intrinseci. Ad esempio, oggetti diversi in un video possono muoversi indipendentemente, richiedendo una localizzazione precisa e una composizione attenta per evitare artefatti innaturali. Inoltre, modificare singoli fotogrammi può portare a incongruenze e difetti visibili. Per affrontare questi problemi, INVE introduce un nuovo approccio che utilizza rappresentazioni di atlanti neurali stratificati.

L’idea è rappresentare un video come un insieme di atlanti 2D, uno per ogni oggetto in movimento e uno per lo sfondo. Questa rappresentazione consente modifiche localizzate, mantenendo la coerenza in tutto il video. Tuttavia, i metodi precedenti hanno avuto difficoltà con la mappatura bidirezionale, rendendo difficile prevedere il risultato di modifiche specifiche. Inoltre, la complessità computazionale ha ostacolato il montaggio interattivo in tempo reale.

INVE può propagare modifiche su un fotogramma in modo coerente. Fonte: https://arxiv.org/pdf/2307.07663.pdf

INVE apprende una mappatura bidirezionale tra gli atlanti e l’immagine del video. Ciò consente agli utenti di apportare modifiche sia negli atlanti che nel video stesso, offrendo più opzioni di modifica e una migliore comprensione di come le modifiche saranno percepite nel video finale.

Inoltre, INVE adotta una codifica hash a multi-risoluzione, migliorando significativamente la velocità di apprendimento e di inferenza. Ciò rende possibile per gli utenti godersi un’esperienza di editing veramente interattiva.

Panoramica della pipeline di mappatura in avanti di INVE. Fonte: https://arxiv.org/pdf/2307.07663.pdf

INVE offre un ricco vocabolario di operazioni di editing, tra cui il tracciamento della trama rigida e lo sketching vettorializzato; consente agli utenti di realizzare le proprie visioni di editing senza sforzo. Gli utenti principianti possono ora sfruttare la potenza dell’editing video interattivo senza essere bloccati da complessità tecniche. Questo rende l’editing video, come l’aggiunta di grafica esterna a una macchina in movimento, l’aggiustamento delle tonalità della foresta di sfondo o lo sketching su una strada, la propagazione senza sforzo di queste modifiche in tutto il video in modo diretto.