Una nuova ricerca di Microsoft AI propone HMD-NeMo un nuovo approccio che affronta la generazione di movimenti del corpo completo plausibili ed accurati, anche quando le mani possono essere solo parzialmente visibili

Una nuova scoperta di Microsoft AI HMD-NeMo, l'innovativo approccio per creare movimenti del corpo plausibili ed accurati, persino quando le mani sono solo parzialmente visibili

Nel campo delle esperienze immersive in scenari di realtà mista, la generazione di un movimento accurato e plausibile di avatar a corpo intero è stata una sfida persistente. Le soluzioni esistenti che si basano su dispositivi montati sulla testa (HMD) di solito utilizzano segnali di input limitati, come la testa e le mani a 6 gradi di libertà (6-DoF). Sebbene i progressi recenti abbiano dimostrato un’ottima performance nella generazione del movimento a corpo intero dai segnali della testa e delle mani, tutte condividono una limitazione comune: l’assunzione di piena visibilità delle mani. Questa assunzione, valida in scenari che coinvolgono i controller di movimento, fallisce in molte esperienze di realtà mista in cui il rilevamento delle mani si basa su sensori egocentrici, introducendo una visibilità parziale delle mani a causa del campo visivo limitato dell’HMD.

Ricercatori del Microsoft Mixed Reality & AI Lab, Cambridge, UK, hanno introdotto un approccio innovativo: HMD-NeMo (HMD Neural Motion Model). Questa rete neurale unificata genera un movimento a corpo intero plausibile e accurato anche quando le mani sono solo parzialmente visibili. HMD-NeMo opera in tempo reale e in modo online, rendendolo adatto a scenari dinamici di realtà mista.

Al centro di HMD-NeMo si trova un codificatore spaziotemporale che presenta dei token di maschera adattabili temporalmente (TAMT). Questi token svolgono un ruolo cruciale nel favorire un movimento plausibile in assenza di osservazioni delle mani. L’approccio incorpora reti neurali ricorrenti per catturare efficientemente le informazioni temporali e un trasformatore per modellare le relazioni complesse tra diverse componenti del segnale di input.

Il documento illustra due scenari considerati per la valutazione: i controller di movimento (MC), dove le mani sono tracciate con i controller di movimento, e il tracciamento delle mani (HT), dove le mani sono tracciate tramite sensori di rilevamento delle mani egocentrici. HMD-NeMo si dimostra il primo approccio in grado di gestire entrambi gli scenari all’interno di un framework unificato. Nel caso HT, in cui le mani possono essere parzialmente o completamente fuori dal campo visivo, i token di maschera adattabili temporalmente dimostrano la loro efficacia nel mantenere la coerenza temporale.

Il metodo proposto è addestrato utilizzando una funzione di perdita che tiene conto dell’accuratezza dei dati, della continuità e dei compiti ausiliari per la ricostruzione della posa umana in SE(3). Gli esperimenti coinvolgono valutazioni estese del dataset AMASS, una grande collezione di sequenze di movimento umano convertite in mesh umane 3D. Vengono utilizzate metriche come l’errore medio di posizione per articolazione (MPJPE) e l’errore medio di velocità per articolazione (MPJVE) per valutare le prestazioni di HMD-NeMo.

Le comparazioni con gli approcci all’avanguardia nello scenario di controller di movimento rivelano che HMD-NeMo raggiunge una precisione superiore e genera un movimento più fluido. Inoltre, la capacità di generalizzazione del modello viene dimostrata attraverso valutazioni incrociate dei dataset, superando i metodi esistenti su più dataset.

Studi di ablation approfondiscono l’impatto di diversi componenti, inclusa l’efficacia del modulo TAMT nel gestire le osservazioni mancanti delle mani. Lo studio mostra che le scelte di progettazione di HMD-NeMo, come il codificatore spaziotemporale, contribuiscono significativamente al suo successo.

In conclusione, HMD-NeMo rappresenta un passo significativo nel affrontare le sfide della generazione di movimento di avatar a corpo intero in scenari di realtà mista. La sua versatilità nel gestire scenari di controller di movimento e tracciamento delle mani, unitamente alle sue impressionanti metriche di performance, lo posiziona come una soluzione all’avanguardia nel campo.