Utilizzare il linguaggio per fornire ai robot una migliore comprensione del mondo aperto

Il potere del linguaggio nel migliorare la comprensione dei robot del mondo aperto

Feature Fields for Robotic Manipulation (F3RM) permette ai robot di interpretare indicazioni testuali aperte utilizzando il linguaggio naturale, aiutando le macchine a manipolare oggetti sconosciuti. ¶ Credito: Ge Yang et al.

Il metodo Feature Fields for Robotic Manipulation (F3RM) progettato dai ricercatori del Massachusetts Institute of Technology aiuta i robot a identificare e afferrare oggetti vicini formando scene tridimensionali (3D) da immagini bidimensionali (2D) e modelli di visione.

F3RM può essere applicato a ambienti reali con migliaia di oggetti interpretando indicazioni testuali aperte da parte degli esseri umani, utilizzando il linguaggio naturale.

Una telecamera montata su un bastone per selfie scatta 50 immagini 2D in diverse pose per creare un campo di radianza neurale, con il collage risultante che rappresenta una “gemella digitale” dell’ambiente a 360 gradi.

F3RM utilizza il modello di visione Contrastive Language-Image Pre-training (CLIP) per migliorare la geometria con dati semantici, ricostruendo le caratteristiche 2D CLIP per le immagini scattate dalla telecamera in una rappresentazione 3D.

Dopo alcune dimostrazioni, il robot, quando sollecitato, afferra oggetti precedentemente non incontrati applicando la sua conoscenza geometrica e semantica, scegliendo l’opzione con il punteggio più alto. Da MIT News Visualizza l’articolo completo

Abstracts Copyright © 2023 SmithBucklin , Washington, D.C., USA