Utilizzare il linguaggio per fornire ai robot una migliore comprensione del mondo aperto
Il potere del linguaggio nel migliorare la comprensione dei robot del mondo aperto
Il metodo Feature Fields for Robotic Manipulation (F3RM) progettato dai ricercatori del Massachusetts Institute of Technology aiuta i robot a identificare e afferrare oggetti vicini formando scene tridimensionali (3D) da immagini bidimensionali (2D) e modelli di visione.
F3RM può essere applicato a ambienti reali con migliaia di oggetti interpretando indicazioni testuali aperte da parte degli esseri umani, utilizzando il linguaggio naturale.
Una telecamera montata su un bastone per selfie scatta 50 immagini 2D in diverse pose per creare un campo di radianza neurale, con il collage risultante che rappresenta una “gemella digitale” dell’ambiente a 360 gradi.
F3RM utilizza il modello di visione Contrastive Language-Image Pre-training (CLIP) per migliorare la geometria con dati semantici, ricostruendo le caratteristiche 2D CLIP per le immagini scattate dalla telecamera in una rappresentazione 3D.
- Studio aiuta a spiegare come le selfie vengono utilizzate per comunicare
- L’IA rende le reti mobili più efficienti
- L’algoritmo aiuta nella diagnosi precoce delle malattie degli occhi legate all’età
Dopo alcune dimostrazioni, il robot, quando sollecitato, afferra oggetti precedentemente non incontrati applicando la sua conoscenza geometrica e semantica, scegliendo l’opzione con il punteggio più alto. Da MIT News Visualizza l’articolo completo
Abstracts Copyright © 2023 SmithBucklin , Washington, D.C., USA