Utilizzare il linguaggio per fornire ai robot una migliore comprensione del mondo aperto

Il potere del linguaggio nel migliorare la comprensione dei robot del mondo aperto

Feature Fields for Robotic Manipulation (F3RM) permette ai robot di interpretare indicazioni testuali aperte utilizzando il linguaggio naturale, aiutando le macchine a manipolare oggetti sconosciuti. ¶ Credito: Ge Yang et al.

Il metodo Feature Fields for Robotic Manipulation (F3RM) progettato dai ricercatori del Massachusetts Institute of Technology aiuta i robot a identificare e afferrare oggetti vicini formando scene tridimensionali (3D) da immagini bidimensionali (2D) e modelli di visione.

F3RM può essere applicato a ambienti reali con migliaia di oggetti interpretando indicazioni testuali aperte da parte degli esseri umani, utilizzando il linguaggio naturale.

Una telecamera montata su un bastone per selfie scatta 50 immagini 2D in diverse pose per creare un campo di radianza neurale, con il collage risultante che rappresenta una “gemella digitale” dell’ambiente a 360 gradi.

F3RM utilizza il modello di visione Contrastive Language-Image Pre-training (CLIP) per migliorare la geometria con dati semantici, ricostruendo le caratteristiche 2D CLIP per le immagini scattate dalla telecamera in una rappresentazione 3D.

Dopo alcune dimostrazioni, il robot, quando sollecitato, afferra oggetti precedentemente non incontrati applicando la sua conoscenza geometrica e semantica, scegliendo l’opzione con il punteggio più alto. Da MIT News Visualizza l’articolo completo

artificial intelligence,computer applications,computer systems,human-computer interaction

Utilizzare il linguaggio per fornire ai robot una migliore comprensione del mondo aperto

Il potere del linguaggio nel migliorare la comprensione dei robot del mondo aperto

Studio aiuta a spiegare come le selfie vengono utilizzate per comunicare

11 idee personalizzate di GPT per fare soldi sul GPT Store di OpenAI

Organizzazione dei tuoi script di avvio del...

Un inizio chiave per MLOps Esplorando i suo...

7 Esempi per padroneggiare le operazioni di...

Utilizzare i plugin di Polars per un increm...

AI Coding Google Bard è un buon sviluppator...

Privacy dei dati e il suo impatto sulla ges...

AI