Il team dell'Università, Nvidia insegna ai robot a controllare il CLIP di OpenAI

Nodo di origine: 1876920

I robot alimentati da reti neurali sono frustrantemente fragili. Hanno bisogno di vedere numerose dimostrazioni di un compito specifico nella simulazione prima di poter iniziare a eseguire le stesse azioni nel mondo fisico. Una nuova tecnica, tuttavia, promette di accelerare il processo.

I ricercatori, dell'Università di Washington negli Stati Uniti e di Nvidia, stavano cercando di risolvere il problema della necessità di trascorrere lunghi periodi di tempo raccogliendo dati per insegnare ai robot alimentati dalla rete neurale a riconoscere e manipolare gli oggetti nel loro ambiente.

Un compito facile come impilare un blocco rosso sopra uno blu è complesso per le macchine. Devono ricevere molte immagini di blocchi rossi e blu in varie pose per apprenderne la forma e il colore, quindi più video che mostrano in quale ordine impilarli. Un robot dovrebbe anche rilevare questi blocchi per localizzarli prima di lui. può iniziare a spostarli.

Chiedigli di fare la stessa cosa, ad esempio, con le tazze, tuttavia, e le sue prestazioni probabilmente diminuiranno. Deve essere riqualificato nuovamente per riconoscere i nuovi oggetti anche se ha appena imparato a impilare le cose. È un processo scrupoloso dover fornire alle macchine migliaia di dimostrazioni utilizzando varie combinazioni di oggetti in ambienti diversi per renderli più robusti.

Il nuovo metodo descritto dai ricercatori di Washington e Nvidia, tuttavia, promette di rendere le macchine più intelligenti. Utilizzando un sistema noto come “CLIPort”, il team è stato in grado di insegnare a un robot con pinza come manipolare gli oggetti senza doverlo prima addestrare esplicitamente a riconoscere gli oggetti.

Il modello è composto da due parti: CLIP, una rete neurale sviluppata da OpenAI addestrata su immagini e testo prelevati da Internet, e una rete di trasportatori per classificare i pixel e rilevare le relazioni spaziali tra gli oggetti. Poiché CLIP è già pre-addestrato per identificare oggetti e descriverli tramite testo, i ricercatori possono dare istruzioni al robot tramite testo e lui identificherà automaticamente a cosa si riferiscono.

“Presentiamo CLIPort, un agente di imitazione-apprendimento condizionato dal linguaggio che combina l’ampia comprensione semantica (cosa) di CLIP con la precisione spaziale (dove) di Transporter”, secondo il team carta su arXiv.

"Il nostro framework end-to-end è in grado di risolvere una varietà di compiti da tavolo specificati nel linguaggio, dall'imballaggio di oggetti invisibili alla piegatura di tessuti, il tutto senza alcuna rappresentazione esplicita delle pose degli oggetti, segmentazioni di istanze, memoria, stati simbolici o strutture sintattiche."

Ad esempio nel comando “cogli tutte le ciliegie e mettile in una scatola”. La parte CLIP del sistema saprà che aspetto hanno le "ciliegie" e la "scatola". Non è necessario addestrare il robot su numerose immagini di ciliegie o scatole per saperlo. I robot possono quindi passare alla seconda fase del processo di formazione e mostrare al braccio meccanico il movimento esatto per afferrare le ciliegie e lasciarle cadere in un contenitore una per una.

Il trasportatore guida quindi il robot a imitare l'azione per completare l'attività nel mondo reale. Può fare anche altre cose, come piegare un panno o spazzare i fagioli senza essere stato esposto a immagini di asciugamani o chicchi di caffè.

“A differenza dei rilevatori di oggetti esistenti, CLIP non si limita a un insieme predefinito di classi di oggetti”, ha detto Mohit Shridhar, primo autore dell’articolo e studente di dottorato presso l’Università di Washington. Il registro.

“E a differenza di altri modelli di linguaggio visivo, non è limitato da una pipeline top-down che rileva oggetti con riquadri di delimitazione o segmentazioni di istanze. Ciò ci consente di rinunciare al paradigma tradizionale di addestrare rilevatori espliciti per tessuti, pinze, quadrati di scacchiera, gambi di ciliegio e altre cose arbitrarie.

Esistono altri sistemi simili che utilizzano classificatori di immagini pre-addestrati come CLIP ma non sono addestrati su tanti tipi di oggetti, ha spiegato Shridhar. Il nuovo sistema significa che i robot basati su CLIPort possono essere messi a punto su nuove faccende con “pochissimi dati”.

Ciò che è ancora più utile è che riesce a svolgere meglio gli stessi compiti che gli erano stati insegnati in precedenza con nuovi oggetti che non ha mai visto prima. Il robot può impilare una serie di blocchi in uno specifico ordine di colore durante l'addestramento e imparare a eseguire lo stesso compito su blocchi di colore diverso che non ha mai visto prima.

Puoi vederlo in azione qui sotto.

Youtube Video

Lo svantaggio di CLIPort, tuttavia, è che richiede ancora oltre un centinaio di dimostrazioni video prima di poter fare qualcosa con successo. Alcuni compiti sono anche più difficili di altri; inserire una forma nel foro destro è particolarmente difficile per CLIPort quando non ha visto una dimostrazione dell'attività utilizzando un oggetto di forma diversa.

Inoltre, se c'è un oggetto a cui CLIP non è stato esposto durante il processo di addestramento, CLIPort non saprà nemmeno come riconoscerlo. Sebbene il sistema sia più robusto, non è abbastanza generale per sapere come eseguire un’attività senza prima averla vista eseguita.

“Le capacità di CLIPort sono limitate solo alle azioni mostrate durante le dimostrazioni di formazione. Se è addestrato a “impilare due blocchi” e gli chiedi “crea una torre di 5 blocchi”, non saprà come farlo. Tutti i verbi sono anche strettamente legati alle dimostrazioni dell’addestramento, nel senso che non faranno altro che le abilità di azione apprese durante l’addestramento”, ha aggiunto Shridhar.

CLIPort è specificamente progettato per mantenere gli esseri umani coinvolti, ha affermato. Un esperto umano deve insegnare al robot con dimostrazioni e anche fornire comandi linguistici durante l'esecuzione. Puoi vederne il codice qui. ®

Nota del redattore: Il titolo di questo articolo è stato rivisto per chiarire che l'Università di Washington e Nvidia hanno effettuato questa ricerca utilizzando il modello di OpenAI.

Fonte: https://go.theregister.com/feed/www.theregister.com/2021/10/01/uw_nvidia_clip_model_paper/

Timestamp:

Di più da Il registro