Sure, Microsoft, Let's Put ChatGPT In Control Of Robots

Republicat de Platon

Urmaritori: 0

Video Microsoft, care s-a angajat să facă o investiție „mulțianală, de mai multe miliarde de dolari” în OpenAI, este atât de îndrăgostită de modele de limbă mari precum ChatGPT, încât vede un software atât de inteligent care simplifică modul în care comunicăm cu roboții.

ChatGPT este un model de limbaj mare (LLM) antrenat pe setul de date OpenAI GPT (Generative Pre-trained Transformer), care constă din text extras de pe web și din alte surse. Cu toate acestea, împreună cu o interfață de chat, abilitatea modelului de a răspunde la întrebări în mod semi-coerent nu întotdeauna cu acuratețe, i-a câștigat un loc în motorul de căutare Bing de la Microsoft și a pus pe tărâm dominația jocurilor cu reclame, jocuri SEO, susținut de plată Căutarea Google s-ar putea să se apropie în sfârșit de final.

Insuficient de ocupat stingerea incendiilor din combinația minții AI de la Bing, Microsoft propune acum ChatGPT ca o modalitate de a ajuta oamenii să direcționeze roboții în lumea fizică.

„Scopul nostru cu această cercetare este să vedem dacă ChatGPT poate gândi dincolo de text și poate gândi despre lumea fizică pentru a ajuta la sarcinile robotice”, a spus compania în un mesaj pe luni. „Vrem să ajutăm oamenii să interacționeze cu roboții mai ușor, fără a fi nevoie să învețe limbaje de programare complexe sau detalii despre sistemele robotice.”

În acest scop, cercetătorii lui Redmond au lansat PromptCraft, care este descrisă ca o platformă colaborativă open-source pentru partajarea modului de a formula cel mai bine interogările și comenzile LLM către roboți.

Se pare că nu poți merge direct la „Deschide ușile compartimentului, te rog, Hal,” dacă interacționați cu ChatGPT ca canal de control vocal pentru o dronă. Trebuie să setați scena pentru model. Incepe ceva de genul asta:

Imaginați-vă că mă ajutați să interacționez cu simulatorul AirSim pentru drone. În orice moment dat, aveți următoarele abilități, fiecare identificată printr-o etichetă unică. De asemenea, vi se cere să scoateți cod pentru unele dintre solicitări.

Întrebare: Îmi puteți adresa o întrebare de clarificare, atâta timp cât o identificați în mod specific spunând „Întrebare”. Cod: Emite o comandă de cod care atinge scopul dorit.

Motiv: După ce ați scos codul, ar trebui să oferiți o explicație de ce ați făcut ceea ce ați făcut.

Simulatorul conține o dronă, împreună cu mai multe obiecte. În afară de dronă, niciunul dintre obiecte nu este mobil. În cadrul codului, avem la dispoziție următoarele comenzi. Nu trebuie să utilizați alte funcții ipotetice.

...

Și există parametri importanți de navigație care trebuie specificați. Dar, după câteva pregătiri, s-ar putea să ajungeți la punctul în care puteți conversa cu ChatGPT și îl puteți direcționa pe o dronă pentru a vă găsi o băutură în mediul înconjurător. Sau poate produce codul Python care, dacă nu există erori, va permite dronei să facă licitația dvs.

Youtube Video

„ChatGPT deblochează o nouă paradigmă de robotică și permite unui utilizator (potențial non-tehnic) să stea la curent, oferind feedback la nivel înalt modelului de limbaj mare (LLM) în timp ce monitorizează performanța robotului”, explică Microsoft. „Urmând setul nostru de principii de proiectare, ChatGPT poate genera cod pentru scenariile robotice.”

Cu alte cuvinte, același tip de cod care nu este în mod necesar corect produs de Github Copilot ar putea fi transmis direct unui robot prin ChatGPT pentru a-l ajuta să îndeplinească o anumită misiune.

Sai Vemprala, Rogerio Bonatti, Arthur Bucker și Ashish Kapoor, de la Microsoft Autonomous Systems and Robots Research Group, descriu încercarea lor de a direcționa roboți prin ChatGPT în o lucrare de cercetare [PDF] intitulat „ChatGPT pentru robotică: principii de proiectare și abilități de model”.

Proiectul definește un API de nivel înalt pe care ChatGPT îl poate înțelege și îl poate mapa cu funcțiile robotului de nivel inferior. Ulterior, au scris solicitări text pentru ChatGPT, descriind obiectivele sarcinilor, specificând funcțiile disponibile și stabilesc constrângerile sarcinii.

ChatGPT a răspuns apoi generând cod aplicabil dispozitivului pentru a îndeplini orice obiectiv de simulare a fost stabilit. Ideea este că o persoană care conversa cu ChatGPT poate testa directivele robotului până când funcționează corect.

Boffins Microsoft fac să sune ca și cum ChatGPT este capabil de „raționament spațio-temporal”, bazat pe capacitatea sa de a controla un robot cu o cameră, astfel încât să poată folosi senzori vizuali pentru a prinde o minge de baschet.

„Vedem că ChatGPT este capabil să utilizeze în mod corespunzător funcțiile API furnizate, să motiveze aspectul mingii și să apeleze funcții relevante OpenCV și să comande viteza robotului pe baza unui controler proporțional”, explică ei în lucrare.

Raționamentul de acest fel – având un model de bun simț al lumii – face mult mai ușor pentru roboți să opereze eficient într-un mediu fizic, se spune. Industria vehiculelor autonome nu este încă acolo și nici ChatGPT se pare.

Chiar în această săptămână, o pereche de cercetători de la Universitatea din California de Sud, Zhisheng Tang și Mayank Kejriwal, au eliberat o hartie prin ArXiv, provocând capacitatea ChatGPT și DALL•E 2 de a face inferențe sensibile despre lume.

Lucrarea, intitulată „A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning”, concluzionează că cele două modele raționează în mod inconsecvent.

În ceea ce privește ChatGPT, ei au descoperit că, „deși demonstrează un anumit nivel de luare a deciziilor raționale, multe dintre deciziile sale încalcă cel puțin una dintre axiome chiar și în construcții rezonabile de preferințe, pariuri și indicații de luare a deciziilor”. Și uneori, au spus ei, ChatGPT ia decizia corectă din motive greșite.

Boffins Microsoft recunosc că ChatGPT are limitări și observă că rezultatul modelului nu ar trebui să fie aplicat unui robot neverificat.

„Subliniem că acestor instrumente nu ar trebui să li se acorde controlul deplin asupra conductei robotice, în special pentru aplicațiile critice pentru siguranță”, afirmă ei în lucrarea lor. „Având în vedere tendința LLM-urilor de a genera în cele din urmă răspunsuri incorecte, este destul de important să se asigure calitatea soluției și siguranța codului cu supraveghere umană înainte de a-l executa pe robot.” ®