Sure, Microsoft, Let's Put ChatGPT In Control Of Robots

Перевидано Платоном

читають: 0

Відео Майкрософт, яка вклала «багаторічну багатомільярдну» інвестицію в OpenAI, настільки захопилася такими великими мовними моделями, як ChatGPT, що бачить таке розумне програмне забезпечення, яке спрощує наш спосіб спілкування з роботами.

ChatGPT — це велика мовна модель (LLM), навчена на наборі даних OpenAI GPT (Generative Pre-trained Transformer), який складається з тексту, взятого з Інтернету та інших джерел. Поєднана з інтерфейсом чату, здатність моделі відповідати на запитання напівзгоджено, хоча не завжди точно, отримав місце в пошуковій системі Microsoft Bing і заговорив про те, що домінування прикрашених рекламою, SEO-ігор, оплата-проп Можливо, пошук Google нарешті закінчується.

Недостатньо зайнятий гасіння пожеж на основі штучного інтелекту Bing, Microsoft тепер пропонує ChatGPT як спосіб допомогти людям керувати роботами у фізичному світі.

«Наша мета цього дослідження — з’ясувати, чи може ChatGPT мислити не тільки текстом, а й міркувати про фізичний світ, щоб допомогти у виконанні завдань робототехніки», — заявили в компанії. повідомлення в понеділок. «Ми хочемо допомогти людям легше взаємодіяти з роботами, не потребуючи вивчення складних мов програмування або деталей роботизованих систем».

З цією метою дослідники Редмонда випустили PromptCraft, яка описується як спільна платформа з відкритим кодом для обміну інформацією про те, як найкраще сформулювати запити та команди LLM для роботів.

Виявляється, ви не можете перейти прямо до "Відкрийте двері відсіку, будь ласка, Гел”, якщо ви взаємодієте з ChatGPT як з каналом голосового керування дроном. Ви повинні створити сцену для моделі. Починається щось на зразок цього:

Уявіть, що ви допомагаєте мені взаємодіяти з симулятором AirSim для дронів. У будь-який момент часу ви маєте такі здібності, кожна з яких позначена унікальним тегом. Вам також потрібно вивести код для деяких запитів.

Запитання: ви можете поставити мені уточнююче запитання, якщо ви конкретно вкажете його, сказавши «Питання». Код: Виведіть команду коду, яка досягає бажаної мети.

Причина: після виведення коду ви повинні надати пояснення, чому ви зробили те, що ви зробили.

Симулятор містить дрон разом з кількома об'єктами. Окрім дрона, жоден із об’єктів не є рухомим. У коді ми маємо доступ до наступних команд. Ви не повинні використовувати будь-які інші гіпотетичні функції.

...

І є важливі навігаційні параметри, які потрібно вказати. Але після деякої підготовки ви можете дійти до того моменту, коли ви зможете спілкуватися з ChatGPT і скерувати дрон, щоб знайти вам напій у навколишньому середовищі. Або він може створити код Python, який, якщо немає помилок, дозволить дрону виконати ваші ставки.

Youtube Video

«ChatGPT розблоковує нову парадигму робототехніки та дозволяє (потенційно нетехнічному) користувачеві бути в курсі, забезпечуючи зворотний зв’язок високого рівня для великої мовної моделі (LLM), одночасно відстежуючи продуктивність робота», — пояснює Microsoft. «Дотримуючись наших принципів проектування, ChatGPT може генерувати код для сценаріїв робототехніки».

Іншими словами, той самий необов’язково правильний код, створений Github Copilot, можна передати безпосередньо роботу через ChatGPT, щоб допомогти йому виконати конкретну місію.

Сай Вемпрала, Роджеріо Бонатті, Артур Бакер і Ашіш Капур з групи Microsoft Autonomous Systems and Robots Research Group описують свою спробу керувати роботами через ChatGPT у наукова робота [PDF] під назвою «ChatGPT для робототехніки: принципи проектування та можливості моделі».

Проект визначає високорівневий API, який ChatGPT може зрозуміти, і відображаючи його на функції робота нижчого рівня. Після цього вони написали текстові підказки для ChatGPT з описом цілей завдань, визначенням доступних функцій і встановленням обмежень завдань.

Після цього ChatGPT у відповідь створив застосовний до пристрою код для досягнення будь-якої поставленої цілі симуляції. Ідея полягає в тому, що людина, яка розмовляє з ChatGPT, може помилково перевіряти директиви робота, поки вони не запрацюють належним чином.

Бофіни Microsoft стверджують, що ChatGPT здатний до «просторово-часового міркування» на основі його здатності керувати роботом за допомогою камери, тож він може використовувати візуальні датчики, щоб зловити баскетбольний м’яч.

«Ми бачимо, що ChatGPT може належним чином використовувати надані функції API, міркувати про появу м’яча та викликати відповідні функції OpenCV, а також керувати швидкістю робота на основі пропорційного контролера», — пояснюють вони в статті.

Стверджується, що такі міркування – наявність певної здорової моделі світу – значно полегшують ефективну роботу роботів у фізичному середовищі. Індустрії автономних транспортних засобів ще немає, як і ChatGPT, здається.

Лише цього тижня пара дослідників з Університету Південної Каліфорнії Чжишен Тан і Маянк Кейрівал випустили папір через ArXiv кидає виклик здатності ChatGPT і DALL•E 2 робити розумні висновки про світ.

У документі під назвою «Пілотна оцінка ChatGPT і DALL-E 2 щодо прийняття рішень і просторового обґрунтування» зроблено висновок про те, що дві моделі міркують непослідовно.

Стосовно ChatGPT вони виявили, що, «хоча він демонструє певний рівень раціонального прийняття рішень, багато його рішень порушують принаймні одну з аксіом навіть за розумних конструкцій уподобань, ставок і підказок щодо прийняття рішень». І іноді, за їх словами, ChatGPT приймає правильне рішення з неправильних причин.

Боффіни Microsoft визнають, що ChatGPT має обмеження, і зауважують, що вихідні дані моделі не слід застосовувати до робота без перевірки.

«Ми підкреслюємо, що цим інструментам не слід надавати повний контроль над конвеєром робототехніки, особливо для критично важливих додатків», — зазначають вони у своїй статті. «Враховуючи схильність LLM зрештою генерувати неправильні відповіді, дуже важливо забезпечити якість рішення та безпеку коду під наглядом людини перед його виконанням на роботі». ®