그래, 마이크로소프트, ChatGPT가 로봇을 통제하게 하자

그래, 마이크로소프트, ChatGPT가 로봇을 통제하게 하자

소스 노드 : 1971360

Video OpenAI에 "수년, 수십억 달러" 투자를 약속한 Microsoft는 ChatGPT와 같은 대규모 언어 모델에 매료되어 우리가 로봇과 통신하는 방식을 단순화하는 요령 있는 소프트웨어를 보고 있습니다.

ChatGPT는 웹 및 기타 소스에서 스크랩한 텍스트로 구성된 OpenAI GPT(Generative Pre-trained Transformer) 데이터 세트에서 학습된 대규모 언어 모델(LLM)입니다. 채팅 인터페이스와 맞물려 질문에 반쯤 일관되게 응답하는 모델의 기능 항상 정확하지는 않습니다, Microsoft의 Bing 검색 엔진에서 한 자리를 차지했으며 광고, SEO 게임, 결제 지원 Google 검색이 마침내 종료될 수 있습니다.

충분히 바쁘지 않다 불 끄기 Bing의 AI 마인드 멜드에서 Microsoft는 이제 사람들이 물리적 세계에서 로봇을 지시하는 데 도움이 되는 방법으로 ChatGPT를 제안하고 있습니다.

"이 연구의 목표는 ChatGPT가 텍스트를 넘어 생각하고 로봇 작업을 돕기 위해 물리적 세계에 대한 추론을 할 수 있는지 확인하는 것입니다."라고 회사는 말했습니다. 게시 월요일에. "우리는 복잡한 프로그래밍 언어나 로봇 시스템에 대한 세부 정보를 배울 필요 없이 사람들이 로봇과 보다 쉽게 ​​상호 작용할 수 있도록 돕고 싶습니다."

이를 위해 Redmond의 연구원들은 프롬프트크래프트, LLM 쿼리 및 명령을 로봇에 가장 잘 표현하는 방법을 공유하기 위한 협업 오픈 소스 플랫폼으로 설명됩니다.

"로 바로 갈 수 없다는 것이 밝혀졌습니다.포드 베이 문을 열어주세요, Hal,” 드론의 음성 제어 채널로 ChatGPT와 상호 작용하는 경우. 모델의 장면을 설정해야 합니다. 시작이다 과 같이:

내가 드론용 AirSim 시뮬레이터와 상호작용하도록 돕고 있다고 상상해보세요. 특정 시점에서 각각 고유한 태그로 식별되는 다음과 같은 기능을 사용할 수 있습니다. 또한 일부 요청에 대한 코드를 출력해야 합니다.

질문: "질문"이라고 구체적으로 식별하는 한 명확한 질문을 할 수 있습니다. 코드: 원하는 목표를 달성하는 코드 명령을 출력합니다.

이유: 코드를 출력한 후에는 왜 그렇게 했는지에 대한 설명을 제공해야 합니다.

시뮬레이터에는 여러 개체와 함께 드론이 포함되어 있습니다. 드론을 제외하고 어떤 물체도 움직일 수 없습니다. 코드 내에서 다음 명령을 사용할 수 있습니다. 다른 가상 기능을 사용하지 마십시오.

...

그리고 지정해야 하는 중요한 탐색 매개변수가 있습니다. 그러나 약간의 준비 후에 ChatGPT로 대화할 수 있는 지점에 도달하고 주변 환경에서 음료수를 찾도록 드론을 지시할 수 있습니다. 또는 오류가 없는 경우 드론이 명령을 수행하도록 허용하는 Python 코드를 생성할 수 있습니다.

YouTube 동영상

"ChatGPT는 새로운 로보틱스 패러다임을 열고 (잠재적으로 비기술적인) 사용자가 루프에 앉아 로봇의 성능을 모니터링하는 동안 대규모 언어 모델(LLM)에 높은 수준의 피드백을 제공할 수 있도록 합니다."라고 Microsoft는 설명합니다. "ChatGPT는 우리의 설계 원칙에 따라 로봇 시나리오를 위한 코드를 생성할 수 있습니다."

즉, Github Copilot에서 생성된 동일한 종류의 반드시 정확하지 않은 코드를 ChatGPT를 통해 로봇에 직접 공급하여 로봇이 특정 임무를 완수하도록 도울 수 있습니다.

Microsoft Autonomous Systems and Robots Research Group의 Sai Vemprala, Rogerio Bonatti, Arthur Bucker 및 Ashish Kapoor는 ChatGPT를 통해 로봇을 지시하려는 시도를 다음에서 설명합니다. 연구 논문 [PDF] 제목은 "ChatGPT for Robotics: Design Principles and Model Abilities"입니다.

이 프로젝트는 ChatGPT가 이해할 수 있는 높은 수준의 API를 정의하고 이를 낮은 수준의 로봇 기능에 매핑합니다. 그 후 그들은 작업 목표를 설명하고 사용 가능한 기능을 지정하고 작업 제약 조건을 설정하는 ChatGPT용 텍스트 프롬프트를 작성했습니다.

그런 다음 ChatGPT는 설정된 시뮬레이션 목표를 달성하기 위해 장치에 적용 가능한 코드를 생성하여 응답했습니다. 아이디어는 ChatGPT로 대화하는 사람이 제대로 작동할 때까지 로봇 지시문을 버그 테스트할 수 있다는 것입니다.

Microsoft boffin은 마치 ChatGPT가 카메라로 로봇을 제어하는 ​​능력을 기반으로 "시공간적 추론"이 가능한 것처럼 들리므로 시각 센서를 사용하여 농구공을 잡을 수 있습니다.

"우리는 ChatGPT가 제공된 API 기능을 적절하게 사용하고 공의 모양을 추론하고 관련 OpenCV 기능을 호출하고 비례 컨트롤러를 기반으로 로봇의 속도를 명령할 수 있음을 확인했습니다."라고 그들은 논문에서 설명합니다.

세계에 대한 상식적인 모델을 갖는 그런 종류의 추론은 로봇이 물리적 환경에서 효과적으로 작동하는 것을 훨씬 더 쉽게 만든다고 주장합니다. 자율주행차 산업은 아직 존재하지 않으며 ChatGPT도 마찬가지입니다.

바로 이번 주, 서던 캘리포니아 대학교 Zhisheng Tang과 Mayank Kejriwal의 한 쌍의 연구원이 종이 ArXiv를 통해 ChatGPT 및 DALL•E 2의 능력에 도전하여 세계에 대한 합리적인 추론을 합니다.

"A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning"이라는 제목의 이 논문은 두 모델의 추론이 일관성이 없다고 결론지었습니다.

ChatGPT와 관련하여 그들은 "일정 수준의 합리적인 의사 결정을 보여주지만, 많은 결정이 선호도, 베팅 및 의사 결정 프롬프트의 합리적인 구성 하에서도 공리 중 하나 이상을 위반합니다."라고 밝혔습니다. 그리고 때때로 그들은 ChatGPT가 잘못된 이유로 올바른 결정을 내린다고 말했습니다.

Microsoft의 boffins는 ChatGPT에 제한이 있음을 인정하고 모델의 출력을 확인하지 않은 로봇에 적용해서는 안 된다는 점에 주목합니다.

"우리는 이러한 도구가 특히 안전이 중요한 애플리케이션의 경우 로봇 파이프라인을 완전히 제어해서는 안 된다는 점을 강조합니다."라고 그들은 논문에서 말합니다. "결국 잘못된 응답을 생성하는 LLM의 성향을 고려할 때 로봇에서 코드를 실행하기 전에 사람의 감독으로 코드의 솔루션 품질과 안전을 보장하는 것이 상당히 중요합니다." ®

타임 스탬프 :

더보기 등록