Sure, Microsoft, Let's Put ChatGPT In Control Of Robots

Republicado por Platão

seguidores: 0

Vídeo A Microsoft, tendo se comprometido com um investimento “de vários anos e bilhões de dólares” no OpenAI, está tão obcecada com grandes modelos de linguagem como o ChatGPT que vê um software tão inteligente simplificando a forma como nos comunicamos com os robôs.

O ChatGPT é um modelo de linguagem grande (LLM) treinado no conjunto de dados OpenAI GPT (Transformador Pré-treinado Generativo), que consiste em texto extraído da web e de outras fontes. Juntamente com uma interface de bate-papo, a capacidade do modelo de responder às perguntas de forma semi-coerente, embora nem sempre com precisão, conquistou um lugar no mecanismo de pesquisa Bing da Microsoft e divulgou que o domínio de anúncios enfeitados, jogos de SEO, proped por pagamento A Pesquisa do Google pode finalmente estar chegando ao fim.

Insuficientemente ocupado apagando incêndios da fusão mental de IA do Bing, a Microsoft agora está propondo o ChatGPT como uma maneira de ajudar as pessoas a direcionar robôs no mundo físico.

“Nosso objetivo com esta pesquisa é ver se o ChatGPT pode pensar além do texto e raciocinar sobre o mundo físico para ajudar nas tarefas de robótica”, disse a empresa em para postar na segunda-feira. “Queremos ajudar as pessoas a interagir com robôs de forma mais fácil, sem a necessidade de aprender linguagens de programação complexas ou detalhes sobre sistemas robóticos.”

Para esse fim, os pesquisadores de Redmond lançaram PromptCraft, que é descrito como uma plataforma colaborativa de código aberto para compartilhar a melhor forma de redigir consultas e comandos LLM para robôs.

Acontece que você não pode ir direto para “Abra as portas do compartimento das cápsulas, por favor, Hal”, se você estiver interagindo com o ChatGPT como um canal de controle de voz para um drone. Você tem que definir o cenário para o modelo. Isso começa algo como isto:

Imagine que você está me ajudando a interagir com o simulador AirSim para drones. Em qualquer ponto do tempo, você tem as seguintes habilidades, cada uma identificada por uma etiqueta única. Você também é obrigado a gerar código para algumas das solicitações.

Pergunta: Você pode me fazer uma pergunta de esclarecimento, desde que a identifique especificamente dizendo “Pergunta”. Código: emite um comando de código que atinge o objetivo desejado.

Motivo: depois de gerar o código, você deve fornecer uma explicação do motivo pelo qual fez o que fez.

O simulador contém um drone, juntamente com vários objetos. Além do drone, nenhum dos objetos é móvel. Dentro do código, temos os seguintes comandos disponíveis para nós. Você não deve usar nenhuma outra função hipotética.

...

E há importantes parâmetros de navegação que precisam ser especificados. Mas depois de alguma preparação, você pode chegar ao ponto em que pode conversar com o ChatGPT e fazer com que ele direcione um drone para encontrar uma bebida para você no ambiente ao redor. Ou pode produzir o código Python que, se não houver erros, permitirá que o drone faça o seu lance.

Youtube Video

“O ChatGPT desbloqueia um novo paradigma de robótica e permite que um usuário (potencialmente não técnico) participe, fornecendo feedback de alto nível para o modelo de linguagem grande (LLM) enquanto monitora o desempenho do robô”, explica a Microsoft. “Ao seguir nosso conjunto de princípios de design, o ChatGPT pode gerar código para cenários de robótica.”

Em outras palavras, o mesmo tipo de código não necessariamente correto produzido pelo Github Copilot pode ser alimentado diretamente a um robô via ChatGPT para ajudá-lo a realizar uma missão específica.

Sai Vemprala, Rogerio Bonatti, Arthur Bucker e Ashish Kapoor, do Microsoft Autonomous Systems and Robots Research Group, descrevem sua tentativa de direcionar robôs via ChatGPT em um trabalho de pesquisa [PDF] intitulado “ChatGPT for Robotics: Design Principles and Model Abilities.”

O projeto define uma API de alto nível que o ChatGPT pode entender e mapeá-la para funções de robô de nível inferior. Posteriormente, eles escreveram prompts de texto para o ChatGPT descrevendo os objetivos da tarefa, especificando as funções disponíveis e definindo as restrições da tarefa.

O ChatGPT respondeu gerando um código aplicável ao dispositivo para realizar qualquer objetivo de simulação definido. A ideia é que uma pessoa conversando com o ChatGPT possa testar as diretivas do robô até que funcionem corretamente.

Os boffins da Microsoft fazem parecer que o ChatGPT é capaz de “raciocínio espaço-temporal”, com base em sua capacidade de controlar um robô com uma câmera, para que possa usar sensores visuais para pegar uma bola de basquete.

“Vemos que o ChatGPT é capaz de usar apropriadamente as funções API fornecidas, raciocinar sobre a aparência da bola e chamar funções OpenCV relevantes e comandar a velocidade do robô com base em um controlador proporcional”, explicam no artigo.

Esse tipo de raciocínio – ter algum modelo de senso comum do mundo – torna muito mais fácil para os robôs operarem de forma eficaz em um ambiente físico, argumenta-se. A indústria de veículos autônomos ainda não existe e nem o ChatGPT parece.

Nesta semana, uma dupla de pesquisadores da University of Southern California, Zhisheng Tang e Mayank Kejriwal, divulgou um papel via ArXiv desafiando a capacidade do ChatGPT e do DALL•E 2 de fazer inferências sensatas sobre o mundo.

O artigo, intitulado “A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning”, conclui que os dois modelos raciocinam de forma inconsistente.

Com relação ao ChatGPT, eles descobriram que, “embora demonstre algum nível de tomada de decisão racional, muitas de suas decisões violam pelo menos um dos axiomas, mesmo sob construções razoáveis de preferências, apostas e prompts de tomada de decisão”. E às vezes, eles disseram, o ChatGPT toma a decisão certa pelos motivos errados.

Os boffins da Microsoft reconhecem que o ChatGPT tem limitações e observam que a saída do modelo não deve ser aplicada a um robô desmarcado.

“Enfatizamos que essas ferramentas não devem ter controle total do pipeline de robótica, especialmente para aplicações críticas de segurança”, afirmam em seu artigo. “Dada a propensão dos LLMs para eventualmente gerar respostas incorretas, é bastante importante garantir a qualidade da solução e a segurança do código com supervisão humana antes de executá-lo no robô.” ®