모두가 ChatGPT 챗봇을 좋아하는 이유

플라톤에 의해 재발행

팔로워 : 0

오랫동안 인공 지능(AI)이 정복하기 매우 어려운 것으로 여겨졌던 또 다른 게임이 봇의 손에 떨어졌습니다: Stratego.

런던에 본사를 둔 회사에서 만든 AI DeepNash Deepmind, 이제 불완전한 정보에 대한 장기적인 전략적 사고가 필요한 보드 게임인 Stratego에서 전문가와 매치됩니다.

이 최신 업적은 이전에 인간의 장점이라고 생각되었던 게임에서 AI의 또 다른 주요 승리의 결과입니다.

바로 지난주에 Meta의 Cicero라는 AI가 인간 플레이어를 능가할 수 있습니다 Diplomacy 게임에서 온라인에서 상대를 능가하는 역사를 만들었습니다.

"질적으로 다른 게임 기능이 최근 몇 년 동안 AI에 의해 정복되거나 새로운 수준으로 마스터된 비율은 상당히 놀랍습니다."라고 전략적 추론과 게임을 연구하는 컴퓨터 과학자인 앤아버에 있는 미시간 대학교의 Michael Wellman은 말합니다. 이론.

"Stratego와 Diplomacy는 서로 상당히 다르며 유사한 이정표에 도달한 게임과는 현저하게 다른 도전적인 기능을 가지고 있습니다."라고 Wellman은 말했습니다.

불완전한 정보

이 게임은 일반적으로 체스, 바둑 또는 포커보다 훨씬 더 복잡한 특성을 가지고 있습니다. 체스, 바둑, 포커는 모두 AI가 마스터했습니다.

Stratego 게임에서 두 명의 플레이어는 각각 40개의 조각을 보드에 놓지만 상대방의 조각이 무엇인지 보지 않아야 합니다.

게임의 목표는 차례대로 말을 움직여 상대방의 말을 제거하고 깃발을 잡는 것입니다.

게임이 진행될 수 있는 모든 가능한 방법의 그래프인 Stratego의 게임 트리에는 Go의 10535에 대해 10360개의 상태가 있습니다.

게임 시작 시 불완전한 정보에 관해서 Stratego는 1066개의 가능한 개인 위치를 가지고 있으며, 이는 106인용 텍사스 홀덤 포커에서 이러한 시작 상황이 XNUMX개에 불과한 수치입니다.

파리에 기반을 둔 DeepMind 연구원인 Julien Perolat는 "Stratego에서 가능한 결과의 수의 순전히 복잡성은 완벽한 정보 게임에서 잘 작동하는 알고리즘을 의미하며, 포커에 작동하는 알고리즘도 작동하지 않는다는 것을 의미합니다."라고 말합니다.

DeepNash는 Perolat와 그의 동료들이 개발했습니다.

Nash에서 영감을 받은 봇

봇의 이름은 플레이어가 전략을 변경함으로써 이익을 얻지 못하는 방식으로 플레이어가 따를 수 있는 "안정적인 전략 세트"가 있다고 가정하는 내쉬 균형 이론을 제시한 유명한 미국 수학자 John Nash에게 경의를 표합니다. 자신에. 이와 같이 게임은 XNUMX, XNUMX 또는 다수의 내쉬 균형을 갖는 경향이 있습니다.

DeepNash는 강화 학습 알고리즘과 심층 신경망을 결합하여 Nash 평형을 찾습니다.

일반적으로 강화 학습은 지능형 에이전트(컴퓨터 프로그램)가 환경과 상호 작용하고 게임의 모든 상태에 대한 조치를 지시하는 최상의 정책을 학습하는 것입니다.

최적의 정책을 갖기 위해 DeepNash는 자체적으로 총 5.5억 게임을 플레이했습니다.

본질적으로 한쪽이 벌칙을 받으면 다른 쪽이 보상을 받고 정책을 나타내는 신경망의 변수가 그에 따라 조정됩니다.

AI는 Stratego에서 인간을 이깁니다 – DeepMash를 만나보세요

어떤 단계에서 DeepNash는 대략적인 Nash 균형에 수렴합니다. 다른 봇과 달리 DeepNash는 s 없이 스스로 최적화합니다.게임 트리를 통해 검색.

XNUMX주 동안 DeepNash는 온라인 게임 플랫폼인 Gravon에서 인간 Stratego 플레이어와 대결했습니다.

50경기에 출전한 후 Ai는 2002년 이후 모든 Gravon Stratego 플레이어 중 XNUMX위를 차지했습니다.

"우리의 작업은 불완전한 정보를 포함하는 Stratego와 같은 복잡한 게임이 이를 해결하기 위해 검색 기술을 필요로 하지 않는다는 것을 보여줍니다. "이것은 AI에서 정말 큰 발전입니다."

다른 연구자들도 이 위업에 깊은 인상을 받았습니다.

인상적인 결과

뉴욕시에 본사를 둔 Meta AI의 연구원이자 2019년 포커 플레이 AI Pluribus4를 보고한 팀원인 Noam Brown은 "결과가 인상적입니다."라고 동의합니다.

Facebook의 모회사인 Meta에서 Brown과 그녀의 동료들은 XNUMX명의 플레이어가 지도에서 조각을 움직여 유럽의 지리적 통제권을 놓고 경쟁하는 게임인 Diplomacy를 플레이할 수 있는 AI를 구축했습니다.

Diplomacy에서 목표는 유닛(함대 및 군대)을 이동하여 공급 센터를 장악하는 것입니다.

Meta는 AI가 적대적이지 않은 환경에 의존하기 때문에 Cicero가 상당히 중요하다고 말합니다.

의사 소통이 가치가 없는 체스, 바둑, 포커와 같은 순전히 적대적인 환경에서 다중 에이전트 AI의 이전 주요 성공이 있었던 과거와 달리 Cicero는 전략적 추론 엔진과 제어 가능한 대화 모듈을 사용합니다.

브라운은 "XNUMX인용 제로섬 게임을 넘어서면 내쉬 균형이라는 아이디어는 더 이상 인간과 잘 노는 데 유용하지 않습니다."라고 말합니다.

Brown과 그녀의 팀은 인간 플레이어가 참여하는 Diplomacy 온라인 버전의 125,261개 게임 데이터를 사용하여 Cicero를 교육했습니다.

셀프 플레이 데이터와 전략적 추론 모듈(SRM)을 사용하여 Cicero는 게임 상태와 누적된 메시지, 다른 플레이어의 가능한 동작 및 정책에 따라 판단을 예측하는 방법을 배웠습니다.

AI는 Stratego에서 인간을 이깁니다 – DeepMash를 만나보세요

Meta는 webDiplomacy.net에서 온라인으로 플레이한 125,261개의 Diplomacy 게임에서 데이터를 수집했다고 말합니다. 이 게임 중 총 40,408개의 게임에는 대화가 포함되어 있으며 총 12,901,662개의 메시지가 플레이어 간에 교환되었습니다.

실제 동작

Brown은 Cicero와 같은 게임 플레이 봇이 인간과 상호 작용할 수 있고 "차선적이거나 심지어 비합리적인 인간 행동을 설명하여 실제 응용 프로그램을 위한 길을 열 수 있다고 믿습니다."

"자율주행차를 만들고 있다면 도로 위의 다른 모든 운전자가 완벽하게 합리적이고 최적의 행동을 할 것이라고 가정하고 싶지 않을 것입니다."라고 그는 말합니다.

그는 Cicero가 이 방향으로 나아가는 큰 발걸음이라고 덧붙입니다. "우리는 여전히 게임 세계에 한 발이 있지만 이제 현실 세계에도 한 발이 있습니다."

Wellman과 같은 다른 사람들도 동의하지만 여전히 더 많은 작업이 필요하다고 주장합니다. "이러한 기술 중 많은 부분이 오락용 게임을 넘어 실제로 관련이 있습니다."라고 그는 말합니다. "그럼에도 불구하고, 어느 시점에서 선도적인 AI 연구소는 레크리에이션 환경을 넘어 우리가 실제로 관심을 갖고 있는 더 지저분한 실제 '게임'에 대한 과학적 진보를 측정하는 방법을 알아내야 합니다."

/메타뉴스.

타임 스탬프 : 2022 년 12 월 12 일2022 년 12 월 13 일