誰もがChatGPTチャットボットを愛する理由

ソースノード: 1771427

人工知能 (AI) が征服するのは非常に難しいと長い間信じられてきたもう XNUMX つのゲームが、ボットの手に落ちました。Stratego です。

DeepNash、ロンドンを拠点とする企業が作成した AI ディープマインド、現在、不完全な情報に対する長期的な戦略的思考を必要とするボードゲーム、Stratego で専門家の人間と対戦します。

この最新の偉業は、以前は人間の得意分野と考えられていたゲームで AI が再び大きな勝利を収めたことを受けて実現したものです。

ちょうど先週、メタのシセロ、 人間のプレイヤーの裏をかくことができる ディプロマシーのゲームで、オンラインで対戦相手を裏切る歴史を作りました。

ミシガン大学アナーバー校のマイケル・ウェルマンは、戦略的推論とゲームを研究するコンピューター科学者で、「近年、質的に異なるゲーム機能が AI によって征服された、または新しいレベルにマスターされた割合は非常に注目に値します」と述べています。仮説。

「Stratego と Diplomacy は互いにまったく異なっており、同様のマイルストーンに到達したゲームとは著しく異なる、やりがいのある機能も備えています」と Wellman 氏は述べています。

不完全な情報

このゲームには、一般的にチェス、囲碁、ポーカーよりもはるかに複雑な特徴があります。 チェス、囲碁、ポーカーはすべて AI によって習得されています。

Stratego のゲームでは、40 人のプレイヤーがそれぞれ XNUMX 個のピース​​をボードに置きますが、対戦相手のピースが何であるかを見てはなりません。

ゲームの目的は、駒を順番に動かして相手の駒を消し、旗を獲得することです。 

Stratego のゲーム ツリー (ゲームが進む可能性があるすべての可能な方法のグラフ) には、Go の 10535 に対して 10360 の状態があります。 

ゲーム開始時の不完全な情報に関して言えば、Stratego には 1066 の可能なプライベート ポジションがあり、106 人用テキサス ホールデム ポーカーでは、このような開始状況は XNUMX しかありません。

パリを拠点とする DeepMind の研究者 Julien Perolat は次のように述べています。

DeepNash は Perolat と彼の同僚によって開発されました。

ナッシュにインスパイアされたボット

ボットの名前は、有名な米国の数学者ジョン・ナッシュへのオマージュです。ジョン・ナッシュは、戦略を変更することによってプレイヤーが利益を得ない方法でプレイヤーが従うことができる「安定した一連の戦略」があると仮定するナッシュ均衡理論を思いつきました。自分自身で。 そのため、ゲームにはゼロ、XNUMX、または多数のナッシュ均衡が存在する傾向があります。

DeepNash は、強化学習アルゴリズムとディープ ニューラル ネットワークを組み合わせて、ナッシュ均衡を見つけます。 

一般に、強化学習は、インテリジェント エージェント (コンピューター プログラム) が環境と対話し、ゲームのすべての状態に対してアクションを指示するための最適なポリシーを学習する場所です。 

最適なポリシーを設定するために、DeepNash はそれ自体に対して合計 5.5 億回のゲームをプレイしました。 

要するに、一方が罰せられると、もう一方が報われ、それに応じてポリシーを表すニューラル ネットワークの変数が微調整されます。

Stratego で AI が人間を打ち負かす – DeepMash の紹介

Stratego で AI が人間を打ち負かす – DeepMash の紹介

ある段階で、DeepNash はおおよそのナッシュ均衡に収束します。 他のボットとは異なり、DeepNash は s なしで自身を最適化します。ゲームツリーを介して耳を傾けます。

XNUMX 週間にわたって、DeepNash はオンライン ゲーム プラットフォーム Gravon で人間の Stratego プレイヤーと対戦しました。

50 試合に出場した後、Ai は 2002 年以来、すべてのグラボン ストラテゴ プレイヤーの中で XNUMX 位にランクされました。 

チーム メンバーの Karl Tuyls 氏は、パリを拠点とする DeepMind の研究者であると述べています。 「これは AI における大きな前進です。」

他の研究者もこの偉業に感銘を受けています。

印象的な結果

「結果は印象的です」と、ニューヨーク市に本社を置く Meta AI の研究者であり、2019 年にポーカーをプレイする AI Pluribus4 を報告したチームのメンバーである Noam Brown 氏は同意します。

Facebook の親会社である Meta で、Brown と彼女の同僚は、XNUMX 人のプレーヤーが地図上のピースを動かしてヨーロッパの地理的支配を競うゲームである Diplomacy をプレイできる AI を構築しました。

外交では、目標は、ユニット (艦隊と軍隊) を動かして補給センターを支配することです。 

Meta は、AI が非敵対的環境に依存しているため、Cicero は非常に重要であると述べています。

マルチエージェント AI のこれまでの大きな成功が、チェス、囲碁、ポーカーなど、コミュニケーションに価値のない純粋に敵対的な環境であった過去とは異なり、Cicero は戦略的推論エンジンと制御可能な対話モジュールを採用しています。

「XNUMX 人プレイヤーのゼロサム ゲームを超えると、ナッシュ均衡の考え方は、人間とうまく遊ぶのにあまり役に立ちません」とブラウンは言います。

ブラウンと彼女のチームは、人間のプレイヤーが参加するディプロマシーのオンライン バージョンの 125,261 ゲームのデータを使用して、シセロを訓練しました。 

セルフプレイ データと戦略的推論モジュール (SRM) を使用して、Cicero はゲームの状態と蓄積されたメッセージ、他のプレイヤーの可能性のある動きとポリシーによって判断を予測することを学びました。 

Stratego で AI が人間を打ち負かす – DeepMash の紹介

Stratego で AI が人間を打ち負かす – DeepMash の紹介

Meta は、webDiplomacy.net でオンラインでプレイされた 125,261 の Diplomacy ゲームからデータを収集したと述べています。 これらのゲームのうち、合計 40,408 ゲームに対話が含まれ、合計 12,901,662 のメッセージがプレイヤー間で交換されました。

実世界での行動

Brown 氏は、Cicero のようなゲームをプレイするボットが人間と対話し、「最適ではない、または不合理な人間の行動でさえ、現実世界のアプリケーションへの道を開く可能性がある」と考えています。

「自動運転車を作っているのなら、路上にいる他のすべてのドライバーが完全に合理的であり、最適に行動すると仮定したくはありません」と彼は言います。

Cicero は、この方向への大きな一歩だと彼は付け加えます。 「私たちはまだゲームの世界に片足を置いていますが、現実の世界にも片足を置いています。」

ウェルマンのような他の人も同意するが、さらに多くの作業が必要であると主張している. 「これらの技術の多くは、レクリエーション ゲームを超えて、現実世界のアプリケーションに実際に関連しています」と彼は言います。 「とはいえ、ある時点で、主要な AI 研究機関は、レクリエーションの設定を超えて、私たちが実際に関心を持っているスクイーズな現実世界の「ゲーム」に関する科学的進歩を測定する方法を見つけ出す必要があります。」

/メタニュース.

タイムスタンプ:

より多くの メタニュース