למה כולם אוהבים את ChatGPT Chatbot

צומת המקור: 1771427

משחק אחר שנחשב זה מכבר מאתגר מאוד עבור הבינה המלאכותית (AI) לכבוש נפל בידי הבוטים: Stratego.

DeepNash, בינה מלאכותית מתוצרת חברה הלונדונית Deepmind, תואם כעת לבני אדם מומחים ב-Stratego, משחק לוח הדורש חשיבה אסטרטגית ארוכת טווח מול מידע לא מושלם.

ההישג האחרון הזה מגיע בעקבות ניצחון גדול נוסף עבור ה-AIs במשחקים שנחשבו בעבר כצד החזק של בני האדם.

רק בשבוע שעבר, Cicero של Meta, AI זה יכול להערים על שחקנים אנושיים במשחק הדיפלומטיה, עשה היסטוריה בגלל התעללות יריבים באינטרנט.

"הקצב שבו תכונות משחק שונות מבחינה איכותית נכבשו - או השתלטו לרמות חדשות - על ידי AI בשנים האחרונות הוא די מדהים", אומר מייקל וולמן מאוניברסיטת מישיגן באן ארבור, מדען מחשבים שחוקר חשיבה אסטרטגית ומשחק תֵאוֹרִיָה.

"סטרטגו ודיפלומטיה די שונים זה מזה, ויש להם גם תכונות מאתגרות השונות במיוחד ממשחקים שעבורם הושגו אבני דרך מקבילות", אמר וולמן.

מידע לא מושלם

למשחק יש מאפיינים שהם בדרך כלל הרבה יותר מסובכים משחמט, גו או פוקר. שחמט, גו ופוקר כולם נשלטו על ידי AI.

במשחק של סטרטגו, שני שחקנים שמים 40 כלים כל אחד על לוח, אך אסור להם לראות מהם הכלים של היריב שלהם.

מטרת המשחק היא להזיז כלים בתורות כדי לחסל את אלה של היריב וללכוד דגל. 

לעץ המשחקים של Stratego - גרף של כל הדרכים האפשריות שהמשחק יכול ללכת - יש 10535 מצבים מול 10360 של Go. 

כשזה מגיע למידע לא מושלם בתחילת משחק, לסטרטגו יש 1066 עמדות פרטיות אפשריות, נתון שמגמד רק 106 מצבי התחלה כאלה בפוקר טקסס הולדם לשני שחקנים.

"המורכבות העצומה של מספר התוצאות האפשריות ב-Strego פירושה אלגוריתמים שמתפקדים היטב במשחקי מידע מושלם, ואפילו אלו שעובדים עבור פוקר, לא עובדים", אומר ז'וליאן פרולט, חוקר DeepMind שבסיסו בפריז.

DeepNash פותח על ידי Perolat ועמיתיו.

בוט בהשראת נאש

שמו של הבוט הוא מחווה למתמטיקאי האמריקני המפורסם ג'ון נאש, שהגה את תיאוריית שיווי המשקל של נאש שמניחה שיש "מערכת יציבה של אסטרטגיות" ששחקנים יכולים לעקוב אחריה באופן שאף שחקן לא מרוויח על ידי שינוי אסטרטגיה. בכוחות עצמם. ככזה, משחקים נוטים להיות בעלי אפס, שיווי משקל אחד או רבים של נאש.

DeepNash משלב אלגוריתם למידת חיזוק ורשת עצבית עמוקה כדי למצוא שיווי משקל של נאש. 

באופן כללי, למידת חיזוק היא המקום שבו סוכן אינטליגנטי (תוכנת מחשב) מקיים אינטראקציה עם הסביבה ולומד את המדיניות הטובה ביותר להכתיב פעולה עבור כל מצב של משחק. 

על מנת לקבל מדיניות אופטימלית, DeepNash שיחקה בסך הכל 5.5 מיליארד משחקים נגד עצמה. 

למעשה, אם צד אחד מקבל עונשים, הצד השני מתוגמל, והמשתנים של הרשת העצבית - המייצגים את המדיניות - מותאמים בהתאם.

AI מנצח בני אדם באסטרטגו - הכירו את DeepMash

AI מנצח בני אדם באסטרטגו - הכירו את DeepMash

בשלב מסוים, DeepNash מתכנסת לשיווי משקל משוער של נאש. בניגוד לבוטים אחרים, DeepNash מייעל את עצמו ללא sחיפוש דרך עץ המשחק.

במשך שבועיים, DeepNash שיחק נגד שחקני Stratego אנושיים בפלטפורמת המשחקים המקוונים, Gravon.

לאחר התחרות ב-50 משחקים, ה-Ai דורג במקום השלישי מבין כל שחקני Gravon Stratego מאז 2002. 

"העבודה שלנו מראה שמשחק כה מורכב כמו Stratego, הכולל מידע לא מושלם, אינו דורש טכניקות חיפוש כדי לפתור אותו", אומר חבר הצוות קארל טוילס, חוקר DeepMind שבסיסו בפריז. "זהו צעד גדול מאוד קדימה ב-AI."

חוקרים אחרים מתרשמים גם הם מההישג הזה.

תוצאות מרשימות

"התוצאות מרשימות", מסכים נועם בראון, חוקר ב-Meta AI, שבסיסה בעיר ניו יורק, וחבר בצוות שדיווח ב-2019 על ה-AI Pluribus4 משחק הפוקר.

ב-Meta, חברת האם של פייסבוק, בראון ועמיתיה בנו AI שיכול לשחק דיפלומטיה, משחק שבו שבעה שחקנים מתחרים על השליטה הגיאוגרפית באירופה על ידי הזזת חלקים על המפה.

בדיפלומטיה, המטרה היא להשתלט על מרכזי אספקה ​​על ידי הזזת יחידות (ציים וצבאות). 

Meta אומר ש-Cicero הוא די משמעותי מכיוון שה-AI מסתמך על סביבות לא יריבות.

שלא כמו בעבר, שבהם הצלחות גדולות קודמות עבור בינה מלאכותית מרובת סוכנים היו בסביבות יריבות גרידא, כמו שחמט, גו ופוקר, שבהן לתקשורת אין ערך, Cicero משתמש במנוע חשיבה אסטרטגי ומודול דיאלוג ניתן לשליטה.

"כשאתה הולך מעבר למשחקי סכום אפס של שני שחקנים, הרעיון של שיווי משקל נאש כבר לא כל כך שימושי למשחק טוב עם בני אדם", אומר בראון.

בראון והצוות שלה אימנו את Cicero באמצעות נתונים מ-125,261 משחקים של גרסה מקוונת של דיפלומטיה הכוללת שחקנים אנושיים. 

באמצעות נתוני משחק עצמי ומודול חשיבה אסטרטגית (SRM), סיקרו למד לחזות בשיפוט לפי מצב המשחק והמסרים המצטברים, המהלכים הסבירים והמדיניות של השחקנים האחרים. 

AI מנצח בני אדם באסטרטגו - הכירו את DeepMash

AI מנצח בני אדם באסטרטגו - הכירו את DeepMash

Meta אומרת שהיא אספה נתונים מ-125,261 משחקים של דיפלומטיה ששיחקו באינטרנט ב-webDiplomacy.net. מתוך המשחקים הללו, בסך הכל 40,408 משחקים הכילו דיאלוג, עם סה"כ 12,901,662 הודעות שהוחלפו בין שחקנים.

התנהגות בעולם האמיתי

בראון מאמין שבוטים משחקים כמו Cicero יכולים לקיים אינטראקציה עם בני אדם ולהסביר "פעולות אנושיות לא אופטימליות או אפילו לא רציונליות יכולות לסלול את הדרך ליישומים בעולם האמיתי".

"אם אתה מייצר מכונית לנהיגה עצמית, אתה לא רוצה להניח שכל שאר הנהגים על הכביש הם רציונליים לחלוטין ויתנהגו בצורה אופטימלית", הוא אומר.

קיקרו, הוא מוסיף, הוא צעד גדול בכיוון הזה. "עדיין יש לנו רגל אחת בעולם המשחק, אבל עכשיו יש לנו רגל אחת גם בעולם האמיתי".

אחרים כמו וולמן מסכימים, אבל מתעקשים שעדיין צריך לעשות עוד עבודה. "רבות מהטכניקות הללו אכן רלוונטיות מעבר למשחקי פנאי" ליישומים בעולם האמיתי, הוא אומר. "למרות זאת, בשלב מסוים, מעבדות המחקר המובילות בינה מלאכותית צריכות לעבור מעבר להגדרות פנאי, ולהבין כיצד למדוד את ההתקדמות המדעית ב"משחקי "העולם האמיתיים" המטומטמים שבעצם אכפת לנו מהם."

/מטא ניוז.

בול זמן:

עוד מ מטא ניוז