איך מיקרוסופט של "לחלק ולכבוש" AI שולט גב 'Pac-Man

Anonim

איך מיקרוסופט "לחלק ולכבוש " AI שולט גב 'Pac-Man

מחשבים

ריץ 'עשיר

15 ביוני, 2017

מיקרוסופט פיתחה לאחרונה מערכת AI שיכולה להשתלט על המשחק וידאו קשה לשמצה גב 'Pac-Man על Atari 2600 (אשראי: מיקרוסופט)

חוקרי בינה מלאכותית השתמשו זה מכבר במשחקים להכשרת אלגוריתמי הלמידה שלהם. צוות של חוקרים במיקרוסופט סרק לאחרונה משחק נוסף, הפעם יצירת מערכת בינה מלאכותית חדשה שיכולה לקבל ציון מקסימלי על המשחק וידאו קשה לשמצה גב 'Pac-Man .

לאחרונה, Google 's AlphaGo AI לנצח את הטוב ביותר בעולם Go עבור שחקן, סוף סוף לכבוש את אחד משחקי הלוח המורכב ביותר על פני כדור הארץ. משחקי וידאו, לעומת זאת, הוכיחו להיות עוד חיה. תוהו ובוהו אקראי של משחק וידאו הוכיח להיות מודל הרבה יותר טוב עבור המורכבות של העולם האמיתי, ומכונות ההוראה לשלוט במשחקים אלה יכול לגרום קפיצות יוצאת דופן קדימה עבור רשתות AI.

בשנת 2015, צוות של DeepMind של Google אימן רשת עצבית לשחק 49 שונים Atari 2600 משחקים. במקרים רבים המערכת לימדה במהירות את עצמה לשחק ברמה של בודק משחק מקצועי, אבל היו כמה משחקים כי הוכיח יותר קשה לשלוט יותר מאחרים. הגברת פאק-מן היתה אחד המשחקים האלה.

Maluuba, סטארט-אפ של למידה עמוקה שנרכשה על ידי מיקרוסופט בתחילת 2017, משתמשת בלמידה של חיזוק כדי ללמד את AI לבצע משימות מורכבות. למידה מחזקת היא טכניקת למידה של מכונה שבה מערכת מעריכה את התגובות לפעולות בודדות כחיוביות או שליליות ודרך ניסוי וטעייה המערכת שואפת למקסם את עוצמת התגובות החיוביות לפעולותיה.

שיטה זו מנוגדת לשיטה הנפוצה יותר של למידה ממוחשבת הנקראת למידה מבוקרת, כאשר המערכת מוזנת בדוגמאות הן לתגובות טובות והן לרעות, במטרה להשתפר בפעילות כפי שהיא מקבלת דוגמאות נוספות להתנהגות טובה.

צוות מאלובה הפנה את תשומת לבו לגרסא האטארי 2600 של גב 'פאק-מאן בשל רמת הקושי של המשחק. עוצב כמעקב כמעט בלתי אפשרי לכבוש את פאק-מאן הרגיל, המשחק התברר כיעד מושלם לבדיקת אלגוריתמים מורכבים ללמידת מכונה.

Maluuba פיתחה שיטה שהיא מכנה "Hybrid Reward Architecture ", אשר השתמשה ביותר מ -150 סוכנים בודדים העובדים במקביל, אבל כל משימה עם מטרות בודדות - כגון מציאת גלולה מסוימת, או הימנעות רוחות, למשל.

באמצעות האנלוגיה של היררכיה עסקית גדולה, החוקרים יצרו סוכן עליון, המתואר כ"מנהל בכיר ", אשר העריך את כל ההצעות של סוכנים נמוכים לפני קבלת ההחלטה הסופית על לאן להעביר את הגברת Pac-Man .

החוקרים גילו שהמערכת פועלת טוב יותר כאשר כל סוכן אינדיווידואלי פועל באופן אנוכי, מתרכז רק בהשגת המטלה הייחודית שלו, ואילו הסוכן הראשי בקבלת ההחלטות השתמש בכל המידע מעובדיו כדי להעריך את המהלך הטוב ביותר עבור כולם.

"יש 'זה משחק הגומלין נחמד בין איך הם צריכים, מצד אחד, לשתף פעולה על בסיס ההעדפות של כל הסוכנים, אבל באותו זמן כל סוכן אכפת רק על בעיה אחת מסוימת, " מסביר הרם ואן סייג', מנהל מחקר במלובה. "זה מועיל כולו."

גישה זו ללמידת מכונה נקראה בלשון נקייה "חלוקה-כיבוש", כאשר משימה מורכבת מתפרקת לחלקים קטנים יותר, כאשר כל אחד מהם מוערך באופן עצמאי לפני שאלגוריתם פיקוח נפרד מקבל החלטה סופית. במקרה של גב 'Pac-Man, המערכת לימדה את עצמה במהירות כיצד להשיג ציון מקסימלי של 999, 990, אשר לא אדם או AI הצליח להשיג בעבר.

Doina Precup, מרצה למדעי המחשב באוניברסיטת מקגיל, רואה במחקר זה השלכות רחבות על לימוד שיטות בינה מלאכותית כדי לגשת למשימות מורכבות עם מידע מוגבל. לדבריה, שיטה חדשה זו של למידה ממוחשבת יש דמיון רב עם האופן שבו המוח האנושי שלנו עובד, וטוען כי מחקר זה מביא אותנו צעד אחד קרוב יותר ל- AI להשיג סוג של "אינטליגנציה כללית ".

תסתכל על AI בפעולה הווידאו להלן.

מקור: Microsoft / Maluuba

מיקרוסופט פיתחה לאחרונה מערכת AI שיכולה להשתלט על המשחק וידאו קשה לשמצה גב 'Pac-Man על Atari 2600 (אשראי: מיקרוסופט)