تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ

Milad Aghajohari, Tim Cooijmans, Juan Agustin Duque,
University of Montreal & Mila
firstname.lastname@umontreal.ca
Shunichi Akatsuka,
Hitachi, Ltd.
shunichi.akatsuka.bo@hitachi.com
Aaron Courville
University of Montreal & Mila
aaron.courville@umontreal.ca

مُلَخَّص

نستكشف تحدي تعلم التعزيز العميق متعدد الوكلاء في بيئات تنافسية جزئية، حيث تواجه الأساليب التقليدية صعوبات في تعزيز التعاون القائم على المعاملة بالمثل. يتعلم وكلاء LOLA وPOLA سياسات تعاونية قائمة على المعاملة بالمثل من خلال التفاضل على عدد محدود من خطوات تحديث الخصم المستقبلية. إلا أن لهذه التقنيات قيدًا أساسيًا: نظرًا لاعتمادها على عدد قليل من خطوات التحسين، قد يستغلها خصم قادر على اتخاذ خطوات إضافية لتعظيم عائده. استجابةً لذلك، نقدم نهجًا جديدًا يسمى تشكيل الاستجابة المثلى (BRS)، الذي يوظف خصمًا يحاكي الاستجابة المثلى، ويُطلق عليه "المحقِّق". لتكييف المحقِّق مع سياسة الوكيل في الألعاب المعقدة، نقترح آلية تكيف قابلة للتفاضل تعتمد على الحالة، ميسّرة عبر "الإجابة على الأسئلة" لاستخراج تمثيل للوكيل بناءً على سلوكه في مواقف بيئية محددة. للتحقق من صحة طريقتنا تجريبيًا، نعرض أداء نماذجنا المحسّن مقابل خصم Monte Carlo Tree Search (MCTS) الذي يعمل كتقريب للاستجابة المثلى في لعبة القطع النقدية. يوسّع هذا العمل نطاق تطبيق تعلم التعزيز متعدد الوكلاء في البيئات التنافسية الجزئية ويمهّد طريقًا جديدًا نحو تحقيق رفاهية اجتماعية أفضل في الألعاب ذات المنفعة الجماعية.

مُقَدِّمَة

مكنت خوارزميات التعلم المعزز متعدد الوكلاء من تحقيق أداء متميز في ألعاب معقدة وعالية الأبعاد مثل لعبة الذهاب (AlphaGo) وستار كرافت (AlphaStar). الهدف الأسمى من التعلم المعزز هو تدريب وكلاء قادرين على مساعدة البشر في حل المشكلات الصعبة. لا محالة، سيحتاج هؤلاء الوكلاء إلى الاندماج في سيناريوهات الحياة الواقعية التي تتطلب التفاعل مع البشر ووكلاء تعلم آخرين. فعلى الرغم من تفوق التدريب متعدد الوكلاء في البيئات التعاونية أو التنافسية الكاملة، غالبًا ما يفشل في اكتشاف تعاون قائم على المعاملة بالمثل في البيئات التنافسية الجزئية. مثال بارز على ذلك غياب قدرة وكلاء MARL التقليديين على تعلم استراتيجيات كالرد بالمثل في معضلة السجين المتكررة.

رغم الطابع التمثيلي لألعاب المنفعة الجماعية الشائعة مثل معضلة السجين، تتكرر مثل هذه المشكلات في المجتمع والطبيعة. تخيل سيناريو تحاول فيه دولتان (وكلاء) تعظيم إنتاجهما الصناعي، مع ضمان مناخ عمل مناسب يحدّ من الانبعاثات الكربونية. من ناحية، ترغب كل دولة في أن تفي الأخرى بالتزاماتها البيئية؛ ومن ناحية أخرى، قد يغريهما التزايد في الانبعاثات لتحقيق عوائد صناعية أكبر. تلزم المعاهدة الفعّالة كل دولة—من خلال تهديد بالعقوبات—بالالتزام بالحدود المتفق عليها للانبعاثات. وإذا أخفق الوكلاء في تطوير استراتيجيات كالمعاملة بالمثل، فمن المرجح أن ينتهي بهما المطاف بتصعيد متبادل مؤسف في استهلاك الطاقة والانبعاثات.

قدمت (LOLA) خوارزمية تراعي تعلم الخصم، نجحت في اكتشاف سلوك المعاملة بالمثل في معضلة السجين المتكررة من خلال التفاضل بالنسبة لخطوة تحديث واحدة بسيطة يقوم بها الخصم. بناءً على ذلك، قدمت (POLA) طريقة "تحديث سياسة الخصم القريب" التي تعزز LOLA عبر افتراض تحديث مبسّط لسياسة الخصم، ما أتاح تدريب الشبكات العصبية في ألعاب أكثر تعقيدًا مثل لعبة القطع النقدية. وإلى حد علمنا، يُعدّ أسلوب POLA الطريقة الوحيدة التي تتيح تدريب وكلاء يتعاونون بمعاملة بالمثل في هذه اللعبة بشكل موثوق.

وعلى الرغم من نجاحه في لعبة القطع النقدية، فإن لأسلوب POLA حدودًا. فاستمداده لمعرفة الخصم يقتصر على عدد محدود من خطوات التحسين المستقبلية، مما يجعله عرضة للاستغلال من قبل خصوم قادرين على اتخاذ مزيد من التحسينات. تُظهر تحليلاتنا أن خصمًا يتعلم خصيصًا لتعظيم عائده ضد سياسة وكيل مدربة بواسطة POLA يستغله لتحقيق عوائد أعلى. كما تعيق هذه القيود قابلية التوسع حين يكون الخصم شبكة عصبية معقدة تتطلب العديد من خطوات التحسين لمحاكاة تعلمها الحقيقي.

في هذه الورقة نقدم نهجًا جديدًا نسميه تشكيل الاستجابة المثلى. يعتمد على تصميم خصم يحاكي سياسة الاستجابة المثلى ضد وكيل معين، وهو ما نسميه "المحقِّق". يوضّح الشكل [fig:cobalt] الإطار العام: يخضع المحقِّق للتدريب ضد مجموعة متنوعة من وكلاء التدريب، ثم ندرّب الوكيل عبر التفاضل عبر المحقِّق. على عكس LOLA وPOLA اللتين تفترضان عددًا قليلاً من خطوات التحسين المستقبلية للخصم، يعتمد أسلوبنا على أن ينشئ المحقِّق استجابة مثلى للوكيل الحالي من خلال التكيف الديناميكي للسياسة.

نعتمد على التجارب في معضلة السجين المتكررة ولعبة القطع النقدية. وبما أن نتائج الوكيل تعتمد على قدرته في مواجهة خصم معتدل الاستجابة، تكون المقارنة المنطقية مع خصم يستجيب بأفضل شكل ممكن، وهو ما نقربه عبر بحث شجرة مونت كارلو. نظهر أنه بينما لا يتعاون MCTS تمامًا مع وكلاء LOLA/POLA، فإنه يتعاون بالكامل مع وكلاء تشكيل الاستجابة المثلى.

المُسَاهَمَات الرَئِيسِيَّة: نُلَخِّص مساهماتنا فيما يلي:

الخَلْفِيَّة

تَعَلُّم التَّعْزِيز المُتَعَدِّد العَوامِل

تُعَرَّف لعبة ماركوف متعددة العوامل بالرمز \(\bm{(} N, \mathcal{S},\left\{\mathcal{A}^i\right\}_{i=1}^N, \mathbb{P},\left\{r^i\right\}_{i = 1}^N, \gamma \bm{)}\). هنا، \(N\) تمثل عدد العوامل، \(\mathcal{S}\) فضاء الحالات، و\(\mathcal{A}:=\mathcal{A}^1 \times \cdots \times \mathcal{A}^N\) مجموعة الأفعال لكل عامل. احتمالات انتقال الحالة ممثلة بـ \(\mathbb{P}: \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\mathcal{S})\) والمكافأة بـ \(r^i: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\). أخيرًا، \(\gamma \in [0,1]\) هو عامل الخصم. يحاول كل عامل تعظيم عائده \(R^i = \sum_{t=0}^\infty \gamma^t r^i_t\). تمثل سياسة العامل \(i\) بـ \(\pi^{i}_{\theta_{i}}\) حيث \(\theta_i\) معاملات الشبكة العصبية. يتم تدريب هذه السياسات باستخدام مقدرات التدرج مثل REINFORCE (reinforce).

المُعْضِلات الاِجْتِمَاعِيَّة ومُعْضِلَة السَّجِين المُتَكَرِّرَة

في الألعاب ذات المنفعة الجماعية تظهر معضلات اجتماعية عندما يسعى كل وكيل لتعظيم مكافأته الشخصية فيقوّض الناتج الجماعي أو الرفاهية الاجتماعية. يصبح هذا جليًا حين تكون النتيجة الجماعية أدنى من تلك التي يمكن تحقيقها بالتعاون الكامل. توضح نماذج نظرية مثل معضلة السجين كيف أن كل مشارك، رغم أنه أفضل حالًا حين يعترف، يؤدي اعترافه إلى مكافأة جماعية أقل مما لو بقي صامتًا.

في معضلة السجين المتكررة (IPD)، لم يعد الانسحاب المطلق الاستراتيجية المثلى. فعند مواجهة خصم يتبع استراتيجية الرد بالمثل (TFT)، يؤدي التعاون المستمر إلى عوائد أعلى. قد نتوقع أن يكتشف وكلاء MARL—المصممون لتعظيم عوائدهم الفردية—استراتيجية TFT باعتبارها توازن ناش يعزّز كلاً من العوائد الفردية والجماعية، ولا يبعث حافزًا للانحراف عن السياسة. ومع ذلك، أظهرت الملاحظات التجريبية أن الوكلاء المدربين لتعظيم عائدهم الخاص يميلون عادة إلى الانسحاب المطلق.

يمثل هذا أحد التحديات الرئيسية لـ MARL في بيئات المنفعة الجماعية: يتجاهل الوكلاء أثناء التدريب أن الوكلاء الآخرين يتعلمون أيضًا. فإذا كان الهدف هو الرفاهية الاجتماعية، يمكن مشاركة المكافآت بين الوكلاء أثناء التدريب، وهو ما يضمن تعاونًا كاملًا في إعداد IPD. لكن هذا لا يكفي عندما نبتغي التعاون القائم على المعاملة بالمثل—من الضروري ابتكار خوارزميات قادرة على اكتشاف سياسات تحفز الخصم على التعاون من أجل تعظيم عائده الخاص.

الأعمال ذات الصلة

تحاول (LOLA) تشكيل الخصم عبر أخذ التدرج لقيمة الوكيل بالنظر إلى خطوة واحدة للأمام من معاملات الخصم. بدلًا من تحسين \(V^1(\theta_i^1, \: \theta_i^2)\) فقط، تهدف ( ... باقي النص كما هو ... -->