مُلَخَّص
نستكشف تحدي تعلم التعزيز العميق متعدد الوكلاء في بيئات تنافسية جزئية، حيث تواجه الأساليب التقليدية صعوبات في تعزيز التعاون المبني على المعاملة بالمثل. يتعلم وكلاء LOLA وPOLA سياسات تعاونية قائمة على المعاملة بالمثل عن طريق التفاضل عبر عدد محدود من خطوات التحسين المستقبلية التي يقوم بها الخصم. إلا أن لهذه التقنيات قيداً أساسياً: نظراً لاعتمادها على عدد قليل من خطوات التحسين، يمكن أن يستغلها خصم قادر على اتخاذ خطوات إضافية لتعظيم عائده. استجابةً لذلك، نقدم نهجاً جديداً يسمى تشكيل الاستجابة المثلى (BRS)، الذي يوظف خصماً يحاكي الاستجابة المثلى، ويطلق عليه "المحقِّق". لتكييف المحقِّق مع سياسة الوكيل في الألعاب المعقدة، نقترح آلية تكيف قابلة للتفاضل تعتمد على الحالة، ميسرة عبر "الإجابة على الأسئلة" لاستخراج تمثيل للوكيل بناءً على سلوكه في مواقف بيئية محددة. للتحقق من صحة طريقتنا تجريبيًّا، نعرض أدائها المحسَّن مقابل خصم Monte Carlo Tree Search (MCTS)، الذي يعمل كتقريب للاستجابة المثلى في لعبة القطع النقدية. يوسّع هذا العمل نطاق تطبيق تعلم التعزيز متعدد الوكلاء في البيئات التنافسية الجزئية ويمهد طريقًا جديدًا نحو تحقيق رفاهية اجتماعية أفضل في الألعاب ذات المنفعة الجماعية.
مُقَدِّمَة
مكنت خوارزميات التعلم المعزز متعدد الوكلاء من تحقيق أداء متميز في ألعاب معقدة وعالية الأبعاد مثل لعبة الذهاب (AlphaGo) وستار كرافت (AlphaStar). الهدف الأسمى من التعلم المعزز هو تدريب وكلاء قادرين على مساعدة البشر في حل المشكلات الصعبة. لا محالة، سيحتاج هؤلاء الوكلاء إلى الاندماج في سيناريوهات الحياة الواقعية التي تتطلب التفاعل مع البشر ووكلاء تعلم آخرين. فعلى الرغم من تفوق التدريب متعدد الوكلاء في البيئات التعاونية أو التنافسية الكاملة، غالبًا ما يفشل في اكتشاف تعاون قائم على المعاملة بالمثل في البيئات التنافسية الجزئية. مثال بارز على ذلك انكفاء وكلاء التعلم المعزز متعدد الوكلاء عن تعلم سياسات مثل المعاملة بالمثل في معضلة السجين المتكررة (LOLA).
رغم الطابع التمثيلي لألعاب المنفعة الجماعية الشائعة مثل معضلة السجين، فإن مثل هذه المشكلات تتكرر في المجتمع والطبيعة. فكِّر في سيناريو تحاول فيه دولتان (وكلاء) تعظيم إنتاجهما الصناعي، مع ضمان مناخ عمل مناسب يقلل الانبعاثات الكربونية. من ناحية، ترغب كل دولة في أن تفي الدولة الأخرى بالتزاماتها البيئية؛ ومن ناحية أخرى، يغريهما إصدار المزيد من الكربون لتحقيق عوائد صناعية أكبر. ستجبر المعاهدة الفعالة كل دولة—من خلال تهديد بالعقوبات—على الالتزام بالحدود المتفق عليها للانبعاثات. وإذا أخفق الوكلاء في تطوير استراتيجيات كالمعاملة بالمثل، فمن المرجح أن ينتهي بهم المطاف بتصعيد متبادل مؤسف في استهلاك الطاقة والانبعاثات.
قدمت (LOLA) خوارزمية تعلم مع مراعاة تعلم الخصم، نجحت في استكشاف سلوك المعاملة بالمثل في معضلة السجين المتكررة عبر التفاضل عبر خطوة واحدة بسيطة يتخذها الخصم. بناءً على ذلك، قدمت (POLA) تحديث سياسة الخصم القريب، الذي يعزز تعامل LOLA عبر افتراض تحديث بسيط لسياسة الخصم وتمكين تدريب الشبكات العصبية في ألعاب أكثر تعقيدًا، مثل لعبة القطع النقدية. وإلى حد علمنا، يعدّ تعلم مع مراعاة تعلم الخصم القريب الأسلوب الوحيد الذي يدرب موثوقًا وكلاء يتبعون تعاونًا قائمًا على المعاملة بالمثل في هذه اللعبة.
وعلى الرغم من نجاحه في لعبة القطع النقدية، فإن لتعلم مع مراعاة تعلم الخصم القريب حدودًا. فاستمداده لمعرفة الخصم يقتصر على عدد محدود من خطوات التحسين المستقبلية، مما يجعله عرضة للاستغلال من قبل خصوم يمكنهم اتخاذ مزيد من التحسينات. تُظهر تحليلاتنا أن الخصم الذي يتعلم خصيصًا لتعظيم عائده ضد سياسة ثابتة مدربة بواسطة هذا الأسلوب يستغل الوكيل القائم على LOLA/POLA. كما أن هذه القيود تعيق قابلية التوسع حين يكون الخصم شبكة عصبية معقدة تتطلب العديد من خطوات التحسين لمحاكاة تعلمها الحقيقي.
في هذه الورقة نقدم نهجًا جديدًا نسميه تشكيل الاستجابة المثلى. يرتكز على بناء خصم يقترب من سياسة الاستجابة المثلى ضد وكيل معين، وهو ما نسميه "المحقِّق". يوضّح الشكل [fig:cobalt] الإطار العام: يخضع المحقِّق للتدريب ضد مجموعة متنوعة من وكلاء التدريب، ثم ندرِّب الوكيل عبر التفاضل عبر المحقِّق. على عكس LOLA وPOLA اللتين تفترضان عددًا قليلاً من خطوات التحسين المستقبلية للخصم، يعتمد أسلوبنا على أن يولد المحقِّق استجابة مثلى للوكيل الحالي من خلال التكيف الديناميكي للسياسة.
نعتمد على التجارب في معضلة السجين المتكررة ولعبة القطع النقدية. وبما أن نتائج الوكيل تعتمد على قدرته في مواجهة خصم معتدل الاستجابة، فإن المقارنة المنطقية تكون مقابل خصم يستجيب بأفضل شكل ممكن، وهو ما نقربه عبر بحث شجرة مونت كارلو. نظهر أنه بينما لا يتعاون MCTS بالكامل مع وكلاء LOLA/POLA، فإنه يتعاون بالكامل مع وكلاء تشكيل الاستجابة المثلى.
المُسَاهَمَات الرَئِيسِيَّة: نُلَخِّص مساهماتنا فيما يلي:
نُبيِّن أن الخصم المُحسَّن بواسطة بحث شجرة مونت كارلو لا يتعاون مع وكلاء LOLA/POLA، بل يستغلهم لتحقيق عوائد أعلى من التعاون الكامل.
لتجاوز هذا الضعف، نقدم أسلوب تشكيل الاستجابة المثلى، الذي يدرب وكيلًا عبر التفاضل عبر خصم يحاكي الاستجابة المثلى ("المحقِّق"). نُثبت تجريبيًا أن وكلاء BRS يتعاونون بصورة كاملة كما هو مبين في الشكل [fig:coin_main_compare].
نقترح كذلك آلية تكيف قابلة للتفاضل وواعية بالحالة للمحقِّق، تُمكّنه من التكيف مع سياسة الوكيل.
الخَلْفِيَّة
تَعَلُّم التَّعْزِيز المُتَعَدِّد العَوامِل
تُعَرَّف لعبة ماركوف متعددة العوامل بالرمز \(\left( N, \mathcal{S},\left\{\mathcal{A}^i\right\}_{i=1}^N, \mathbb{P},\left\{r^i\right\}_{i = 1}^N, \gamma \right)\). هنا، \(N\) تمثل عدد العوامل، \(\mathcal{S}\) فضاء الحالات، و\(\mathcal{A}:=\mathcal{A}^1 \times \cdots \times \mathcal{A}^N\) مجموعة الأفعال لكل عامل. احتمالات انتقال الحالة ممثلة بـ \(\mathbb{P}: \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\mathcal{S})\) والمكافأة بـ \(r^i: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\). أخيرًا، \(\gamma \in [0,1]\) هو عامل الخصم. يحاول كل عامل تعظيم عائده \(R^i = \sum_{t=0}^\infty \gamma^t r^i_t\). تمثل سياسة العامل \(i\) بـ \(\pi^{i}_{\theta_{i}}\) حيث \(\theta_i\) معاملات الشبكة العصبية. يتم تدريب هذه السياسات باستخدام مقدرات التدرج مثل REINFORCE (reinforce).
المُعْضِلات الاِجْتِمَاعِيَّة ومُعْضِلَة السَّجِين المُتَكَرِّرَة
في الألعاب ذات المنفعة الجماعية تظهر معضلات اجتماعية عندما يسعى كل وكيل لتعظيم مكافأته الشخصية فيقوّض الناتج الجماعي أو الرفاهية الاجتماعية. يصبح هذا جليًا حين تكون النتيجة الجماعية أدنى من تلك التي يمكن تحقيقها بالتعاون الكامل. توضح نماذج نظرية مثل معضلة السجين كيف أن كل مشارك، رغم أنه أفضل حالًا حين يعترف، يؤدي اعترافه إلى مكافأة جماعية أقل مما لو بقي صامتًا.
في معضلة السجين المتكررة (IPD)، لا يعود الانسحاب المطلق الاستراتيجية المثلى. فعند مواجهة خصم يتبع استراتيجية الرد بالمثل (TFT)، يؤدي التعاون المستمر إلى عوائد أعلى. قد نتوقع أن يكتشف وكلاء MARL—المصممون لتعظيم عائدهم الفردي—استراتيجية TFT باعتبارها توازن ناش الذي يعزز كلاً من العوائد الفردية والجماعية، ولا يضفي حافزًا لتغيير السياسة. ومع ذلك، أظهرت الملاحظات التجريبية أن الوكلاء المدربين لتعظيم عائدهم الخاص يميلون عادة إلى الانسحاب المطلق.
يمثل هذا أحد التحديات الرئيسية لـ MARL في بيئات المنفعة الجماعية: يتجاهل الوكلاء أثناء التدريب أن الوكلاء الآخرين يتعلمون أيضًا. فإذا كان الهدف الرفاهية الاجتماعية، يمكن مشاركة المكافآت بين الوكلاء أثناء التدريب، وهو ما يضمن تعاونًا كاملًا في إعداد IPD. لكن هذا لا يكفي عندما نبتغي التعاون المبني على المعاملة بالمثل—من الضروري ابتكار خوارزميات قادرة على اكتشاف سياسات تحفز الخصم على التعاون من أجل تعظيم عائده الخاص.
الأَعْمَال ذات الصِّلَة
تحاول (LOLA) تشكيل الخصم عبر أخذ تدرج لقيمة الوكيل بالنظر إلى خطوة واحدة للأمام من معاملات الخصم. بدلًا من تحسين \(V^1(\theta_i^1, \: \theta_i^2)\) فقط، تهدف (