تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ

Milad Aghajohari, Tim Cooijmans, Juan Agustin Duque,
University of Montreal & Mila
firstname.lastname@umontreal.ca
Shunichi Akatsuka,
Hitachi, Ltd.
shunichi.akatsuka.bo@hitachi.com
Aaron Courville
University of Montreal & Mila
aaron.courville@umontreal.ca

مُلَخَّص

نَسْتَكْشِف تَحَدِّي تَعَلُّم التَّعْزِيز العَمِيق مُتَعَدِّد الوُكَلاء في بِيئات تَنافُسِيَّة جُزْئِيَّة، حيث تواجِه الطُّرُق التَّقْلِيدِيَّة صُعُوبات في تَعْزِيز التَّعاوُن القائم على المُعامَلَة بالمِثْل. يَتَعَلَّم وُكَلاء LOLA وPOLA سِياسات تَعاوُنِيَّة قائمة على المُعامَلَة بالمِثْل من خلال التَّفاضُل عبر عدد قليل من خُطُوات التَّحْسِين المُسْتَقْبَلِيَّة لِلخَصْم. ومع ذلك، هناك قَيْد رئيسي في هذه التِّقْنيات. نظراً لأنها تأخذ في الاعتبار عدد قليل من خُطُوات التَّحْسِين، فقد يستغل خَصْم يَتَعَلَّم ويأخذ العديد من الخُطُوات لتحسين عائده هذه التِّقْنيات. رداً على ذلك، نُقَدِّم نَهْجاً جديداً، تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ (BRS)، الذي يُقَرِّب من خلال خَصْم يَقْتَرِب من الاِسْتِجَابَةِ الأَمْثَلِ، المُسَمَّى "المُحَقِّق". لِتَكْيِيف المُحَقِّق على سِياسة الوَكِيل في الألعاب المُعَقَّدة، نَقْتَرِح آلية تَكْيِيف قابلة للتَّفاضُل تعتمد على الحالة، مُيَسَّرة بطريقة الإِجَابَة على الأَسْئِلَة التي تَسْتَخْرِج تَمْثِيلاً للوَكِيل بناءً على سُلُوكه في حالات بِيئية مُحَدَّدة. لِلتَّحَقُّق من صِحَّة طريقتنا تَجْرِيبياً، نَعْرِض أداءها المُحَسَّن ضد خَصْم Monte Carlo Tree Search (MCTS)، الذي يعمل كَتَقْرِيب للاِسْتِجَابَةِ الأَمْثَلِ في لعبة العُمْلَة. يُوَسِّع هذا العمل تطبيق تَعَلُّم التَّعْزِيز مُتَعَدِّد الوُكَلاء في البِيئات التَّنافُسِيَّة الجُزْئِيَّة ويُوَفِّر مَساراً جديداً نحو تحقيق رَفَاهِيَّة اجتماعية مُحَسَّنة في الألعاب ذات المَجْمُوع العام.

مُقَدِّمَة

مَكَّنَت خوارزميات تَعَلُّم التَّعْزِيز الوُكَلاء من الأداء بشكل جيد في ألعاب مُعَقَّدة ذات أبعاد عالية مثل لعبة الذَّهاب (alphago) وستاركرافت (alphastar). الهَدَف النِّهائي من تَعَلُّم التَّعْزِيز هو تَدْرِيب وُكَلاء يُمْكِنهم مُسَاعَدَة البَشَر في حَلّ المُشْكِلات الصَّعْبَة. لا مَحالة، سيحتاج هؤلاء الوُكَلاء إلى الاِنْدِماج في سِينارِيُوهات الحياة الواقعية التي تتطلب التَّفاعُل مع البَشَر ووُكَلاء تَعَلُّم آخرين. بينما يَتَفَوَّق تَدْرِيب تَعَلُّم التَّعْزِيز مُتَعَدِّد الوُكَلاء في البِيئات التَّعاوُنِيَّة أو التَّنافُسِيَّة بالكامل، فإنه غالباً ما يفشل في إيجاد تَعاوُن قائم على المُعامَلَة بالمِثْل في البِيئات التَّنافُسِيَّة الجُزْئِيَّة. مثال على ذلك هو فشل وُكَلاء تَعَلُّم التَّعْزِيز مُتَعَدِّد الوُكَلاء في تَعَلُّم سِياسات مثل المُعامَلَة بالمِثْل في مُعْضِلَة السَّجِين المُتَكَرِّرَة (LOLA).

على الرغم من الطابع اللعبي لألعاب المَجْمُوع العام الشائعة مثل مُعْضِلَة السَّجِين، فإن هذه الأنواع من المُشْكِلات مُنْتَشِرة في المجتمع والطبيعة على حد سواء. فكِّر في سِينارِيو حيث تسعى دولتان (وُكَلاء) لتعظيم الإنتاج الصناعي لهما مع ضمان مناخ مناسب للإنتاج من خلال الحد من الاِنْبِعاثات الكربونية. من ناحية، تود كل دولة أن ترى الدولة الأخرى تفي بالتزاماتها للحد من الاِنْبِعاثات الكربونية. ومن ناحية أخرى، يُحَفِّز كل منهما إصدار المزيد من الكربون لتحقيق عوائد صناعية أعلى. ستجبر مُعاهدة المناخ الفعالة كل دولة - على الأرجح من خلال تهديد بالعقوبات - على الاِلْتِزام بالحدود المتفق عليها للاِنْبِعاثات الكربونية. إذا فشل هؤلاء الوُكَلاء في تطوير اِسْتراتِيجِيَّات مثل المُعامَلَة بالمِثْل، فمن المُحْتَمَل أن يتجهوا نحو تصعيد متبادل مؤسف للاِسْتِهلاك والاِنْبِعاثات الكربونية.

اقترحت (LOLA) خوارزمية تَعَلُّم مع وعي بتَعَلُّم الخَصْم، وهي خوارزمية نجحت في تَعَلُّم سلوك المُعامَلَة بالمِثْل في إعداد مُعْضِلَة السَّجِين المُتَكَرِّرَة من خلال التَّفاضُل عبر خطوة بسيطة مُفْتَرَضَة يتخذها الخَصْم. بناءً على ذلك، قدمت (POLA) تحديث سِياسة الخَصْم القريب، والذي يُعَزِّز خوارزمية تَعَلُّم مع وعي بتَعَلُّم الخَصْم من خلال افتراض تحديث سِياسة قريب للخَصْم. يسمح هذا التَّحْسِين بتَدْرِيب سِياسات الشبكة العصبية في ألعاب أكثر تعقيداً، مثل لعبة العُمْلَة (LOLA). حسب علمنا، تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب هو الأسلوب الوحيد الذي يُدَرِّب بشكل موثوق وُكَلاء تَعاوُنِيِّين قائمين على المُعامَلَة بالمِثْل في لعبة العُمْلَة.

على الرغم من نجاحه في لعبة العُمْلَة، فإن تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب له قيوده. بينما يتعلم تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب مع وعي بتَعَلُّم الخَصْم، فإن نمذجته لتَعَلُّم الخَصْم محدودة ببضع خُطُوات تَحْسِين مُسْتَقْبَلِيَّة. يجعل هذا تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب عُرْضَة للاِسْتِغْلال من قِبَل خُصُوم يشاركون في تَحْسِين إضافي. على وجه الخصوص، تُظْهِر تحليلاتنا لوُكَلاء تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب المُدَرَّبِين على لعبة العُمْلَة أن تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب عُرْضَة للاِسْتِغْلال من قِبَل الخَصْم الذي يستجيب بشكل أفضل. عندما يتم تَدْرِيب الخَصْم خصيصاً لتعظيم عائده الخاص ضد سِياسة ثابتة تم تَدْرِيبها بواسطة تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب، فإن الأول يستغل الأخير. أيضاً، يمكن أن تعيق هذه القيود قابلية توسع تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب؛ إذ لا يمكنه التَّفاضُل عبر جميع خُطُوات تَحْسِين الخَصْم. هذه مشكلة خاصة إذا كان الخَصْم شبكة عصبية معقدة، حيث تكون العديد من خُطُوات التَّحْسِين مطلوبة لتقريب تَعَلُّمها.

في هذه الورقة، نقدم نهجاً جديداً يُسَمَّى تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ. يعتمد أسلوبنا على بناء خَصْم يَقْتَرِب من سِياسة الاِسْتِجَابَةِ الأَمْثَلِ ضد وَكِيل معين. نشير إلى هذا الخَصْم باسم "المُحَقِّق". يتم تصوير المفهوم العام في الشكل [fig:cobalt]: يخضع المُحَقِّق للتدريب ضد وُكَلاء مأخوذين من توزيع متنوع. لتدريب الوَكِيل، نُفَاضِل عبر خَصْم المُحَقِّق. على عكس الأساليب مثل تَعَلُّم مع وعي بتَعَلُّم الخَصْم وتَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب، التي تفترض بضع خُطُوات تَحْسِين مُسْتَقْبَلِيَّة، يعتمد أسلوبنا على إصدار المُحَقِّق للاِسْتِجَابَةِ الأَمْثَلِ للوَكِيل الحالي من خلال تَكْيِيف السِياسة.

نُحَقِّق تَجْرِيبياً من أسلوبنا في مُعْضِلَة السَّجِين المُتَكَرِّرَة ولعبة العُمْلَة. نظراً للاعتماد على سِياسة الخَصْم لنتائج الوَكِيل، فإنه ليس من السهل دائماً تقييم ومقارنة سِياسات وُكَلاء مختلفين في الألعاب. هذا صحيح بشكل خاص في الألعاب غير المتساوية التي تُظْهِر جوانب تَعاوُنِيَّة وتَنافُسِيَّة. في هذه الورقة، ندافع عن أن نقطة المقارنة المعقولة هي نتيجة الوَكِيل عند مواجهة خَصْم يستجيب بشكل أفضل، والذي نُقَرِّبه بواسطة بحث شجرة مونت كارلو. نُظْهِر أنه بينما لا يتعاون بحث شجرة مونت كارلو بالكامل مع وُكَلاء تَعَلُّم مع وعي بتَعَلُّم الخَصْم القريب، فإنهم يتعاونون بالكامل مع وَكِيل تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ لدينا.

المُسَاهَمَات الرَئِيسِيَّة: نُلَخِّص مُسَاهَمَاتنا الرَئِيسِيَّة أدناه:

الخَلْفِيَّة

تَعَلُّم التَّعْزِيز المُتَعَدِّد العَوامِل

تُعَرَّف لعبة ماركوف المُتَعَدِّدَة العَوامِل بالرمز \(\bm{(} N, \mathcal{S},\left\{\mathcal{A}^i\right\}_{i=1}^N, \mathbb{P},\left\{r^i\right\}_{i = 1}^N, \gamma \bm{)}\). هنا، \(N\) تُمَثِّل عدد العَوامِل، \(\mathcal{S}\) فضاء الحالات للبيئة، و\(\mathcal{A}:=\mathcal{A}^1 \times \cdots \times \mathcal{A}^N\) مجموعة الأفعال لكل عامل. احتمالات الاِنْتِقال ممثلة بـ \(\mathbb{P}: \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\mathcal{S})\) ودالة المُكافَأَة بـ \(r^i: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\). أخيراً، \(\gamma \in [0,1]\) هو عامل الخصم. في مشكلة تَعَلُّم التَّعْزِيز المُتَعَدِّد العَوامِل، كل عامل يحاول تعظيم عائده \(R^i = \sum_{t=0}^\infty \gamma^t r^i_t\). سِياسة العامل \(i\) ممثلة بـ \(\pi^{i}_{\theta_{i}}\) حيث \(\theta_i\) هي معاملات السِياسة. في تَعَلُّم التَّعْزِيز العميق، هذه السِياسات هي شبكات عصبية. يتم تَدْرِيب هذه السِياسات عبر مُقَدِّرات التدرج مثل REINFORCE (reinforce).

المُعْضِلات الاِجْتِمَاعِيَّة ومُعْضِلَة السَّجِين المُتَكَرِّرَة

في سياق الألعاب ذات المَجْمُوع العام، تظهر المُعْضِلات الاِجْتِمَاعِيَّة عندما يسعى الوُكَلاء الأفراد لتحسين مكافآتهم الشخصية لكنهم بذلك يُقَوِّضُون النتيجة الجماعية أو الرَّفَاهِيَّة الاِجْتِمَاعِيَّة. هذه الظاهرة تكون أكثر وضوحاً عندما تكون النتيجة الجماعية أدنى من النتيجة التي كان يمكن تحقيقها من خلال التعاون الكامل. توضح الدراسات النظرية، مثل مُعْضِلَة السَّجِين، السيناريوهات التي يكون فيها كل مشارك، رغم أنه يكون في وضع أفضل عند الاِعْتِراف، يحقق مكافأة جماعية أقل مقارنة بالبقاء صامتاً.

ومع ذلك، في مُعْضِلَة السَّجِين المُتَكَرِّرَة (IPD)، لم يعد التخلي غير المشروط هو الاِسْتراتِيجِيَّة السائدة. على سبيل المثال، في مواجهة خَصْم يتبع اِسْتراتِيجِيَّة الرَّد بالمِثْل (TFT)، يؤدي التعاون المستمر إلى عائد أعلى للوَكِيل. قد يتوقع المرء أن التَّعَلُّم الآلي المُعَزَّز للوُكَلاء المتعددين (MARL)، المصمم لتعظيم عائد كل وَكِيل، سيكتشف اِسْتراتِيجِيَّة TFT، حيث تعزز كلاً من العوائد الجماعية والفردية، ولا توفر حافزاً لتغيير السِياسة، مجسدة توازن ناش. ومع ذلك، تكشف الملاحظات التجريبية أن الوُكَلاء القياسيين في التَّعَلُّم المُعَزَّز، المُدَرَّبِين لتعظيم عائدهم الخاص، يميلون عادة إلى التخلي غير المشروط.

هذا يمثل أحد التحديات الرئيسية للتَّعَلُّم المُعَزَّز للوُكَلاء المتعددين في الألعاب ذات المَجْمُوع العام: خلال التدريب، غالباً ما يتجاهل الوُكَلاء حقيقة أن الوُكَلاء الآخرين أيضاً في عملية التَّعَلُّم. لمعالجة هذه المشكلة، وإذا كانت الرَّفَاهِيَّة الاِجْتِمَاعِيَّة هي الاِعْتِبَار الرئيسي، يمكن مشاركة المُكافَآت بين الوُكَلاء أثناء التدريب. على سبيل المثال، تدريب كلا الوَكِيلَيْن في إعداد IPD لتعظيم العائد الجماعي سيؤدي إلى تعاون مستمر. ومع ذلك، هذا النهج غير كافٍ إذا كان الهدف هو تعزيز التعاون المبني على المُعامَلَة بالمِثْل. تتطلب سِياسة تحفز الخَصْم على التعاون من أجل تعظيم عائده الخاص. بينما TFT هي إحدى هذه السِياسات، فإن تصميم سِياسات مماثلة لـ TFT يدوياً في مجالات أخرى ليس مرغوباً فيه ولا يمكن تحقيقه، مما يبرز الحاجة إلى تطوير خوارزميات تدريب جديدة يمكنها اكتشاف هذه السِياسات.

الأَعْمَال ذات الصِّلَة

تحاول (LOLA) تشكيل الخَصْم من خلال أخذ التدرج للقيمة بالنظر إلى خطوة واحدة للأمام من معاملات الخَصْم. بدلاً من النظر في العائد المتوقع تحت زوج معاملات السِياسة الحالية، \(V^1(\theta_i^1, \: \theta_i^2)\)، تقوم (LOLA) بتحسين \(V^1(\theta_i^1, \: \theta_i^2 + \Delta \theta_i^2)\) حيث يشير \(\Delta \theta_i^2\) إلى خطوة تَعَلُّم بسيطة للخَصْم. لإجراء حساب التدرج للتحديث \(\Delta \theta_i^2\)، تعتبر (LOLA) القيمة البديلة المعطاة بواسطة تقريب تايلور من الدرجة الأولى لـ \(V^1(\theta_i^1, \: \theta_i^2 + \Delta \theta_i^2)\). نظراً لأنه لا يمكن حساب القيمة الدقيقة تحليلياً في معظم الألعاب، يقدم المؤلفون صيغة تدرج السِياسة التي تعتمد على تدحرجات البيئة لتقريبها. تمكنت هذه الطريقة من إيجاد اِسْتراتِيجِيَّات الرَّد المتبادل في لعبة السَّجِين المُتَكَرِّرَة.

تقدم (POLA) نسخة مثالية من (LOLA) لا تتأثر بمعاملات السِياسة. للقيام بذلك، يحاول كل لاعب زيادة احتمال الأفعال التي تؤدي إلى عوائد أعلى مع معاقبة التباين كولباك-لايبلر في فضاء السِياسة بالنسبة لسِياساتهم في الخطوة الزمنية السابقة. مشابهة لطريقة النقطة القريبة، تشكل كل خطوة من خطوات (POLA) مشكلة تحسين يتم حلها تقريباً من خلال التنازل التدريجي. مثل (LOLA)، تُستخدم (POLA) تدحرجات المسار لتقدير قيمة كل لاعب وتطبق مُقَدِّر التَّعْزِيز لحساب التدرجات. تحقق (POLA) تعاوناً غير قابل للاِسْتِغْلال بفعالية في لعبة السَّجِين المُتَكَرِّرَة ولعبة العُمْلَة مع تحسين العيوب في سابقتها.

يُعْتَبَر (mfos) لعبة فوقية حيث يتم لعب لعبة كاملة في كل خطوة فوقية والمكافأة الفوقية هي عائد تلك اللعبة. العامل هو سِياسة فوقية تتعلم التأثير على سلوك الخَصْم خلال هذه التدحرجات. يغير (mfos) اللعبة ولا يمكن مقارنته بطريقتنا التي تعتبر تَعَلُّم سِياسة واحدة. يغير (rusp) هيكل اللعبة حيث يشارك كل عامل في المكافأة مع عملاء آخرين. يدرك العملاء هذا التجميع للمكافآت من خلال نسخة مشوشة من مصفوفة مشاركة المكافآت. في وقت الاختبار، يتم ضبط مصفوفة التمثيل على عدم مشاركة المكافآت ولا يتم إضافة ضوضاء إلى هذه المصفوفة.

تدور ألعاب (colman1998stackelberg) حول اختيار الفعل الأول للقائد يليه حركة الأتباع اللاحقة. يقدم إطار العمل الممثل-الناقد ثنائي المستويات (zhang2020bi) نهجاً مبتكراً لتدريب كل من القائد والأتباع في نفس الوقت خلال فترة التدريب مع الحفاظ على قابلية التنفيذ المستقلة، مما يجعله مناسباً لمعالجة تحديات التنسيق في التَّعَلُّم المتعدد للعملاء. على عكس إعدادنا، حيث يعمل المُحَقِّق كأداة تدريب يتم التخلص منها بعد التدريب، يختلف (zhang2020bi) من خلال نشر كل من القائد والأتباع معاً خلال وقت الاختبار (حيث الاِهْتِمام الرئيسي هو التنسيق بين القائد والأتباع). تعكس التفاعلات بين العامل والمُحَقِّق الإعداد الأساسي لـ (colman1998stackelberg)، حيث يلعب العامل دور القائد والمُحَقِّق دور الأتباع.

يُدَرِّب (balaguer2022good) أفضل اِسْتِجَابَة لعامل تَعَلُّم، معكوساً فكرة أفضل اِسْتِجَابَة لأفضل اِسْتِجَابَة. يقدم المؤلفون طريقتين للتدريب ضد هذه الاِسْتِجَابَة المثلى. أولاً، من خلال إنشاء رسم بياني حسابي واسع لتحسين العامل. ثانياً، باستخدام اِسْتراتِيجِيَّات تطورية. لا تتسم أي من هذه الطرق بالقابلية للتوسع. إنشاء رسم بياني حسابي كامل لكل خطوة تحسين للعامل غير فعال للغاية. علاوة على ذلك، تتطلب الاِسْتراتِيجِيَّات التطورية تدريب الخَصْم ضد نقاط بيانات جديدة في كل مرة. تتجنب طريقتنا هذه المشكلة باستخدام شبكة عصبية لتقليل عملية التحسين. يُوَحِّد (lanctot2017unified) العديد من إطارات تدريب التَّعَلُّم المتعدد للعملاء مثل التَّعَلُّم المستقل، الاِسْتِجَابَة المثلى المتكررة، واللعب الذاتي الخيالي. تمدد طرق عائلة (PSRO) مجموعة من السِياسات السابقة بشكل تكراري، من خلال إضافة أفضل اِسْتِجَابَة لمزيج من تلك السِياسات السابقة. على عكس (BRS), لا تُفَاضِل (PSRO) عبر أفضل اِسْتِجَابَة.

تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ

تُدَرِّب خوارزمية تَشْكِيلُ الاِسْتِجَابَةِ الأَمْثَلِ (Best Response Shaping) العامل من خلال التَّفاضُل عبر تقريب للخَصْم ذو الاِسْتِجَابَةِ الأَمْثَلِ (كما وُصِف في القسم [sec:method:bestresponse]). هذا الخَصْم، المُسَمَّى المُحَقِّق، يعتمد على سِياسة العامل من خلال آلية الإِجَابَة على الأَسْئِلَة لاختيار أفعاله (القسم [sec:method:detective]). بعد ذلك، نقوم بتدريب العامل من خلال التَّفاضُل عبر المُحَقِّق باستخدام مُقَدِّر التدرج REINFORCE (reinforce) (القسم [sec:method:agent]). كما نقترح اللعب الذاتي كطريقة تنظيمية لتشجيع السلوك التعاوني، مما يشجع العامل على استكشاف السِياسات التعاونية. نُثْبِت أيضاً أن هذا اللعب الذاتي يعادل اللعب الذاتي مع مشاركة المكافآت. يتم توفير الشفرة الزائفة لـ BRS في الخوارزمية [algo:cobalt].

وَكِيل الاِسْتِجَابَةِ الأَمْثَلِ لِلخَصْم ذو الاِسْتِجَابَةِ الأَمْثَلِ

نتبع تعريفاتنا ورموزنا من (Agarwal2021)، نرمز لـ \(\tau\) كمسار توزعه، \(\text{Pr}_\mu^{\theta_1, \theta_2}(\tau)\)، بتوزيع الحالة الابتدائية \(\mu\)، يُعطى بواسطة \[\begin{aligned} \text{Pr}_\mu^{\theta_1, \theta_2}(\tau) = \mu(s_0) \pi_{\theta_1}(a_0 | s_0)\pi_{\theta_2}(b_0 | \pi_{\theta_1}, s_0) P(s_1 | s_0, a_0, b_0) \hdots\end{aligned}\] هنا \(a\) تدل على الفعل الذي يتخذه الوَكِيل و\(b\) الفعل الذي يتخذه الخَصْم. الخَصْم ذو الاِسْتِجَابَةِ الأَمْثَلِ هو السِياسة التي تحصل على أعلى عائد متوقع ضد وَكِيل معين. بشكل رسمي، بالنظر إلى \(\theta_1\)، فإن سِياسة الخَصْم ذو الاِسْتِجَابَةِ الأَمْثَلِ \(\theta_2^*\) تحل للمعادلة التالية: \[\begin{aligned} \theta_2^* = \argmax_{\theta_2} \mathbb{E}_{\tau \sim \text{Pr}_\mu^{\theta_1, \theta_2}} \left[ R^2(\tau)\right]\end{aligned}\]

بعد ذلك، نقوم بتدريب سِياسة الوَكِيل للحصول على أعلى عائد متوقع ضد وَكِيل الاِسْتِجَابَةِ الأَمْثَلِ. يتم حل تدريب سِياسة الوَكِيل للمعادلة التالية: \[\begin{aligned} \theta_1^{**} = \argmax_{\theta_1} \mathbb{E}_{\tau \sim \text{Pr}_\mu^{\theta_1, \theta_2^*}} \left[R^1(\tau)\right] \end{aligned}\] لاحظ أن هذه مشكلة تحسين ثنائية المستوى. نفترض أن الوَكِيل \(\pi_{\theta_1}^{**}\) يُظْهِر خصائص وَكِيل غير قابل للاِسْتِغْلال، حيث يتعلم اِسْتراتِيجِيَّات الاِنْتِقام رداً على خَصْم متخلف، مما يخلق حوافز لخَصْم عقلاني للتعاون.

تَدْرِيب الخَصْم الكاشِف

في التَّعَلُّم المُعَزَّز العميق، يعتمد تدريب الوُكَلاء على استخدام التحسين المبني على التدرج. ونتيجة لذلك، نحتاج إلى خَصْم قابل للتَّفاضُل يَقْتَرِب من أفضل اِسْتِجَابَة ممكنة. نُسَمِّي هذا الخَصْم "الكاشِف". تعتمد سِياسة الكاشِف على سِياسة الوَكِيل بالإضافة إلى حالة البيئة، والتي نرمز لها بـ \(\pi_{\theta_2} (a|\pi_{\theta_1}, s)\). نقوم بتدريب الكاشِف ليحقق أقصى عائد له ضد وُكَلاء مختلفين. من الناحية الرسمية، يتم تدريب الكاشِف بواسطة الخطوة التدرجية التالية: \[\begin{aligned} \nabla_{\theta_2} \underset{\theta_1 \sim \mathcal{B}}{\mathbb{E}}\underset{\tau \sim \text{Pr}_\mu^{\theta_1, \theta_2}}{\mathbb{E}} \left[R^2(\tau)\right]\end{aligned}\] حيث يُمثل \(\mathcal{B}\) توزيعاً لسِياسات متنوعة للوَكِيل \(1\). يجب الإشارة إلى أن الكاشِف يتم تدريبه عبر الإنترنت ويتم تحديث الذاكرة المؤقتة، \(\mathcal{B}\)، بمعاملات الوَكِيل الحالية.

التَّكْيِيف على سِياسة الوَكِيل

يستعلم المُحَقِّق عن سلوك الوَكِيل في حالات مختلفة من اللعبة. للقيام بذلك، يقوم بتقييم احتمالات أفعال الوَكِيل (الإجابات) على حالة من اللعبة (الأسئلة). بشكل رسمي، لنفترض أن \(\mathcal{Q}_{\psi}(\theta_1, s)\) هي الدالة التي يستخدمها المُحَقِّق لاستخراج تمثيل واعٍ بالحالة للوَكِيل. نُسَمِّي \(\mathcal{Q}\) دالة الإجابة على الأسئلة (QA) إذا كان يمكن التعبير عن \(\mathcal{Q}\) بأنها تملك الوصول فقط إلى دالة السِياسة، أي \(\mathcal{Q}_{\psi}(\pione, s)\). هناك العديد من الطرق الممكنة لتصميم دالة QA. بعد ذلك، نحدد طريقة أظهرت نجاحاً في لعبة العُمْلَة.

الإجابة على الأسئلة بناءً على المحاكاة

سلوك الوَكِيل في استمراريات محتملة للعبة بدءاً من الحالة \(s\) يحمل معلومات قيمة. على وجه التحديد، يمكننا تقييم سلوك الوَكِيل مقابل وَكِيل عشوائي يبدأ من حالة اللعبة \(s\). رسمياً، ليكن \(\delta_A\) معرفاً كما يلي حيث \(\tau\) هو مسار يبدأ من الحالة \(s\) في الوقت \(t\):

\[\begin{aligned} \delta_A := \underset{\tau \sim \text{Pr}_\mu^{\theta_1, \theta_r}}{\mathbb{E}} \left[R^r(\tau) | s_t = s\right]\end{aligned}\]

حيث \(\pi_{\theta_r}\) هو خَصْم يختار الفعل \(A\) في الوقت \(t\) وبعد ذلك يأخذ عينات من توزيع موحد على جميع الأفعال الممكنة: \[\begin{aligned} \pi_{\theta_r}(a_i = A| s_i) = \begin{cases} \frac{1}{|\mathcal{A}|} & \text{if } i > t \\ \mathbbm{1}_{\{a_i = A\}} & \text{if } i = t \\ \end{cases}\end{aligned}\] يُقَدَّر المُحَقِّق \(\delta_A\) بواسطة تدحرجات مونت كارلو للعبة إلى طول معين بين الوَكِيل والخَصْم العشوائي، \(\pi_{\theta_r}\). نرمز لتقدير \(\delta_A\) بـ \(\hat{\delta}_{A}\). ثم نعرف \(\mathcal{Q}^{\text{simulation}}\) = \([\hat{\delta}_{A_1}, \hat{\delta}_{A_2}, \cdots, \hat{\delta}_{A_{|\mathcal{A}|}}]\). يعتبر عدد العينات المستخدمة لتقدير عوائد اللعبة وطول الألعاب المحاكاة معاملات فائقة لـ \(\mathcal{Q}^{\text{simulation}}\) الإجابة على الأسئلة. لاحظ أنه يمكن تمييز \(\mathcal{Q}^{\text{simulation}}\) بالنسبة لمعاملات سِياسة الوَكِيل عبر مُصْطَلَح التَّعْزِيز (reinforce). على وجه التحديد، نستخدم عامل النرد (LOLA).

[sec:method:agent]

التَّفاضُل عبر المُحَقِّق

تم تدريب سِياسة الوَكِيل لتعظيم عائده ضد خَصْم المُحَقِّق من خلال مُقَدِّر التدرج REINFORCE. ومع ذلك، نظراً لأن سِياسة المُحَقِّق تأخذ سِياسة الوَكِيل كمدخلات، فإن مُصْطَلَح REINFORCE سيشمل مُصْطَلَحاً إضافياً للاِنتشار العكسي للمُحَقِّق فوق المُصْطَلَح المعتاد لـ REINFORCE: \[\begin{aligned} \underset{\tau \sim \text{Pr}_\mu^{\theta_1, \theta_2}}{\mathbb{E}} \left[R^{1}(\tau) \sum_{t=1}^{T} \left[\nabla_{\theta_1} \log(\pione(a_{t}|s_t)) + \underbrace{\nabla_{\theta_1}\log(\pitwo(b_{t}|\pi_{\theta_1}, s_t))}_{\text{مُصْطَلَح الاِنتشار العكسي للمُحَقِّق}}\right]\right]\end{aligned}\]

يمكن اعتبار هذا المُصْطَلَح الإضافي كالاِتجاه في فضاء السِياسات الذي يشجع فيه تغيير معاملات الوَكِيل المُحَقِّق على اتخاذ إجراءات تزيد من عائد الوَكِيل الخاص.

تَنْظِيم التَّعاوُن من خلال اللعب الذاتي مع مشاركة المكافآت

العوامل التي تتدرب ضد خُصُوم عقلانيين تميل إلى الاِعتماد على الافتراض بأن العامل المعارض متساهل تجاه أفعالهم غير التعاونية. يسمح هذا الاِعتماد على السلوك العقلاني لهم بأن يستغلوا الخَصْم إلى حد ما. ونتيجة لذلك، قد لا يتعلمون بفعالية كيفية التعاون مع أنفسهم. في السيناريوهات التي يكون الهدف فيها هو تعزيز السلوك التعاوني، وخاصة تشجيع العامل على التعاون مع نفسه، فإن النهج المباشر هو تدريب العامل في إعداد اللعب الذاتي، مع الافتراض بأن سِياسة الخَصْم تعكس سِياسة العامل. من الناحية الرسمية، نقوم بتحديث العامل باستخدام قاعدة التحديث التالية: \[\begin{aligned} \label{eqn:selfplayrewardsharing} \nabla_{\theta_1} \underset{\tau \sim \text{Pr}_\mu^{\theta_1, \theta_1}}{\mathbb{E}} \left[ R^1(\tau)\right]\end{aligned}\] نُثْبِت أنه في الألعاب المتماثلة مثل لعبة السجناء التكرارية ولعبة العُمْلَة، هذا يعادل تدريب عامل مع اللعب الذاتي مع مشاركة المكافآت (انظر البرهان في §[app:self-play]). يُبْرِز هذا التدريب العنصر التعاوني لألعاب المَجْمُوع العام. في الألعاب ذات المَجْمُوع الصفري، لن يكون لهذا التحديث أي تأثير حيث سيكون التدرج صفراً (انظر البرهان في §[app:self-play]). نشير إلى هذا المُصْطَلَح الخسارة التنظيمية باسم اللعب الذاتي مع مشاركة المكافآت طوال الورقة. نقوم أيضاً بإجراء تجربة على BRS-NOSP حيث نتخطى خسارة اللعب الذاتي لدراسة تأثيرها.