التحفظ التركيبي: نهج توصيلي في التعلم التعزيزي دون اتصال

Yeda Song  , Dongwook Lee & Gunhee Kim

مُلَخَّص

التعلم التعزيزي دون اتصال هو إطار عمل جذاب لتعلم السياسات المثلى من التجارب السابقة دون تفاعل إضافي مع البيئة. ومع ذلك، يواجه التعلم التعزيزي دون اتصال بشكل حتمي مشكلة التحولات التوزيعية، حيث قد لا تكون الحالات والأفعال التي تمت مواجهتها أثناء تنفيذ السياسة ضمن توزيع بيانات التدريب. الحل الشائع يتضمن دمج التحفظ في السياسة أو في دالة القيمة للحماية من الشكوك والمجهولات. في هذا العمل، نركز على تحقيق نفس أهداف التحفظ ولكن من منظور مختلف. نقترح التحفظ التركيبي مع البحث عن المرساة للتعلم التعزيزي دون اتصال، وهو نهج يسعى للتحفظ بطريقة تركيبية على رأس إعادة المعايرة التوصيلية (transd_aviv2023)، والتي تقوم بتحليل المتغير الداخلي (الحالة في حالتنا) إلى مرساة والفارق عن المدخل الأصلي. يسعى التحفظ التركيبي لدينا إلى كل من المراسي والفروقات داخل التوزيع باستخدام نموذج الديناميكيات العكسية المتعلم، مما يشجع على التحفظ في فضاء المدخلات التركيبي للسياسة أو دالة القيمة. هذا التحفظ التركيبي مستقل وغير مدرك للتحفظ السلوكي السائد في التعلم التعزيزي دون اتصال. نطبق التحفظ التركيبي على أربع خوارزميات من أحدث خوارزميات التعلم التعزيزي دون اتصال ونقيمها على معيار D4RL، حيث يحسن التحفظ التركيبي عموماً أداء كل خوارزمية. الكود متاح في https://github.com/runamu/compositional-conservatism.

مُقَدِّمَة

حقق التعلم بالتعزيز نجاحات ملحوظة في مجالات متعددة، من توجيه حركات الروبوتات (dasari2020robonet) وتحسين استراتيجيات الألعاب (mnih2015human) إلى التدريب الواعد لنماذج اللغة (rajpurkar2016squad). على الرغم من هذه الإنجازات، فقد دفعت التحديات التي تفرضها التفاعلات الزمنية الفعلية في البيئات المعقدة والحساسة إلى تطوير التعلم بالتعزيز دون اتصال كاتجاه قابل للتطبيق. يتعلم التعلم بالتعزيز دون اتصال (wiering2012reinforcement, levine2020offline) أو التعلم بالتعزيز الدفعي (lange2012batch) السياسات فقط من البيانات الموجودة مسبقاً، دون أي تفاعل مباشر مع البيئة. يزداد شعبية التعلم بالتعزيز دون اتصال في التطبيقات العملية مثل القيادة الذاتية (yu2020bdd100k) أو الرعاية الصحية (gottesman2019guidelines) حيث تكون البيانات السابقة وفيرة.

بطبيعته، يكون التعلم بالتعزيز دون اتصال عرضة للتحولات التوزيعية. تنشأ هذه المشكلة عندما يختلف توزيع الحالات والإجراءات التي تواجهها أثناء تنفيذ السياسة عن تلك الموجودة في مجموعة البيانات التدريبية، وهي حالة تشكل تحدياً خاصاً في التعلم الآلي (levine2020offline). تتناول العديد من خوارزميات التعلم بالتعزيز دون اتصال الحالية هذه المشكلة من خلال تقليل التحولات التوزيعية عبر نهج التحفظ، بما في ذلك تقييد السياسة أو تقدير الشكوك لقياس الانحرافات التوزيعية (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019, mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020). تهدف هذه الاستراتيجيات إلى الحفاظ على الوكيل ضمن التوزيعات المعروفة، مما يقلل من مخاطر السلوكيات غير المتوقعة. في هذا العمل، نسعى أيضاً لتحقيق نفس هدف الحفاظ على الاستقرار، مع التركيز على مواءمة توزيع بيانات الاختبار مع التوزيع المعروف، ولكن من منظور مختلف.

نبدأ بالاعتراف بأن مشكلة التحول التوزيعي للحالة ترتبط ارتباطاً وثيقاً بكيفية التعامل مع نقاط الإدخال خارج الدعم لمقاربات الدالة. نستكشف إمكانية تحويل مشكلة التعلم خارج الدعم إلى مشكلة خارج التركيب من خلال حقن التحيزات الاستقرائية في مقاربات الدالة للسياسة أو دالة القيمة-Q. تم اقتراح مثل هذا التحويل سابقاً بواسطة (transd_aviv2023)، حيث يقدم نهجاً توصلياً يسمى التحويل الثنائي يقوم بالتنبؤات من خلال هندسة ثنائية بعد إعادة معايرة الدالة المستهدفة. تقوم هذه إعادة المعايرة بتحليل المتغير الإدخالي إلى مكونين، هما المرساة والدلتا، حيث المرساة هي متغير في فضاء الإدخال والدلتا هي الفرق بين المتغير الإدخالي والمرساة. إذا استوفت توزيعات البيانات التدريبية والاختبارية المعاد معايرتها افتراضات معينة، وإذا كانت الدالة المستهدفة تتمتع بخصائص معينة، فإن التحويل الثنائي يمكن أن يعالج مشكلة خارج التركيب، والتي بدورها قد تحل مشكلة خارج الدعم مع الدالة المستهدفة الأصلية.

نقترح إطاراً للحفاظ على التركيب مع البحث عن المرساة (COCOA) للتعلم بالتعزيز دون اتصال، وهو إطار يعتمد نهجاً تركيبياً للحفاظ على الاستقرار، بناءً على إعادة المعايرة التوصيلية (transd_aviv2023). يحول نهجنا مشكلة التحول التوزيعي إلى مشكلة خارج التركيب. ينقل هذا العوامل الرئيسية للتعميم من البيانات إلى المكونات المحللة والعلاقات بينها، مما يتطلب اختيار المرساة والدلتا بالقرب من توزيع مجموعة البيانات التدريبية.

نقترح نهجاً جديداً للبحث عن المرساة مع سياسة إضافية، تسمى سياسة البحث عن المرساة، والتي تفرض على الوكيل العثور على المراسي ضمن المنطقة المعروفة من فضاء الحالة. وبالتالي، يشجع COCOA المراسي على أن تكون قريبة من مجموعة البيانات دون اتصال مع تقييد الدلتا في نطاق ضيق من خلال تحديد المراسي بين الحالات المجاورة. يمكن لهذا النهج تقليل فضاء الإدخال وتوجيهه نحو الفضاء الذي تم استكشافه بشكل رئيسي خلال مرحلة التدريب. باختصار، من خلال تعلم سياسة للبحث عن المراسي داخل التوزيع والاختلافات من الديناميكيات المتعلمة، يمكننا تشجيع الحفاظ على الاستقرار في فضاء الإدخال التركيبي لمقاربات الدالة لوظيفة القيمة-Q والسياسة. هذا النهج مستقل وغير مدرك للحفاظ على السلوك السائد في التعلم بالتعزيز دون اتصال.

وجدنا تجريبياً أن طريقتنا تحسن أداء أربع طرق تمثيلية للتعلم بالتعزيز دون اتصال، بما في ذلك CQL (cql_kumar2020), IQL (iql_kostrikov2022), MOPO (mopo_yu2020), و MOBILE (mobile_sun2023) على معيار D4RL (d4rl_fu2020). كما نظهر من خلال دراسة استئصال أن تعلم سياسة البحث عن المرساة فعال في تحسين أداء طريقتنا. يمكن تلخيص مساهماتنا الرئيسية على النحو التالي:

المُقَدِّمات

تعلم التعزيز دون اتصال

نفترض مشكلة عملية اتخاذ القرار ماركوف \((\mathcal{S}, \mathcal{A}, T, R)\) مع فضاء حالة مستمر \(\mathcal{S}\)، وفضاء عمل مستمر \(\mathcal{A}\)، ودالة انتقال \(T: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}\)، ودالة مكافأة \(R: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\). الهدف هو إيجاد سياسة \(\pi: \mathcal{S} \rightarrow \mathcal{A}\) تعظم العائد المتوقع \(J(\pi)=\mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^{t} R\left(s_{t}, a_{t}\right)\right]\)، حيث \(\gamma \in[0,1)\) هو عامل التخفيض.

في تعلم التعزيز دون اتصال، المعروف أيضاً بتعلم التعزيز الدفعي، نعطى مجموعة بيانات \(\mathcal{D}_{\text{env}}=\left\{\left(s_{i}, a_{i}, s_{i+1}, r_{i}\right)\right\}_{i=1}^{N}\) تم إنشاؤها بواسطة سياسة سلوكية. الهدف في تعلم التعزيز دون اتصال هو إيجاد سياسة \(\pi\) تعظم العائد المتوقع \(J(\pi)\) باستخدام مجموعة البيانات الثابتة \(\mathcal{D}_{\text{env}}\) فقط. مثل معظم خوارزميات تعلم التعزيز دون اتصال المبنية على النموذج، نتعلم نموذج ديناميكيات \(\widehat{T}(s_{i+1}| s_{i}, a_{i})\) يتنبأ بالحالة التالية \(s_{i+1}\) بناءً على الحالة الحالية \(s_{i}\) والفعل \(a_{i}\). بالإضافة إلى نموذج الديناميكيات الأمامي، نتعلم أيضاً نموذج ديناميكيات عكسي \(\widehat{T}(s_{i}| s_{i+1}, a_{i})\) يتنبأ بالحالة الحالية \(s_{i}\) بناءً على الحالة التالية \(s_{i+1}\) والفعل \(a_{i}\).

التحويل الثنائي الخطي

نتبع صياغة (transd_aviv2023) حول مشكلة التعميم. بدون افتراض على توزيع التدريب والاختبار، يقتصر أداء التعميم لمقرب الدالة. تحدث هذه المشكلة بشكل خاص عندما لا يكون توزيع الاختبار متضمناً في توزيع التدريب، والمعروف أيضاً بمشكلة التعلم خارج الدعم. كحالة خاصة من التعلم خارج الدعم، تحدث مشكلة خارج التركيب عندما يتم تقسيم فضاء الإدخال إلى مكونين، ويشمل هامش توزيع التدريب لكل مكون ذلك الخاص بتوزيع الاختبار بينما لا يحتوي توزيع التدريب المشترك بالضرورة على توزيع الاختبار المشترك. تحت افتراضات معينة، يقترح (transd_aviv2023) طريقة إعادة معايرة توصيلية تسمى التحويل الثنائي الخطي لتحويل مشكلة خارج الدعم إلى مشكلة خارج التركيب.

التحويل الثنائي الخطي. يحل التقدير تحت افتراضات معينة. أولاً، يتم إعادة معايرة الدالة الهدف \(f(x)\) كما يلي: \[\label{eq:transductive_reparameterization} f(x) := \bar{f}(x-\tilde{x}, \tilde{x}),\] حيث يُعرف \(\tilde{x}\) بأنه مرساة، يتم اختيارها من مجموعة البيانات التدريبية. الفرق (\(x-\tilde{x}\)) بين المتغير الإدخالي \(x\) والمرساة \(\tilde{x}\) يعرف بـ الدلتا. يتم تقريب الدالة الهدف المعاد معايرتها \(\bar{f}\) كدالة ثنائية خطية للتضمينات \(\boldsymbol{\varphi_{1}}\) و \(\boldsymbol{\varphi_{2}}\): \[\label{eq:bilinear_representation} \bar{f_{\boldsymbol{\theta}}}(x) = \boldsymbol{\varphi_{1}}(x - \tilde{x}) \cdot \boldsymbol{\varphi_{2}}(\tilde{x}).\] بديهياً، يسهل ذلك خاصية الرتبة المنخفضة للتضمينات \(\boldsymbol{\varphi_{1}}\) و \(\boldsymbol{\varphi_{2}}\)، مما يمكن مقرب الدالة من التعميم إلى نقاط خارج التركيب.

الشروط الكافية للتحويل الثنائي الخطي. يقدم (transd_aviv2023) شروطاً كافية لتطبيق التحويل الثنائي الخطي. الافتراضات تتعلق بكل من مجموعة البيانات والدالة الهدف \(f\). الافتراض الأول يتعلق بـ التغطية التركيبية لمجموعة البيانات. يجب أن يكون لمجموعة البيانات الاختبارية نسبة كثافة تركيبية محدودة بالنسبة لمجموعة البيانات التدريبية. يعني ذلك أن دعم التوزيع المشترك لتوزيعات التدريب للمكونات يجب أن يشمل دعم التوزيع المشترك لتوزيعات الاختبار للمكونات. ثانياً، يجب أن تكون الدالة الهدف \(f\) قابلة للتحويل الثنائي الخطي، أي يجب أن توجد دالة حتمية \(\bar{f}\) بحيث \(f(x)=\bar{f}(x-\tilde{x}, \tilde{x})\) لجميع \(x, \tilde{x} \in \mathcal{X}\). أخيراً، يجب ألا يتدهور توزيع المراسي التدريبية (sample_shah2020). تحت هذه الشروط الثلاثة، من الممكن تعميم الدالة الهدف إلى نقاط خارج التركيب بحد أدنى نظري مضمون للمخاطر.

الصلة بالتعميم التركيبي. في ضوء الأدبيات حول التعميم التركيبي (compositional_wiedemer2023)، نفسر التحويل الثنائي الخطي كحالة خاصة من التعميم التركيبي، حيث تعمل نماذج \(\boldsymbol{\varphi_{1}}, \boldsymbol{\varphi_{2}}\) كـ وظائف المكونات، مستخرجة للميزات ذات الرتبة المنخفضة للإدخال، ويعمل الجداء الداخلي كـ وظيفة التركيب.

الحفاظ التركيبي مع البحث عن المرساة (COCOA)

تعلم التعزيز دون اتصال مع التحويل الثنائي الخطي

تستخدم الخوارزميات الأساسية في تعلم التعزيز دون اتصال، مثل الشبكات العصبية العميقة (Deep Q-Networks) (mnih2015human) وطرق الممثل-الناقد (mnih2016asynchronous, haarnoja2018soft)، شبكات عصبية عميقة كمقربات للدالة. لذلك، نستخدم التحويل الثنائي الخطي (§ [subsec:bilinear_transduction]) لمقربات الدالة للسياسة ودالة الجودة. في كل من مرحلتي التدريب والاختبار، نقوم بتحليل الحالة الحالية \(s\) إلى مرساة \(\tilde{s}\) وفارق \(\mathit{\Delta} s = s - \tilde{s}\)، حيث \(\tilde{s} \sim \mathcal{D}_{\text{env}}\). ثم تكون السياسة ودالة الجودة \[\label{eq:policy_qfunction} \begin{aligned} \bar{\pi}_{\boldsymbol{\theta}}(s) &= \boldsymbol{\varphi_{\boldsymbol{\theta},1}}(\mathit{\Delta} s) \cdot \boldsymbol{\varphi_{\boldsymbol{\theta},2}}(\tilde{s}), \hspace{12pt} \bar{Q}_{\boldsymbol{\phi}}(s,a) &= \boldsymbol{\varphi_{\boldsymbol{\phi},1}}(\mathit{\Delta} s, a) \cdot \boldsymbol{\varphi_{\boldsymbol{\phi},2}}(\tilde{s}, a). \end{aligned}\] يتم تدريب السياسة \(\pi(a|s)\) لتعظيم العائد المتوقع \(J(\pi)\)، ويتم تدريب دالة الجودة \(Q(s, a)\) لتقليل دالة الخسارة \(\mathcal{L}_{\text{Q}}\) المحددة في خوارزمية تعلم التعزيز دون اتصال الأساسية.

يمكن أن تؤدي تحليلات الحالة المختلفة إلى فضاءات إدخال تركيبية مختلفة، مما يؤدي إلى قدرات تعميم مختلفة. من أجل تلبية افتراضات التحويل الثنائي الخطي في § [subsec:bilinear_transduction]، النهج المثالي هو إيجاد التحليل الذي يلبي هذين المعيارين: مرساة داخل التوزيع وفارق داخل التوزيع. يتم توضيح هذه الحالة المثالية في الشكل [fig:anchor_delta]. ومع ذلك، على عكس الأعمال السابقة (transd_aviv2023, pinneri2023equivariant) التي تركز فقط على خاصية التحويل للحالة الهدف، نحاول التعامل مع كل حالة في كل خطوة، ومن غير العملي فرض هذه القيود باستخدام طرق القوة الغاشمة مثل مقارنة الحالات الحالية بجميع النقاط الأخرى. لذلك، نقدم سياسة جديدة للبحث عن المراسي داخل التوزيع والفروقات واستغلال نموذج الديناميكيات المتعلم الذي يمنع التحليل التعسفي، لاستغلال قوة التحويل الثنائي الخطي. نفرض أيضاً أن يكون كل فارق ضمن مسافة خطوات قليلة من نموذج الديناميكيات لتقييد توزيع الفروق في كل من مرحلتي التدريب والاختبار إلى نطاق مماثل. هذا النهج يقلل من فضاء الإدخال ويوجهه نحو الفضاء الذي تم استكشافه بشكل رئيسي خلال مرحلة التدريب، مما يعزز التعميم بشكل أكبر.

تعلم البحث عن التحليل داخل التوزيع

نصف نموذج الديناميكيات العكسية، مسار البحث عن النقطة المرجعية، والسياسة العكسية العشوائية المتباينة، والتي تعتبر مكونات ضرورية قبل تدريب سياسة البحث عن النقطة المرجعية.

[subsec:learning_to_seek]

مسار البحث عن المرساة

تدريب نموذج ديناميكيات العكس. بناءً على انتقال \((s, a, s')\) مأخوذ من مجموعة البيانات \(\mathcal{D}_{\text{env}}\)، نقوم بتدريب نموذج ديناميكيات الانتقال العكسي \(\widehat{T}_{r}(s|s', a)\) (romi_wang2021, lai2020bidirectional, goyal2018recall, edwards2018forward, holyoak1999bidirectional) للتنبؤ بالحالة \(s\) بناءً على الحالة التالية \(s'\) والفعل \(a\). بمعنى آخر، يتنبأ نموذج الديناميكيات العكسية \(T(s', a)\) بـ "من أي حالة \(s\) نأتي إذا وصلنا إلى \(s'\) بأخذ الفعل \(a\)؟". يتم ذلك من خلال تقليل دالة الخسارة مع الحالة \(s\) لمجموعة البيانات المحددة كما يلي \[\label{eq:reverse_dynamics_loss} \mathcal{L}_{\text{r}} = \mathbb{E}_{(s, a, s') \sim \mathcal{D}_{\text{env}}} \left[ \left\| \widehat{T}_{r}(s', a) - s \right\|_{2}^{2} \right].\]

سياسة عكسية عشوائية متباينة. لا نستخدم سياسة عكسية مدربة ولكن بدلاً من ذلك نستخدم سياسة عكسية ارتجالية تختار فعلاً عشوائياً من مجموعة البيانات \(\mathcal{D}_{\text{env}}\). الأفعال اللاحقة في التدحرجات العكسية، بعد الفعل الأول، تتبع نفس الاتجاه كالفعل الأول ولكنها تُخفض قليلاً مع إضافة ضوضاء غاوسية صغيرة. هذا يضمن أن التدحرج العكسي يبتعد عن مجموعة البيانات. نظراً لأننا نستخدم أفعالاً عشوائية ونحافظ على اتجاه ثابت طوال التدحرج العكسي، فمن المرجح أن نخوض في مناطق غير مستكشفة خارج مجموعة البيانات دون اتصال. باختصار، تعطي السياسة العكسية فعلاً \(a_{j}\) في كل خطوة تدحرج \(j\) كما يلي: \[a_j = \phi a + \epsilon_j, \ \ \ \text{حيث } \ a \sim \mathcal{D}_{\text{env}}, \epsilon_j \sim \mathcal{N}(0, \sigma^2), \quad j=1,2,\ldots, h.\] \(h\) هو طول الأفق، \(\phi\) هو معامل النطاق، و\(\sigma\) هو معامل الضوضاء. نحدد \(\phi=0.8\) و\(\sigma=0.1\) عندما يكون الحد الأقصى لقيمة الفعل هو 1.0.

مسار البحث عن المرساة. نستخدم تدحرجات نموذج العكس لصنع مسارات البحث عن المرساة لتدريب سياسة البحث عن المرساة. أولاً، نأخذ حالة مرساة من مجموعة البيانات ونولد انتقالاً عكسياً \(\mathcal{D}_{\text{reverse}}=\left\{\left(s_{i+1}, a_{i}, s_{i}, r_{i}\right)\right\}_{i=1}^{j}\) من حالة المرساة باستخدام نموذج الديناميكيات العكسية والسياسة العكسية العشوائية المتباينة. لاحظ أن اتجاه مسار البحث عن المرساة يكون عكسياً لذلك الانتقال العكسي، \(\mathcal{D}_{\text{reverse}}\). بهذه الطريقة، يمكننا توليد مسارات البحث عن المرساة بفعالية لتدريب سياسة البحث عن المرساة. استخدام تدحرجات نموذج العكس لمعالجة مشكلة البيانات خارج التوزيع تم اقتراحه لأول مرة بواسطة (romi_wang2021)، الذين يعززون مجموعة البيانات دون اتصال بالانتقال العكسي، يدربون سياسة باستخدام هذه المجموعة المعززة من البيانات، ويظهرون فعالية مثل هذا النهج في إعداد التعلم بالتعزيز دون اتصال. وأخيراً، يتم تلخيص تفاصيل توليد مسار البحث عن المرساة في الخوارزمية [algorithm:generate_anchor_seeking_trajactory].

تدريب سياسة البحث عن المرساة المدركة للديناميكيات

نقوم بتدريب سياسة البحث عن المرساة \(\tilde{\pi}(a|s)\) قبل تدريب السياسة الرئيسية. نستخدم مسارات البحث عن المرساة في § [subsec:anchor_seeking_trajectory]، والتي تكون في الاتجاه المعاكس لمجموعة البيانات \(D_{\text{reverse}}\). من خلال اتباع مسار البحث عن المرساة، يتم تدريب سياسة البحث عن المرساة لاختيار الأفعال \(\eta\) التي توجه العامل في اتجاه يتحرك من الحدود الخارجية نحو المنطقة المرئية. بما أن المسار المتدحرج للبحث عن المرساة يتم إنشاؤه بواسطة سياسة البحث عن المرساة \(\tilde{\pi}(a|s)\) ونموذج الديناميكيات \(\widehat{T}(s, a)\)، فإن الانتقال العكسي \(D_{\text{reverse}}\) يعتمد على \(\widehat{T}_r(s, r|s', a)\). نظراً لأن الانتقال العكسي صُمم لينحرف عن مجموعة البيانات دون اتصال بالإنترنت، فإن مسار البحث عن المرساة، باتجاهه المعكوس، يضمن أن الانتقال يتقارب مرة أخرى مع مجموعة البيانات من الحالات غير المألوفة. نتيجة لذلك، نقوم بتدريب سياسة البحث عن المرساة لتقليل خسارة متوسط الخطأ المربع بين الفعل المتوقع والفعل في مجموعة البيانات \(D_{\text{reverse}}\). تعرف دالة الخسارة كما يلي: \[\mathcal{L}_{\text{anchor}}(\theta) = \mathbb{E}_{\substack{\scriptscriptstyle (s', a, s) \sim \mathcal{D}_{\text{reverse}}, \scriptscriptstyle \eta \sim \tilde{\pi}_{\theta}(a|s)}} \left[ (\eta - a)^2 \right].\] بهذه الطريقة، يمكن لسياسة البحث عن المرساة \(\tilde{\pi}(a|s)\) أن توفر فعلاً مناسباً للتحرك نحو مرساة داخل التوزيع. يُعطى هذا الفعل لنموذج الديناميكيات \(\widehat{T}(s, a)\) للتنبؤ بالحالة التالية. وبالتالي، كما هو موضح، يكون المسار المتدحرج للبحث عن المرساة سلسلة من الانتقالات التي تبدأ من الحالة الحالية \(s\) وتنتهي عند حالة المرساة \(\tilde{s}\).

مُلَخَّص الطريقة

نوضح دمج نموذج البحث عن المرساة في إطار التحويل الثنائي الخطي. نختار خوارزمية الناقد-الممثل اللين (Soft Actor-Critic (SAC)) (haarnoja2018soft) كخوارزمية تعلم تعزيز تمثيلية تستخدم مقاربات الدالة. نستخدم التحويل الثنائي الخطي المعزز بالبحث عن المرساة لشبكات الناقد والممثل في SAC.

بالنظر إلى حالة الإدخال \(s_n\)، نستخدم البحث للحصول على إجراء من سياسة البحث عن المرساة. يتم استنتاج المرساة \(\tilde{s}\) بهذا الإجراء من خلال خطوة الديناميكيات الأمامية ثم يتم تحديثها لتكون الحالة التالية \(s_{n+1}\). بعد عدة محاولات من البحث، يمكننا تحديد المرساة النهائية واستخدامها لتحليل الحالة إلى المرساة والفارق. يتم حساب الفارق بين الحالة الأولية \(s_n\) وهذه المرساة \(\tilde{s}\)، الفارق، كما يلي: \(\Delta s = \tilde{s} - s_{n}\).

ثم نقوم بتنفيذ التحويل الثنائي الخطي كما هو موضح في المعادلة ([eq:bilinear_representation]). نقوم بتضمين \(\Delta s\) و \(\tilde{s}\) على التوالي كـ \(\boldsymbol{\varphi_1}(\Delta s)\) و \(\boldsymbol{\varphi_2}(\tilde{s})\)، ونحسب الجداء الداخلي بينهما. ثم يتم إدخال الناتج في طبقة MLP صغيرة لزيادة مرونة مقرب الدالة. هذه الخطوة تقدم لاخطية، حيث قد لا تكون السياسة أو دالة Q خطية لمدخلاتها.

يلخص الخوارزم ([algorithm:bilinear_transduction_with_anchor_seeking]) العملية بأكملها في وحدة الممثل. في وحدة الناقد، نقوم بدمج الإجراء مع كل من المرساة والفارق في العملية الأمامية قبل تنفيذ التحويل الثنائي الخطي. بعد ذلك، يتم استخدام قيم الإجراء وقيمة Q، المشتقة كـ \(\bar{f}_\text{actor}\) و \(\bar{f}_\text{critic}\) على التوالي، لتحديث شبكات الناقد والممثل في سياسة SAC.

التجارب

في تجاربنا، نهدف إلى الإجابة التجريبية على السؤالين التاليين: (i) ما مقدار تحسين أداء الخوارزميات السابقة الخالية من النموذج والمبنية على النموذج بواسطة طريقتنا؟ و (ii) ما هو تأثير البحث عن النقاط المرجعية على الأداء؟

نتائج مهام معيار D4RL

نقوم بتقييم طريقتنا على مهام Gym-MuJoCo في معيار D4RL (d4rl_fu2020)، والذي يتكون من 12 مهمة من بيئات OpenAI Gym (gym_brockman2016) و MuJoCo (mujoco_todorov2012). يرجى الرجوع إلى  [appendix:d4rl_benchmark_tasks] للتفاصيل حول المهام.

الخطوط الأساسية. نطبق COCOA على عدة خوارزميات تعلم تعزيز دون اتصال سابقة، سواء كانت تعتمد على النماذج أو لا تعتمد عليها. تشمل هذه (i) CQL (cql_kumar2020) التي تفرض عقوبات على قيم Q على العينات خارج التوزيع للأمان، (ii) IQL (iql_kostrikov2022) التي تستفيد من قدرة التعميم لمقرب الدالة من خلال النظر إلى دالة قيمة الحالة كمتغير عشوائي، (iii) MOPO (mopo_yu2020) كنهج يعتمد على النموذج يفرض عقوبات على المكافآت بناءً على الشكوك من التنبؤ بالحالات اللاحقة، و (iv) MOBILE (mobile_sun2023) التي تقيس الشكوك من خلال عدم الاتساق في تقدير بيلمان باستخدام مجموعة من نماذج الديناميكيات. نقوم أيضاً بتقديم نتائج (v) تقليد السلوك (Behavior Cloning)، والذي يتعلم المهام من خلال تقليد بيانات الخبراء. لتحقيق استقرار التدريب، يتم إعادة إنتاج جميع خوارزميات الخط الأساسي مع تطبيق تطبيع الطبقة.

النتائج. الجدول [tab:d4rl_benchmark] يلخص نتائج تجاربنا. تشير خوارزميات الخط الأساسي بـ "منفردة"، وتشير طريقتنا بـ "+COCOA". نقدم متوسط العائد لآخر 10 فترات تدريب عبر 4 بذور، مع الانحراف المعياري. لجميع الخوارزميات، نقوم بإعادة إنتاج النتائج باستخدام قاعدة الكود الموصوفة في الملحق [appendix:codebase]. تعزز طريقتنا أداء جميع خوارزميات الخط الأساسي، كما يتم قياسه بالتحسين المتوسط عبر المهام باستثناء المهام العشوائية لـ IQL كما يفعل الورق الأصلي لـ IQL. باختصار، تحسن COCOA أداء الطرق الأصلية في 10 من 12 مهمة لـ CQL، 3 من 9 مهام لـ IQL، 7 من 12 مهمة لـ MOPO، و 9 من 12 مهمة لـ MOBILE.

دراسة الاستئصال: تأثير البحث عن المرساة

لفحص تأثير اختيار المرساة على الأداء، نجري تجربة باستخدام نسخة من طريقتنا لا تستخدم البحث عن المرساة. لهذه الدراسة الاستئصالية، نستخدم خوارزمية الاستعلام المستمر (CQL) (cql_kumar2020) كخوارزمية أساسية بسبب كفاءتها الحسابية كخوارزمية خالية من النموذج واكتمالها في دعم جميع أنواع المهام، بما في ذلك المهام "العشوائية".

المعيار الأساسي. المعيار الأساسي لهذه الدراسة الاستئصالية مشار إليه بـ "+COCOA (بدون A.S.)" في الجدول [tab:ablation_study_anchor_seeking]. في هذا المعيار الأساسي، نتبنى إجراء اختيار المرساة الاستدلالي من transd_aviv2023، مع إدخال تعديلات رئيسية لسياقنا. على عكس الطريقة الأصلية، التي تختار المراسي بناءً على حالات الهدف، يختار معيارنا الأساسي المراسي بناءً على الحالة الحالية، معالجاً غياب حالة الهدف في إعدادنا. للتخفيف من المتطلبات الحسابية لهذه الطريقة، نحد اختيارنا إلى مجموعة فرعية من المرشحين للمراسي، يتم أخذ عينات منها عشوائياً من مجموعة البيانات.

يعمل اختيار المرساة الاستدلالي كما يلي. نقوم في البداية بسحب \(N\) مرشحين للمراسي \(s_{i}\) من مجموعة البيانات ونحسب الفارق \(\mathit{\Delta} s\) بين المرشحين والحالة الحالية، المعرفة بـ \[\mathit{\Delta} s_{n} = s - s_{n}, \quad n \in \{1, \ldots, N\}, \quad s_{n} \in D_{\text{env}}. \label{eq:eq7}\] بعد ذلك، نقيم كل فارق زوجي بين \(N\) حالة أخرى مأخوذة عينات منها من \(D_{\text{env}}\) كما يلي \[\mathit{\Delta} s_{i,j} = s_{i} - s_{j}, \quad i, j \in \{1, \ldots, N\}, \quad i \neq j, \quad s_{i}, s_{j} \in D_{\text{env}}. \label{eq:eq8}\] أخيراً، نختار المرساة المرشحة التي تقلل المسافة إلى الحالة الحالية: \[\tilde{s} = s_{\tilde{n}}, \quad \text{with} \quad \tilde{n} = \underset{n}{\arg\min} \left\{ \underset{i,j}{\min} \left\| \mathit{\Delta} s_{n} - \mathit{\Delta} s_{i,j} \right\| \right\}. \label{eq:eq9}\]

يفرض هذا المعيار الأساسي نتائج تحليل الحالة لتكون قريبة من بيانات التوزيع من خلال حساب المسافة المباشرة. بينما يمكن أن تكون فعالة وقابلة للتطبيق إذا كانت مجموعة البيانات صغيرة و\(N\) كبير بما فيه الكفاية، فإن قابليتها للتوسع محدودة حيث تتزايد كمية الحساب المطلوبة تربيعياً مع حجم البيانات. نظراً لأن تكلفة الحساب تتصاعد تكعيبياً مع حجم العينة، نضع \(N\) عند 30، مطابقين ميزانيتنا الحسابية مع "+COCOA".

النتائج. نفحص ما إذا كانت هذه النسخة تحسن أداء CQL. تلخص النتائج في الجدول [tab:ablation_study_anchor_seeking]. نقوم بالإبلاغ عن العائد المتوسط لآخر 10 فترات تدريب عبر 4 بذور، مع الانحراف المعياري. يحقق المعيار الأساسي "+COCOA (بدون A.S.)" أداء أعلى في مهمتين فقط، "hopper-random" و "walker2d-random"، وأداء مماثل أو أقل في المهام الأخرى مقارنة بالمعيار الأساسي الأصلي "Alone". في المقابل، تحسن طريقتنا "+COCOA" أداء نماذج CQL في 10 من أصل 12 مهمة. تشير هذه النتيجة إلى أن البحث عن المرساة هو مكون حاسم لنجاح طريقتنا.

الأعمال ذات الصلة

التعلم المعزز دون اتصال. في التعلم المعزز دون اتصال، يستخدم العوامل مجموعة بيانات محددة مسبقاً دون تفاعلات إضافية مع البيئة، وعادة ما يتبعون إما الاستراتيجية المعتمدة على النموذج أو الاستراتيجية المستقلة عن النموذج. تعمل خوارزميات التعلم المعزز المستقلة عن النموذج (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019) على تحسين السياسة مباشرة باستخدام التجارب السابقة في ذاكرة الإعادة، مع تطبيق التحفظ على دالة القيمة أو السياسة. في المقابل، تستخدم طرق التعلم المعزز دون اتصال المعتمدة على النموذج (mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020) نموذجاً مدرباً في البيئة لإنشاء بيانات إضافية تستخدم لتعلم السياسة. من خلال هذه البيانات المركبة، تصبح هذه الطريقة أقوى في التعميم وأكثر متانة حتى في الحالات غير المرئية.

التعميم خارج التوزيع في التعلم المعزز دون اتصال. تم إجراء العديد من الدراسات لتحسين التعميم خارج التوزيع لخوارزميات التعلم المعزز دون اتصال. يتناول (plas_lou2022) مشكلة تحول توزيع الأفعال من خلال تقديم نهج قائم على المعلومات المتبادلة لتعلم نموذج تضمين الأفعال. في مسعى مماثل، يقترح (merlion_gu2022) طريقة تعلم تمثيل الأفعال الزائفة التي تقيس العلاقات السلوكية والتوزيعية بين الأفعال. يطور (pbrl_bai2022) طريقة مدفوعة بالشكوك تستخدم الاختلاف في وظائف Q المعززة. يزيد من مجموعة البيانات ببيانات خارج التوزيع التي يفرض عليها عقوبة أكثر دقة. يقترح (mocoda_pitis2022) تحليلاً محلياً لديناميكيات الانتقال وتوسيع الحالة لتحسين التعميم لخوارزميات التعلم المعزز دون اتصال. كما يقدمون براهين نظرية لتعقيد العينة وقدرة التعميم. تشابه طريقتنا طريقتهم في أننا نستخدم أيضاً الهندسة المعمارية المحللة للسياسة ووظيفة Q. ومع ذلك، على عكسهم، لا نستخدم نموذج ديناميكيات محلل وبدلاً من ذلك نستفيد من إطار عمل التحويل الثنائي الخطي.

التعميم التركيبي والاستقراء. يتم استكشاف التعميم التركيبي، الذي يسعى للتعميم على تركيبات غير مرئية من المكونات، من خلال دراسات مختلفة. يسلط (compositional_wiedemer2023) الضوء على إجراء توليدي من خطوتين كأساس لمعالجة مجموعة واسعة من المشكلات التركيبية. يتضمن هذا الإجراء توليداً معقداً للمكونات الفردية ودمجها ببساطة في مخرج واحد. يقدمون مجموعة من الشروط الكافية التي يمكن من خلالها للنماذج المدربة على البيانات أن تعمم بشكل تركيبي. في ملاحظة ذات صلة، يقدم (sample_shah2020) خوارزمية تعلم معزز فعالة من حيث العينات تستغل البنية منخفضة الرتبة لوظيفة Q المثلى، وهي دالة ثنائية خطية للحالات والأفعال. يثبتون تحسيناً كمياً في تعقيد العينة للتعلم المعزز مع فضاءات حالة وفعل مستمرة عبر البنية منخفضة الرتبة. يستكشف (first_dong2023) استقراء النماذج غير الخطية لتحول المجال المنظم. يثبتون أن عائلة معينة من النماذج غير الخطية يمكن أن تستقرئ بنجاح إلى توزيعات غير مرئية، شريطة أن تكون تغطية الميزات جيدة الشروط. يقترح (transd_aviv2023) استراتيجية استقراء تعتمد على التضمينات الثنائية الخطية لتمكين التعميم التركيبي، مما يعالج مشكلة خارج الدعم تحت شروط معينة.

الخلاصة

لقد استكشفنا منظوراً جديداً للتحفظ في التعلم المعزز خارج الخط لا يعتمد على مساحة سلوك العامل ولكن على مساحة الإدخال التركيبية للسياسة ووظيفة الجودة. اقترحنا إطار عمل عملياً، COCOA، لإيجاد تحليل أفضل للحالات لتشجيع هذا التحفظ. COCOA هو نهج بسيط ولكنه فعال يمكن تطبيقه على أي خوارزمية تعلم معزز خارج الخط تستخدم مقرب دالة. وجدنا من خلال تجاربنا عبر مهام متنوعة في بيئة Gym-MuJoCo لمعيار D4RL أن طريقتنا عموماً عززت أداء خوارزميات التعلم المعزز خارج الخط.

بما أن دراستنا تركز بشكل أساسي على الاستكشاف التجريبي، قد يكون من الضروري إجراء مزيد من التحقيق لفهم أكثر شمولاً للآلية وراء تحسين الأداء أو خصائص مساحة الإدخال التركيبية. علاوة على ذلك، نظراً لأن تجاربنا كانت محدودة ببيئات الروبوتات التي تعتمد على التحكم مع مساحات حالة وفعل مستمرة، يمكن أن يكون توسيع نطاق عملنا لتطبيق إطار عمل التحفظ التركيبي على مجالات أخرى، بما في ذلك البيئات ذات المساحات الفعلية المنفصلة، أو الملاحظات المبنية على الصور، أو الديناميكيات المعقدة للغاية، امتداداً قيماً لهذا العمل.

الشكر والتقدير

نشكر جايكيوم كيم، سوتشان لي، سيوهونغ بارك، أفيف نتنياهو، والمراجعين المجهولين على مناقشاتهم القيمة وتعليقاتهم. لقد تم دعم هذا العمل من قبل معهد تخطيط وتقييم تكنولوجيا المعلومات والاتصالات (IITP) بتمويل من الحكومة الكورية (MSIT) (No. 2019-0-01082, SW StarLab), معهد تخطيط وتقييم تكنولوجيا المعلومات والاتصالات (IITP) بتمويل من الحكومة الكورية (MSIT) (No. 2022-0-00156, البحث الأساسي في التعلم المستمر لتحسين جودة الفيديوهات العرضية وتحويلها إلى ميتافيرس ثلاثي الأبعاد), معهد تخطيط وتقييم تكنولوجيا المعلومات والاتصالات (IITP) بتمويل من الحكومة الكورية (MSIT) [NO.2021-0-01343, برنامج الدراسات العليا في الذكاء الاصطناعي (جامعة سيول الوطنية)], ومنحة مركز البحوث التطبيقية في الذكاء الاصطناعي (CARAI) بتمويل من إدارة برنامج الاقتناء الدفاعي (DAPA) ووكالة تطوير الدفاع (ADD) (UD190031RD). جونهي كيم هو المؤلف المراسل.

بيان القابلية للتكرار

لضمان القابلية للتكرار، نوفر شفرة طريقتنا على https://github.com/runamu/compositional-conservatism. للحصول على قاعدة الشفرات لخوارزميات الأساس، يرجى الرجوع إلى الملحق [appendix:codebase]. يتم وصف المعلمات الفائقة وهيكلية النموذج في الملحق [appendix:hyperparameters] والملحق [appendix:model_architecture]، على التوالي.

إعدادات التجربة وتفاصيل التنفيذ

مهام معيار D4RL

نصف الفهد: نصف الفهد هو روبوت ثنائي الأبعاد ثنائي الأرجل مكون من 8 وصلات صلبة، تشمل الساقين والجذع، مقترنة بـ 6 مفاصل محركة. فضاء الحالة ذو 17 بعداً، يشمل زوايا المفاصل والسرعات. يقوم خصم بزعزعة استقراره من خلال ممارسة فعل ذو 6 أبعاد مع قوى ثنائية الأبعاد على الجذع وكل قدم.

القافز: القافز هو روبوت أحادي القدم مسطح، مكون من 4 وصلات صلبة تمثل الجذع، الساق العلوية، الساق السفلية، والقدم، ويشمل 3 مفاصل محركة. لديه فضاء حالة ذو 11 بعداً، يتضمن زوايا المفاصل والسرعات. يستخدم خصم قوة ثنائية الأبعاد على القدم لتعطيل استقراره.

المشاة ثنائي الأبعاد: يعمل المشاة كروبوت ثنائي الأبعاد ثنائي الأرجل بتركيبة من 7 وصلات، تمثل الساقين والجذع، إلى جانب 6 مفاصل محركة. ضمن فضاء حالته الذي يبلغ 17 بعداً، تتضمن زوايا المفاصل والسرعات. يستخدم خصم فعلاً ذو 4 أبعاد مع قوى ثنائية الأبعاد على كلا القدمين لزعزعة توازنه.

المهارة: المهارة هي مهمة معقدة حيث يستخدم يد روبوتية محاكاة بـ 24 درجة حرية لمهام مثل دق مسمار، فتح باب، تدوير قلم، أو تحريك كرة. نستخدم نوعين من مجموعات البيانات لهذا: مجموعة البيانات "البشرية"، التي تشمل 25 مساراً توضيحياً بشرياً، ومجموعة البيانات "المستنسخة"، وهي مزيج متساوٍ من بيانات التوضيح والسلوك المستنسخ من سياسة التوضيح.

NeoRL(qin2022neorl): NeoRL هو معيار مصمم ليعكس الظروف الواقعية من خلال جمع مجموعات البيانات باستخدام سياسة أكثر حذراً، متماشية بشكل وثيق مع طرق جمع البيانات الواقعية. ندرة وتحديد البيانات يشكل تحدياً كبيراً لخوارزميات التعلم الآلي خارج الخط. تدرس أبحاثنا تسع مجموعات بيانات، تشمل ثلاث بيئات مختلفة (HalfCheetah-v3, Hopper-v3, Walker2d-v3) وثلاث مستويات من جودة البيانات (L, M, H)، تشير إلى جودة منخفضة، متوسطة، وعالية، على التوالي. بشكل لافت، يقدم NeoRL كميات متفاوتة من مسارات البيانات التدريبية (100, 1000, 10000) لكل بيئة. لتجاربنا، اخترنا بشكل موحد 1000 مسار.

هندسة النموذج

هندسة نموذج الديناميكيات: كما في الأعمال السابقة، استخدمنا شبكة عصبية كأساس لنموذج الديناميكيات لدينا، والذي يخرج توزيعاً غاوسياً للحالة التالية والمكافأة. من خلال تجميع هذه الشبكات، حققنا استقراراً أكبر وأداء محسناً. من تجميع سبعة، اخترنا أفضل خمسة نماذج بناءً على خطأ التحقق. يتألف العمود الفقري لنموذج الديناميكيات من أربع طبقات، كل منها ببعد مخفي يبلغ 200.

هندسة الممثل والناقد: يتألف إطار عمل الممثل والناقد مثل SAC (haarnoja2018soft) من وحدات الممثل والناقد. عادة ما يمتلك الممثل عموداً فقرياً مكوناً من شبكة عصبية. يتم نقل الخصائص المضمنة داخل هذا العمود الفقري من خلال طبقة أخيرة تخرج توزيعاً غاوسياً، مما يؤدي إلى نتيجة غير حتمية. على الرغم من أن MOPO، MOBILE، CQL، و IQL (mopo_yu2020, mobile_sun2023, iql_kostrikov2022, cql_kumar2020)، تستخدم تقليدياً 2، 2، 3، و 2 طبقات عمود فقري ببعد 256 على التوالي، عند دمج COCOA، قمنا بتوحيد استخدام طبقتين عمود فقري ببعد مخفي يبلغ 100.

هندسة سياسة البحث عن المرساة: تعمل سياسة البحث عن المرساة كوحدة إضافية مشتركة بين الممثل والناقد. يتم تضمين البيانات المدخلة، المكونة من الدلتا والمرساة، من خلال شبكة عصبية ومن ثم تتم معالجتها بواسطة هندسة ثنائية الخط. في البداية، يتم تضمين المدخلات إلى بعد 4 مع شبكتين عصبيتين ب64 قناة، وتنتج الهندسة الثنائية الخطية ناتجاً ببعد 64 باستخدام تلك الخصائص المضمنة. ثم يتم تمرير نواتج الهندسة الثنائية الخطية من خلال هندسات العمود الفقري للممثل والناقد، مما يؤدي إلى تحديد الفعل وقيمة Q على التوالي.

حجم المعلمة: تم بناء سياسة البحث عن المرساة على شبكة عصبية مدمجة. بالنسبة للخوارزميات المبنية على النموذج مثل MOPO و MOBILE، يبلغ حجم معلمة الديناميكيات حوالي 1.9M، مماثل لذلك في COCOA. ومع ذلك، فإن حجم المعلمة اللازم لتدريب الممثل والناقد لـ MOPO و MOBILE يعادل 0.21M. ومع ذلك، عند إضافة COCOA إلى هذه الخوارزميات، ينخفض حجم المعلمة إلى 0.19M. نظراً للحجم الكبير لمعلمات الديناميكيات، فإن متطلبات المعلمة الإجمالية للتدريب عبر خوارزميات النموذج المضافة إلى COCOA تظل ثابتة عند 2.2M. في المقابل، IQL+COCOA و CQL+COCOA، التي تعمل بدون نموذج ديناميكيات، لكل منها حجم معلمة يبلغ 2.0M.

تنفيذ الشيفرة

تم تصميم طريقتنا كتحسين إضافي لخوارزميات التعلم المعزز دون اتصال القائمة. ونتيجة لذلك، بدلاً من تطوير تنفيذ جديد، قمنا بتكييف قواعد الشيفرات الأساسية المعمول بها. لضمان تكييف الشيفرة بشكل متسق وموثوق، اعتمدنا على (offinerlkit) كأساس لجميع الخوارزميات الأساسية، بما في ذلك (cql_kumar2020)، (iql_kostrikov2022)، (mopo_yu2020) و (mobile_sun2023). يدعم موثوقية هذه القاعدة الشيفرية بسجلات تدريب مفصلة ونتائج تتماشى مع تلك الموجودة في الأوراق الأصلية. بالإضافة إلى ذلك، يقدم (offinerlkit) نتائج لمجموعات بيانات Gym-MuJoCo-v2 التي لم تكن موجودة في أوراق CQL وMOPO الأصلية، مما يلبي احتياجاتنا. لاحظ أن أحد مؤلفي MOBILE (mobile_sun2023) يوفر هذه القاعدة الشيفرية. تم مشاركة تكييفاتنا للشيفرة كعرض توضيحي في المواد التكميلية.

المعلمات الفائقة لكل خوارزمية

CQL. لكل من CQL و CQL+COCOA، نستخدم \(\alpha=5.0\) لجميع مهام D4RL-Gym لأن قاعدة الكود المستنسخة (offinerlkit) التي توفر النتائج لمهام MuJoCo-v2، والتي لم تدرج في الورقة الأصلية (cql_kumar2020)، تستخدم هذه القيمة. بالنسبة لـ COCOA، تم تحديد طول أفق البحث عن المرساة \(h\) إلى 1 لمعظم المهام، باستثناء “halfcheetah-medium-expert-v2”، “hopper-medium-expert-v2”، و“walker2d-medium-expert-v2”، حيث تم تحديد \(h\) إلى 3.

IQL. لكل من IQL، نستخدم نفس المعلمات الفائقة الموصوفة في الورقة الأصلية (iql_kostrikov2022\(\tau=0.7\) و \(\beta=3.0\)، والتي تستخدم أيضاً في قاعدة الكود المستنسخة (offinerlkit). بالنسبة لـ IQL+COCOA، استخدمنا \(\tau=0.6\) و \(\beta=3.0\). بالنسبة لـ COCOA، حددنا طول أفق البحث عن المرساة \(h\) إلى 1 لجميع المهام. لقد أعدنا إنتاج القيمة العشوائية لـ halfcheetah، hopper، walker2d، والتي هي 6.62 إلى 6، 8.1 إلى 7، 6.1 إلى 6.5 على التوالي.

MOPO. لـ MOPO، نستخدم المعلمات الفائقة المستخدمة في قاعدة الكود المستنسخة (offinerlkit)، والتي توفر النتائج لمهام MuJoCo-v2 غير المدرجة في الورقة الأصلية (mopo_yu2020). كما في الورقة الأصلية، نستخدم عدم اليقين العشوائي لـ MOPO و MOPO+COCOA. بالنسبة لـ MOPO+COCOA، بحثنا عن أفضل معامل العقوبة \(\lambda\) وطول التدحرج \(h_r\) لكل مهمة في النطاقات التالية: \(\lambda \in \{0.1, 0.5, 1.0, 5.0, 10.0\}\)، \(h_r \in \{1, 5, 7, 10\}\) باستثناء حالة halfcheetah-medium-expert. تم وصف أفضل المعلمات الفائقة في الجدول [tab:mopo_mobile_hyperparameters]. بالنسبة لـ COCOA، حددنا طول أفق البحث عن المرساة \(h\) إلى 1 لجميع المهام.

MOBILE. نستخدم نفس المعلمات الفائقة الموصوفة في الورقة الأصلية (mobile_sun2023) لـ MOBILE. بالنسبة لـ MOBILE+COCOA، بحثنا عن أفضل معامل العقوبة \(\lambda\) وطول التدحرج \(h_r\) لكل مهمة في النطاقات التالية: \(\lambda \in \{0.1, 1.0, 1.5, 2.0\}\)، \(h_r \in \{1, 5, 10\}\) باستثناء حالة walker-medium-replay. تم وصف أفضل المعلمات الفائقة في الجدول [tab:mopo_mobile_hyperparameters]. بالنسبة لـ COCOA، حددنا طول أفق البحث عن المرساة \(h\) إلى 1 لجميع المهام. بالإضافة إلى ذلك، بعد التحقق من التقارب، قصرنا تدريبنا على أقصى 2000 عصر وحصلنا على النتائج من هذا النطاق الزمني المحدد.

نتائج تجريبية إضافية

لقد قمنا بتجربة معيارين إضافيين - D4RL Adroit و NeoRL. تم تلخيص نتائج هذه التجارب في الجدول [tab:adroit] و [tab:neorl]. تكشف هذه التحليلات الأوسع أن COCOA يعزز أداء IQL و MOBILE في معظم المهام. تم إجراء جميع التجارب على المعايير الإضافية دون تطبيق تطبيع الطبقات للسماح بالمقارنة المباشرة مع الأداء المبلغ عنه في أوراقهم الأصلية.

أظهرت طريقتنا تحسينات متسقة في الأداء عبر ست مهام D4RL Adroit التي اختبرناها، مما يظهر قوتها وقابليتها للتكيف. بينما واجهت COCOA تحديات في المهام المعقدة مثل الباب والمطرقة، مشابهة لخوارزميتها الأصلية، يعكس هذا صعوبة هذه المهام بسبب المكافآت المتفرقة. بشكل ملحوظ، في مهام مثل القلم، حققت طريقتنا تحسينات ملحوظة في الأداء.

في Adroit، يقتصر عصر التدريب على 200 كما وصف في (mobile_sun2023). بالإضافة إلى ذلك، استخدمنا نفس المعلمات الفائقة لـ MOBILE+COCOA على Adroit كما وصف في الورقة. تم وصف المعلمات الفائقة لـ Adroit و NeoRL في الجدول [tab:combined].

مقارنة مع خوارزمية COMBO

تظهر CQL+COCOA وCOMBO بعض التشابهات، لا سيما في استخدامهما للديناميكيات ونهج أقل تحفظاً تجاه فضاء الحالة-الفعل. ومع ذلك، تختلف منهجياتهما في متابعة التحفظ بشكل كبير: تركز COCOA على التحفظ في فضاء الإدخال التركيبي، بينما يؤكد COMBO على تنظيم القيم للأفعال غير المألوفة. وبالتالي، COCOA وCOMBO متعامدان، وسيكون من المفيد مقارنة دمج COCOA مع COMBO، حيث يمكن أن تكون COCOA إضافة إلى أي خوارزمية.

مماثلة لـCOMBO، تظهر الطرق المبنية على MBPO مثل MOPO وRAMBO أيضاً ميلاً للتفوق على الطرق الخالية من النماذج في الإعدادات العشوائية والمتوسطة. يبدو أن توسيع البيانات من خلال MBPO مفيد بشكل خاص في هذه المهام. سيكون من المثير للاهتمام مقارنة الدوال القيمية المحددة للحالة نظرياً أو تجريبياً بين CQL، CQL+COCOA، وCOMBO لمزيد من التحليل.

النتائج التفصيلية

width=0.4

معلمات التحكم الخاصة بـ MOBILE+COCOA لمعيار Adroit و MOPO+COCOA لمعيار NeoRL.
المهمة \(\lambda\) \(h_r\)
door-cloned-v1 0.5 7
door-human-v1 3 3
hammer-cloned-v1 3 1
hammer-human-v1 5 1
pen-cloned-v1 0.5 1
pen-human-v1 10 1
HalfCheetah-v3-low 0.5 5
Hopper-v3-low 2.5 5
Walker2d-v3-low 2.5 1
HalfCheetah-v3-medium 0.5 5
Hopper-v3-medium 1.5 5
Walker2d-v3-medium 2.5 1
HalfCheetah-v3-high 1.5 5
Hopper-v3-high 2.5 5
Walker2d-v3-high 2.5 1

التحليل النظري

في هذا القسم، نوضح ببساطة كيف يمكن تقريب المتنبئ التحويلي الخاص بنا في عملية ثنائية الخطية باستخدام نظرية ستون-فايرشتراس.

[thm:stone_weierstrass_lch] لنفترض أن \( X \) هو فضاء هاوسدورف مضغوط محلياً وأن \( A \) هو جبر فرعي من \( C_0(X, \mathbb{R}) \). إذا \( A \) كثيف في \( C_0(X, \mathbb{R}) \) بالنسبة لتوبولوجيا التقارب الموحد إذا وفقط إذا كان يفصل النقاط ولا يختفي في أي مكان.

لتكن \(\mathcal{X}\) و \(\mathcal{Y}\) فضاءات هاوسدورف مضغوطة محلياً (LCH). بالإضافة إلى ذلك، لتكن \(\mathcal{F} \subset C(\mathcal{X}; \mathbb{R})\) و \(\mathcal{G} \subset C(\mathcal{Y}; \mathbb{R})\) فضاءات فرعية متجهية كثيفة في توبولوجيا التقارب الموحد على الكومباكتا. ثم تخبرنا النظرية [thm:stone_weierstrass_lch] أن \[\left\{ \sum_{k=1}^{d} f_k(x)g_k(y) \, \middle|\, f_1, \ldots, f_k \in \mathcal{F}, g_1, \ldots, g_k \in \mathcal{G}, d \in \mathbb{N} \right\} \subseteq C(\mathcal{X} \times \mathcal{Y}; \mathbb{R})\] ، والذي يشكل جبراً، كثيف في توبولوجيا التقارب الموحد على الكومباكتا. بعبارة أخرى، إذا كان لدينا تضمين مشترك \(f_\theta \colon \mathcal{X} \to \mathbb{R}^d\) و \(g_\phi \colon \mathcal{Y} \to \mathbb{R}^d\)، فإن \(h_{\theta,\phi}(x, y) = f_\theta(x) \cdot g_\phi(y)\) هو مقرب عالمي، بحيث أن \((d, width) \to (\infty, \infty)\) و \(f_\theta(x)\)، \(g_\phi(y)\) لهما عمق \(\geq 2\). نظراً لأننا نستخدم شبكة معلمة لتقريب المتنبئ التحويلي ومساحة الإدخال لدينا \((s, a)\) هي جزء من \(\mathbb{R}^m \times \mathbb{R}^n\)، حيث \(m\) و \(n\) تشير إلى أبعادهما على التوالي، \(\boldsymbol{\varphi_{\boldsymbol{\theta},1}}\) و \(\boldsymbol{\varphi_{\boldsymbol{\theta},2}}\) والتي تم وصفها في القسم [subsec:offline_rl_bilinear_transduction]، يمكن أن تتوافق مع \(f_\theta\) و \(g_\phi\)، على التوالي.

رسوم بيانية لأداء مهام معيار D4RL

في هذا القسم، نقدم الرسوم البيانية لأداء كل خوارزمية على مهام معيار D4RL. نحن نشمل فقط 9 المهام التي ليست مهام "عشوائية" لأن نقاط التحقق من الطرق الأساسية للمهام "العشوائية" لم تقدم.