مُلَخَّص
التعلم التعزيزي دون اتصال هو إطار عمل جذاب يهدف إلى تعلم السياسات المثلى من البيانات السابقة فقط، دون أي تفاعل إضافي مع البيئة. ومع ذلك، يعاني هذا الإطار بطبيعته من مشكلة التحوّلات التوزيعية؛ فقد تختلف الحالات والأفعال التي تواجهها السياسة الجديدة عن تلك المشمولة في بيانات التدريب. غالباً ما يُعالج ذلك بإدخال تحفّظ على مستوى السياسة أو دالة القيمة للحد من المخاطر والشكوك. في هذا العمل، نتبنّى وجهة نظر مختلفة لتحقيق نفس أهداف التحفّظ. نُقدّم ما نسميه «التحفّظ التركيبي مع البحث عن المرساة» (COCOA) للتعلم التعزيزي دون اتصال، وهو نهج يُطبّق فكرة إعادة المعايرة التوصيلية (transd_aviv2023) بطريقة تركيبية. في هذا الإطار، نحلّل الحالة (وهي المتغير الداخلي) إلى مكوّنين: المرساة والفارق («الدلتا») عنها. يفرض التحفّظ التركيبي كلاً من مكوّنات المرساة والفوارق ضمن مجال التوزيع المعروف، وذلك عبر استخدام نموذج ديناميكيات عكسية متعلّم، مما يعزّز ثبات السياسة أو دالة القيمة في فضاء المدخلات التركيبي. يظل هذا التحفّظ المستحدث مستقلاً عن التحفّظ السلوكي التقليدي في التعلم التعزيزي دون اتصال. قمنا بتطبيق COCOA على أربع خوارزميات حديثة للتعلم التعزيزي دون اتصال وقياس أدائها على معيار D4RL، وقد أظهرت نتائجنا تحسناً عاماً في أداء كل منها. تتوفر الشيفرة على https://github.com/runamu/compositional-conservatism.
مُقَدِّمَة
حقق التعلم بالتعزيز نجاحات ملحوظة في مجالات متعددة، من توجيه حركات الروبوتات (dasari2020robonet) وتحسين استراتيجيات الألعاب (mnih2015human) إلى التدريب الواعد لنماذج اللغة (rajpurkar2016squad). على الرغم من هذه الإنجازات، دفعت التحديات المتعلقة بالتفاعلات الزمنية الفعلية في البيئات المعقدة والحساسة إلى تطوير التعلم بالتعزيز دون اتصال كمسار عملي. يتعلم التعلم بالتعزيز دون اتصال (wiering2012reinforcement, levine2020offline) أو ما يُعرف بالتعلم الدفعي (lange2012batch) السياسات فقط من البيانات المتاحة مسبقاً، دون أي تفاعل مباشر مع البيئة. يزداد هذا الاتجاه شعبية في تطبيقات مثل القيادة الذاتية (yu2020bdd100k) والرعاية الصحية (gottesman2019guidelines) حيث تتوفر كميات كبيرة من البيانات السابقة.
بالأساس، يكون التعلم بالتعزيز دون اتصال عرضة للتحولات التوزيعية. تنشأ هذه المشكلة عندما يختلف توزيع الحالات والأفعال التي تواجهها السياسة المستخرجة عن تلك الموجودة في مجموعة بيانات التدريب، مما يشكل تحدياً شائعاً في التعلم الآلي (levine2020offline). تناولت العديد من الخوارزميات هذا الأمر عبر نهج التحفّظ، سواء بتقييد السياسة أو بتقييم قدر عدم اليقين للتخفيف من الانحرافات التوزيعية (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019, mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020). تهدف هذه الاستراتيجيات إلى إبقاء الوكيل ضمن التوزيعات المعروفة وتقليل مخاطر السلوكيات غير المتوقعة. في هذا العمل، نسعى أيضاً لتحقيق استقرار السياسة عبر مواءمة توزيع الاختبار مع البيانات المعروفة، لكن من منظور تركيبي مختلف.
ندرك أولاً أن مشكلة التحوّل التوزيعي للحالة مرتبطة ارتباطاً وثيقاً بكيفية تعامل مقاربات الدالة مع نقاط الإدخال التي تقع خارج نطاق الدعم. بناءً على ذلك، نستكشف إمكانية تحويل مشكلة «التعلم خارج الدعم» إلى مشكلة «خارج التركيب» عبر حقن تحيّزات استقرائية في مقاربات الدالة الخاصة بالسياسة أو بدالة القيمة Q. سبق وأن اقترح (transd_aviv2023) منهجاً توصيلياً يُسمى التحويل الثنائي، حيث يتم إعادة معايرة الدالة الهدف إلى صيغة ثنائية عن طريق تحليل المتغير الإدخالي إلى مكوّنين: المرساة والدلتا. هنا، تمثل المرساة نقطة مرجعية مأخوذة من بيانات التدريب، بينما تمثل الدلتا الفرق بين المتغير الإدخالي والمرساة. تحت افتراضات محددة على توزيعَي التدريب والاختبار وخصائص الدالة الهدف، يمكن للتحويل الثنائي معالجة مشكلة «خارج التركيب» وبالتالي التخفيف من مسألة «خارج الدعم» للدالة الأصلية.
في هذا السياق، نقدم إطار «الحفاظ التركيبي مع البحث عن المرساة» (COCOA) للتعلم التعزيزي دون اتصال. يستند COCOA إلى مبدأ إعادة المعايرة التوصيلية (transd_aviv2023)، ويضيف طبقة تركيبية للحفاظ على الاستقرار. يقوم الإطار بتحويل مسألة التحوّل التوزيعي إلى مسألة «خارج التركيب» عن طريق نقل عناصر التعميم الرئيسية من البيانات إلى المكوِّنات المحللة ورابطتها؛ وبذلك يتعيّن اختيار المرساة والدلتا بحيث يكونا قريبين من توزيع بيانات التدريب.
لتحقيق ذلك، نُقدّم «سياسة البحث عن المرساة» كطبقة إضافية تلزم الوكيل بتعيين مرساة تقع ضمن المنطقة المعروفة من فضاء الحالة. يشجّع COCOA على اختيار مراسي قريبة من أمثلة التدريب، مع تقييد الفارق («الدلتا») ضمن نطاق ضيق عن طريق إقامة المرساة بين حالات متجاورة. يساعد هذا الإجراء في تقليل فضاء الإدخال وتهيئته نحو الجزء الذي استُكشف أثناء التدريب. باختصار، عبر تعلّم سياسة تبحث عن المرساة داخل التوزيع وتقدّر الفوارق باستخدام نموذج ديناميكيات عكسي متعلّم، نحفّز الحفاظ على الاستقرار في فضاء الإدخال التركيبي لكل من دالة القيمة Q والسياسة. يظل هذا النهج مستقلاً وغير معتمد على التحفّظ السلوكي التقليدي في التعلم التعزيزي دون اتصال.
من الناحية التجريبية، وجدنا أن COCOA يعزّز أداء أربع خوارزميات بارزة للتعلم التعزيزي دون اتصال—CQL (cql_kumar2020)، IQL (iql_kostrikov2022)، MOPO (mopo_yu2020)، وMOBILE (mobile_sun2023)—على معيار D4RL (d4rl_fu2020). بالإضافة إلى ذلك، تكشف دراسة الاستئصال عن أهمية سياسة البحث عن المرساة في رفع مستوى الأداء. تُلخّص مساهماتنا الرئيسية كما يلي:
نسعى إلى الحفاظ على الاستقرار في فضاء الإدخال التركيبي لمقاربات الدالة لوظيفة القيمة-Q والسياسة، بشكل مستقل وغير معتمد على التحفظ السلوكي السائد في التعلم التعزيزي دون اتصال.
نقدم الحفاظ على التركيب مع البحث عن المرساة (COCOA) الذي يجد المرساة والدلتا ضمن التوزيع باستخدام نموذج الديناميكيات العكسية المتعلم، وهو أمر حاسم للتعميم التركيبي.
نظهر تجريبياً أن COCOA يحسن أداء أربع خوارزميات حديثة للتعلم التعزيزي دون اتصال على معيار D4RL. بالإضافة إلى ذلك، تظهر دراستنا الاستئصالية فعالية سياسة البحث عن المرساة مقارنة باختيار المرساة الاستدلالي.