مُلَخَّص
التعلُّم بالتعزيز دون اتصال هو إطارٌ واعد يهدف إلى تعلُّم السياسات المثلى من بياناتٍ سابقة فحسب، من دون أي تفاعل إضافي مع البيئة. غير أنّ هذا الإطار يعاني بطبيعته من مشكلة التحوّلات التوزيعيّة؛ إذ قد تختلف الحالات والأفعال التي تواجهها السياسة الجديدة عن تلك التي تُغطيها بياناتُ التدريب. وغالباً ما يُعالَج ذلك بفرض تحفُّظٍ على مستوى السياسة أو على مستوى دالّة القيمة، للحدّ من المخاطر والشكوك. في هذا العمل، نتبنّى منظوراً مختلفاً لتحقيق الأهداف نفسها للتحفُّظ. نقدِّم ما نسمّيه «التحفُّظ التركيبي مع البحث عن المرساة» (COCOA) للتعلُّم بالتعزيز دون اتصال، وهو نهج يُطبِّق فكرة إعادة المعايرة الترانزدكتيفيّة (transd_aviv2023) بطريقة تركيبيّة. في هذا الإطار، نُحلِّل الحالة (بوصفها المتغيِّر الإدخالي) إلى مكوّنَيْن: مرساة وفارقاً (دلتا) عنها. يَفرض التحفُّظ التركيبي أن يقع كلٌّ من المرساة والفارق ضمن نطاق التوزيع المعروف، وذلك باستخدام نموذج ديناميكياتٍ عكسيٍّ مُتعلَّم، ممّا يُعزِّز انضباط السياسة أو دالّة القيمة في فضاء المُدخلات التركيبي. ويبقى هذا التحفُّظ مستقلاً عن التحفُّظ السلوكي التقليدي في التعلُّم بالتعزيز دون اتصال. طبَّقنا COCOA على أربع خوارزميّات حديثة في التعلُّم بالتعزيز دون اتصال وقيَّمنا أداءها على معيار D4RL، وقد أظهرت النتائج تحسّناً عاماً في أداء كلٍّ منها. الشيفرة متاحة على: https://github.com/runamu/compositional-conservatism.
مُقَدِّمَة
حقَّق التعلُّم بالتعزيز نجاحاتٍ ملحوظة في مجالاتٍ عدّة، من توجيه حركات الروبوتات (dasari2020robonet) وتحسين استراتيجيات الألعاب (mnih2015human) إلى تدريب نماذج اللغة (rajpurkar2016squad). وعلى الرغم من هذه الإنجازات، فقد دفعت التحدّياتُ المرتبطة بالتفاعلات الفعليّة في البيئات الحسّاسة والمعقّدة إلى تطوير التعلُّم بالتعزيز دون اتصال بوصفه مساراً عمليّاً. يتعلّم التعلُّم بالتعزيز دون اتصال (wiering2012reinforcement, levine2020offline)—أو ما يُعرَف بالتعلُّم الدفعي (lange2012batch)—السياساتِ من بياناتٍ مُسبقة فقط، من دون أي تفاعل مباشر مع البيئة. ويزداد هذا الاتّجاه شيوعاً في تطبيقاتٍ مثل القيادة الذاتيّة (yu2020bdd100k) والرعاية الصحيّة (gottesman2019guidelines) حيث تتوافر وفرةٌ من البيانات السابقة.
في الجوهر، يكون التعلُّم بالتعزيز دون اتصال عُرضةً للتحوّلات التوزيعيّة. تنشأ هذه المشكلة عندما يختلف توزيع الحالات والأفعال التي تواجهها السياسة المُستخرَجة عن تلك الموجودة في مجموعة بيانات التدريب، وهي معضلةٌ معروفة في التعلُّم الآلي (levine2020offline). وقد عالجت خوارزميّاتٌ عديدة هذا الأمر عبر نهج التحفُّظ، سواءً بتقييد السياسة أو بتقدير مقدار عدم اليقين للتخفيف من الانحرافات التوزيعيّة (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019, mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020). تهدف هذه الاستراتيجيات إلى إبقاء الوكيل ضمن نطاق التوزيع المعروف وتقليل مخاطر السلوكيّات غير المتوقَّعة. في هذا العمل، نسعى أيضاً إلى ضبط سياسة الاختبار عبر مواءمة توزيعها مع البيانات المعروفة، ولكن من منظورٍ تركيبيٍّ مختلف.
نُدرك أولاً أنّ مشكلة التحوُّل التوزيعي للحالة مرتبطةٌ ارتباطاً وثيقاً بكيفيّة تعاطي مُقارِّبات الدوالّ مع نقاط الإدخال الواقعة خارج «دعم التوزيع». وبناءً على ذلك، نستكشف إمكانيّة تحويل مشكلة «التعلُّم خارج الدعم» إلى مشكلة «خارج التركيب» عبر حقن تحيُّزاتٍ استقرائيّة في مُقارِّبات الدوالّ الخاصّة بالسياسة أو بدالّة القيمة Q. وقد اقترح (transd_aviv2023) منهجاً ترانزدكتيفيّاً يُسمّى التحويل الثنائي، حيث تُعاد معايرة الدالّة الهدف إلى صيغةٍ ثنائيةٍ بتحليل المتغيِّر الإدخالي إلى مكوّنَيْن: مرساة ودلتا. هنا، تمثّل المرساة نقطةً مرجعيّة مأخوذةً من بيانات التدريب، بينما تمثّل الدلتا الفرق بين المتغيِّر الإدخالي والمرساة. وتحت افتراضاتٍ محدّدة على توزيعي التدريب والاختبار وخصائص الدالّة الهدف، يمكن للتحويل الثنائي أن يُعالج مشكلة «خارج التركيب» ومن ثَمّ يخفِّف مسألة «خارج الدعم» للدالّة الأصليّة.
في هذا السياق، نقدِّم إطار «التحفُّظ التركيبي مع البحث عن المرساة» (COCOA) للتعلُّم بالتعزيز دون اتصال. يستند COCOA إلى مبدأ إعادة المعايرة الترانزدكتيفيّة (transd_aviv2023)، ويضيف طبقةً تركيبيّة لتعزيز الانضباط. يُحوِّل هذا الإطار مسألة التحوُّل التوزيعي إلى مسألة «خارج التركيب» بنقل عناصر التعميم الرئيسة من البيانات إلى المكوّنات المُحلَّلة وآليّة ربطها؛ وبذلك يتعيّن اختيار المرساة والدلتا بحيث يكونا قريبَيْن من توزيع بيانات التدريب.
لتحقيق ذلك، نقدِّم «سياسة البحث عن المرساة» بوصفها طبقةً إضافيّة تُلزم الوكيل بتعيين مرساةٍ تقع ضمن المنطقة المعروفة من فضاء الحالة. يشجِّع COCOA على اختيار مراسٍ قريبةٍ من أمثلة التدريب، مع تقييد الفارق (الدلتا) ضمن نطاقٍ ضيّق عبر وضع المرساة بين حالاتٍ متجاورة. يُسهم ذلك في تقليص فضاء الإدخال وتوجيهه نحو الجزء الذي تمّ استكشافه أثناء التدريب. باختصار، ومن خلال تعلُّم سياسةٍ تبحث عن مرساةٍ داخل التوزيع وتُقدِّر الفوارق باستخدام نموذج ديناميكياتٍ عكسيٍّ مُتعلَّم، نُحفِّز التحفُّظ في فضاء الإدخال التركيبي لكلٍّ من دالّة القيمة Q والسياسة. ويبقى هذا النهج مستقلاً وغير معتمد على التحفُّظ السلوكي التقليدي في التعلُّم بالتعزيز دون اتصال.
ومن الناحية التجريبيّة، وجدنا أنّ COCOA يعزِّز أداء أربع خوارزميّات بارزة في التعلُّم بالتعزيز دون اتصال—CQL (cql_kumar2020) وIQL (iql_kostrikov2022) وMOPO (mopo_yu2020) وMOBILE (mobile_sun2023)—على معيار D4RL (d4rl_fu2020). وإضافةً إلى ذلك، تكشف دراسةُ الاستئصال عن أهمّيّة سياسة البحث عن المرساة في رفع مستوى الأداء. وتُجمَع مساهماتُنا الرئيسة كما يلي:
نسعى إلى فرض التحفُّظ في فضاء الإدخال التركيبي لمُقارِّبات الدوالّ الخاصة بدالّة القيمة-Q والسياسة، بشكلٍ مستقلٍّ وغير معتمدٍ على التحفُّظ السلوكي السائد في التعلُّم بالتعزيز دون اتصال.
نقدِّم التحفُّظ التركيبي مع البحث عن المرساة (COCOA) الذي يعثر على المرساة والدلتا ضمن التوزيع باستخدام نموذج ديناميكياتٍ عكسيٍّ مُتعلَّم، وهو أمرٌ حاسم للتعميم التركيبي.
نُظهر تجريبيّاً أنّ COCOA يُحسِّن أداء أربع خوارزميّات حديثة للتعلُّم بالتعزيز دون اتصال على معيار D4RL. كما تُبيِّن دراسةُ الاستئصال فاعليّةَ سياسة البحث عن المرساة مقارنةً بالاختيار الاستدلالي للمرساة.