التحفظ التركيبي: نهج توصيلي في التعلم التعزيزي دون اتصال

Yeda Song , Dongwook Lee & Gunhee Kim

مُلَخَّص

التعلم التعزيزي دون اتصال إطار عمل جذاب يهدف إلى تعلم السياسات المثلى من البيانات المسبقة فقط، دون أي تفاعل إضافي مع البيئة. ومع ذلك، يعاني هذا الإطار بطبيعته من مشكلة التحوّلات التوزيعية؛ فقد تختلف الحالات والأفعال التي تواجهها السياسة الجديدة عن تلك المشمولة في بيانات التدريب. غالباً ما يُعالج ذلك بإضافة قيود إلى السياسة أو دالة القيمة للحد من المخاطر وعدم اليقين. في هذا العمل، نتبنّى وجهة نظر مختلفة لتحقيق نفس أهداف التحفّظ. نُقدّم ما نسميه «التحفّظ التركيبي مع البحث عن المرساة» (COCOA) للتعلم التعزيزي دون اتصال، وهو نهج يُطبّق فكرة إعادة المعايرة التوصيلية (transd_aviv2023) بطريقة تركيبية. في هذا الإطار، نحلّل مدخل الدالة (المتغير الداخلي) إلى مكوّنين: المرساة والفارق («الدلتا»). يفرض التحفّظ التركيبي على كل من المرساة والفوارق البقاء ضمن مجال التوزيع المعروف عبر استخدام نموذج ديناميكيات عكسي متعلم، مما يعزّز ثبات السياسة ودالة القيمة في فضاء المدخلات التركيبي. يظل هذا التحفّظ المستحدث مستقلاً عن التحفّظ السلوكي التقليدي في التعلم التعزيزي دون اتصال. قمنا بتطبيق COCOA على أربع خوارزميات حديثة للتعلم التعزيزي دون اتصال وقياس أدائها على معيار D4RL، وقد أظهرت نتائجنا تحسّناً عاماً في أداء كل منها. تتوفر الشيفرة على https://github.com/runamu/compositional-conservatism.

مُقَدِّمَة

حقق التعلم التعزيزي نجاحات ملحوظة في مجالات متعددة، من توجيه حركات الروبوتات (dasari2020robonet) وتحسين استراتيجيات الألعاب (mnih2015human) إلى التدريب الواعد لنماذج اللغة (rajpurkar2016squad). على الرغم من هذه الإنجازات، دفعت التحديات المتعلقة بالتفاعلات الزمنية الفعلية في البيئات المعقدة والحساسة إلى تطوير التعلم التعزيزي دون اتصال كمسار عملي. يتعلم التعلم التعزيزي دون اتصال (wiering2012reinforcement, levine2020offline) أو ما يُعرف بالتعلم الدفعي (lange2012batch) السياسات فقط من البيانات المتاحة مسبقاً، دون أي تفاعل مباشر مع البيئة. يتزايد هذا الاتجاه شعبية في تطبيقات مثل القيادة الذاتية (yu2020bdd100k) والرعاية الصحية (gottesman2019guidelines) حيث تتوفر كميات كبيرة من البيانات المسبقة.

بالأساس، يكون التعلم التعزيزي دون اتصال عرضة للتحوّلات التوزيعية. تنشأ هذه المشكلة عندما يختلف توزيع الحالات والأفعال التي تواجهها السياسة المستخرجة عن تلك الموجودة في مجموعة بيانات التدريب، مما يشكل تحدياً شائعاً في التعلم الآلي (levine2020offline). تناولت العديد من الخوارزميات هذا الأمر عبر نهج التحفّظ؛ إما بتقييد السياسة أو بتقييم مدى عدم اليقين للتخفيف من الانحرافات التوزيعية (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019, mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020). تهدف هذه الاستراتيجيات إلى إبقاء الوكيل ضمن التوزيعات المعروفة وتقليل مخاطر السلوكيات غير المتوقعة. في هذا العمل، نسعى أيضاً لتحقيق استقرار السياسة عبر مواءمة توزيع الاختبار مع البيانات المعروفة، لكن من منظور تركيبي مختلف.

ندرك أولاً أن مشكلة التحوّل التوزيعي للحالة مرتبطة ارتباطاً وثيقاً بكيفية تعامل مقاربات الدالة مع نقاط الإدخال التي تقع خارج نطاق الدعم. بناءً على ذلك، نستكشف إمكانية تحويل مشكلة «التعلم خارج الدعم» إلى مشكلة «خارج التركيب» عبر حقن متحيّزات استقرائية في مقاربات الدالة الخاصة بالسياسة أو دالة القيمة Q. سبق وأن اقترح (transd_aviv2023) منهجاً توصيلياً يُسمى التحويل الثنائي، حيث تتم إعادة معايرة الدالة الهدف إلى صيغة ثنائية عن طريق تحليل المتغير الإدخالي إلى مكوّنين: المرساة والدلتا. هنا، تمثل المرساة نقطة مرجعية مأخوذة من بيانات التدريب، بينما تمثل الدلتا الفرق بين المتغير الإدخالي والمرساة. تحت افتراضات محددة على توزيعي التدريب والاختبار وخصائص الدالة الهدف، يمكن للتحويل الثنائي معالجة مشكلة «خارج التركيب» وبالتالي التخفيف من مسألة «خارج الدعم» للدالة الأصلية.

في هذا السياق، نقدم إطار «الحفاظ التركيبي مع البحث عن المرساة» (COCOA) للتعلم التعزيزي دون اتصال. يستند COCOA إلى مبدأ إعادة المعايرة التوصيلية (transd_aviv2023) ويضيف طبقة تركيبية تعزّز الاستقرار. يقوم الإطار بتحويل مسألة التحوّل التوزيعي إلى مسألة «خارج التركيب» عن طريق نقل عناصر التعميم الرئيسية من البيانات إلى المكوّنات المحللة، ما يجعل اختيار المرساة والدلتا قريباً من توزيع بيانات التدريب.

لتحقيق ذلك، نُقدّم «سياسة البحث عن المرساة» كطبقة إضافية تلزم الوكيل بتعيين مرساة ضمن المنطقة المعروفة من فضاء الحالة. يشجّع COCOA اختيار مراسي قريبة من أمثلة التدريب، مع تقييد الفارق («الدلتا») ضمن نطاق ضيق عبر اختيار مراسي متجاورة لحالات التدريب. يساعد هذا الإجراء في تقليل فضاء الإدخال وتهيئته نحو الجزء الذي استُكشف أثناء التدريب. باختصار، عبر تعلّم سياسة تبحث عن المرساة داخل التوزيع وتقدّر الفوارق باستخدام نموذج ديناميكيات عكسي متعلم، نحفّز الحفاظ على الاستقرار في فضاء الإدخال التركيبي لكل من دالة القيمة Q والسياسة. يظل هذا النهج مستقلاً وغير معتمد على التحفّظ السلوكي التقليدي في التعلم التعزيزي دون اتصال.

من الناحية التجريبية، وجدنا أن COCOA يعزّز أداء أربع خوارزميات بارزة للتعلم التعزيزي دون اتصال—CQL (cql_kumar2020)، IQL (iql_kostrikov2022)، MOPO (mopo_yu2020)، وMOBILE (mobile_sun2023)—على معيار D4RL (d4rl_fu2020). بالإضافة إلى ذلك، تكشف دراسة الاستئصال عن أهمية سياسة البحث عن المرساة في رفع مستوى الأداء. تُلخّص مساهماتنا الرئيسية كما يلي:

المُقَدِّمات

تعلم التعزيز دون اتصال