مُلخّص

يُعَدّ التعلّم داخل السياق نهجًا واعدًا لتعلّم السياسات أثناء وقت الاستدلال في طُرُق RL غير المتّصلة، من غير حاجةٍ إلى تحديثات تدرّجيّة. غير أنّ هذا النهج يستلزم كُلَفًا حوسبيّة مرتفعة ناتجة عن تجميع مجموعات كبيرة من المسارات التدريبية والحاجة إلى تدريب نماذج Transformer ضخمة. نعالج هذا التحدّي بتقديم خوارزمية الاستكشاف-الاستغلال داخل السياق (ICEE) المصمَّمة لرفع كفاءة تعلّم السياسات داخل السياق. وعلى خلاف الأساليب القائمة، تُوازِن ICEE بين الاستكشاف والاستغلال في وقت الاستدلال ضمن نموذج Transformer من غير حاجةٍ إلى استدلالٍ بايزيٍّ صريح. ونتيجةً لذلك، تستطيع ICEE حلَّ مسائل التحسين البايزي بكفاءةٍ تضاهي الطرائق المعتمِدة على العمليات الغاوسيّة، ولكن بزمنٍ أقلّ بكثير. ومن خلال تجارب في بيئات مُحاكاة، نُظهر أنّ ICEE تتعلّم حلَّ مهامّ RL جديدة باستخدام عَشرات الحلقات فقط، وهو تحسّن كبير مقارنةً بمئات الحلقات التي تتطلّبها طريقة التعلّم داخل السياق السابقة.

مقدمة

تُعَدّ المُحوِّلات نهجًا فعّالًا للغاية في نمذجة التسلسلات، مع تطبيقات تمتدّ عبر مجالاتٍ مثل النصوص والصور والصوت. في مجال Reinforcement Learning (RL)، اقترح (NEURIPS2021_7f489f64) و(NEURIPS2021_099fe6b0) معالجة تعلّم التعزيز غير المتّصل كمشكلة تنبّؤٍ تسلسلي باستخدام المُحوِّل. وقد أثبت هذا التوجّه نجاحًا في التعامل مع طيف واسع من المهام بالاعتماد على تقنيات نمذجة التسلسل واسعة النطاق فقط (NEURIPS2022_b2cac94f, Reed2022-lj). إلّا أنّ عيبه الأبرز هو عدم قدرة السياسة على تحسين نفسها عند استخدامها على-الخط (online). للتغلّب على ذلك، قُدِّمت أساليب الضبط الدقيق مثل (Zheng2022-kr)، التي تُتيح تحسين السياسة بصورة مستمرة، لكنها غالبًا ما تعتمد على تحسينٍ تدرّجي بطيء ومكلف حوسبيًا.

من ناحيةٍ أُخرى، يتيح التعلّم داخل السياق، وهي خاصّية لافتة في Large Language Models (LLMs)، التعامل مع مهامّ جديدة عبر تمرير تفاصيل المهمّة ضمن تلميحات/مطالبات لغوية، ما يُلغي الحاجة إلى الضبط الدقيق. يقترح (laskin2023incontext) خوارزمية تعلّم داخل السياق لـRL تستخدم نموذج تسلسل لتقطير خوارزمية تعلّم سياسة من مسارات تدريب RL. ويكون النموذج الناتج قادرًا على إجراء تعلّم السياسة زمنيًا أثناء الاستدلال عبر عملية تكرارية لأخذ عيّنات من الأفعال وتوسيع التلميح/المطالبة. غير أنّ هذه الطريقة تتكبّد كُلفًا حوسبيّة كبيرة بسبب الحاجة إلى تجميع مجموعات واسعة من المسارات التدريبية وتدريب مُحوِّلات كبيرة تُحاول نمذجة جزء كبير من مسار التدريب. ويعود السبب الرئيس في هذه الكُلفة إلى المسارات الطويلة الناجمة عن عملية التجربة والخطأ البطيئة في خوارزميات تعلّم السياسات.

تهدف هذه الورقة إلى رفع كفاءة تعلّم السياسة داخل السياق عبر إزالة الحاجة إلى التعلّم من مسارات تعلّم السياسات. في سيناريو مثالي، يمكن تحقيق تعلّم سياسةٍ فعّال بعملية تجربةٍ وخطأ فعّالة. في مسائل RL المُبسّطة مثل الأذرع المتعدّدة (Multi-Armed Bandits (MAB))، أُثبتت فاعلية إجراءات مثل أخذ عينات تومسون وحدود الثقة العليا (UCB). وتعتمد هذه التجارة—المعروفة بـالاستكشاف-الاستغلال (Exploration-Exploitation (EE))—بشدّة على عدم اليقين المعرفي المستمدّ من التالي البايزي. غير أنّ استدلال عدم اليقين المعرفي الدقيق في مسائل RL التسلسلية يظلّ صعبًا بالطرائق البايزيّة التقليدية. وبالاستناد إلى دراسات حديثة حول تقدير عدم اليقين في LLMs (yin-etal-2023-large)، نفحص التوزيعات التنبؤية لنماذج التسلسل، ونُظهر أنّه—عبر تدريبٍ إشرافي صرف على بيانات غير متّصلة—يمكن لنموذج التسلسل التقاط عدم اليقين المعرفي في التنبؤ بالتسلسل، ما يوحي بإمكان تنفيذ الاستكشاف-الاستغلال في RL غير المتّصل.

استنادًا إلى هذه الملاحظة، نطوّر خوارزمية ICEE لتعلّم السياسات داخل السياق. تأخذ ICEE كمدخلات سلسلةً من عِدّة حلقات للمهمّة نفسها، وتُنبئ بالفعل الموافق في كلّ خطوةٍ مشروطًا ببعض المعلومات بأثرٍ رجعيّ. يُشبه هذا التصميم في RL غير المتّصل المُحوِّل القراري (DT)، إلا أنّ ICEE تتعامل مع تعلّم السياسات داخل السياق عبر نمذجة عدّة حلقات للمهمّة، بينما يُنمذج DT حلقةً واحدةً فقط. إضافةً إلى ذلك، لا يلزم أن تنشأ هذه الحلقات من مسار تدريب معيّن، ما يتجنّب الكُلف الحوسبيّة العالية المرتبطة بتوليد واستهلاك مسارات التعلّم. تميل توزيعات الأفعال المتعلَّمة في DT إلى سياسة جمع البيانات، وهو ما قد لا يكون ملائمًا عند كونها دون المثالي. ولمعالجة هذا الانحياز، نقدّم دالة هدف غير متحيّزة ونطوّر شكلًا مناسبًا من المعلومات بأثرٍ رجعيّ لتمكين استكشاف-استغلال فعّال عبر الحلقات.

تُظهر تجاربُنا أنّ سلوك الاستكشاف-الاستغلال يبرز في ICEE أثناء الاستدلال بفضل عدم اليقين المعرفي في التنبّؤ بالفعل. ويتّضح ذلك خصوصًا عند تطبيق ICEE في التحسين البايزي (Bayesian Optimization (BO))، حيث يضاهي أداؤها طرائق قائمة على العملية الغاوسيّة في مهامّ BO المنفصلة. ونُبيّن كذلك أنّ ICEE تستطيع تحسين سياسةٍ لمهمّة جديدة بنجاح، من الصفر، عبر التجربة والخطأ في مسائل RL التسلسلية. وحسب علمنا، فـICEE هي أوّل طريقة تُدمِج بنجاح الاستكشاف-الاستغلال داخل السياق في RL عبر نمذجة تسلسلية غير متّصلة.

الأعمال ذات الصلة

التعلّم الفوقي (Meta-learning). ازداد الاهتمام مؤخرًا بخوارزميات التعلّم الفوقي أو ما وراء التعلّم. ففي حين أنّ المتعلِّم وكيلٌ يتعلّم حلّ مهمّة من البيانات المرصودة، تتضمّن خوارزميات التعلّم الفوقي وجود متعلّمٍ فوقيّ يُحسّن باستمرار عملية تعلّم المتعلّم (schmidhuber1996simple, thrun2012learning, hospedales2021meta, sutton2022history). وقد أُنجز كثير من الأعمال في هذا المجال؛ على سبيل المثال، اقترح (finn2017model) خوارزمية تعلّم فوقي عامّة غير معتمدة على النموذج تُدرَّب فيها المعلمات الابتدائية بحيث يُحقّق النموذج أداءً مرتفعًا في مهمّةٍ جديدة بعد بضع خطوات تدرّجية باستخدام كمّية صغيرة من بيانات تلك المهمّة. وتشمل أعمالٌ أخرى في التعلّم الفوقي: تعلّم المُحسّنات (andrychowicz2016learning, li2016learning, ravi2016optimization, wichrowska2017learned)، والتعلّم قَليل اللقطات (mishra2017simple, duan2017one)، وتعلّم الاستكشاف (stadie2018some)، والتعلّم غير المُشرف (hsu2018unsupervised).

في مجال التعلّم الفوقي العميق لتعلّم التعزيز (wang2016learning)، ركّزت بعض الأعمال على شكلٍ خاص يُسمّى التدرّجات الفوقيّة، حيث يُدرَّب المتعلّم الفوقي باستخدام التدرّجات عبر قياس أثر المعلمات الفوقيّة على متعلّمٍ يُدرَّب بدوره عبر خوارزمية التدرّج (xu2018meta). وفي عملٍ آخر، استخدم (zheng2018learning) التدرّجات الفوقيّة لتعلّم دوالّ المكافآت. وركّز (gupta2018unsupervised) على أتمتة عملية تصميم المهامّ في RL لتحرير الخبير من عبء التصميم اليدوي لمهامّ التعلّم الفوقي. وبالمثل، قدّم (veeriah2019discovery) طريقةً لوكيل RL لاكتشاف «الأسئلة» المصاغة كـوظائف قيمة عامّة باستخدام تدرّجات فوقيّة غير قصيرة النظر. ومؤخّرًا، شهد التعلّم الفوقي المعزَّز بالتدرّجات تقدّمًا كبيرًا—من مكاسب في الأداء ضمن المعايير الشائعة إلى خوارزميات هجينة للتعلّم الفوقي في RL على-الخط وخارجه (xu2020meta, zahavy2020self, flennerhag2021bootstrapped, mitchell2021offline, yin-etal-2023-large, pong2022offline). وقد دُرس دور عدم اليقين في التعلّم الفوقي لـRL من قِبل (JMLR:v22:21-0657)، ما أسفر عن طريقة فعّالة في الإعداد على-الخط، ثم وُسِّع هذا العمل في (NEURIPS2021_24802454) إلى الإعداد خارج السياسة.

تعلّم التعزيز غير المتّصل (Offline RL). عُمّم RL تقليديًا كإطارٍ على-الخط (sutton1988learning, sutton1999policy, sutton2018reinforcement). وتأتي هذه الطبيعة مع قيود، منها صعوبة اعتماده في تطبيقاتٍ يتعذّر فيها جمع البيانات والتعلّم على-الخط معًا—مثل القيادة الذاتية—وأحيانًا انخفاض الكفاءة العيّانية، إذ قد يستهلك الوكيل عيّنة واحدة ثم ينتقل إلى التالية (levine2020offline). إحدى الأفكار لتعظيم الاستفادة من الخبرة المجمّعة هي استخدام مخازن/ذاكرات إعادة التشغيل؛ حيث يُحتفظ بجزء من العيّنات ويُعاد استخدامه مرّاتٍ عديدة ليتعلّم الوكيل أكثر (lin1992self, mnih2015human). ويشير متغيّر من RL يُعرَف باسم تعلّم التعزيز غير المتّصل إلى خوارزمياتٍ تتعلّم بالكامل من مجموعة ثابتة مسبقة الجمع دون تحصيل بيانات جديدة أثناء التعلّم (ernst2005tree, riedmiller2005neural, lange2012batch, fujimoto2019off, siegel2020keep, gulcehre2020rl, nair2020awac). كما ركّزت الأدبيات الحديثة حول المُحوِّل القراري على RL غير المتّصل (NEURIPS2021_7f489f64) لأنه يتطلّب حساب العائد المتبقّي في وقت التدريب، ما يستلزم بياناتٍ مُسبقة الجمع.

التعلّم داخل السياق. خوارزميات RL داخل السياق هي تلك التي تُكيّف سياستها بالكامل ضمن السياق دون تحديث معلمات الشبكة أو أي ضبطٍ دقيق للنموذج (lu2021pretrained). وقد دُرست هذه الظاهرة في محاولة لشرح إمكان حدوثها (abernethy2023mechanism, min2022rethinking). يعمل وكيل «جاتو» الذي طوّره (reed2022generalist) كوكيلٍ عام متعدّد الوسائط والمهام والأجسام، إذ يستطيع الوكيل نفسه لعب «أتاري»، ووضع تعليقاتٍ على الصور، والمُحادثة، وتكديس الكُتل عبر ذراعٍ روبوتية حقيقية اعتمادًا على سياقه. ومن خلال تدريب وكيل RL على نطاقٍ واسع، أظهر (team2023human) أنّ وكيلًا يعمل داخل السياق يمكنه التكيّف مع بيئاتٍ ثلاثية الأبعاد جديدة مفتوحة النهاية. ومن اهتماماتنا الخاصّة تقطير الخوارزمية (AD)، وهي طريقة RL داخل السياق (laskin2023incontext) غير متّصلة؛ إذ إنّ AD خالية من التدرّجات—تتكيّف مع المهام اللاحقة دون تحديث معلمات شبكتها.

عدم اليقين المعرفي في تنبّؤ نموذج التسلسل

يتعامل DT—وهو صياغة RL على هيئة نمذجةٍ تسلسليّة—مع مشكلة تعلّم السياسة غير المتّصل كمهمة نمذجةٍ تسلسليّة. في هذا القسم، ننظر في نموذج تسلسُل عام ونُحلّل عدم يقينه التنبّئي.


ملاحظة: إذا وُجدت معادلات LaTeX في المقاطع غير المعروضة هنا، فالرجاء لصقها ليجري تدقيقها. لا تغييرات بنيوية على LaTeX في النص الحالي.