استكشاف السياق والاستغلال في تعلم التعزيز

Zhenwen Dai, Federico Tomasi, Sina Ghiassian

latex

مُلخّص

التعلّم في السياق هو نهج واعد لتعلّم السياسات عبر الإنترنت لأساليب التعلم المعزز (RL) في وضع عدم الاتصال، والذي يمكن تنفيذه في وقت الاستدلال دون الحاجة إلى تحسين تدريجي. ومع ذلك، تعوق هذه الطريقة تكاليف حسابية كبيرة ناتجة عن جمع مجموعات ضخمة من مسارات التدريب والحاجة إلى تدريب نماذج Transformer واسعة النطاق. نعالج هذا التحدي من خلال تقديم خوارزمية استكشاف السياق والاستغلال (ICEE) المصممة لتحسين كفاءة تعلم السياسات في السياق. على عكس النماذج الحالية، تحقق ICEE توازناً بين الاستكشاف والاستغلال في وقت الاستدلال داخل نموذج Transformer، دون الحاجة إلى استدلال Bayesian صريح. ونتيجة لذلك، يمكن لـICEE حل مشاكل التحسين Bayesian بكفاءة مماثلة لتلك الخاصة بأساليب تعتمد على العمليات Gaussian، ولكن بزمن أقل بكثير. من خلال التجارب في بيئات عالم الشبكة، نُظهر أن ICEE يمكنها تعلم حل مهام التعلم المعزز الجديدة باستخدام عشرات الحلقات فقط، مما يمثل تحسناً كبيراً مقارنة بالمئات من الحلقات التي تحتاجها طريقة التعلم في السياق السابقة.

مقدمة

تمثل النماذج المحولة نهجاً فعالاً للغاية في نمذجة التسلسل، مع تطبيقات تمتد عبر مجالات متعددة مثل النصوص والصور والصوت. في مجال التعلم المعزز (Reinforcement Learning (RL))، اقترح (NEURIPS2021_7f489f64) و(NEURIPS2021_099fe6b0) نموذج تعلم معزز في وضع عدم الاتصال كمشكلة تنبؤ تسلسلي باستخدام المحول. لقد أثبت هذا الأسلوب نجاحه في التعامل مع مجموعة من المهام باستخدام تقنيات نمذجة التسلسل على نطاق واسع فقط (NEURIPS2022_b2cac94f, Reed2022-lj). يكمن العيب الرئيسي في عدم قدرة السياسة على تحسين نفسها عند تشغيلها في بيئات عبر الإنترنت. للتغلب على ذلك، تم تقديم طرق الضبط الدقيق مثل (Zheng2022-kr)، التي تتيح تحسين السياسة بشكل مستمر. ومع ذلك، غالباً ما تعتمد هذه الطرق على التحسين التدريجي البطيء والمكلف حسابياً.

من ناحية أخرى، يمكن للتعلّم في السياق، وهي خاصية بارزة في نماذج اللغة الكبيرة (Large Language Models (LLMs))، التعامل مع المهام الجديدة من خلال توفير تفاصيل المهمة عبر تلميحات لغوية، مما يلغي الحاجة إلى الضبط الدقيق. يقترح (laskin2023incontext) خوارزمية تعلّم في السياق للتعلم المعزز، تستخدم نموذج تسلسلي لتقطير خوارزمية تعلم السياسات من مسارات تدريب التعلم المعزز. النموذج الناتج قادر على إجراء تعلم السياسات في وقت الاستدلال عبر عملية تكرارية لأخذ عينات من الإجراءات وزيادة التلميح. تتطلب هذه الطريقة تكاليف حسابية عالية، إذ تستلزم جمع مجموعات كبيرة من مسارات التدريب وتدريب نماذج محول ضخمة تحتاج إلى نمذجة جزء كبير من مسار التدريب. يرجع السبب الرئيسي لهذه التكاليف إلى طول مسارات التدريب الناتج عن عملية التجربة والخطأ البطيئة في خوارزميات تعلم السياسات التعزيزية.

تهدف هذه الورقة إلى تحسين كفاءة تعلم السياسات في السياق من خلال القضاء على الحاجة إلى التعلم من مسارات التعلم. في سيناريو مثالي، يمكن تحقيق تعلم سياسة فعّال عبر عملية تجربة وخطأ فعّالة. بالنسبة لمشاكل التعلم المعزز المبسطة مثل الأذرع المتعددة (Multi-Armed Bandits (MAB))، ثبت وجود عملية تجربة وخطأ فعّالة مثل عينة تومسون وحدود الثقة العليا. تُعرف هذه العملية بعملية الاستكشاف-الاستغلال (Exploration-Exploitation (EE))، وتعتمد بشكل كبير على عدم اليقين المعرفي المستمد من الاعتقاد البايزي. ومع ذلك، من الصعب استنتاج عدم اليقين المعرفي الدقيق لمشاكل التعلم المعزز التسلسلي باستخدام الطرق البايزية التقليدية. بناءً على دراسات حديثة في تقدير عدم اليقين لنماذج اللغة الكبيرة (yin-etal-2023-large)، نفحص التوزيعات التنبؤية لهذه النماذج، ونجد أنه عبر التدريب الإشرافي البحت على بيانات غير متصلة، يستطيع نموذج التسلسل التقاط عدم اليقين المعرفي في التنبؤات التسلسلية. هذا يوحي بإمكانية تنفيذ الاستكشاف-الاستغلال في التعلم المعزز دون اتصال.

استناداً إلى هذه الملاحظة، نطور خوارزمية الاستكشاف-الاستغلال في السياق (ICEE) لتعلم السياسات. تأخذ ICEE كمدخلات سلسلة من الحلقات المتعددة لنفس المهمة وتتنبأ بالإجراء المقابل في كل خطوة مشروطة ببعض المعلومات بأثرٍ رجعي. يشبه هذا التصميم المحول القراري (Decision Transformer (DT)) للتعلم المعزز دون اتصال، لكن ICEE يتعامل مع تعلم السياسات في السياق عبر نمذجة حلقات متعددة للمهمة بينما ينمذج DT حلقة واحدة فقط. علاوة على ذلك، لا تحتاج هذه الحلقات لأن تكون من مسار تدريبي، مما يتجنب التكاليف الحسابية العالية المرتبطة بتوليد واستهلاك مسارات التعلم. تتجه توزيعات الإجراءات المتعلمة في DT نحو سياسة جمع البيانات، التي قد لا تكون مثالية إذا كانت دون المستوى الأمثل. لمعالجة هذا التحيّز، نقدم هدفاً خالياً من التحيّز ونطوّر شكلاً خاصاً من المعلومات بالأثر الرجعي لتحقيق استكشاف-استغلال فعال عبر الحلقات.

من خلال التجارب، نوضح أن سلوك الاستكشاف-الاستغلال يظهر في ICEE أثناء الاستدلال بفضل عدم اليقين المعرفي في التنبؤ بالإجراء. يتضح هذا بشكل خاص عند تطبيق ICEE على التحسين البايزي (Bayesian Optimization (BO))، حيث يُضاهي أداء ICEE طرقاً تعتمد على العمليات الغاوسية في مهام BO المنفصلة. نوضح أيضاً أن ICEE يمكنها تحسين السياسة لمهمة جديدة بنجاح عبر التجربة والخطأ من الصفر لمشاكل التعلم المعزز التسلسلي. حسب علمنا، ICEE هي الطريقة الأولى التي تدمج بنجاح الاستكشاف-الاستغلال في السياق في التعلم المعزز من خلال النمذجة التسلسلية دون اتصال.

الأعمال ذات الصلة

التعلم التعلمي. لقد زاد الاهتمام مؤخراً بخوارزميات التعلم التعلمي أو تعلم التعلم. بينما يكون المتعلم عبارة عن وكيل يتعلم حل مهمة باستخدام البيانات المرصودة، تتضمن خوارزمية التعلم التعلمي وجود متعلم تعلمي يحسّن باستمرار عملية تعلم المتعلم (schmidhuber1996simple, thrun2012learning, hospedales2021meta, sutton2022history). تم إجراء الكثير من الأعمال في هذا المجال. على سبيل المثال، اقترح (finn2017model) خوارزمية تعلم تعلمي شاملة لا تعتمد على النموذج تقوم بتدريب المعلمات الأولية للنموذج بحيث يحقق أداءً أمثل في مهمة جديدة بعد تحديث المعلمات عبر بضع خطوات تدريجية باستخدام كمية صغيرة من بيانات المهمة الجديدة. تشمل الأعمال الأخرى تحسين المحسنات (andrychowicz2016learning, li2016learning, ravi2016optimization, wichrowska2017learned)، التعلم بالقليل من الأمثلة (mishra2017simple, duan2017one)، تعلم الاستكشاف (stadie2018some)، والتعلم غير المراقب (hsu2018unsupervised).

في مجال التعلم التعلمي العميق لتعلم التعزيز (wang2016learning)، ركزت بعض الأعمال على شكل خاص من التعلم التعلمي يُعرف باسم التدرجات التعلمية. في هذه الطريقة، يُدرَّب المتعلم التعلمي بواسطة المتدرجات من خلال قياس تأثير معلمات المتعلم التعلمي على وكيل يتم تدريبه أيضاً باستخدام خوارزمية التدرج (xu2018meta). في عمل آخر، استخدم (zheng2018learning) التدرجات التعلمية لتعلم المكافآت. ركز (gupta2018unsupervised) على أتمتة عملية تصميم المهام في تعزيز التعلم، لتحرير الخبير من عبء التصميم اليدوي لمهام التعلم التعلمي. بالمثل، قدم (veeriah2019discovery) طريقة لوكيل تعزيز التعلم لاكتشاف الأسئلة المصاغة كوظائف قيمة عامة من خلال استخدام التدرجات التعلمية طويلة الأمد. ومؤخراً، شهد التعلم التعلمي التعزيزي القائم على التدرج تقدماً كبيراً من مكاسب الأداء في المعايير الشعبية إلى خوارزميات هجينة للتعلم التعلمي لتعلم التعزيز عبر الإنترنت وغير المتصل (xu2020meta, zahavy2020self, flennerhag2021bootstrapped, mitchell2021offline, yin-etal-2023-large, pong2022offline). تمت دراسة دور الشك في تعزيز التعلم التعلمي بواسطة (JMLR:v22:21-0657)، الذي أسفر عن طريقة فعالة للتعلم التعلمي عبر الإنترنت. ثم تم توسيع هذا العمل من قبل (NEURIPS2021_24802454) إلى الإعداد غير المتصل بالسياسة.

تعلم التعزيز غير المتصل. بشكل عام، تم اقتراح تعلم التعزيز كنموذج أساسي عبر الإنترنت (sutton1988learning, sutton1999policy, sutton2018reinforcement). تأتي هذه الطبيعة التعليمية عبر الإنترنت مع بعض القيود مثل صعوبة تطبيقها في العديد من التطبيقات التي يستحيل فيها جمع البيانات عبر الإنترنت والتعلم في آن واحد—مثل القيادة الذاتية—وأحياناً عدم كفاءتها من حيث استخدام البيانات، حيث قد يجري تعلم من عينة ثم تجاهلها والانتقال إلى العينة التالية (levine2020offline). إحدى الأفكار لتعزيز الخبرة المجمعة هي استخدام مخازن إعادة التشغيل. عند استخدام هذه المخازن، يُحتفظ بجزء من العينات في الذاكرة ثم يُعاد استخدامها عدة مرات لتمكين الوكيل من التعلم بشكل أفضل (lin1992self, mnih2015human). يعرف تعلم التعزيز غير المتصل بأنه خوارزميات تعلم التعزيز التي تتعلم بالكامل دون اتصال من مجموعة ثابتة من البيانات التي جُمعت مسبقاً دون جمع بيانات جديدة أثناء التعلم (ernst2005tree, riedmiller2005neural, lange2012batch, fujimoto2019off, siegel2020keep, gulcehre2020rl, nair2020awac). تركز الأدبيات الحديثة على محولات القرار أيضاً على تعلم التعزيز غير المتصل (NEURIPS2021_7f489f64) لأنها تحتاج إلى حساب العائد المتبقي أثناء التدريب، مما يتطلب بيانات جُمعت مسبقاً.

التعلم في السياق. خوارزميات تعلم التعزيز في السياق هي تلك التي تحسّن سياستها بالكامل في السياق دون تحديث معلمات الشبكة أو إجراء أي ضبط دقيق للنموذج (lu2021pretrained). أُجري بعض الأعمال لدراسة ظاهرة التعلم في السياق ومحاولة شرح إمكانيته (abernethy2023mechanism, min2022rethinking). يعمل الوكيل "جاتو" الذي طوره (reed2022generalist) كوكيل عام متعدد النماذج والمهام والأجسام، حيث يمكن للوكيل نفسه المدرب أن يلعب أتاري، ويُعلق على الصور، ويدردش، ويكدس الكتل باستخدام ذراع روبوت حقيقي، مجرّدًا من سياقه. من خلال تدريب وكيل تعلّم التعزيز على نطاق واسع، أظهر (team2023human) أن وكيلاً في السياق يمكنه التكيف مع بيئات ثلاثية الأبعاد جديدة ومفتوحة النهايات. يحظى الاهتمام بشكل خاص بطريقة التقطير المعروفة باسم AD، وهي طريقة تعلم تعلّم بياني في السياق (laskin2023incontext). على وجه التحديد، تُعد AD طريقة تعلم تعلّم في السياق غير متصلة خالية من التدرّج—تتكيف مع المهام اللاحقة دون تحديث معلمات شبكتها.

عدم اليقين المعرفي في تنبؤ نموذج التسلسل

يعالج DT، المعروف أيضاً باسم RL المقلوب، مشكلة تعلم السياسات دون اتصال كمشكلة نمذجة تسلسلية. في هذا القسم، ننظر في نموذج تسلسلي عام ونحلل عدم اليقين التنبؤي له.