latex
مُلخّص
التعلم في السياق هو نهج واعد لتعلم السياسات عبر الإنترنت لطرق تعلم التعزيز (RL) دون الاتصال، والذي يمكن تحقيقه في وقت الاستدلال دون الحاجة إلى تحسين تدريجي. ومع ذلك، يعيق هذا الأسلوب تكاليف حسابية كبيرة ناتجة عن جمع مجموعات كبيرة من مسارات التدريب والحاجة إلى تدريب نماذج Transformer ضخمة. نعالج هذا التحدي من خلال تقديم خوارزمية استكشاف السياق والاستغلال (ICEE)، المصممة لتحسين كفاءة تعلم السياسات في السياق. على عكس النماذج الحالية، تحقق ICEE توازناً بين الاستكشاف والاستغلال في وقت الاستدلال داخل نموذج Transformer، دون الحاجة إلى استدلال Bayesian صريح. ونتيجة لذلك، يمكن لـICEE حل مشاكل التحسين Bayesian بكفاءة تعادل طرق المعالجة المعتمدة على عملية Gaussian، ولكن في وقت أقل بكثير. من خلال التجارب في بيئات العالم الشبكي، نظهر أن ICEE يمكن أن تتعلم حل مهام تعلم التعزيز الجديدة باستخدام عشرات الحلقات فقط، مما يمثل تحسناً كبيراً عن المئات من الحلقات التي تحتاجها طريقة التعلم في السياق السابقة.
مقدمة
تمثل النماذج المحولة نهجاً فعالاً للغاية في نمذجة التسلسل، مع تطبيقات تمتد عبر مجالات متعددة مثل النصوص والصور والصوت. في مجال التعلم المعزز (Reinforcement Learning (RL))، اقترح (NEURIPS2021_7f489f64) و(NEURIPS2021_099fe6b0) مفهوم معالجة التعلم المعزز دون اتصال كمشكلة تنبؤ تسلسلي باستخدام النموذج المحول. لقد أثبت هذا الأسلوب نجاحه في التعامل مع مجموعة من المهام باستخدام تقنيات نمذجة التسلسل على نطاق واسع فقط (NEURIPS2022_b2cac94f, Reed2022-lj). يكمن العيب البارز في عدم قدرة السياسة على تحسين نفسها عند استخدامها في بيئات عبر الإنترنت. للتغلب على ذلك، تم تقديم طرق التنعيم مثل (Zheng2022-kr)، التي تمكن من تحسين السياسة بشكل مستمر. ومع ذلك، غالباً ما تعتمد هذه الطرق على التحسين القائم على التدرج البطيء والمكلف حسابياً.
من ناحية أخرى، يمكن للتعلم في السياق، وهو خاصية ملحوظة في نماذج اللغة الكبيرة (Large Language Models (LLMs))، التعامل مع المهام الجديدة من خلال توفير تفاصيل المهمة عبر تلميحات لغوية، مما يلغي الحاجة إلى التنعيم. يقترح (laskin2023incontext) خوارزمية تعلم في السياق للتعلم المعزز، والتي تستخدم نموذج تسلسل لتقطير خوارزمية تعلم السياسة من مسارات تدريب التعلم المعزز. النموذج الناتج قادر على إجراء تعلم السياسة في وقت الاستدلال من خلال عملية تكرارية لأخذ العينات من الإجراءات وزيادة التلميح. تتكبد هذه الطريقة تكاليف حسابية كبيرة في جمع مجموعات واسعة من مسارات التدريب وتدريب نماذج المحولات الكبيرة التي تحتاج إلى نمذجة جزء كبير من مسار التدريب. السبب الرئيسي لهذه التكلفة الحسابية العالية هو مسارات التدريب الطويلة الناتجة عن عملية التجربة والخطأ البطيئة لخوارزميات تعلم سياسة التعلم المعزز.
تهدف هذه الورقة إلى تحسين كفاءة تعلم السياسة في السياق من خلال القضاء على الحاجة إلى التعلم من مسارات تعلم السياسة. في سيناريو مثالي، يمكن تحقيق تعلم سياسة فعال من خلال عملية تجربة وخطأ فعالة. بالنسبة لمشاكل التعلم المعزز المبسطة مثل الأذرع المتعددة (Multi-Armed Bandits (MAB))، تم إثبات وجود عملية تجربة وخطأ فعالة مثل عينة تومسون والحدود العليا للثقة. تعتمد هذه العملية، والتي غالباً ما يشار إليها باسم تجارة الاستكشاف-الاستغلال (Exploration-Exploitation (EE))، بشكل كبير على عدم اليقين المعرفي المستمد من الاعتقاد البايزي. ومع ذلك، من الصعب استنتاج عدم اليقين المعرفي الدقيق لمشاكل التعلم المعزز التسلسلي باستخدام الطرق البايزية التقليدية. في ضوء الدراسات الحديثة حول تقدير عدم اليقين لنماذج اللغة الكبيرة (yin-etal-2023-large)، نفحص التوزيعات التنبؤية لنماذج التسلسل، مما يظهر أنه، من خلال التدريب بالتعلم الإشرافي البحت على البيانات دون اتصال، يمكن لنموذج التسلسل التقاط عدم اليقين المعرفي في التنبؤ بالتسلسل. هذا يوحي بإمكانية تنفيذ الاستكشاف-الاستغلال في التعلم المعزز دون اتصال.
استناداً إلى هذه الملاحظة، نطور خوارزمية الاستكشاف-الاستغلال في السياق (ICEE) لتعلم السياسة. تأخذ ICEE كمدخلات سلسلة من الحلقات المتعددة لنفس المهمة وتتنبأ بالإجراء المقابل في كل خطوة مشروطة ببعض المعلومات بأثر رجعي. يشبه تصميم التعلم المعزز دون اتصال هذا المحول القراري (Decision Transformer (DT))، ولكن ICEE يتعامل مع تعلم السياسة في السياق من خلال نمذجة الحلقات المتعددة لمهمة بينما DT ينمذج حلقة واحدة فقط. علاوة على ذلك، لا تحتاج هذه الحلقات إلى النشأة من مسار تدريب، مما يتجنب التكاليف الحسابية العالية المرتبطة بتوليد واستهلاك مسارات التعلم. تتجه توزيعات الإجراءات المتعلمة في DT نحو سياسة جمع البيانات، والتي قد لا تكون مثالية عندما تكون دون المستوى الأمثل. لمعالجة هذا التحيز، نقدم هدفاً غير متحيز ونطور شكلاً معيناً من المعلومات بأثر رجعي للاستكشاف-الاستغلال الفعال عبر الحلقات.
من خلال التجارب، نوضح أن سلوك الاستكشاف-الاستغلال يظهر في ICEE أثناء الاستدلال بفضل عدم اليقين المعرفي في التنبؤ بالإجراء. هذا واضح بشكل خاص عند تطبيق ICEE على التحسين البايزي (Bayesian Optimization (BO))، حيث أن أداء ICEE يضاهي طريقة تعتمد على عملية غاوسية في مهام BO المنفصلة. نوضح أيضاً أن ICEE يمكن أن يحسن بنجاح السياسة لمهمة جديدة مع التجارب والأخطاء من الصفر لمشاكل التعلم المعزز التسلسلي. حسب علمنا، ICEE هي الطريقة الأولى التي تدمج بنجاح الاستكشاف-الاستغلال في السياق في التعلم المعزز من خلال النمذجة التسلسلية دون اتصال.
الأعمال ذات الصلة
التعلم البياني. لقد زاد الاهتمام مؤخراً بخوارزميات التعلم البياني أو تعلم التعلم. بينما يكون المتعلم عبارة عن وكيل يتعلم حل مهمة باستخدام البيانات المرصودة، يتضمن خوارزمية تعلم التعلم وجود متعلم بياني يحسن باستمرار من عملية التعلم للمتعلم (schmidhuber1996simple, thrun2012learning, hospedales2021meta, sutton2022history). تم إجراء الكثير من الأعمال في مجال التعلم البياني. على سبيل المثال، اقترح (finn2017model) خوارزمية تعلم بياني عامة لا تعتمد على النموذج تدرب المعلمات الأولية للنموذج بحيث يكون للنموذج أداء أقصى في مهمة جديدة بعد تحديث معلمات النموذج من خلال بضع خطوات تدريجية محسوبة بكمية صغيرة من البيانات من المهمة الجديدة. تشمل الأعمال الأخرى في التعلم البياني تحسين المحسنات (andrychowicz2016learning, li2016learning, ravi2016optimization, wichrowska2017learned)، تحسين التعلم القليل الأمثلة (mishra2017simple, duan2017one)، تعلم الاستكشاف (stadie2018some)، والتعلم غير المشرف عليه (hsu2018unsupervised).
في مجال التعلم البياني العميق لتعزيز التعلم (wang2016learning)، ركزت بعض الأعمال على شكل خاص من التعلم البياني يسمى التدرجات البيانية. في التدرجات البيانية، يتم تدريب المتعلم البياني بواسطة التدرجات من خلال قياس تأثير المعلمات البيانية على متعلم يتم تدريبه أيضاً باستخدام خوارزمية التدرج (xu2018meta). في عمل آخر، استخدم (zheng2018learning) التدرجات البيانية لتعلم المكافآت. ركز (gupta2018unsupervised) على أتمتة عملية تصميم المهام في تعزيز التعلم، لتحرير الخبير من عبء التصميم اليدوي لمهام التعلم البياني. بالمثل، قدم (veeriah2019discovery) طريقة لوكيل تعزيز التعلم لاكتشاف الأسئلة المصاغة كوظائف قيمة عامة من خلال استخدام التدرجات البيانية غير القصيرة النظر. ومؤخراً، شهد تعلم تعزيز التدرجات البيانية تقدماً كبيراً من مكاسب الأداء في المعايير الشعبية إلى خوارزميات هجينة للتعلم البياني لتعزيز التعلم عبر الإنترنت وغير المتصل (xu2020meta, zahavy2020self, flennerhag2021bootstrapped, mitchell2021offline, yin-etal-2023-large, pong2022offline). تمت دراسة دور الشك في تعزيز التعلم البياني من قبل (JMLR:v22:21-0657)، والذي أسفر عن طريقة فعالة لتعزيز التعلم البياني عبر الإنترنت. ثم تم توسيع هذا العمل من قبل (NEURIPS2021_24802454) إلى الإعداد غير المتصل بالسياسة.
تعلم التعزيز غير المتصل. بشكل عام، تم اقتراح تعلم التعزيز كنموذج أساسي عبر الإنترنت (sutton1988learning, sutton1999policy, sutton2018reinforcement). تأتي هذه الطبيعة التعليمية عبر الإنترنت مع بعض القيود مثل صعوبة تبنيها في العديد من التطبيقات التي من المستحيل جمع البيانات عبر الإنترنت والتعلم في نفس الوقت، مثل القيادة الذاتية وأحياناً ليست فعالة من حيث البيانات كما يمكن أن تكون، حيث قد يختار التعلم من عينة ثم التخلص من العينة والانتقال إلى العينة التالية (levine2020offline). إحدى الأفكار للحصول على المزيد من الخبرة المجمعة هي استخدام مخازن إعادة التشغيل. عند استخدام المخازن، يتم الاحتفاظ بجزء من العينات في الذاكرة ثم يتم إعادة استخدامها عدة مرات بحيث يمكن للوكيل التعلم أكثر منها (lin1992self, mnih2015human). يشير متغير من تعلم التعزيز، يعرف باسم تعلم التعزيز غير المتصل، إلى خوارزميات تعلم التعزيز التي يمكن أن تتعلم بالكامل غير متصل، من مجموعة ثابتة من البيانات التي تم جمعها مسبقاً دون جمع بيانات جديدة في وقت التعلم (ernst2005tree, riedmiller2005neural, lange2012batch, fujimoto2019off, siegel2020keep, gulcehre2020rl, nair2020awac). تركز الأدبيات الحديثة على محولات القرار أيضاً على تعلم التعزيز غير المتصل (NEURIPS2021_7f489f64) لأنها تحتاج إلى حساب العائد المتبقي في وقت التدريب، والذي بدوره يتطلب بيانات تم جمعها مسبقاً.
التعلم في السياق. خوارزميات تعلم التعزيز في السياق هي تلك التي تحسن سياستها بالكامل في السياق دون تحديث معلمات الشبكة أو دون أي تعديل دقيق للنموذج (lu2021pretrained). تم إجراء بعض الأعمال لدراسة ظاهرة التعلم في السياق في محاولة لشرح كيف قد يكون التعلم في السياق ممكناً (abernethy2023mechanism, min2022rethinking). يعمل الوكيل "جاتو" الذي طوره (reed2022generalist) كوكيل عام متعدد النماذج ومتعدد المهام ومتعدد الأجسام، بمعنى أن نفس الوكيل المدرب يمكنه لعب أتاري، ووضع تعليقات توضيحية على الصور، والدردشة، وتكديس الكتل باستخدام ذراع روبوت حقيقي فقط بناءً على سياقه. من خلال تدريب وكيل تعلم التعزيز على نطاق واسع، أظهر (team2023human) أن وكيلاً في السياق يمكنه التكيف مع بيئات ثلاثية الأبعاد جديدة ومفتوحة النهايات. من الاهتمام الخاص بالنسبة لنا هو تقطير الخوارزمية (AD)، وهي طريقة تعلم تعزيز بياني في السياق (laskin2023incontext). على وجه التحديد، AD هي طريقة تعلم تعزيز بياني في السياق غير متصل. بشكل أساسي، AD خالٍ من التدرجات—يتكيف مع المهام اللاحقة دون تحديث معلمات شبكته.
عدم اليقين المعرفي في تنبؤ نموذج التسلسل
يعالج DT، المعروف أيضاً باسم RL المقلوب، مشكلة تعلم السياسة دون اتصال كمشكلة في نمذجة التسلسل. في هذا القسم، ننظر في نموذج تسلسل عام ونحلل عدم اليقين التنبؤي له.