استكشاف السياق والاستغلال في تعلم التعزيز

Zhenwen Dai, Federico Tomasi, Sina Ghiassian

latex

مُلخّص

التعلم في السياق هو نهج واعد لتعلم السياسات عبر الإنترنت لطرق تعلم التعزيز (RL) دون الاتصال، والذي يمكن تحقيقه في وقت الاستدلال دون الحاجة إلى تحسين تدريجي. ومع ذلك، يعيق هذا الأسلوب تكاليف حسابية كبيرة ناتجة عن جمع مجموعات كبيرة من مسارات التدريب والحاجة إلى تدريب نماذج Transformer ضخمة. نعالج هذا التحدي من خلال تقديم خوارزمية استكشاف السياق والاستغلال (ICEE)، المصممة لتحسين كفاءة تعلم السياسات في السياق. على عكس النماذج الحالية، تحقق ICEE توازناً بين الاستكشاف والاستغلال في وقت الاستدلال داخل نموذج Transformer، دون الحاجة إلى استدلال Bayesian صريح. ونتيجة لذلك، يمكن لـICEE حل مشاكل التحسين Bayesian بكفاءة تعادل طرق المعالجة المعتمدة على عملية Gaussian، ولكن في وقت أقل بكثير. من خلال التجارب في بيئات العالم الشبكي، نظهر أن ICEE يمكن أن تتعلم حل مهام تعلم التعزيز الجديدة باستخدام عشرات الحلقات فقط، مما يمثل تحسناً كبيراً عن المئات من الحلقات التي تحتاجها طريقة التعلم في السياق السابقة.

مقدمة

تمثل النماذج المحولة نهجاً فعالاً للغاية في نمذجة التسلسل، مع تطبيقات تمتد عبر مجالات متعددة مثل النصوص والصور والصوت. في مجال التعلم المعزز (Reinforcement Learning (RL))، اقترح (NEURIPS2021_7f489f64) و(NEURIPS2021_099fe6b0) مفهوم معالجة التعلم المعزز دون اتصال كمشكلة تنبؤ تسلسلي باستخدام النموذج المحول. لقد أثبت هذا الأسلوب نجاحه في التعامل مع مجموعة من المهام باستخدام تقنيات نمذجة التسلسل على نطاق واسع فقط (NEURIPS2022_b2cac94f, Reed2022-lj). يكمن العيب البارز في عدم قدرة السياسة على تحسين نفسها عند استخدامها في بيئات عبر الإنترنت. للتغلب على ذلك، تم تقديم طرق التنعيم مثل (Zheng2022-kr)، التي تمكن من تحسين السياسة بشكل مستمر. ومع ذلك، غالباً ما تعتمد هذه الطرق على التحسين القائم على التدرج البطيء والمكلف حسابياً.

من ناحية أخرى، يمكن للتعلم في السياق، وهو خاصية ملحوظة في نماذج اللغة الكبيرة (Large Language Models (LLMs))، التعامل مع المهام الجديدة من خلال توفير تفاصيل المهمة عبر تلميحات لغوية، مما يلغي الحاجة إلى التنعيم. يقترح (laskin2023incontext) خوارزمية تعلم في السياق للتعلم المعزز، والتي تستخدم نموذج تسلسل لتقطير خوارزمية تعلم السياسة من مسارات تدريب التعلم المعزز. النموذج الناتج قادر على إجراء تعلم السياسة في وقت الاستدلال من خلال عملية تكرارية لأخذ العينات من الإجراءات وزيادة التلميح. تتكبد هذه الطريقة تكاليف حسابية كبيرة في جمع مجموعات واسعة من مسارات التدريب وتدريب نماذج المحولات الكبيرة التي تحتاج إلى نمذجة جزء كبير من مسار التدريب. السبب الرئيسي لهذه التكلفة الحسابية العالية هو مسارات التدريب الطويلة الناتجة عن عملية التجربة والخطأ البطيئة لخوارزميات تعلم سياسة التعلم المعزز.

تهدف هذه الورقة إلى تحسين كفاءة تعلم السياسة في السياق من خلال القضاء على الحاجة إلى التعلم من مسارات تعلم السياسة. في سيناريو مثالي، يمكن تحقيق تعلم سياسة فعال من خلال عملية تجربة وخطأ فعالة. بالنسبة لمشاكل التعلم المعزز المبسطة مثل الأذرع المتعددة (Multi-Armed Bandits (MAB))، تم إثبات وجود عملية تجربة وخطأ فعالة مثل عينة تومسون والحدود العليا للثقة. تعتمد هذه العملية، والتي غالباً ما يشار إليها باسم تجارة الاستكشاف-الاستغلال (Exploration-Exploitation (EE))، بشكل كبير على عدم اليقين المعرفي المستمد من الاعتقاد البايزي. ومع ذلك، من الصعب استنتاج عدم اليقين المعرفي الدقيق لمشاكل التعلم المعزز التسلسلي باستخدام الطرق البايزية التقليدية. في ضوء الدراسات الحديثة حول تقدير عدم اليقين لنماذج اللغة الكبيرة (yin-etal-2023-large)، نفحص التوزيعات التنبؤية لنماذج التسلسل، مما يظهر أنه، من خلال التدريب بالتعلم الإشرافي البحت على البيانات دون اتصال، يمكن لنموذج التسلسل التقاط عدم اليقين المعرفي في التنبؤ بالتسلسل. هذا يوحي بإمكانية تنفيذ الاستكشاف-الاستغلال في التعلم المعزز دون اتصال.

استناداً إلى هذه الملاحظة، نطور خوارزمية الاستكشاف-الاستغلال في السياق () لتعلم السياسة. تأخذ كمدخلات سلسلة من الحلقات المتعددة لنفس المهمة وتتنبأ بالإجراء المقابل في كل خطوة مشروطة ببعض المعلومات بأثر رجعي. يشبه تصميم التعلم المعزز دون اتصال هذا المحول القراري (Decision Transformer (DT))، ولكن يتعامل مع تعلم السياسة في السياق من خلال نمذجة الحلقات المتعددة لمهمة بينما DT ينمذج حلقة واحدة فقط. علاوة على ذلك، لا تحتاج هذه الحلقات إلى النشأة من مسار تدريب، مما يتجنب التكاليف الحسابية العالية المرتبطة بتوليد واستهلاك مسارات التعلم. تتجه توزيعات الإجراءات المتعلمة في DT نحو سياسة جمع البيانات، والتي قد لا تكون مثالية عندما تكون دون المستوى الأمثل. لمعالجة هذا التحيز، نقدم هدفاً غير متحيز ونطور شكلاً معيناً من المعلومات بأثر رجعي للاستكشاف-الاستغلال الفعال عبر الحلقات.

من خلال التجارب، نوضح أن سلوك الاستكشاف-الاستغلال يظهر في أثناء الاستدلال بفضل عدم اليقين المعرفي في التنبؤ بالإجراء. هذا واضح بشكل خاص عند تطبيق على التحسين البايزي (Bayesian Optimization (BO))، حيث أن أداء يضاهي طريقة تعتمد على عملية غاوسية في مهام BO المنفصلة. نوضح أيضاً أن يمكن أن يحسن بنجاح السياسة لمهمة جديدة مع التجارب والأخطاء من الصفر لمشاكل التعلم المعزز التسلسلي. حسب علمنا، هي الطريقة الأولى التي تدمج بنجاح الاستكشاف-الاستغلال في السياق في التعلم المعزز من خلال النمذجة التسلسلية دون اتصال.

الأعمال ذات الصلة

التعلم البياني. لقد زاد الاهتمام مؤخراً بخوارزميات التعلم البياني أو تعلم التعلم. بينما يكون المتعلم عبارة عن وكيل يتعلم حل مهمة باستخدام البيانات المرصودة، يتضمن خوارزمية تعلم التعلم وجود متعلم بياني يحسن باستمرار من عملية التعلم للمتعلم (schmidhuber1996simple, thrun2012learning, hospedales2021meta, sutton2022history). تم إجراء الكثير من الأعمال في مجال التعلم البياني. على سبيل المثال، اقترح (finn2017model) خوارزمية تعلم بياني عامة لا تعتمد على النموذج تدرب المعلمات الأولية للنموذج بحيث يكون للنموذج أداء أقصى في مهمة جديدة بعد تحديث معلمات النموذج من خلال بضع خطوات تدريجية محسوبة بكمية صغيرة من البيانات من المهمة الجديدة. تشمل الأعمال الأخرى في التعلم البياني تحسين المحسنات (andrychowicz2016learning, li2016learning, ravi2016optimization, wichrowska2017learned)، تحسين التعلم القليل الأمثلة (mishra2017simple, duan2017one)، تعلم الاستكشاف (stadie2018some)، والتعلم غير المشرف عليه (hsu2018unsupervised).

في مجال التعلم البياني العميق لتعزيز التعلم (wang2016learning)، ركزت بعض الأعمال على شكل خاص من التعلم البياني يسمى التدرجات البيانية. في التدرجات البيانية، يتم تدريب المتعلم البياني بواسطة التدرجات من خلال قياس تأثير المعلمات البيانية على متعلم يتم تدريبه أيضاً باستخدام خوارزمية التدرج (xu2018meta). في عمل آخر، استخدم (zheng2018learning) التدرجات البيانية لتعلم المكافآت. ركز (gupta2018unsupervised) على أتمتة عملية تصميم المهام في تعزيز التعلم، لتحرير الخبير من عبء التصميم اليدوي لمهام التعلم البياني. بالمثل، قدم (veeriah2019discovery) طريقة لوكيل تعزيز التعلم لاكتشاف الأسئلة المصاغة كوظائف قيمة عامة من خلال استخدام التدرجات البيانية غير القصيرة النظر. ومؤخراً، شهد تعلم تعزيز التدرجات البيانية تقدماً كبيراً من مكاسب الأداء في المعايير الشعبية إلى خوارزميات هجينة للتعلم البياني لتعزيز التعلم عبر الإنترنت وغير المتصل (xu2020meta, zahavy2020self, flennerhag2021bootstrapped, mitchell2021offline, yin-etal-2023-large, pong2022offline). تمت دراسة دور الشك في تعزيز التعلم البياني من قبل (JMLR:v22:21-0657)، والذي أسفر عن طريقة فعالة لتعزيز التعلم البياني عبر الإنترنت. ثم تم توسيع هذا العمل من قبل (NEURIPS2021_24802454) إلى الإعداد غير المتصل بالسياسة.

تعلم التعزيز غير المتصل. بشكل عام، تم اقتراح تعلم التعزيز كنموذج أساسي عبر الإنترنت (sutton1988learning, sutton1999policy, sutton2018reinforcement). تأتي هذه الطبيعة التعليمية عبر الإنترنت مع بعض القيود مثل صعوبة تبنيها في العديد من التطبيقات التي من المستحيل جمع البيانات عبر الإنترنت والتعلم في نفس الوقت، مثل القيادة الذاتية وأحياناً ليست فعالة من حيث البيانات كما يمكن أن تكون، حيث قد يختار التعلم من عينة ثم التخلص من العينة والانتقال إلى العينة التالية (levine2020offline). إحدى الأفكار للحصول على المزيد من الخبرة المجمعة هي استخدام مخازن إعادة التشغيل. عند استخدام المخازن، يتم الاحتفاظ بجزء من العينات في الذاكرة ثم يتم إعادة استخدامها عدة مرات بحيث يمكن للوكيل التعلم أكثر منها (lin1992self, mnih2015human). يشير متغير من تعلم التعزيز، يعرف باسم تعلم التعزيز غير المتصل، إلى خوارزميات تعلم التعزيز التي يمكن أن تتعلم بالكامل غير متصل، من مجموعة ثابتة من البيانات التي تم جمعها مسبقاً دون جمع بيانات جديدة في وقت التعلم (ernst2005tree, riedmiller2005neural, lange2012batch, fujimoto2019off, siegel2020keep, gulcehre2020rl, nair2020awac). تركز الأدبيات الحديثة على محولات القرار أيضاً على تعلم التعزيز غير المتصل (NEURIPS2021_7f489f64) لأنها تحتاج إلى حساب العائد المتبقي في وقت التدريب، والذي بدوره يتطلب بيانات تم جمعها مسبقاً.

التعلم في السياق. خوارزميات تعلم التعزيز في السياق هي تلك التي تحسن سياستها بالكامل في السياق دون تحديث معلمات الشبكة أو دون أي تعديل دقيق للنموذج (lu2021pretrained). تم إجراء بعض الأعمال لدراسة ظاهرة التعلم في السياق في محاولة لشرح كيف قد يكون التعلم في السياق ممكناً (abernethy2023mechanism, min2022rethinking). يعمل الوكيل "جاتو" الذي طوره (reed2022generalist) كوكيل عام متعدد النماذج ومتعدد المهام ومتعدد الأجسام، بمعنى أن نفس الوكيل المدرب يمكنه لعب أتاري، ووضع تعليقات توضيحية على الصور، والدردشة، وتكديس الكتل باستخدام ذراع روبوت حقيقي فقط بناءً على سياقه. من خلال تدريب وكيل تعلم التعزيز على نطاق واسع، أظهر (team2023human) أن وكيلاً في السياق يمكنه التكيف مع بيئات ثلاثية الأبعاد جديدة ومفتوحة النهايات. من الاهتمام الخاص بالنسبة لنا هو تقطير الخوارزمية (AD)، وهي طريقة تعلم تعزيز بياني في السياق (laskin2023incontext). على وجه التحديد، AD هي طريقة تعلم تعزيز بياني في السياق غير متصل. بشكل أساسي، AD خالٍ من التدرجات—يتكيف مع المهام اللاحقة دون تحديث معلمات شبكته.

عدم اليقين المعرفي في تنبؤ نموذج التسلسل

يعالج DT، المعروف أيضاً باسم RL المقلوب، مشكلة تعلم السياسة دون اتصال كمشكلة في نمذجة التسلسل. في هذا القسم، ننظر في نموذج تسلسل عام ونحلل عدم اليقين التنبؤي له.

لتكن \(\mX_{1:T}=(\vx_1, \ldots, \vx_T)\) تسلسلاً من المدخلات بطول \(T\) و\(\mY_{1:T} = (\vy_1, \ldots, \vy_T)\) تسلسلاً مقابلاً من المخرجات. نفترض أن تسلسل المخرجات يتم توليده وفقاً لتوزيع احتمالي خطي بمعامل \(\vtheta\)، \(\vy_t \sim p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}, \vtheta)\). يتم توليد كل تسلسل بمعامل مختلف مأخوذ من توزيعه الأولي، \(\vtheta \sim p(\vtheta)\). هذه تحدد توزيعاً توليدياً لتسلسل: \[p(\mY_{1:T}, \vtheta | \mX_{1:T}) = p(\vtheta) p(\vy_1| \vx_1)\prod_{t=2}^Tp(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}, \vtheta).\] غالباً ما تعرف مهمة نمذجة التسلسل بأنها تدريب نموذج ذاتي الارتداد بمعامل \(\vpsi\)، \(p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\)، بناءً على مجموعة بيانات من التسلسلات \(\mathcal{D} = \{\mX^{(i)}, \mY^{(i)}\}_i\) المولدة من التوزيع التوليدي المجهول أعلاه. في حد البيانات اللانهائية، يمكن صياغة هدف التعلم بالاحتمال الأقصى لنموذج التسلسل أعلاه كـ \(\vpsi* = \argmax_{\vpsi} \mathcal{L}_\vpsi\), \[\label{eqn:ml_objective} \begin{split} \mathcal{L}_\vpsi =& - \sum_t \int p(\mY_{1:t-1} | \mX_{1:t-1}) \\ &\KL\left(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})|| p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\right) d \mY_{1:t-1} +C, \end{split}\] حيث \(\KL(\cdot || \cdot)\) يشير إلى انحراف كولباك ليبلر و\(C\) ثابت بالنسبة لـ\(\vpsi\).

التوزيع في الجانب الأيسر في مصطلح الانتروبيا المتقاطعة \(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\) هو التوزيع التنبؤي الحقيقي لـ\(\vy_t|\vx_t\) مشروطاً بالتاريخ الملحوظ \(\mY_{1:t-1}\) و\(\mX_{1:t-1}\)، والذي يمكن كتابته كالتالي: \[p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) = \int p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}, \vtheta) p(\vtheta | \mX_{1:t-1}, \mY_{1:t-1}) d \vtheta,\] حيث \[p(\vtheta| \mX_{1:t-1}, \mY_{1:t-1}) = \frac{p(\vtheta) p(\mY_{1:t-1} | \mX_{1:t-1}, \vtheta)}{\int p(\vtheta') p(\mY_{1:t-1} | \mX_{1:t-1}, \vtheta') d\vtheta'}.\] كما هو موضح أعلاه، يحتوي التوزيع التنبؤي الحقيقي لـ\(\vy_t|\vx_t\) على كل من عدم اليقين العشوائي وعدم اليقين المعرفي، حيث يساهم \(p(\vtheta | \mX_{1:t-1}, \mY_{1:t-1})\) في ذلك. مع بيانات كافية وقدرة نموذجية، سيتم تدريب التوزيع التوليدي في نموذج التسلسل \(p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\) ليتطابق مع التوزيع التنبؤي الحقيقي. نتيجة لذلك، يمكننا توقع أن يتضمن عدم اليقين المعرفي في التوزيع التنبؤي لنموذج التسلسل. لاحظ أن التوزيع التنبؤي يمكن أن يلتقط عدم اليقين المعرفي فيما يتعلق بمعاملات التسلسل \(\vtheta\)، ولكنه لا يشمل عدم اليقين المعرفي بشأن المعاملات الفائقة (إذا كانت موجودة).

تعلم السياسات في سياق محدد

الشك الابستمولوجي هو المكون الأساسي لـEE. مع ملاحظة أن نموذج توزيع التنبؤ يحتوي على شك ابستمولوجي، نصمم خوارزمية تعلم سياسات في سياق محدد مع EE.

نعتبر مشكلة حل مجموعة من ألعاب التعلم المعزز بناءً على بيانات غير متصلة بالشبكة. من كل لعبة، يتم جمع مجموعة من المسارات من عدد من السياسات، حيث أن مسار الحلقة \(k\) للعبة \(i\) و\(\vo\)، \(\va\)، \(r\) تدل على الحالة المرصودة، الفعل والمكافأة على التوالي. السياسة المستخدمة لجمع \(\tau_k^{(i)}\) تعرف بـ\(\pi_k^{(i)}(\va_{k,t}^{(i)}|\vo_{k,t}^{(i)})\). نقوم بدمج جميع الحلقات للعبة \(i\) في تسلسل واحد \(\vtau^{(i)} = (\tau_1^{(i)}, \ldots, \tau_K^{(i)})\). للتسهيل، سيتم حذف الأسطر العليا \(^{(i)}\) في النص التالي ما لم يشار صراحة إلى اللعبة \(i\).

نقترح نموذج تسلسل يتم تدريبه للتنبؤ خطوة بخطوة بـ\(p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t})\)، حيث \(R_{k,t}\) هو العائد المتبقي في الحلقة \(k\) والخطوة الزمنية \(t\) و\(\mH_{k,t}=(\tau_{k, 1:t-1}, \vtau_{1:k-1})\) هو التاريخ حتى الخطوة الزمنية \(t\) بما في ذلك الحلقات السابقة. صياغة النموذج أعلاه مشابهة لـDT ولكن التسلسل في DT يحتوي فقط على حلقة واحدة. علماً بأنه، على عكس AD، لا يلزم أن تكون المسارات المتتالية من خوارزمية تعلم التعلم المعزز.

كما هو موضح في القسم السابق، من خلال القيام بالتعلم بالاحتمال الأقصى على المسارات المجمعة، سيتم تدريب التوزيع التنبؤي ليتطابق مع التوزيع اللاحق الحقيقي لفعل سياسة جمع البيانات، \[\label{eqn:true_action_posterior} p(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) = \frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\pi_k(\va_{k,t}|\vo_{k,t})}{\int p(R_{k,t}| \va_{k,t}', \vo_{k,t}, \mH_{k,t})\pi_k(\va_{k,t}'|\vo_{k,t}) d \va_{k,t}'},\] حيث \(p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\) هو توزيع العائد بعد الخطوة الزمنية \(t\) التالية لـ\(\pi_k\).

كما هو موضح في ([eqn:true_action_posterior])، التوزيع اللاحق للفعل متحيز نحو سياسة جمع البيانات. اتباع مثل هذا التوزيع للفعل يسمح لنا بإعادة إنتاج المسارات التي تم إنشاؤها بواسطة سياسة جمع البيانات ولكن سيؤدي إلى إعادة إنشاء مسارات غير مثالية إذا لم تكن سياسة جمع البيانات مثالية. توزيع الفعل الأكثر ملاءمة هو توزيع الفعل الذي يتوافق مع العائد المحدد دون تأثير سياسة جمع البيانات، أي \[\label{eqn:unbiased_action_posterior} \hat{p}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) = \frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\mathcal{U}(\va_{k,t})}{\int p(R_{k,t}| \va_{k,t}', \vo_{k,t}, \mH_{k,t}) \mathcal{U}(\va_{k,t}') d \va_{k,t}'},\] حيث \(\mathcal{U}(\va_{k,t})\) هي السياسة العشوائية الموحدة، التي تعطي جميع الأفعال احتمالات متساوية. لتمكين نموذج التسلسل من تعلم توزيع الفعل غير المتحيز، يجب تعريف الهدف الاحتمالي الأقصى على النحو التالي \[\mathcal{L}_{\vpsi} =\sum_{k,t} \int \hat{p}(R_{k,t}, \va_{k,t} |\vo_{k,t}, \mH_{k,t}) \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) dR_{k,t} d \va_{k,t}.\] بعد تطبيق حيلة أخذ العينات حسب الأهمية، يمكن استنتاج تقريب مونت كارلو للهدف أعلاه كما يلي \[\label{eqn:action_correction_obj} \mathcal{L}_{\vpsi} \approx \sum_{k,t} \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}),\] حيث \(\va_{k,t} \sim \pi_k(\va_{k,t}|\vo_{k,t})\) و\(R_{k,t} \sim p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\)، أي أن \(\va_{k,t}\) و\(R_{k,t}\) يتم أخذهما من سياسة جمع البيانات \(\pi_k\).

تصميم العودة إلى الهدف

العودة إلى الهدف هي مكون حاسم في (DT) لحل مهام (RL) في الاستدلال باستخدام نموذج تسلسلي مدرب. تم تصميم نظام العودة إلى الهدف لحساب إشارة العائد المتوقعة من حلقة واحدة. من أجل تحقيق تعلم السياسات في سياقها، نصمم العودة إلى الهدف عبر الحلقات.

تتكون العودة إلى الهدف في (DT) من مكونين: واحد للخطوات الفردية داخل حلقة والآخر للسلوك عبر الحلقات، \(R_{k,t} = (c_{k,t}, \tilde{c}_k)\). تتبع العودة إلى الهدف داخل الحلقة \(c_{k,t}\) التصميم المستخدم في (NEURIPS2021_7f489f64)، والذي يعرف بأنه المكافآت التراكمية ابتداءً من الخطوة الحالية \(c_{k,t} = \sum_{t'>t} r_{k, t'}\). يستعير هذا التصميم مفهوم المكافأة التراكمية لـ(RL) وله فائدة تضمين معلومات المكافآت المستقبلية التي تتبع السياسة. هذا مفيد جداً عندما تعتمد نتائج الخطوات المستقبلية بشدة على حالة وفعل الخطوة الحالية. يسمح ذلك بتمييز الفعل الذي يؤدي إلى نتيجة مستقبلية جيدة عن الفعل الذي يؤدي إلى نتيجة سيئة في نموذج التسلسل. الجانب السلبي هو أنه مع سياسة جمع بيانات غير خبيرة، غالباً ما لا تلاحظ العودة إلى الهدف المثالي في كل حالة. هذا سيحد من قدرة نموذج التسلسل على تحقيق أداء أفضل من سياسة جمع البيانات في وقت الاستدلال.

في تصميم العودة إلى الهدف عبر الحلقات، الوضع مختلف. الحالات الأولية للحلقات الفردية مستقلة عن بعضها البعض. ما يحدد المكافآت التراكمية للحلقات الفردية هو تسلسل الأفعال. إذا اعتبرنا مجمل فضاء السياسات كفضاء الأفعال لكل حلقة، فإن اتخاذ القرارات عبر الحلقات يكون أقرب إلى (MAB)، حيث السياسة هي الفعل وعائد الحلقة هو مكافأة (MAB). مدفوعاً بهذه الملاحظة، نعرف العودة إلى الهدف بناءً على تحسين عائد الحلقة الحالية مقارنة بجميع الحلقات السابقة. على وجه التحديد، نعرف العودة إلى الهدف عبر الحلقات كما يلي: \[\tilde{c}_k = \begin{cases} 1 & \quad \bar{r}_k > \max_{1\leq j \leq k-1} \bar{r}_j,\\ 0 & \quad \text{otherwise}. \end{cases}\] حيث \(\bar{r}_k = \sum_t r_{k,t}\) هو المكافأة التراكمية للحلقة \(k\). بديهياً، في وقت الاستدلال، من خلال الشرط على \(\tilde{c}_k =1\)، نتخذ أفعالاً من سياسة "معينة" وفقاً لاحتمالية كونها أفضل من جميع الحلقات السابقة. هذا يشجع نموذج التسلسل على تقديم أداء أفضل بعد جمع المزيد والمزيد من الحلقات. يتجنب هذا التصميم القيود المتعلقة بالحاجة إلى مراقبة مسارات تعلم السياسة المثلى.

استدلال الفعل. بعد تدريب نموذج التسلسل، يمكن استخدام النموذج لأداء تعلم السياسة من الصفر. في كل خطوة، نأخذ عينة من فعل من نموذج التسلسل مشروطاً على المسار حتى الآن وعودة إلى الهدف للخطوة. تعرف العودة إلى الهدف لأخذ عينة الفعل على النحو التالي. دائماً ما يتم ضبط العودة إلى الهدف عبر الحلقات \(\tilde{c}_k\) على واحد لتشجيع تحسينات السياسة. بالنسبة للعودة إلى الهدف داخل الحلقة، نتبع استدلال الفعل المقترح بواسطة (NEURIPS2022_b2cac94f). خلال تدريب (DT)، يتم تدريب نموذج تسلسل منفصل للتنبؤ بالعائد المنقسم من المسارات، \(p_{\vphi}(c_{k,t} | \tilde{c}_k, \vo_{k,t}, \mH_{k,t})\). في وقت الاستدلال، يتم أخذ عينة من العودة إلى الهدف داخل الحلقة لكل خطوة من توزيع معزز \[q(c_{k, t}) \propto p_{\vphi}(c_{k,t} | \tilde{c}_k, \vo_{k,t}, \mH_{k,t})(\frac{c_{k,t} - c_{\min}}{c_{\max}- c_{\min}})^{\kappa}.\] يميل هذا التعزيز توزيع العودة إلى الهدف نحو القيم الأعلى، مما يشجع العامل على اتخاذ أفعال تؤدي إلى عوائد أفضل. لا يتم دمج التنبؤ بالعائد في نموذج التسلسل الرئيسي كما في (NEURIPS2022_b2cac94f)، لأن العوائد تدخل أيضاً في المدخلات. بهذه الطريقة، يكتشف النموذج بسرعة أن \(c_{k,t}\) يمكن التنبؤ به من \(c_{k, t-1}\). هذه مشكلة لأن العائد الحقيقي لا يمكن ملاحظته حتى نهاية الحلقة.

بعد أخذ عينة من \(c_{k,t}\)، يتم أخذ عينة من فعل مشروط على العودة إلى الهدف المجمعة \(R_{k,t}\). يتم دمج الحالة الناتجة والمكافأة في المسار للتنبؤ بفعل الخطوة التالية. في نهاية الحلقة، سنعيد حساب العودة إلى الهدف الحقيقية \(c_{k,t}\) و\(\tilde{c}_k\) بناءً على المكافآت من الحلقة بأكملها وتحديث العودة إلى الهدف في المسار بالقيم المعاد حسابها. هذا يجعل المسار في وقت الاستدلال قريباً قدر الإمكان من مسارات التدريب. يمكن العثور على وصف خوارزمية استدلال الفعل في الخوارزمية (alg:action_infer).

تجارب التحسين البايزي

التحسين البايزي (BO) هو تطبيق ناجح جداً لاستكشاف الاستغلال (EE). يمكنه البحث عن الأمثل لدالة بأقل عدد من تقييمات الدالة. تم استخدام طرق التحسين البايزي المعتمدة على عملية غاوس (GP) على نطاق واسع في مجالات مختلفة مثل ضبط المعلمات الفائقة، واكتشاف الأدوية، وتحسين الديناميكا الهوائية. لتقييم أداء EE لـours، نطبقه على BO ونقارنه بطريقة معتمدة على GP باستخدام واحدة من أكثر وظائف الاستحواذ استخداماً، التحسين المتوقع (EI).

نعتبر مشكلة التحسين البايزي المنفصلة. المهمة هي العثور على الموقع من مجموعة ثابتة من النقاط التي لديها أقل قيمة وظيفية بأقل عدد من تقييمات الدالة قدر الإمكان. يمكن اعتبار BO كنوع خاص من العصابات متعددة الأذرع (MAB)، حيث يرتبط كل عمل بموقع في مساحة محدودة. لحل BO باستخدام ours، نقوم بترميز مسار البحث التكراري لدالة كتسلسل واحد، حيث \(\va_t\) هو موقع يتم فيه جمع قيمة الدالة في الخطوة \(t\)، \(r_t\) هي قيمة الدالة المقابلة و\(R_t\) هو العائد المتبقي. يمكن استخدام الملاحظات \(\{\vo_t\}\) لترميز أي معلومات جانبية معروفة عن الدالة والحد الأدنى. نظراً لعدم توفر مثل هذه المعلومات لـBO العام، فإننا لا نستخدم \(\{\vo_t\}\) في تجربتنا. نظراً لأن قيمة الدالة يمكن اعتبارها المكافأة الفورية المتاحة، فإننا نعامل كل عمل كحلقة مختلفة ونستخدم فقط العائد المتبقي كـ\(R_t\) هنا. نظراً لأن كل عمل مرتبط بموقع، فإننا نقوم بتضمين الإجراءات من خلال تعلم إسقاط خطي بين مساحة الموقع ومساحة التضمين. عند فك تشفير إخراج Transformer لإجراء، يتم إنشاء لوغاريتم الإجراء باستخدام MLP الذي يأخذ كمدخلات إخراج Transformer جنباً إلى جنب مع التضمين المرتبط بالإجراء. التصميم هو لمواجهة التحدي الذي قد تكون مجموعة المواقع لكل دالة مختلفة.

لتدريب ours لحل مشكلة التحسين البايزي المنفصلة، نحتاج إلى توليد بيانات تدريب تتكون من أزواج إدخال-إخراج لدوال تم أخذ عينات منها بشكل عشوائي. أثناء التدريب، يتم توليد أزواج الإدخال-الإخراج في المواقع العشوائية على الفور. نستخدم GP مع نواة Matérn 5/2 لأخذ عينات من 1024 نقطة لكل دالة. يتم أخذ عينات من مواقع هذه النقاط من توزيع موحد على \([0, 1]\). يتم أخذ عينات من مقاييس الطول للنواة من توزيع موحد على \([0.05, 0.3]\).

بعد تدريب ours، نقوم بتقييم أدائه على مجموعة من وظائف المعيار 2D. نستخدم 16 وظيفة 2D التي تم تنفيذها في (KimJ2017bayeso). يتم تطبيع مساحة الإدخال لكل دالة لتكون بين 0 و1. نقوم بأخذ عينات من مجموعة مختلفة من 1024 نقطة من كل دالة وتطبيع قيم الدالة الناتجة لتكون بمتوسط صفر وتباين وحدة. تم إعطاء كل دالة خمس تجارب بتصاميم أولية مختلفة. في كل خطوة من البحث، نحسب الفرق في قيمة الدالة بين التقدير الحالي الأفضل والحد الأدنى الحقيقي. يتم عرض الأداء العام لجميع الوظائف المقيمة في الشكل [fig:bo_exp]. تتم مقارنة أداء ours مع طريقة التحسين البايزي المعتمدة على GP باستخدام وظيفة الاستحواذ EI والأساس العشوائي الذي يختار المواقع وفقاً لاحتمالية عشوائية موحدة. "ours-biased" يشير إلى متغير من ours الذي لا يستخدم هدف تصحيح التحيز العملي كما هو موضح في ([eqn:action_correction_obj]). كفاءة البحث لـours مماثلة لطريقة التحسين البايزي المعتمدة على GP مع EI. كلاهما أفضل بشكل ملحوظ من العشوائية وأفضل بشكل ملحوظ من ours-biased. الفجوة في الأداء بين ours وours-biased تظهر فقدان الكفاءة بسبب التوزيع المتعلم المتحيز للإجراءات. القدرة على الأداء بمستوى مماثل لطريقة التحسين البايزي المتقدمة تظهر أن ours قادر على أداء EE المتقدم مع الاستدلال في السياق.

ميزة واضحة لـours هي أن البحث بأكمله يتم من خلال استدلال النموذج دون الحاجة إلى أي تحسين تدريجي. في المقابل، تحتاج طرق التحسين البايزي المعتمدة على GP إلى ملاءمة دالة بديلة GP في كل خطوة، مما يؤدي إلى فرق كبير في السرعة. يظهر الشكل [fig:bo_exp_time] نفس نتائج البحث مع المحور السيني كونه الوقت المنقضي. تعمل جميع الطرق على وحدة معالجة الرسومات A100 واحدة. بفضل الاستدلال في السياق، ours أسرع بكثير من طرق التحسين البايزي التقليدية.

التفاصيل الإضافية لتجارب Bayesian Optimization

يمكن العثور على المزيد من التفاصيل حول تجارب Bayesian Optimization في الملحق [sec:appendix_bo_exp].

تجارب التعلم المعزز

نحن نستكشف قدرة التعلم السياقي لـours في مشاكل التعلم المعزز التسلسلية. لإظهار قدرة التعلم في السياق، نركز على عائلات البيئات التي لا يمكن حلها من خلال التعميم الفوري لنموذج مدرب مسبقاً، لذا فإن التعلم السياقي للسياسة ضروري لحل المهام. هذا يعني أن بعض المعلومات المهمة لنجاح المهمة مفقودة من تمثيل الحالة ويجب اكتشافها من قبل الوكيل. نستخدم بيئتين من بيئات العالم الشبكي في (NEURIPS2022_b2cac94f): غرفة مظلمة ومفتاح إلى باب مظلم. تفاصيلها كالتالي.

الغرفة المظلمة. تجرى التجربة في نموذج قرار جزئي المراقبة ثنائي الأبعاد، حيث يتم وضع وكيل داخل غرفة لتحديد موقع نقطة هدف. يمكن للوكيل الوصول إلى إحداثيات موقعه \((x,y)\)، لكنه غير مدرك لمكان الهدف مما يتطلب منه استنتاج ذلك من المكافآت المستلمة. أبعاد الغرفة هي 9x9 مع الإجراءات الممكنة من قبل الوكيل تشمل التحرك خطوة واحدة إما إلى اليسار، اليمين، الأعلى أو الأسفل، أو البقاء ثابتاً، كل ذلك ضمن طول حلقة من 20. عند الانتهاء، يتم وضع الوكيل مرة أخرى في منتصف الخريطة. يتم النظر في نوعين من البيئات لهذه التجربة: حالة الغرفة المظلمة حيث يحصل الوكيل على مكافأة (r=1) في كل مرة يتم فيها تحقيق الهدف، وحالة الغرفة المظلمة الصعبة حيث المكافآت نادرة (r=1 مرة واحدة فقط لتحقيق الهدف). كلما لم تكن قيمة المكافأة 1، ستعتبر 0. بخلاف (NEURIPS2022_b2cac94f)، نحافظ على حجم الغرفة في الحالة الصعبة ليكون 9 x 9.

المفتاح إلى الباب المظلم. هذا الإعداد مشابه للغرفة المظلمة، ولكن مع ميزات تحدي إضافية. مهمة الوكيل هي تحديد موقع مفتاح غير مرئي لتلقي مكافأة لمرة واحدة بقيمة r=1، وبعد ذلك، تحديد موقع باب غير مرئي للحصول على مكافأة أخرى لمرة واحدة بقيمة r=1. خلاف ذلك، تظل المكافأة عند r=0. موقع الوكيل الأول في كل حلقة يتم إعادة تعيينه بشكل عشوائي. حجم الغرفة لا يزال 9 x 9 ولكن طول الحلقة يزيد إلى 50 خطوة.

لجمع البيانات للتدريب غير المتصل، نقوم بأخذ عينات من مجموعة من الألعاب الجديدة لكل دفعة صغيرة. نجمع \(K\) حلقات من كل لعبة. بفضل قدرة EE لـours، لا تحتاج البيانات التدريبية أن تكون من خوارزمية تعلم RL حقيقية مثل شبكة Q العميقة (DQN)، والتي تكون مكلفة للتشغيل. بدلاً من ذلك، نسمح لسياسة جمع البيانات الرخيصة بالعمل لـ\(K\) حلقات بشكل مستقل ونقوم بدمج الحلقات الناتجة في تسلسل واحد. نستخدم نسخة \(\epsilon\)-الجشعة من السياسة المثلى "الغش". تعرف السياسة موقع الهدف الذي لا يعرفه الوكيل وستتحرك مباشرة نحو الهدف باحتمال \(1-\epsilon\) وباحتمال \(\epsilon\) ستتخذ إجراء لا يقرب الوكيل من الهدف. لكل حلقة، يتم أخذ عينة \(\epsilon\) من توزيع موحد بين 0 و1. بديهياً، تمتلك هذه السياسة بعض الفرص لحل اللعبة بكفاءة عندما يكون \(\epsilon\) صغيراً ولكن في المتوسط لا تقدم أداء جيداً. لتجارب الغرفة المظلمة، يتكون كل تسلسل من 50 حلقة وللمفتاح إلى الباب المظلم، يتكون من 20 حلقة.

الغرفة المظلمة (متحيزة). لإظهار فوائد EE لمشكلة التعلم المعزز التسلسلي عندما لا يمكن أن تكون سياسة جمع البيانات مثالية، نقوم بإنشاء نسخة متغيرة من بيئة الغرفة المظلمة. في كل خطوة، تتخذ سياسة جمع البيانات إجراء "اليسار" باحتمال \(2/3\) وباحتمال \(1/3\) تتصرف كما هو موضح أعلاه. في وقت التدريب، يمكن أن يكون الهدف في أي مكان في الغرفة و، في وقت التقييم، سيظهر الهدف فقط على الجانب الأيمن حيث \(x>5\).

لمشاكل التعلم المعزز التسلسلية، يتكون ours من نموذجين تسلسليين: واحد لتوقع الإجراء والآخر لتوقع العائد المتبقي داخل الحلقة. يأخذ نموذج تسلسل العائد المتبقي كمدخلات تسلسل الثلاثيات الحالة، الإجراء، المكافأة ويتنبأ بالعائد المتبقي داخل الحلقة. يأخذ نموذج توقع الإجراء كمدخلات تسلسل الثلاثيات والعائدين المتبقيين \(R_{k,t}\) ويتنبأ بتسلسل الإجراءات. يتم تدريب النموذجين معاً بنفس محسن التدرج. لتشجيع ours على حل الألعاب بسرعة، عند حساب العائد المتبقي داخل الحلقة، يعطى مكافأة سالبة، \(-1/T\)، لكل خطوة لا تتلقى مكافأة، حيث \(T\) هو طول الحلقة. كل من \(\tilde{c}_k\) و\(c_{k,t}\) متقطعان ومميزان.

طرق الأساس

المصدر. نستخدم سياسة جمع البيانات كأساس للمقارنة. حيث تحل سياسة جمع البيانات كل حلقة بشكل مستقل، نحسب العائد المتوسط عبر عدة حلقات.

تقطير الخوارزمية (laskin2023incontext). خوارزمية التعلم في السياق التي تقطر خوارزميات التعلم المعزز من مسارات تدريب التعلم المعزز. تقطير الخوارزمية يتنبأ بالفعل استناداً فقط إلى الحالات الحالية وتاريخ الثلاثيات الحالة، الفعل والمكافأة. نحن نقوم بتكرار تنفيذ تقطير الخوارزمية باستخدام هندسة المحول كما في ours. نطبق تقطير الخوارزمية على نفس بيانات التدريب التي يستخدمها ours (متجاهلين إشارات العودة إلى الذهاب)، على الرغم من أنها مولدة من مسارات تعلم التعلم المعزز.

تقطير الخوارزمية المرتب. تم تصميم تقطير الخوارزمية ليتم تدريبه على مسارات تعلم التعلم المعزز. خاصية مهمة لمسارات تعلم التعلم المعزز هي أن أداء العامل يزداد تدريجياً خلال التدريب. لتقليد مثل هذه المسارات باستخدام بياناتنا، نقوم بفرز الحلقات في تسلسل وفقاً لـ\(\epsilon\) المعين من سياسة جمع البيانات بترتيب تنازلي. \(\epsilon\) يحدد مدى قرب سياسة جمع البيانات من السياسة المثلى. في هذا الترتيب، تميل الحلقات في موضع لاحق من التسلسل إلى أن يكون لها عائد أعلى. نقوم بتدريب تقطير الخوارزمية باستخدام هذه التسلسلات المرتبة بدلاً من الأصلية.

محول القرار متعدد الألعاب (NEURIPS2022_b2cac94f). محول القرار متعدد الألعاب ليس خوارزمية تعلم في السياق. نقوم بتدريب محول القرار متعدد الألعاب باستخدام حلقة واحدة فقط من كل لعبة معينة. أداء محول القرار متعدد الألعاب يظهر ما هو أداء العامل عندما لا يوجد تعلم سياسة في السياق.

التقييم والنتائج

بعد التدريب، سيتم تقييم OURS في حل مجموعة من الألعاب المعينة. يتم وصف خوارزمية الاستدلال في Alg. [alg:action_infer]. لا يتم إجراء تحديث للنموذج عبر الإنترنت بواسطة OURS وجميع الطرق الأساسية في وقت التقييم. لكل لعبة معينة، سيتصرف OURS ونوعان من AD لمدة \(K\) حلقات متتالية. في كل حلقة، يتم استخدام المسارات من الحلقات السابقة كما هو موضح في تمثيل التاريخ. من المثالي أن يحدد العامل الأداء الجيد المعلومات المفقودة بأقل عدد ممكن من الحلقات ثم يعظم العائد في الحلقات التالية. لكل مشكلة، نقوم بأخذ عينة من 100 لعبة و\(K\) هو 50 لغرفة الظلام و20 لمفتاح الباب.

تظهر نتائج التجربة في Fig. [fig:rl_exp]. يمكن لـOURS حل الألعاب المعينة بكفاءة مقارنة بالطرق الأساسية. تسمح قدرة EE لـOURS بالبحث عن المعلومات المفقودة بكفاءة ثم يتصرف بثقة بمجرد العثور على المعلومات المفقودة. مؤشر لهذا السلوك هو الانخفاض المستمر لتشتت الأفعال كما يختبر العامل المزيد من الحلقات.

كما هو متوقع، يتعلم AD الأصلي تقليد سياسة جمع البيانات، مما يؤدي إلى أداء متوسط يقل قليلاً عن سياسة جمع البيانات. يفشل MGDT في حل معظم الألعاب بسبب المعلومات المفقودة. من المثير للاهتمام، على الرغم من أن بيانات التدريب لم تتولد من خوارزمية تعلم RL، فإن AD-sorted قادر على استنساخ سلوك سياسة جمع البيانات بـ\(\epsilon\) مختلف في مراحل مختلفة، مما يسمح له بحل الألعاب في نهاية السلسلة.

لم يتم عرض OURS-biased في Fig. [fig:rl_dark_room_easy], Fig. [fig:rl_dark_room_hard] وFig. [fig:rl_key2door] حيث أنه يحقق أداء مماثلاً لـOURS. السبب هو أنه لا يوجد تحيز واضح في توزيع الأفعال لسياسة جمع البيانات. ومع ذلك، كما هو موضح في Fig. [fig:dark_room_easy_biased]، بالنسبة لبيئة غرفة الظلام (متحيزة)، يتفوق OURS بوضوح على OURS-biased، حيث يمكنه التغلب على التحيز في سياسة جمع البيانات والحفاظ على عدم اليقين الكافي في توزيع الأفعال لاستكشاف الجانب الأيمن من الغرفة. يفشل AD-sorted في المهمة لأنه يستنسخ سياسة جمع البيانات، والتي من غير المرجح أن تحل المهام بسبب التحيز في الأفعال.

الخلاصة

في هذه الورقة، نحلل التوزيع التنبؤي لنماذج التسلسل ونظهر أن التوزيع التنبؤي يمكن أن يحتوي على عدم اليقين الابستمولوجي، مما يلهم خلق خوارزمية EE. نقدم خوارزمية EE في السياق بتوسيع صيغة DT إلى تعلم السياسات في السياق واشتقاق هدف تدريبي غير متحيز. من خلال التجارب على مشاكل BO وRL المنفصلة، نظهر أن: (i) ours يمكن أن يؤدي EE في التعلم في السياق دون الحاجة إلى استدلال بايزي صريح؛ (ii) أداء ours يعادل أفضل طرق BO دون الحاجة إلى تحسين التدرج، مما يؤدي إلى تسريع كبير؛ (iii) يمكن حل مهام RL جديدة في غضون عشرات الحلقات.

اشتقاق هدف نموذج التسلسل

يمكن اشتقاق هدف الاحتمال الأقصى لنموذج التسلسل في ([eqn:ml_objective]) بالخطوات التالية. \[\begin{aligned} \mathcal{L}_\vpsi =& \int p(\mY_{1:T}, \vtheta | \mX_{1:T}) \log p_{\vpsi}(\mY_{1:T} | \mX_{1:T}) d \mY_{1:T} d\vtheta\\ =& \int p(\mY_{1:T}, \vtheta | \mX_{1:T}) \log \prod_{t=1}^T p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:T} d\vtheta\\ =& \sum_{t=1}^T \int p(\mY_{1:T}, \vtheta | \mX_{1:T}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:T} d\vtheta\\ =& \sum_{t=1}^T \int p(\mY_{1:t} | \mX_{1:t}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:t} \\ =& \sum_{t=1}^T \int p(\mY_{1:t-1} | \mX_{1:t-1}) p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:t} \\ =& \sum_{t=1}^T \int p(\mY_{1:t-1} | \mX_{1:t-1}) \Big( p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \\ & - p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \Big) d \mY_{1:t} \\ & + \int p(\mY_{1:t-1} | \mX_{1:t-1}) p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:t} \\ =& \sum_{t=1}^T \int p(\mY_{1:t-1} | \mX_{1:t-1}) \Big( - \KL\left(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})|| p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\right) \Big)d \mY_{1:t-1} \\ & + \int p(\mY_{1:t-1} | \mX_{1:t-1}) H\Big(p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \Big) d \mY_{1:t-1}\\ =& - \sum_t \int p(\mY_{1:t-1} | \mX_{1:t-1}) \KL\left(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})|| p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\right) d \mY_{1:t-1} +C, \end{aligned}\]

اشتقاق الهدف غير المتحيز

يشمل نهج محول القرار في التعلم المعزز غير المتصل تدريب توزيع الفعل مشروطاً بالعائد، مما يسمح بأخذ عينة من الفعل في وقت الاستدلال من خلال تقديم العائد المتوقع (العائد المتبقي). بما أن العائد هو نتيجة الأفعال الحالية واللاحقة، يمكن إعادة صياغة توزيع الفعل الذي يحاول النموذج تعلمه على أنه توزيع بعدي للفعل، كما هو مقدم في المعادلة ([eqn:true_action_posterior]). لاحظ أن المعادلة ([eqn:true_action_posterior]) تحدد توزيع البيانات، والذي ينبغي تمييزه عن نموذج الشبكة العصبية \(p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t})\). كما هو ملاحظ في المعادلة ([eqn:true_action_posterior])، فإن توزيع الفعل متناسب مع توزيع العائد، ويتم ترجيح ذلك بواسطة احتمال الفعل من سياسة جمع البيانات. وبما أنه التوزيع البعدي المشتق بواسطة قاعدة بايز، نسميه بتوزيع الفعل البعدي "الحقيقي".

لوضع هذا بشكل بديهي، إذا استطاع النموذج مطابقة المعادلة ([eqn:true_action_posterior]) بدقة، فسيؤدي ذلك إلى تحيز توزيع الفعل نحو سياسة جمع البيانات. على سبيل المثال، في تسلسل مسجل مسبقاً، إذا تم اختيار فعل بشكل عشوائي باحتمالية منخفضة جداً من سياسة جمع البيانات، ولكنه يحقق عائداً عالياً، فإن توزيع الفعل اللاحق في المعادلة ([eqn:true_action_posterior]) سيعطي احتمالاً ضئيلاً للفعل المعني، بالنظر إلى العائد العالي. على الرغم من ملاحظة عائد عالٍ بعد الفعل، مما قد يشير إلى احتمالية عالية لـ\(p(R_{k,t} | \va_{k,t}, \vo_{k,t}, \mH_{k,t})\)، فإن احتمالية الفعل الناتجة مرجحة بواسطة احتمالية الفعل في سياسة جمع البيانات، \(\pi_k(\va_{k,t}|\vo_{k,t})\)، مما يؤدي إلى قيمة صغيرة. لذلك، على الرغم من أن ([eqn:true_action_posterior]) هو التوزيع البعدي الحقيقي للفعل، إلا أنه ليس التوزيع المرغوب فيه لنموذجنا.

من الناحية المثالية، ينبغي أن يكون توزيع الفعل، كما هو موضح في المعادلة ([eqn:unbiased_action_posterior])، متناسباً فقط مع توزيع العائد وغير متأثر بسياسة جمع البيانات. مع مثل هذا التوزيع، سيتم القضاء على التقليل غير المرغوب فيه بسبب سياسة جمع البيانات، مما يحل المشكلة المذكورة.

كما هو موضح أعلاه، نود أن نتعلم توزيع الفعل في ([eqn:unbiased_action_posterior]) بدلاً من توزيع الفعل في ([eqn:true_action_posterior]). ومع ذلك، نظراً لأن ([eqn:true_action_posterior]) هو توزيع الفعل الحقيقي للبيانات، فإن الهدف التدريبي الشائع للأقصى درجة الإمكانية سيجعل النموذج يطابق توزيع الفعل في ([eqn:true_action_posterior]).

يمكن اشتقاق الهدف غير المتحيز لتعلم توزيع الفعل في ([eqn:action_correction_obj]) بالخطوات التالية.

لتمكين النموذج من تعلم توزيع الفعل في ([eqn:unbiased_action_posterior]) بدلاً من ذلك، نبدأ بتحديد الهدف التدريبي المرغوب كما لو أن البيانات تتبع التوزيع ([eqn:unbiased_action_posterior]): \[\begin{aligned} \mathcal{L}_{\vpsi} =& \sum_{k,t} \int \hat{p}(R_{k,t}, \va_{k,t} |\vo_{k,t}, \mH_{k,t}) \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) dR_{k,t} d \va_{k,t} \\ =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int \hat{p}(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\\end{aligned}\]

ثم نطبق حيلة أخذ العينات حسب الأهمية لإدخال التوزيع البعدي الحقيقي للفعل في المعادلة: \[\begin{aligned} \mathcal{L}_{\vpsi} =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\hat{p}(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t})}{p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t})}\\ &\log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t}\end{aligned}\]

بعد إعادة ترتيب المعادلة، نحصل على صياغة أوضح للهدف: \[\begin{aligned} \mathcal{L}_{\vpsi} =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\mathcal{U}(\va_{k,t})}{ \hat{p}(R_{k,t}| \vo_{k,t}, \mH_{k,t})}}{\frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\pi_k(\va_{k,t}|\vo_{k,t})}{ p(R_{k,t}| \vo_{k,t}, \mH_{k,t})}} \\ & \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\ =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\mathcal{U}(\va_{k,t})p(R_{k,t}| \vo_{k,t}, \mH_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})\hat{p}(R_{k,t}| \vo_{k,t}, \mH_{k,t})} \\ & \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\ =& \sum_{k,t} \int p(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \\ & \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\ =& \sum_{k,t} \int p(R_{k,t}, \va_{k,t} | \vo_{k,t}, \mH_{k,t}) \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} dR_{k,t} \end{aligned}\]

لاحظ أن التوزيع الاحتمالي في المقدمة هو الآن التوزيع المشترك للعائد والفعل في توزيع البيانات. نطبق تقريب مونت كارلو للتكامل من خلال النظر في أن البيانات المسجلة هي عينات من توزيع البيانات. نحصل على الهدف التدريبي المقترح. \[\begin{aligned} \mathcal{L}_{\vpsi} \approx& \sum_{k,t} \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}), \quad R_{k,t}, \va_{k,t} \sim p(R_{k,t}, \va_{k,t} | \vo_{k,t}, \mH_{k,t}) \end{aligned}\]

تفاصيل التنفيذ

تم تنفيذ ours بناءً على nanoGPT¹. بالنسبة لتجارب التعلم بالتعزيز، يحتوي ours على 12 طبقة مع تضمينات بعدية مقدارها 128. هناك 4 رؤوس في الانتباه المتعدد الرؤوس. نستخدم محسن Adam مع معدل تعلم \(10^{-5}\).

تجارب التحسين البايزي

نعتبر مشكلة التحسين البايزي المتقطعة. المهمة هي إيجاد الموقع من مجموعة ثابتة من النقاط التي تحتوي على أقل قيمة للدالة بأقل عدد ممكن من تقييمات الدالة. في بداية البحث، يتم إعطاء قيم الدالة لبعض المواقع المختارة عشوائياً. سيطلب من خوارزمية التحسين البايزي اقتراح موقع يكمن فيه الحد الأدنى للدالة، ثم يتم جمع قيمة الدالة من الموقع المقترح. سيتم تكرار حلقة الاقتراح والتقييم عدداً ثابتاً من المرات. يتم تقييم أداء خوارزمية التحسين البايزي بناءً على سرعتها في إيجاد الحد الأدنى للدالة.

قائمة الدوال ثنائية الأبعاد المستخدمة للتقييمات هي: برانين، بيل، بوهاتشيفسكي، بوكين 6، ديجونج 5، دروبويف، ايجهولدر، جولدستين برايس، هولدر تيبل، كيم 1، كيم 2، كيم 3، ميشاليفيتش، شوبرت، سيكس هيمب كيميل، ثري هيمب كيميل.

تم تنفيذ خط الأساس للتحسين المتوقع باستخدام (balandat2020botorch). استخدمنا فئة “SingleTaskGP” لنموذج البديل GP، الذي يستخدم نواة ماترن 5/2 مع أولوية جاما على مقاييس الطول.

النتائج الكمية لتجارب التعلم المعزز المنفصلة

يرجى العثور أدناه على المقارنة الكمية لتجارب التعلم المعزز المعروضة في الشكل. تظهر القيم المعروضة العوائد المتوسطة على مدى 100 لعبة معينة والقيم الموجودة بين الأقواس هي فترات الثقة لتقديرات المتوسط، والتي تتوافق مع المنطقة المظللة في الشكل. نأخذ ثلاث نقاط زمنية على طول مسارات التعلم السياقي للسياسة. بما أن MGDT لا يستطيع تحديث السياسة في وقت الاستدلال، فإننا نقدر عائداً متوسطاً واحداً لكل لعبة.

	الغرفة المظلمة (الحلقة العاشرة)	الغرفة المظلمة (الحلقة الثلاثون)	الغرفة المظلمة (الحلقة الخمسون)
ICEE	8.15 (1.29)	12.37 (1.14)	13.61 (0.86)
AD	3.74 (1.15)	4.51 (1.17)	4.03 (1.15)
AD-sorted	0.05 (0.05)	3.83 (0.87)	12.48 (1.37)
MGDT	1.86 (0.93)	1.86 (0.93)	1.86 (0.93)
المصدر	5.13 (1.19)	5.13 (1.19)	5.13 (1.19)

	الغرفة المظلمة (صعبة) (العاشرة)	الغرفة المظلمة (صعبة) (الثلاثون)	الغرفة المظلمة (صعبة) (الخمسون)
ICEE	0.48 (0.10)	0.74 (0.09)	0.79 (0.08)
AD	0.33 (0.09)	0.43 (0.10)	0.43 (0.10)
AD-sorted	0.08 (0.05)	0.55 (0.10)	0.75 (0.08)
MGDT	0.09 (0.06)	0.09 (0.06)	0.09 (0.06)
المصدر	0.51 (0.10)	0.51 (0.10)	0.51 (0.10)

	المفتاح إلى الباب المظلم (الخامسة)	المفتاح إلى الباب المظلم (العاشرة)	المفتاح إلى الباب المظلم (العشرون)
ICEE	1.04 (0.15)	1.50 (0.12)	1.84 (0.08)
AD	0.67 (0.15)	1.02 (0.17)	0.94 (0.17)
AD-sorted	0.17 (0.08)	0.84 (0.14)	1.77 (0.09)
MGDT	0.34 (0.11)	0.34 (0.11)	0.34 (0.11)
المصدر	1.10 (0.19)	1.10 (0.19)	1.10 (0.19)

https://github.com/karpathy/nanoGPT ↩