```html
لقد أظهر التعلم بالتعزيز (RL) أداءً استثنائياً في مختلف التطبيقات، مما يمكّن الوكلاء من تعلم السياسات المثلى عبر التفاعل مع بيئاتهم. ومع ذلك، غالبًا ما تعاني الأُطر التقليدية للتعلم بالتعزيز من تحديات تتعلق بتعقيد التكرار وقلة المتانة. تم استكشاف التعلم بالتعزيز الحساس للمخاطر، الذي يوازن بين العائد المتوقع وتقلباته، لإمكاناته في تحقيق سياسات أكثر قوة، لكن تحليل تعقيد التكرار الخاص به لا يزال غير مستكشف بشكل كافٍ. في هذه الدراسة، نجري تحليلاً شاملاً لتعقيد التكرار لمنهج إدراج السياسة الحساسة للمخاطر، مع التركيز على خوارزمية REINFORCE واستخدام دالة المنفعة الأسية. نحصل على تعقيد تكراري من الدرجة \( \mathcal{O}(\epsilon^{-2}) \) للوصول إلى نقطة ثابتة تقريبية من الدرجة الأولى (FOSP). نفحص ما إذا كانت الخوارزميات الحساسة للمخاطر تحقّق أداءً أفضل من حيث التعقيد التكراري مقارنة بنظيراتها غير الحساسة للمخاطر. تظهر نتائجنا النظرية أن REINFORCE الحساس للمخاطر يمكنه تقليل عدد التكرارات المطلوبة للتقارب، حيث لا يتطلب استخدام الدالة الأسية حسابات إضافية في كل تكرار. نحدد الشروط التي تمكن الخوارزميات الحساسة للمخاطر من تحقيق تعقيد تكراري أفضل، وتؤكد نتائج المحاكاة أن السياسات المحافظة تجاه المخاطر تتقارب وتستقر أسرع بحوالي نصف عدد الحلقات مقارنة بنظيراتها غير الحساسة للمخاطر.
التعلم بالتعزيز (Reinforcement Learning) هو إطار لتعلّم السياسة المثلى من خلال التفاعل مع البيئة (sutton1999policy, kaelbling1996reinforcement). وقد حقّق التعلم بالتعزيز نجاحاً ملحوظاً في مجموعة واسعة من التطبيقات، مثل ألعاب الطاولة وألعاب الفيديو (silver2016mastering, mnih2013playing). ومع ذلك، من المتعارف عليه أن التعلم بالتعزيز التقليدي يفتقر إلى المتانة ويقصّر في كفاءة التكرار (casper2023open, almahamid2021reinforcement)، إذ يركّز فقط على العائد المتوقع.
تعمل خوارزميات التعلم بالتعزيز الحساسة للمخاطر (mihatsch2002risk, shen2014risk, berkenkamp2017safe) على التخفيف من هذه النقائص عبر أخذ القيمة المتوقعة للأداء وتقلباته في الاعتبار، مما يسمح بضبط التوازن بين العائد المتوقع والمخاطرة. وتعد إدارة المخاطر أمراً حيوياً في التطبيقات عالية الحساسية للسلامة، مثل التمويل (filos2019reinforcement, charpentier2021reinforcement)، والقيادة الذاتية (zhang2021safe)، والروبوتات (majumdar2017risk). وقد استُخدمت مقاييس متعددة للمخاطر، منها القيمة المشروطة عند الخطر (CVaR) (qiu2021rmix, prashanth2022risk)، والمكافئات المؤكدة المحسنة (OCE) (lee2020learning)، ودالة المنفعة الأسية (mihatsch2002risk, fei2020risk, eriksson2019epistemic, prashanth2022risk, noorani2021risk). وقد ثبتت قوة السياسات الناتجة عن خوارزميات تستخدم دالة المنفعة الأسية تحليلياً وتجريبياً (noorani2022risk).
رغم تطوير خوارزميات التعلم بالتعزيز الحساسة للمخاطر بناءً على هذه المقاييس، فإن تعقيد التكرار الخاص بها حظي باهتمام محدود. ومع ذلك، فإن فهم هذا التعقيد يوفر رؤى نظرية مهمة ويحفز ابتكار خوارزميات أكثر كفاءة. نركّز هنا على مسألة تعقيد التكرار في خوارزميات التعلم بالتعزيز الحساسة للمخاطر، مما يطرح السؤال الأساسي:
هل تحقق الخوارزميات الحساسة للمخاطر تعقيد تكرار محسّناً مقارنة بالخوارزميات التقليدية؟
للإجابة عن هذا السؤال، ندرس طريقة التدرّج السياسي (PG) REINFORCE (williams1992simple, sutton1999policy, baxter2001infinite) ونظيرتها الحساسة للمخاطر (noorani2021risk) التي تستخدم الدالة الأسية.
فحصت دراسات سابقة تعقيد تكرار خوارزمية REINFORCE المحايدة للمخاطر، لكن قليل منها تناول التعقيد لخوارزمية REINFORCE الحساسة للمخاطر كما هو موضح أعلاه. على سبيل المثال، اقترح (papini2018stochastic) طريقة SVRPG ذات التباين المخفض بتحقيق \( \mathcal{O}(\epsilon^{-2}) \) تكرارات لضمان \( \|\nabla J(\theta)\| \leq \epsilon \)؛ وقدم (xu2020improved) تحليلاً محسناً لـ SVRPG بمتطلبات \( \mathcal{O}(\epsilon^{-5/3}) \)؛ ثم حسّن (xu2019sample) هذا التعقيد إلى \( \mathcal{O}(\epsilon^{-3/2}) \). كما أثبت (papini2021safe) تعقيد \( \mathcal{O}(\epsilon^{-2}) \) لـ REINFORCE، وحقّق (yuan2022general) \( \mathcal{O}(\epsilon^{-2}) \) للتدرّج الدقيق مع الوصول إلى نقطة ثابتة تقريبية من الدرجة الأولى.
المراجع | التصنيف | المعيار | التعقيد التكراري |
---|---|---|---|
(papini2018stochastic) | محايد للمخاطر | FOSP | \( \mathcal{O}(\epsilon^{-2}) \) |
(xu2020improved) | محايد للمخاطر | FOSP | \( \mathcal{O}(\epsilon^{-5/3}) \) |
(xu2019sample) | محايد للمخاطر | FOSP | \( \mathcal{O}(\epsilon^{-3/2}) \) |
(papini2021safe) | محايد للمخاطر | FOSP | \( \mathcal{O}(\epsilon^{-2}) \) |
(yuan2022general) | محايد للمخاطر | FOSP | \( \mathcal{O}(\epsilon^{-2}) \) |
الخاص بنا | حساس للمخاطر | FOSP | \( \mathcal{O}(\epsilon^{-2}) \) |