لقد أظهر التعلم بالتعزيز (RL) أداءً استثنائياً في مختلف التطبيقات، مما يمكّن الوكلاء المستقلين من تعلم السياسات المثلى من خلال التفاعل مع بيئاتهم. ومع ذلك، غالباً ما تواجه الأطر التقليدية للتعلم بالتعزيز تحديات من حيث تعقيد التكرار والمتانة. تم استكشاف التعلم بالتعزيز الحساس للمخاطر، الذي يوازن بين العائد المتوقع والمخاطر، لإمكاناته في تحقيق سياسات قوية، لكن تحليل تعقيد التكرار الخاص به لا يزال غير مستكشف بشكل كافٍ. في هذه الدراسة، نجري تحليلاً شاملاً لتعقيد التكرار لطريقة إدراج السياسة الحساسة للمخاطر، مع التركيز على خوارزمية REINFORCE واستخدام دالة المنفعة الأسية. نحصل على تعقيد تكراري بمقدار \(\cO(\epsilon^{-2})\) للوصول إلى نقطة ثابتة تقريبية من الدرجة الأولى (FOSP). نحقق فيما إذا كان بإمكان الخوارزميات الحساسة للمخاطر تحقيق تعقيد تكراري أفضل مقارنة بنظيراتها غير الحساسة للمخاطر. تظهر تحليلاتنا النظرية أن REINFORCE الحساس للمخاطر يمكن أن يقلل من عدد التكرارات المطلوبة للتقارب. يؤدي ذلك إلى تحسين تعقيد التكرار، حيث إن استخدام الدالة الأسية لا يتطلب حساباً إضافياً في كل تكرار. نحدد الشروط التي يمكن فيها للخوارزميات الحساسة للمخاطر تحقيق تعقيد تكراري أفضل. كما تثبت نتائج المحاكاة لدينا أن الحالات المتحفظة تجاه المخاطر يمكن أن تتقارب وتستقر بشكل أسرع بعد حوالي نصف الحلقات مقارنة بنظيراتها غير الحساسة للمخاطر.
التعلم بالتعزيز (Reinforcement Learning) هو مشكلة تعلم السياسات المثلى من خلال التفاعل مع البيئة (sutton1999policy, kaelbling1996reinforcement). أظهر التعلم بالتعزيز نجاحاً ملحوظاً في مجموعة واسعة من التطبيقات، مثل ألعاب الطاولة وألعاب الفيديو (silver2016mastering, mnih2013playing). ومع ذلك، من المتعارف عليه على نطاق واسع أن التعلم بالتعزيز التقليدي يفتقر إلى المتانة ويقصّر فيما يتعلق بكفاءة التكرار (casper2023open, almahamid2021reinforcement). أحد الأسباب هو أن التعلم بالتعزيز التقليدي يأخذ فقط العائد المتوقع في الاعتبار.
تعمل خوارزميات التعلم بالتعزيز الحساسة للمخاطر (mihatsch2002risk, shen2014risk, berkenkamp2017safe) على التخفيف من هذه المشكلات من خلال أخذ القيمة المتوقعة للأداء وتقلباته في الاعتبار. يسمح ذلك بضبط التوازن بين العائد المتوقع والتقلبات. النظر في المخاطر أمر حاسم في التطبيقات ذات المخاطر العالية والحساسة للسلامة، مثل التمويل (filos2019reinforcement, charpentier2021reinforcement)، القيادة الذاتية (zhang2021safe) والروبوتات (majumdar2017risk). تم استخدام مقاييس مختلفة للمخاطر، مثل القيمة المشروطة عند الخطر (CVaR) (qiu2021rmix, prashanth2022risk)، المكافئات المؤكدة المحسنة (OCE) (lee2020learning) ودالة المنفعة الأسية (mihatsch2002risk, fei2020risk, eriksson2019epistemic, prashanth2022risk, noorani2021risk)، لدمج المخاطر في خوارزميات التعلم بالتعزيز. لقد تم إثبات قوة السياسات المستخدمة باستخدام خوارزميات التعلم بالتعزيز الحساسة للمخاطر التي تستخدم دالة المنفعة الأسية تحليلياً وتم إظهارها تجريبياً، على سبيل المثال، انظر (noorani2022risk).
بينما تم استنتاج خوارزميات التعلم بالتعزيز الحساسة للمخاطر بناءً على هذه المقاييس، فإن تعقيد التكرار الخاص بها قد تلقى اهتماماً محدوداً. ومع ذلك، يمكن أن يوفر فهم تعقيد التكرار رؤى نظرية حول التعلم بالتعزيز الحساس للمخاطر ويوجه تطوير خوارزميات أكثر كفاءة. هنا، نركز على مسألة تعقيد التكرار لخوارزميات التعلم بالتعزيز الحساسة للمخاطر. وهذا يحفز سؤالنا الأساسي:
هل تظهر الخوارزميات الحساسة للمخاطر تعقيد تكرار محسّن مقارنة بالخوارزميات القياسية؟
لمعالجة سؤالنا الأساسي بشأن تعقيد التكرار، نركز على طريقة التدرج السياسي (PG) REINFORCE (williams1992simple, sutton1999policy, baxter2001infinite) ونظيرتها الحساسة للمخاطر (noorani2021risk)، التي تستخدم الدالة المنفعة الأسية.
لقد فحصت الدراسات السابقة تعقيد التكرار لخوارزمية REINFORCE المحايدة للمخاطر القياسية، ولكن القليل منها استكشف تعقيد التكرار لـ REINFORCE الحساسة للمخاطر كما ذكرنا. قدم (papini2018stochastic) طريقة التدرج السياسي المخفض للتباين العشوائي (SVRPG)، والتي تتطلب \(\cO(\epsilon^{-2})\) تكرارات لتحقيق \(\norm{\nabla J(\theta)} \leq \epsilon\). قدم (xu2020improved) تحليلاً لتقارب محسّن لـ SVRPG وأظهر تعقيد تكرار \(\cO(\epsilon^{-\frac{5}{3}})\) لتحقيق نقطة ثابتة تقريبية من الدرجة الأولى (FOSP). بعد ذلك، اقترح (xu2019sample) خوارزمية SRVRPG التي حسّنت هذا التعقيد التكراري إلى \(\cO(\epsilon^{-\frac{3}{2}})\). أثبت (papini2021safe) تعقيد التكرار \(\cO(\epsilon^{-2})\) لـ REINFORCE. حقق (yuan2022general) تعقيد تكرار \(\cO(\epsilon^{-2})\) للتدرج الدقيق لخوارزمية REINFORCE بهدف الوصول إلى FOSP.
ccccc & & &
(papini2018stochastic) &محايد للمخاطر &FOSP &\(\cO(\epsilon^{-2})\)
(xu2020improved) &محايد للمخاطر &FOSP &\(\cO(\epsilon^{-\frac{5}{3}})\)
(xu2019sample) &محايد للمخاطر &FOSP &\(\cO(\epsilon^{-\frac{3}{2}})\)
(papini2021safe) &محايد للمخاطر &FOSP &\(\cO(\epsilon^{-2})\)
(yuan2022general) &محايد للمخاطر &FOSP &\(\cO(\epsilon^{-2})\)
الخاص بنا &حساس للمخاطر &FOSP &\(\cO(\epsilon^{-2})\)