مُلخَّص

أظهر التعلُّم بالتعزيز (RL) أداءً استثنائياً في تطبيقات متنوِّعة، بما يمكِّن الوكلاء من تعلُّم سياسات مثلى عبر التفاعل مع بيئاتهم. ومع ذلك، غالباً ما تعاني الأُطر التقليدية للتعلُّم بالتعزيز من تحدِّيات تتعلَّق بتعقيد التكرار وضعف المتانة. وقد استُكشف التعلُّم بالتعزيز الحسّاس للمخاطر، الذي يُوازِن بين العائد المتوقَّع وتقلباته، لما له من قدرة على إنتاج سياسات أشدّ متانة؛ غير أنّ تحليل تعقيد التكرار فيه ما يزال غير مُستكشَف بما يكفي. في هذه الدراسة، نجري تحليلاً شاملاً لتعقيد التكرار لنهج تحسين السياسة الحسّاس للمخاطر، مع التركيز على خوارزمية REINFORCE واستخدام دالّة المنفعة الأُسّية. نحصل على تعقيد تكراري من الرتبة \( \mathcal{O}(\epsilon^{-2}) \) لبلوغ نقطة ساكنة تقريبيّة من الرتبة الأولى (FOSP). ونفحص ما إذا كانت الخوارزميات الحسّاسة للمخاطر تُحقِّق أداءً أفضل من حيث تعقيد التكرار مقارنةً بنظيراتها المُحايدة للمخاطر. تُظهر نتائجُنا النظرية أن REINFORCE الحسّاس للمخاطر يمكنه تقليل عدد التكرارات اللازمة للتقارب، إذ لا يستلزم استخدام الدالّة الأُسّية حسابات إضافية في كل تكرار. نُحدِّد الشروط التي تمكِّن الخوارزميات الحسّاسة للمخاطر من تحقيق تعقيد تكراري أفضل، وتؤكِّد نتائجُ المحاكاة أن السياسات المُحافِظة تجاه المخاطر تتقارب وتستقرّ أسرع بما يقارب نصف عدد الحلقات مقارنةً بنظيراتها المُحايدة للمخاطر.

مُقدِّمة

التعلُّم بالتعزيز (Reinforcement Learning) إطارٌ لتعلُّم السياسات المثلى عبر التفاعل مع البيئة (sutton1999policy, kaelbling1996reinforcement). وقد حقَّق التعلُّم بالتعزيز نجاحاً ملحوظاً في طيفٍ واسع من التطبيقات، مثل ألعاب الطاولة وألعاب الفيديو (silver2016mastering, mnih2013playing). ومع ذلك، فمن المعلوم أنّ التعلُّم بالتعزيز التقليدي يفتقر إلى المتانة ويقصر عن تحقيق كفاءة جيِّدة في عدد التكرارات (casper2023open, almahamid2021reinforcement)، إذ يركِّز حصراً على العائد المتوقَّع.

تعمل خوارزميات التعلُّم بالتعزيز الحسّاسة للمخاطر (mihatsch2002risk, shen2014risk, berkenkamp2017safe) على تخفيف هذه المثالب عبر أخذ كِلَا العائد المتوقَّع وتقلباته بالحُسبان، بما يتيح ضبط التوازن بين العائد والمخاطرة. وتُعَدّ إدارةُ المخاطر أمراً حيويّاً في التطبيقات عالية الحساسية للسلامة، مثل التمويل (filos2019reinforcement, charpentier2021reinforcement)، والقيادة الذاتية (zhang2021safe)، والروبوتات (majumdar2017risk). وقد استُخدمت مقاييس متعدِّدة للمخاطر، منها القيمة المشروطة عند الخطر (CVaR) (qiu2021rmix, prashanth2022risk)، والمكافئ اليقيني المُحسَّن (OCE) (lee2020learning)، ودالّة المنفعة الأُسّية (mihatsch2002risk, fei2020risk, eriksson2019epistemic, prashanth2022risk, noorani2021risk). وقد ثبَتَتْ متانةُ السياسات الناتجة عن الخوارزميات التي تستخدم دالّة المنفعة الأُسّية تحليلياً وتجريبياً (noorani2022risk).

على الرغم من تطوير خوارزميات للتعلُّم بالتعزيز الحسّاس للمخاطر استناداً إلى هذه المقاييس، فقد حظي تعقيدُ التكرار فيها باهتمامٍ محدود. غير أنّ فهم هذا التعقيد يوفّر رؤى نظرية مهمّة ويُحفِّز ابتكار خوارزميات أكثر كفاءة. نُركِّز هنا على مسألة تعقيد التكرار في خوارزميات التعلُّم بالتعزيز الحسّاسة للمخاطر، ممّا يطرح السؤال الآتي:

هل تُحقِّق الخوارزميات الحسّاسة للمخاطر تعقيدَ تكرارٍ مُحسَّناً مقارنةً بالخوارزميات التقليدية المُحايدة للمخاطر؟

للإجابة عن هذا السؤال، ندرس طريقة تدرّج السياسة (PG) REINFORCE (williams1992simple, sutton1999policy, baxter2001infinite) ونظيرتَها الحسّاسة للمخاطر (noorani2021risk) القائمة على الدالّة الأُسّية.

تناولت دراساتٌ سابقة تعقيدَ التكرار في خوارزمية REINFORCE المُحايدة للمخاطر، لكن قلّةً منها بحثت تعقيدَ خوارزمية REINFORCE الحسّاسة للمخاطر كما سبَقَ. على سبيل المثال، اقترح (papini2018stochastic) طريقة SVRPG ذات التباين المنخفض بتحقيق \( \mathcal{O}(\epsilon^{-2}) \) من التكرارات لضمان \( \|\nabla J(\theta)\| \leq \epsilon \)؛ وقدم (xu2020improved) تحليلاً مُحسَّناً لـ SVRPG بمتطلّبات \( \mathcal{O}(\epsilon^{-5/3}) \)؛ ثم حسَّن (xu2019sample) هذا التعقيد إلى \( \mathcal{O}(\epsilon^{-3/2}) \). كما أثبت (papini2021safe) تعقيد \( \mathcal{O}(\epsilon^{-2}) \) لـ REINFORCE، وحقَّق (yuan2022general) \( \mathcal{O}(\epsilon^{-2}) \) للتدرّج الدقيق مع الوصول إلى نقطة ساكنة تقريبيّة من الرتبة الأولى.

المرجع	التصنيف	المعيار	التعقيد التكراري
(papini2018stochastic)	مُحايد للمخاطر	FOSP	\( \mathcal{O}(\epsilon^{-2}) \)
(xu2020improved)	مُحايد للمخاطر	FOSP	\( \mathcal{O}(\epsilon^{-5/3}) \)
(xu2019sample)	مُحايد للمخاطر	FOSP	\( \mathcal{O}(\epsilon^{-3/2}) \)
(papini2021safe)	مُحايد للمخاطر	FOSP	\( \mathcal{O}(\epsilon^{-2}) \)
(yuan2022general)	مُحايد للمخاطر	FOSP	\( \mathcal{O}(\epsilon^{-2}) \)
عملُنا	حسّاس للمخاطر	FOSP	\( \mathcal{O}(\epsilon^{-2}) \)