نحو تصميم سياسة فعّالة حساسة للمخاطر: تحليل التعقيد التكراري

Rui Liu
ruiliu@umd.edu
قِسْم عُلُوم الحاسُوب
جامِعَة ماريلاند، كوليدج بارك Erfaun Noorani
enoorani@umd.edu
قِسْم الهَنْدَسَة الكَهْرَبائيَّة وَالحاسُوب
جامِعَة ماريلاند، كوليدج بارك Pratap Tokekar
tokekar@umd.edu
قِسْم عُلُوم الحاسُوب
جامِعَة ماريلاند، كوليدج بارك John S. Baras
baras@umd.edu
قِسْم الهَنْدَسَة الكَهْرَبائيَّة وَالحاسُوب
جامِعَة ماريلاند، كوليدج بارك

مُلَخَّص

لقد أظهر التعلم بالتعزيز (RL) أداءً استثنائياً في مختلف التطبيقات، مما يمكّن الوكلاء من تعلم السياسات المثلى عبر التفاعل مع بيئاتهم. ومع ذلك، غالباً ما تعاني الأُطر التقليدية للتعلم بالتعزيز من تحديات تتعلق بتعقيد التكرار وقلة المتانة. تم استكشاف التعلم بالتعزيز الحساس للمخاطر، الذي يوازن بين العائد المتوقع وتقلباته، لإمكاناته في تحقيق سياسات أكثر قوة. إلا أن تحليل التعقيد التكراري الخاص به لا يزال غير مستكشف بشكل كافٍ. في هذه الدراسة، نجري تحليلاً شاملاً لتعقيد التكرار لمنهج إدراج السياسة الحساسة للمخاطر، مع التركيز على خوارزمية REINFORCE واستخدام دالة المنفعة الأسية. نحصل على تعقيد تكراري من الرتبة \(\cO(\epsilon^{-2})\) للوصول إلى نقطة ثابتة تقريبية من الدرجة الأولى (FOSP). نفحص ما إذا كانت خوارزميات حساسة للمخاطر تحقق أداءً أفضل من حيث التعقيد التكراري مقارنة بنظيراتها غير الحساسة للمخاطر. تُبيّن نتائجنا النظرية أن REINFORCE الحساس للمخاطر يمكنه تقليل عدد التكرارات المطلوبة للتقارب، حيث لا يتطلب استخدام الدالة الأسية حسابات إضافية في كل تكرار. نحدد الشروط التي تمكن الخوارزميات الحساسة للمخاطر من تحقيق تعقيد تكراري أفضل، وتؤكد نتائج المحاكاة أن السياسات المحافظة تجاه المخاطر تتقارب وتستقر أسرع بحوالي نصف عدد الحلقات مقارنة بنظيراتها غير الحساسة للمخاطر.

المقدمة

التعلم بالتعزيز (Reinforcement Learning) هو إطار لتعلّم السياسة المثلى من خلال التفاعل مع البيئة (sutton1999policy, kaelbling1996reinforcement). وقد حقّق التعلم بالتعزيز نجاحاً ملحوظاً في مجموعة واسعة من التطبيقات، مثل ألعاب الطاولة وألعاب الفيديو (silver2016mastering, mnih2013playing). ومع ذلك، يفتقر التعلم بالتعزيز التقليدي إلى المتانة ويقصّر في كفاءة التكرار (casper2023open, almahamid2021reinforcement)، إذ يركّز فقط على العائد المتوقع.

تعمل خوارزميات التعلم بالتعزيز الحساسة للمخاطر (mihatsch2002risk, shen2014risk, berkenkamp2017safe) على التخفيف من هذه النقائص عبر أخذ القيمة المتوقعة للأداء وتقلباته في الاعتبار، مما يسمح بضبط التوازن بين العائد المتوقع والمخاطرة. وتعد إدارة المخاطر أمراً حيوياً في التطبيقات ذات الحساسية العالية للسلامة، مثل التمويل (filos2019reinforcement, charpentier2021reinforcement)، والقيادة الذاتية (zhang2021safe)، والروبوتات (majumdar2017risk). وقد استُخدمت مقاييس متعددة للمخاطر، منها القيمة المشروطة عند الخطر (CVaR) (qiu2021rmix, prashanth2022risk)، والمكافئات المؤكدة المحسنة (OCE) (lee2020learning)، ودالة المنفعة الأسية (mihatsch2002risk, fei2020risk, eriksson2019epistemic, prashanth2022risk, noorani2021risk). وقد ثبتت قوة السياسات الناتجة عن خوارزميات تستخدم دالة المنفعة الأسية تحليلياً وتجريبياً (noorani2022risk).

رغم تطوير خوارزميات التعلم بالتعزيز الحساسة للمخاطر بناءً على هذه المقاييس، فإن تعقيد التكرار الخاص بها حظي باهتمام محدود. ومع ذلك، فإن فهم هذا التعقيد يوفر رؤى نظرية مهمة ويحفز ابتكار خوارزميات أكثر كفاءة. نركّز هنا على مسألة تعقيد التكرار في خوارزميات التعلم بالتعزيز الحساسة للمخاطر، مما يطرح السؤال الأساسي:

هل تحقق خوارزميات حساسة للمخاطر تعقيد تكرار محسَّناً مقارنة بخوارزميات التعلم التقليدية؟

للإجابة عن هذا السؤال، ندرس طريقة التدرّج السياسي (PG) REINFORCE (williams1992simple, sutton1999policy, baxter2001infinite) ونظيرتها الحساسة للمخاطر (noorani2021risk) التي تستخدم الدالة الأسية.

فحصت دراسات سابقة تعقيد تكرار خوارزمية REINFORCE المحايدة للمخاطر، إلا أن قلة منها تناولت التعقيد الخاص بالإصدار الحساس للمخاطر كما هو موضح أعلاه. على سبيل المثال، اقترح (papini2018stochastic) طريقة SVRPG ذات التباين المخفض بتحقيق \(\cO(\epsilon^{-2})\) تكرارات لضمان \(\norm{\nabla J(\theta)} \leq \epsilon\)؛ وقدم (xu2020improved) تحليلاً محسّناً لـ SVRPG بمتطلبات \(\cO(\epsilon^{-\frac{5}{3}})\)؛ ثم حسّن (xu2019sample) هذا التعقيد إلى \(\cO(\epsilon^{-\frac{3}{2}})\). كما أثبت (papini2021safe) تعقيد \(\cO(\epsilon^{-2})\) لـ REINFORCE، وحقّق (yuan2022general) \(\cO(\epsilon^{-2})\) للتدرّج الدقيق مع الوصول إلى نقطة ثابتة تقريبية من الدرجة الأولى.

المراجع & التصنيف & المعيار & التعقيد التكراري
(papini2018stochastic) & محايد للمخاطر & FOSP & \(\cO(\epsilon^{-2})\)
(xu2020improved) & محايد للمخاطر & FOSP & \(\cO(\epsilon^{-\frac{5}{3}})\)
(xu2019sample) & محايد للمخاطر & FOSP & \(\cO(\epsilon^{-\frac{3}{2}})\)
(papini2021safe) & محايد للمخاطر & FOSP & \(\cO(\epsilon^{-2})\)
(yuan2022general) & محايد للمخاطر & FOSP & \(\cO(\epsilon^{-2})\)
الخاص بنا & حساس للمخاطر & FOSP & \(\cO(\epsilon^{-2})\)