نَحْوَ تُدْرِج سِياسَةِ حَسّاسَةٍ لِلمَخاطِرِ فَعّالٌ: تَحْلِيلِ تَعْقِيدِ التَكْرارِ

Rui Liu
ruiliu@umd.edu
قِسْمِ عُلُومِ الحاسُوب
جامِعَةِ ماريلاند، كوليدج بارَك Erfaun Noorani
enoorani@umd.edu
قِسْمِ الهَنْدَسَةِ الكَهْرَبائِيَّةِ وَالحاسُوب
جامِعَةِ ماريلاند، كوليدج بارَك Pratap Tokekar
tokekar@umd.edu
قِسْمِ عُلُومِ الحاسُوب
جامِعَةِ ماريلاند، كوليدج بارَك John S. Baras
baras@umd.edu
قِسْمِ الهَنْدَسَةِ الكَهْرَبائِيَّةِ وَالحاسُوب
جامِعَةِ ماريلاند، كوليدج بارَك

مُلَخَّصُ

لَقَد أَظْهَرَ التَعَلُّمِ بِالتَعْزِيز (RL) أَداءِ اِسْتِثْنائِيّاً فِي مُخْتَلِفِ التَطْبِيقات، مِمّا يُمْكِن الوُكَلاءِ المُسْتَقِلِّينَ مِن تَعْلَم السِياساتِ المُثْلَى مِن خِلالَ التَفاعُل مَعَ بِيئاتهم. وَمَعَ ذٰلِكَ، غالِباً ما تُواجِه الأُطُر التَقْلِيدِيَّةِ لِلتَعَلُّمِ بِالتَعْزِيز تَحَدِّياتٍ مِن حَيْثُ تَعْقِيدِ التَكْرارِ وَالمَتانَة. تَمَّ اِسْتِكْشافٍ التَعَلُّمِ بِالتَعْزِيز الحَسّاسِ لِلمَخاطِرِ، الَّذِي يُوازِن بَيِّنَ العائِدِ المُتَوَقَّعِ وَالمَخاطِرُ، لَإِمْكانِيَّته فِي تَحْقِيقِ سِياساتِ قَوِيَّةٍ اِحْتِمالِيّا، وَلٰكِن تَحْلِيلِ تَعْقِيدِ التَكْرارِ الخاصِّ بِهِ لا يَزال غَيْرِ مُسْتَكْشِف بِما فِيهِ الكِفايَةُ. فِي هٰذِهِ الدِراسَةُ، نُجْرِي تَحْلِيلا شامِلاً لَتَعْقِيد التَكْرارِ لِطَرِيقَةِ تُدْرِج السِياسَةِ الحَسّاسَةِ لِلمَخاطِرِ، مَعَ التَرْكِيزِ عَلَى خوارزميه REINFORCE وَاِسْتِخْدامِ دالَّةٍ المَنْفَعَةِ الآسِيَة. نَحْصُل عَلَى تَعْقِيدِ تَكْرارِي بِمِقْدارِ \(\cO(\epsilon^{-2})\) لِلوُصُولِ إِلَى نُقْطَةً ثابِتَةٍ تَقْرِيبِيّه مِن الدَرَجَةِ الأُولَى (FOSP). نُحَقِّق فِيما إِذا كانَ بِإِمْكانِ الخوارزميات الحَسّاسَةِ لِلمَخاطِرِ تَحْقِيقِ تَعْقِيدِ تَكْرارِي أَفْضَلَ مُقارَنَةً بِنَظِيراتها غَيْرِ الحَسّاسَةِ لِلمَخاطِرِ. تُظْهِر تَحْلِيلاتنا النَظَرِيَّةِ أَنَّ REINFORCE الحَسّاسِ لِلمَخاطِرِ يُمْكِن أَنَّ يُقَلِّل مِن عَدَدٍ التكرارات المَطْلُوبَةِ لِلتَقارُب. يُؤَدِّي هٰذا إِلَى تَحْسِينِ تَعْقِيدِ التَكْرارِ، حَيْثُ أَنَّ اِسْتِخْدامِ الدالَّةِ الآسِيَة لا يَتَطَلَّب حِساباً إِضافِيّا فِي كُلِّ تَكْرارِ. نُحَدِّد الشُرُوطِ الَّتِي يُمْكِن فِيها للخوارزميات الحَسّاسَةِ لِلمَخاطِرِ تَحْقِيقِ تَعْقِيدِ تَكْرارِي أَفْضَلَ. كَما تُثْبِت نَتائِجِ المُحاكاة لَدَينا أَنَّ الحالاتِ المُتَحَفِّظَةَ تُجاهَ المَخاطِرِ يُمْكِن أَنَّ تَتَقارَب وَتَسْتَقِرّ بِشَكْلٍ أَسْرَعِ بُعْدَ حِوالِي نِصْفِ الحَلَقاتِ مُقارَنَةً بِنَظِيراتها غَيْرِ الحَسّاسَةِ لِلمَخاطِرِ.

مُقَدِّمَةِ

تَعْلَم التَعْزِيز (Reinforcement Learning) هُوَ مُشْكِلَةِ تَعْلَم السِياساتِ المُثْلَى مِن خِلالَ التَفاعُل مَعَ بِيئَةُ (sutton1999policy, kaelbling1996reinforcement). أَظْهَرَ تَعْلَم التَعْزِيز نَجاحاً مَلْحُوظاً فِي مَجْمُوعَةِ واسِعَةً مِن التَطْبِيقات، مِثْلَ أَلْعابِ الطاوِلَةِ وَأَلْعاب الفِيدْيُو (silver2016mastering, mnih2013playing). وَمَعَ ذٰلِكَ، مِن المُعْتَرَفِ بِهِ عَلَى نِطاقِ واسِعٍ أَنَّ تَعْلَم التَعْزِيز التَقْلِيدِيِّ يَفْتَقِر إِلَى القُوَّةِ وَيُقَصِّر فِيما يَتَعَلَّق بِكَفاءَة التَكْرارِ (casper2023open, almahamid2021reinforcement). أَحَدُ الأَسْبابِ هُوَ أَنَّ تَعْلَم التَعْزِيز التَقْلِيدِيِّ يَأْخُذ فَقَط العائِدِ المُتَوَقَّعِ فِي الاِعْتِبارِ.

تَعْمَل خوارزميات تَعْلَم التَعْزِيز الحَسّاسَةِ لِلمَخاطِرِ (mihatsch2002risk, shen2014risk, berkenkamp2017safe) عَلَى التَخْفِيفِ مِن هٰذِهِ المُشْكِلاتِ مِن خِلالَ أَخَذَ القِيمَةِ المُتَوَقَّعَةِ لِلأَداء وَتَقَلُّباته فِي الاِعْتِبارِ. يَسْمَح ذٰلِكَ بِضَبْطِ التَوازُنِ بَيِّنَ العائِدِ المُتَوَقَّعِ وَالتَقَلُّباتِ. النَظَرِ فِي المَخاطِرِ أَمْرٌ حاسِمٍ فِي التَطْبِيقات ذاتِ المَخاطِرِ العالِيَةِ وَالحَرَجَة لِلسَلامَةِ، مِثْلَ التَمْوِيلِ (filos2019reinforcement, charpentier2021reinforcement)، القِيادَةِ الذاتِيَّةِ (zhang2021safe) وَالرُوبُوتات (majumdar2017risk). تَمَّ اِسْتِخْدامِ مُخْتَلِفِ مَقايِيسِ المَخاطِرِ، مِثْلَ القِيمَةِ المَشْرُوطَةِ عِنْدَ الخَطَرِ (CVaR) (qiu2021rmix, prashanth2022risk)، المُكافِئات المُؤَكَّدَةِ المُحَسِّنَة (OCE) (lee2020learning) وَدالّه المَنْفَعَةِ الآسِيَة (mihatsch2002risk, fei2020risk, eriksson2019epistemic, prashanth2022risk, noorani2021risk)، لَدَمْج المَخاطِرِ فِي خوارزميات تَعْلَم التَعْزِيز. لَقَد تَمَّ إِثْباتِ قُوَّةٍ السِياساتِ المُسْتَخْدَمَةِ بِاِسْتِخْدامِ خوارزميات تَعْلَم التَعْزِيز الحَسّاسَةِ لِلمَخاطِرِ الَّتِي تُسْتَخْدَم دالَّةٍ المَنْفَعَةِ الآسِيَة تَحْلِيلِيّا وَتَمَّ أَظْهارها تَجْرِيبِيّا، عَلَى سَبِيلِ المِثالِ، أَنْظُر (noorani2022risk).

بَيْنَما تَمَّ اِسْتِنْتاجِ خوارزميات تَعْلَم التَعْزِيز الحَسّاسَةِ لِلمَخاطِرِ بِناءَ عَلَى هٰذِهِ المَقايِيسِ المَخاطِرِ، فَإِنَّ تَعْقِيدِ التَكْرارِ الخاصِّ بِها قَد تَلَقَّى اِهْتِماماً مَحْدُودا. وَمَعَ ذٰلِكَ، يُمْكِن أَنَّ يُوَفِّر فَهُم تَعْقِيدِ التَكْرارِ رُؤَى نَظَرِيَّةَ حَوْلَ تَعْلَم التَعْزِيز الحَسّاسِ لِلمَخاطِرِ وَيُوَجِّه تَطْوِيرِ خوارزميات أَكْثَرَ كَفاءَةِ. هُنا، نُرَكِّز عَلَى مَسْأَلَةِ تَعْقِيدِ التَكْرارِ لخوارزميات تَعْلَم التَعْزِيز الحَسّاسَةِ لِلمَخاطِرِ. وَهٰذا يَحْفِز سُؤالنا الأَساسِيُّ:

هَل تُظْهِر الخوارزميات الحَسّاسَةِ لِلمَخاطِرِ تَعْقِيدِ تَكْرارِ مُحْسِن مُقارَنَةً بالخوارزميات القِياسِيَّةِ؟

لِمُعالَجَةِ سُؤالنا الأَساسِيُّ بِشَأْنِ تَعْقِيدِ التَكْرارِ، نُرَكِّز عَلَى طَرِيقَةِ التَدَرُّج السِياسِيِّ (PG) REINFORCE (williams1992simple, sutton1999policy, baxter2001infinite) وَنَظِيرَتها الحَسّاسَةِ لِلمَخاطِرِ (noorani2021risk)، الَّتِي تُسْتَخْدَم الدالَّةِ المَنْفَعَةِ الآسِيَة.

لَقَد فَحَصَت الدِراساتِ السابِقَةِ تَعْقِيدِ التَكْرارِ لخوارزميه REINFORCE المُحايِدَةِ لِلمَخاطِرِ القِياسِيَّةِ، وَلٰكِن القَلِيلُ مِنها أَسْتَكْشِف تَعْقِيدِ التَكْرارِ لِ REINFORCE الحَسّاسَةِ لِلمَخاطِرِ كَما ذَكَّرَنا. قَدَّمَ (papini2018stochastic) طَرِيقَةِ التَدَرُّج السِياسِيِّ المُخَفَّض لِلتَبايُنِ العَشْوائِيِّ (SVRPG)، وَالَّتِي تَتَطَلَّب \(\cO(\epsilon^{-2})\) تكرارات لِتَحْقِيقِ \(\norm{\nabla J(\theta)} \leq \epsilon\). قَدَّمَ (xu2020improved) تَحْلِيلِ تَقارُبٍ مُحْسِن لِ SVRPG وَأَظْهَرَ تَعْقِيدِ تَكْرارِ \(\cO(\epsilon^{-\frac{5}{3}})\) لِتَحْقِيقِ نُقْطَةً ثابِتَةٍ تَقْرِيبِيّه مِن الدَرَجَةِ الأُولَى (FOSP). بُعْدَ ذٰلِكَ، اِقْتَرَحَ (xu2019sample) خوارزميه SRVRPG الَّتِي تَحَسُّنِ هٰذا التَعْقِيدِ التَكْرارِيّ إِلَى \(\cO(\epsilon^{-\frac{3}{2}})\). أَثْبَت (papini2021safe) تَعْقِيدِ التَكْرارِ \(\cO(\epsilon^{-2})\) لِ REINFORCE. حَقَّقَ (yuan2022general) تَعْقِيدِ تَكْرارِ \(\cO(\epsilon^{-2})\) لِلتَدَرُّج الدَقِيقِ لخوارزميه REINFORCE بِهَدَفِ الوُصُولِ إِلَى FOSP.

ccccc & & &

(papini2018stochastic) &مُحايِد لِلمَخاطِرِ &FOSP &\(\cO(\epsilon^{-2})\)
(xu2020improved) &مُحايِد لِلمَخاطِرِ &FOSP &\(\cO(\epsilon^{-\frac{5}{3}})\)
(xu2019sample) &مُحايِد لِلمَخاطِرِ &FOSP &\(\cO(\epsilon^{-\frac{3}{2}})\)
(papini2021safe) &مُحايِد لِلمَخاطِرِ &FOSP &\(\cO(\epsilon^{-2})\)
(yuan2022general) &مُحايِد لِلمَخاطِرِ &FOSP &\(\cO(\epsilon^{-2})\)
الخاصِّ بِنا &حَسّاس لِلمَخاطِرِ &FOSP &\(\cO(\epsilon^{-2})\)

تَحْلِيلِ تَعْقِيدِ التَكْرارِ لِتَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ

فِي هٰذِهِ الدِراسَةُ، نُحَلِّل تَعْقِيدِ التَكْرارِ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ تَحْتَ اِفْتِراضِ عامَ لِلغايَةِ بِتَحْدِيدِ اللَحْظَةِ الثانِيَةِ لِلتَدَرُّج. هٰذا التَحْلِيلِ هُوَ الأَوَّلِ مِن نَوْعِهِ. نُقَدِّم فِي الجَدْوَلُ [table1] نَتائِجِ تَعْقِيدِ التَكْرارِ مِن بِعَضِّ الدِراساتِ السابِقَةِ عَلَى تَعْزِيزِ المَخاطِرِ المُحايِدَةِ القِياسِيَّةِ وَتَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ الخاصَّةِ بِنا. مِن المَلْحُوظِ أَنَّنا لا نُقَدِّم فَقَط رُؤَى حَوْلَ تَعْقِيدِ التَكْرارِ لِتَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ وَلٰكِنَّنا أَيْضاً نَقُوم بِمُقارَنَة مَعَ تَعْزِيزِ المَخاطِرِ المُحايِدَةِ القِياسِيَّةِ، وَالَّتِي تُعْتَبَر المِعْيار الأَساسِيُّ. يَكْشِف تَحْلِيلنا أَنَّ الخوارزميه الحَسّاسَةِ لِلمَخاطِرِ يُمْكِن أَنَّ تَحَقَّقَ التَقارُبِ بِعَدَدٍ أَقَلَّ مِن التكرارات تَحْتَ بِعَضِّ المَعايِيرِ الحَسّاسَةِ لِلمَخاطِرِ. بِشَكْلٍ عامَ، نُساهِم فِي ثَلاثَةِ جَوانِبَ رَئِيسِيَّةٍ وَنُناقِش هٰذِهِ المُساهَماتِ بِالتَفْصِيلِ هُنا:

نُجْرِي أَوَّلاً تَحْلِيلا شامِلاً لَتَعْقِيد التَكْرارِ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ، وَالَّتِي تُظْهِر تَعْقِيدِ تَكْرارِ يَبْلُغ \(\cO(\epsilon^{-2})\). يَهْدِف هٰذا التَحْلِيلِ إِلَى تَحْقِيقِ نُقْطَةً ثابِتَةٍ تَقْرِيبِيّه مِن الدَرَجَةِ الأُولَى (FOSP) بِحَيْثُ \(\E{\norm{\nabla J_\beta(\theta)}} \leq \epsilon\)، حَيْثُ \(J_\beta\) هِيَ دالَّةٍ القِيمَةِ الحَسّاسَةِ لِلمَخاطِرِ المُعَلِّمَةُ بِواسِطَةِ \(\theta\) مَعَ مَعامِلِ حَسّاس لِلمَخاطِرِ \(\beta\). يَعْتَمِد تَحْلِيلنا عَلَى اِفْتِراضِ النُعُومَة المُتَوَقَّعَةِ الَّذِي قَدَّمَهُ (khaled2020better)، كَما هُوَ مُوَضِّح فِي الاِفْتِراضُ [ass:abc]. يَحُدّ هٰذا الاِفْتِراضُ اللَحْظَةِ الثانِيَةِ لِلتَدَرُّج وَيُعْتَبَر الاِفْتِراضُ الأَكْثَرَ عُمُومِيَّةٍ لنمذجته.

بِشَكْلٍ مَلْحُوظٍ، قامَ (yuan2022general) بِتَحْقِيقِ مُعَدَّلاتِ التَقارُبِ وَنَتائِجَ تَعْقِيدِ التَكْرارِ لخوارزميه تَعْزِيزِ المَخاطِرِ المُحايِدَةِ القِياسِيَّةِ، مُعْتَمَدَيْنِ عَلَى هٰذا الاِفْتِراضُ، الَّذِي أَشارُوا إِلَيهِ بِاِسْمِ اِفْتِراضِ ABC. وَمَعَ ذٰلِكَ، لَم يَفْحَصُوا خوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ. اِقْتَرَحُوا أَنَّ مَجالاً مُثِيراً لِلاِهْتِمامِ لِلتَحْقِيقِ سَيَكُون تَحْدِيدِ ما إِذا كانَ يُمْكِن تَمْدِيدِ التَحْلِيلِ القائِمِ عَلَى اِفْتِراضِ ABC إِلَى مَجالاتِ أَو خوارزميات أُخْرَى. حَسَبَ عَلَّمَنا، هٰذِهِ هِيَ المَرَّةُ الأُولَى لِمِثْلِ هٰذا التَمْدِيدِ، مِمّا يُضِيف مَنْظُورا جَدِيداً إِلَى مَجالِ تَعْلَم التَعْزِيز الحَسّاسِ لِلمَخاطِرِ.

نُقارَن رَسْمِيّاً تَعْقِيدِ التَكْرارِ لِتَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ وَتَعْزِيزِ المَخاطِرِ المُحايِدَةِ. تُظْهِر كُلّاً الخوارزميتين تَعْقِيداتٌ تَكْرارِ تَبْلُغ \(\cO(\epsilon^{-2})\)، مَضْمُونه بِواسِطَةِ FOSP، وَمَعَ ذٰلِكَ، عِنْدَما يَتِمّ اِخْتِيارِ مَعامِلِ الحَسّاسِيَّةِ لِلمَخاطِرِ \(\beta\) بِشَكْلٍ مُناسِبٍ، يُمْكِننا تَحْقِيقِ عَدَدٍ أَقَلَّ مِن التكرارات المَطْلُوبَةِ لِلتَقارُب للخوارزميه الحَسّاسَةِ لِلمَخاطِرِ مُقارَنَةً بالخوارزميه المُحايِدَةِ. نَقُوم بِتَحْدِيدِ مِثْلَ هٰذِهِ قِيَمِ \(\beta\) فِي نَظَرِيَّةَ [the:beta].

نُجْرِي تَجارِبِ عَدَدَيْهِ بِاِسْتِخْدامِ بِيئَةُ المِلاحَةِ Minigrid، مُسْتَخْدَمِينَ خوارزميه تَعْزِيزِ المَخاطِرِ المُحايِدَةِ كَمِعْيارٍ أَساسِيٌّ لِلمُقارَنَة. تَسْتَقِرّ الحالاتِ المُتَحَفِّظَةَ بُعْدَ حِوالِي نِصْفِ الحَلَقاتِ مُقارَنَةً بِالحالَةِ المُحايِدَةِ. تُؤَكِّد هٰذِهِ النَتائِجِ نَتائِجنا النَظَرِيَّةِ بِأَنَّ تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ يُمْكِن أَنَّ يُظْهِر تَعْقِيدِ تَكْرارِ أَفْضَلَ مِن تَعْزِيزِ المَخاطِرِ المُحايِدَةِ القِياسِيَّةِ.

المُقَدِّمات

فِكْرِ فِي مُشْكِلَةِ التَحْسِين (jain2017non) المَعْرِفَةِ كَما يَلِي: \[\label{eq:opt} \min_{\theta\in\R^d} J(\theta),\] حَيْثُ تَكُون الدالَّةِ \(J(\theta)\) هِيَ العائِدِ المُتَوَقَّعِ المُعَلِّمِ ب \(\theta\) وَيُفْتَرَض أَنَّها سَلِسَةِ ليبشيتز، كَما فِي الاِفْتِراضُ [ass: smooth].

[ass: smooth] يُوجَد \(L \in \mathbb{R}^+\) بِحَيْثُ، لِكُلِّ \(\theta, \theta' \in \sR^d\)، لَدَينا \[\label{eq:smooth} \norm{\nabla J(\theta) - \nabla J(\theta')} \leq L \norm{\theta-\theta'}.\]

تُعْطِي طَرِيقَةِ الاِنْحِدارِ التَدْرِيجِيِّ لِحَلِّ مُشْكِلَةِ التَحْسِين [eq:opt] التَكْرارِ التالِي: \[\theta_{t+1} = \theta_t - \eta_t \nabla J(\theta_t),\] حَيْثُ \(\eta_t\) هُوَ حَجْمِ الخَطْوَةِ.

اِسْتِناداً إِلَى الاِفْتِراضُ [ass: smooth], \[J(\theta') \leq J(\theta) + \nabla J(\theta) (\theta'-\theta)^\top + \frac{L}{2}\norm{\theta'-\theta}^2.\] لِنَعْرِف \(g(\theta') = J(\theta) + \nabla J(\theta) (\theta'-\theta)^\top + \frac{L}{2}\norm{\theta'-\theta}^2\)، ثُمَّ نَجْعَل مُشْتَقّه \(g(\theta')=0\)، \[\begin{aligned} \nabla J(\theta) + L(\theta'-\theta) = 0, \nonumber \\ \theta'^* = \theta - \frac{1}{L} \nabla J(\theta).\end{aligned}\] ثُمَّ، \[J(\theta'^*) \leq g(\theta'^*) = J(\theta) - \frac{1}{2L}\norm{\nabla J(\theta)}^2.\]

مَعَ حَجْمِ الخَطْوَةِ \(\eta_t = \frac{1}{L}\)، \[J(\theta_t) -J(\theta_{t+1}) \geq \frac{1}{2L}\norm{\nabla J(\theta_t)}^2.\] أَخَذَ المَجْمُوعِ عَلَى خَطَواتٍ \(T+1\)، \[\label{eq: convergence} J(\theta_0) - J(\theta^*) \geq J(\theta_0) - J(\theta_T) \geq \frac{1}{2L}\sum_{t=0}^T\norm{\nabla J(\theta_t)}^2,\] حَيْثُ \(J(\theta^*)\) هُوَ القِيمَةِ العالَمِيَّةِ الأَمْثَلُ.

لَدَينا، \[\min_{0\leq t \leq T}\norm{\nabla J(\theta_t)}^2 \leq \frac{2L(J(\theta_0) - J(\theta^*))}{T+1}.\]

بُعْدَ ذٰلِكَ، نُدْمَج المَخاطِرِ فِي الإِطارِ بِاِسْتِخْدامِ دالَّةٍ المَنْفَعَةِ الآسِيَة (mihatsch2002risk, fei2020risk, eriksson2019epistemic, liu2023data, prashanth2022risk, noorani2021risk)، مُتَحَوِّلَيْنِ مِن الهَدَفَ المُحايِد لِلمَخاطِرِ \(J\) إِلَى الهَدَفَ الحَسّاسِ لِلمَخاطِرِ \(J_\beta\)، حَيْثُ \(\beta\) هُوَ مَعامِلِ الحَسّاسِيَّةِ لِلمَخاطِرِ. مِن خِلالَ أَخَذَ تَوَسُّعه تايْلُور، كَما هُوَ مُوَضِّح لاحِقاً فِي ، نَأْخُذ فِي الاِعْتِبارِ لَيِسَ فَقَط القِيمَةِ المُتَوَقَّعَةِ وَلٰكِن أَيْضاً التَبايُنِ، وَبِالتالِي دَمْجِ المَخاطِرِ فِي الإِطارِ. الآنَ، مِن المُهِمِّ مُلاحَظَةُ أَنَّ الهَدَفَ الحَسّاسِ لِلمَخاطِرِ \(J_\beta\) يُظْهِر سَلاسَة ليبشيتز وَلٰكِن بِثابِت مُخْتَلِفِ \(L_\beta\) فِي حالَتنا، كَما ثَبَتَ فِي المُلْحَقِ [apx: comparison].

بِناءَ عَلَى اِفْتِراضِ السَلاسَة ليبشيتز فِي الاِفْتِراضُ [ass: smooth]، نُقَدِّم الاِفْتِراضُ التالِي، الَّذِي يَحُدّ مِن اللَحْظَةِ الثانِيَةِ لِلتَدَرُّج، بِناءَ عَلَى العَمَلِ بِواسِطَةِ (khaled2020better).

[ass:abc] تُوجَد ثَوابِتِ \(A, B, C \in \mathbb{R}_{\geq 0}\) بِحَيْثُ لِكُلِّ \(\theta \in \sR^d\)، يُلَبِّي مُقَدَّر التَدَرُّج السِياسِيِّ \[\E{\norm{\widehat{\nabla} J_\beta (\theta)}^2} \leq 2A(J_\beta^*-J_\beta(\theta))+B\norm{\nabla J_\beta(\theta)}^2+C.\]

بُعْدَ المُقَدِّمات حَوْلَ اِفْتِراضِ السَلاسَة لَدالّه القِيمَةِ وَمُعَلِّمه السِياسَةِ، نَدْرُس طُرُقٍ التَدَرُّج السِياسِيِّ.

طُرُقٍ تُدْرِج السِياسَةِ

فِي هٰذا القِسْمِ، نُناقِش طُرُقٍ تُدْرِج السِياسَةِ، بِما فِي ذٰلِكَ بِعَضِّ المُقَدِّمات حَوْلَ عَمَلِيَّةِ القَرارِ ماركوف، وخوارزميه تَعْزِيزِ، وخوارزميه تَعْزِيزِ الحَسّاسَةِ لِلمَخاطِرِ.

عَمَلِيَّةِ القَرارِ ماركوف

نَدْرُس عَمَلِيَّةِ القَرارِ ماركوف الَّتِي تَتَمَيَّز بِالمَجْمُوعَة \(\{\cS, \cA, \cP, r, \gamma, \rho\}\). فِي هٰذا الإِعْدادُ، \(\cS\) تُمَثِّل فَضاءِ الحالَةِ، \(\cA\) هُوَ فَضاءِ العَمَلِ، وَ\(\cP\) هُوَ نَمُوذَجَ الاِنْتِقالِ. نَمُوذَجَ الاِنْتِقالِ، المُشارِ إِلَيهِ ب \(\cP(s' \mid s, a)\)، يَدُلّ عَلَى اِحْتِمالِ الاِنْتِقالِ مِن الحالَةِ \(s\) إِلَى الحالَةِ \(s'\) عِنْدَ اِتِّخاذِ العَمَلِ \(a\). وَظِيفَةٍ المُكافَأَةَ، المُشارِ إِلَيها ب \(r(s, a)\)، تُنْتِج مُكافَآت مَحْدُودَةٍ فِي نِطاقِ \([r_{\min}, r_{\max}]\) لَأَزْواج الحالَةِ-العَمَلِ \((s, a)\)، حَيْثُ \(r_{\max}\) هُوَ ثابِتٌ مُوجِب.

المُعامَلاتِ \(\gamma \in [0, 1)\) وَ\(\rho\) تَدُلّ عَلَى عامِلٍ الخَصْمِ وَتَوْزِيعِ الحالَةِ الأَوَّلِيَّةِ، عَلَى التَوالِي. يَتِمّ اِلْتِقاطِ سُلُوكِ الوَكِيلَ مِن خِلالَ سِياسَةِ \(\pi\)، الَّتِي تَقَع فِي فَضاءِ تَوْزِيعات الاِحْتِمالاتِ عَلَى الأَعْمالِ فِي كُلِّ حالَةِ. يَتِمّ تَمْثِيلِ هٰذا ك \(\pi(a\mid s)\).

نُحَدِّد كَثافَةُ الاِحْتِمالِ \(p(\tau \mid \pi)\) لَمَسار واحِدٍ \(\tau\) يَتِمّ تَوْلِيده تَحْتَ سِياسَةِ \(\pi\) كَما يَلِي: \[\label{eq:p} p(\tau\mid\pi) = \rho(s_0)\prod_{t=0}^\infty\pi(a_t\mid s_t)\cP(s_{t+1}\mid s_t,a_t).\] لِنَجْعَل \(\cR(\tau) \eqdef \sum_{t=0}^\infty\gamma^t r(s_t, a_t)\) تَكُون المُكافَآتُ المُخَفَّضَةِ الإِجْمالِيَّةُ المُتَراكِمَةِ عَلَى طُولِ المَسارُ \(\tau\). نُحَدِّد العائِدِ المُتَوَقَّعِ المُحايِد لِلمَخاطِرِ لِ \(\pi\) كَما يَلِي: \[\begin{aligned} \label{eq:J} J(\pi) \defeq \EE{\tau \sim p(\cdot\mid\pi)}{\cR(\tau)}.\end{aligned}\]

خوارزميه تَعْزِيزِ

نَعْتَبِر السِياساتِ المُعَلِّمَةُ وَالعَشْوائِيَّة، المُمَثَّلَةِ ك \(\{\pi_{\theta} : \theta \in \mathbb{R}^d\}\)، مَعَ الاِفْتِراضُ الأَساسِيُّ بِأَنَّ هٰذِهِ السِياساتِ قابِلَةٍ لِلتَفاضُل بِالنِسْبَةِ لِلمَعامِل \(\theta\). دَعُونا نَعْرِف \(J(\pi_{\theta})\) ك \(J(\theta)\)، وَيُمْكِننا أَيْضاً التَعْبِيرِ عَن اِحْتِمالَيْهِ مَسارِ مُعَيَّنٍ بِالنَظَرِ إِلَى \(\theta\) ك \(p(\tau\mid\pi_{\theta}) = p(\tau\mid\theta)\).

تُسْتَخْدَم طُرُقٍ تُدْرِج السِياسَةِ (PG) تَصاعُدِ التَدَرُّج داخِلَ فَضاءِ المَعامِلُ \(\theta\)، لِتَحْدِيدِ السِياسَةِ الَّتِي تُعَظِّم العائِدِ المُتَوَقَّعِ. نَرْمُز لِلعائِد المُتَوَقَّعِ الأَمْثَلُ ب \(J^* \defeq J(\theta^*)\).

يُعَبِّر عَن تُدْرِج العائِدِ المُتَوَقَّعِ \(\nabla J(\theta)\) كَما يَلِي: \[\begin{aligned} \label{eq:GD} \nabla J(\theta) = \int\cR(\tau)\nabla p(\tau\mid\theta)d\tau \overset{\ref{eq:p}}{=} \EE{\tau}{\sum_{t=0}^\infty\nabla_{\theta}\log\pi_{\theta}(a_{t} \mid s_{t}) \sum_{t'=0}^\infty\gamma^{t'} r(s_{t'}, a_{t'})}.\end{aligned}\]

يُمْكِن تَبْسِيطِ تُدْرِج تَعْزِيزِ بِالاِسْتِفادَةِ مِن حَقِيقَةِ أَنَّ الأَفْعال المُسْتَقْبَلِيَّةِ لا تَعْتَمِد عَلَى المُكافَآتُ السابِقَةِ. هٰذا يُؤَدِّي إِلَى الصِياغَةُ التالِيَةِ لِلتَدَرُّج الكامِلِ (sutton2018reinforcement): \[\begin{aligned} \label{eq:pg} \nabla J(\theta) = \EE{\tau}{\sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t|s_t) \sum_{t'=t}^{\infty} \gamma^{t'} r(s_{t'}, a_{t'})} = \EE{\tau}{\sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t|s_t)R(t)},\end{aligned}\] حَيْثُ نَعْرِف \(\displaystyle R(t) \defeq \sum_{t'=t}^\infty\gamma^{t'} r(s_{t'}, a_{t'})\) كَمُكافَآت مُخَفَّضَةٍ لِلمُسْتَقْبَلِ.

تَعْقِيداتٌ تَكْرارِ تَعْزِيزِ التَعَلُّمِ

تُشِير تَعْقِيداتٌ التَكْرارِ (kakade2003sample) إِلَى عَدَدٍ التَفاعُلات الَّتِي يَحْتاجها العامِلِ مَعَ بِيئَته لِلتَقارُب نَحْوَ سِياسَةِ شِبْهِ مِثالِيَّةٍ. حَقَّقَ (yuan2022general) تَعْقِيدِ تَكْرارِ بِمِقْدارِ \(\cO(\epsilon^{-2})\) لِلتَدَرُّج الدَقِيقِ لخوارزميه تَعْزِيزِ التَعَلُّمِ وَتَعْقِيد عَيِّنَةً بِمِقْدارِ \(\Tilde{\cO}(\epsilon^{-4})\) لَتَقْدِير التَدَرُّج المَقْطُوع، كُلاهما يَهْدِف إِلَى الوُصُولِ إِلَى نُقْطَةً ثابِتَةٍ مِن الدَرَجَةِ الأُولَى (FOSP). اِعْتَبَرَ (yang2021sample) مَعايِيرِ التَقارُبِ لَنُقَطه ثابِتَةٍ مِن الدَرَجَةِ الثانِيَةِ (SOSP) وَحَقَّقَ تَعْقِيدِ عَيِّنَةً بِمِقْدارِ \(\cO(\epsilon^{-\frac{9}{2}})\). بِالإِضافَةِ إِلَى ذٰلِكَ، أَثْبَت (papini2021safe) تَعْقِيدِ التَكْرارِ \(\cO(\epsilon^{-2})\) لخوارزميه تَعْزِيزِ التَعَلُّمِ، وَقَدَّمَ (papini2018stochastic) طَرِيقَةِ التَدَرُّج المُخَفَّض التَبايُنِ العَشْوائِيِّ (SVRG)، وَالَّتِي تَتَطَلَّب \(\cO(\epsilon^{-2})\) تكرارات لِتَحْقِيقِ \(\norm{\nabla J(\theta)} \leq \epsilon\). فِي الوَقْتِ نَفْسِهِ، اِقْتَرَحَ (xu2019sample) نَهْجٍ التَدَرُّج السِياسِيِّ المُخَفَّض التَبايُنِ العَشْوائِيِّ التَكْرارِيّ (SRVR-PG) الَّذِي يَتَطَلَّب \(\cO(\epsilon^{-\frac{3}{2}})\) تكرارات لِلعُثُور عَلَى نُقْطَةً ثابِتَةٍ تَقْرِيبِيّه بِمِقْدارِ \(\epsilon\) لَوَظِيفَة الأَداءِ غَيْرِ المُقَعَّرَة، المُمَيَّزَةِ ب \(\norm{\nabla J(\theta)} \leq \epsilon\).

خوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ

بُعْدَ مُناقَشَةِ التَدَرُّج السِياسِيِّ المُحايِد لِلمَخاطِرِ، نُراجِع التَدَرُّج السِياسِيِّ الحَسّاسِ لِلمَخاطِرِ، وَهُوَ اِمْتِدادِ لِلتَدَرُّج السِياسِيِّ التَقْلِيدِيِّ (sutton1999policy, kakade2001natural). فِي هٰذا الاِمْتِداد، الهَدَفَ هُوَ تَحْسِينِ سِياسَةِ مِن خِلالَ النَظَرِ لَيِسَ فَقَط فِي العائِدِ المُتَوَقَّعِ وَلٰكِن أَيْضاً فِي بِعَضِّ مَقايِيسِ المَخاطِرِ، مِثْلَ القِيمَةِ المَشْرُوطَةِ عِنْدَ الخَطَرِ (qiu2021rmix, prashanth2022risk)، وَمُكافِئات اليَقِينِ المُحَسِّنَة (lee2020learning) وَدالّه المَنْفَعَةِ الآسِيَة (mihatsch2002risk, fei2020risk, eriksson2019epistemic, prashanth2022risk, noorani2021risk).

فِي هٰذا العَمَلِ، نَسْتَخْدِم دالَّةٍ المَنْفَعَةِ الآسِيَة لَدَمْج المَخاطِرِ فِي مِقْياسِ أَداءِ النِظامِ بِسَبَبِ سُهُولَةَ حِسابها وَقابِلِيَّتها لِلتَتَبُّع الرِياضِيِّ. تَهْدِف خوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ إِلَى تَعْظِيمِ الهَدَفَ التالِي: \[\label{risk-obj} J_\beta(\pi) \eqdef \EE{\tau \sim p(\cdot \mid \pi)}{\beta e^{\beta \cR(\tau)}},\] حَيْثُ \(J_\beta(\pi)\) هُوَ الهَدَفَ الحَسّاسِ لِلمَخاطِرِ بِاِتِّباعِ سِياسَةِ \(\pi\) وَيَفِي بِالنُعُومَة الليبشيتز فِي الاِفْتِراضُ [ass: smooth]، \(\beta \neq 0\) يُمَثِّل مَعامِلِ الحَسّاسِيَّةِ لِلمَخاطِرِ، \(\cR(\tau)\) يَدُلّ عَلَى المُكافَآتُ المُخَفَّضَةِ المُتَراكِمَةِ عَلَى طُولِ مَسارِ \(\tau\) كَما فِي القِسْمِ [sec: mdp].

اِسْتَخْدَمَ بِعَضِّ الأَعْمالِ السابِقَةِ (fei2020risk, hau2023entropic) هَدَفَ مِقْياسِ المَخاطِرِ الانتروبي، المعرف ك \(\frac{1}{\beta}\log\big(\EE{\tau \sim p(\cdot \mid \pi)}{e^{\beta \cR(\tau)}}\big)\). مِن مَنْظُورٍ التَحْسِين، يَشْتَركَ هٰذا الهَدَفَ فِي نَفْسِ السِياسَةِ المُثْلَى كَهَدَفنا \(J_\beta(\pi)\)، حَيْثُ أَنَّ لَدَيهِما نَفْسِ الارجماكس. تَشْتَق السِياسَةِ المُثْلَى ك \(\pi^* = \arg\max_\pi J_\beta (\pi)\). مِن خِلالَ أَخَذَ تَوَسُّعه تايْلُور لِلهَدَف الحَسّاسِ لِلمَخاطِرِ: \[\begin{aligned} \label{eq:taylor} \E{\beta e^{\beta \cR(\tau)}} = \beta + \beta^2 \E{\cR(\tau)} + \frac{\beta^3}{2} \E{\cR^2(\tau)} + \cO(\beta^4).\end{aligned}\]

فِي الحالاتِ الَّتِي يَكُون فِيها \(\beta\) سالِبا (يَعْكِس السُلُوكِ المُتَحَفِّظِ تُجاهَ المَخاطِرِ)، يُصْبِح تَعْظِيمِ \(J_\beta(\pi)\) مُكافِئا لَتَعْظِيم العائِدِ المُتَوَقَّعِ وَتَقْلِيل تَبايُنٍ العائِدِ، مِمّا يُساعِد عَلَى اِسْتِقْرارِ التَعَلُّمِ. بِالمُقابِلِ، عِنْدَما يَكُون \(\beta\) مُوجِبا (يُشِير إِلَى السُلُوكِ الباحِثُ عَن المَخاطِرِ)، يُصْبِح تَعْظِيمِ \(J_\beta(\pi)\) مُكافِئا لَتَعْظِيم كُلِّ مِن العائِدِ المُتَوَقَّعِ وَتَبايُنٍ العائِدِ.

نَهْدِف إِلَى اِسْتِكْشافٍ ما إِذا كانَ تَعْدِيلِ مَعامِلِ الحَسّاسِيَّةِ لِلمَخاطِرِ يُمْكِن أَنَّ يُقَلِّل مِن تَعْقِيدِ التَكْرارِ لِتَعْزِيزِ المُتَحَفِّظِ تُجاهَ المَخاطِرِ مُقارَنَةً بِتَعْزِيزِ المُحايِد لِلمَخاطِرِ. تَحْقِيقِ ذٰلِكَ سَيَكُون مُفِيداً لِلغايَةِ حَيْثُ سَيَسْمَح بِالمَتانَةِ وَالتَقارُبَ الأَسْرَعَ فِي نَفْسِ الوَقْتِ.

يُعَبِّر عَن تُدْرِج الهَدَفَ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ كَما يَلِي:

\[\begin{aligned} \label{eq:risk-pg} \nabla J_\beta(\theta) &= \EE{\tau}{\sum_{t=0}^\infty\nabla_{\theta}\log\pi_{\theta}(a_{t} \mid s_{t}) \cdot \beta e^{\beta R(t)}},\end{aligned}\]

حَيْثُ \( R(t) \defeq \sum_{t'=t}^\infty\gamma^{t'} r(s_{t'}, a_{t'})\) هِيَ المُكافَآتُ المُخَفَّضَةِ المُتَبَقِّيَةُ كَما عَرَفْنا فِي القِسْمِ [sec:reinforce].

ثُمَّ يُمْكِننا الحُصُولِ عَلَى تَقْدِيرٍ تَجْرِيبِيٍّ لِلتَدَرُّج مَعَ \(N\) مَساراتٍ وَأُفُقُ \(H\) فِي المُمارِسَةِ العَمَلِيَّةِ: \[\label{eq: risk-empirical-gradient} \hnabla J_\beta(\theta) = \frac{1}{N}\sum_{i=1}^N\sum_{t=0}^{H-1}\nabla_{\theta}\log\pi_{\theta}(a_{t}^i \mid s_{t}^i) \cdot \beta e^{\beta R^i(t)}.\]

تَقُوم خوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ بِتَحْدِيثِ مُعَلِّمات السِياسَةِ بِاِسْتِخْدامِ النُزُولِ التَدْرِيجِيِّ: \[\begin{aligned} \label{eq:GA} \theta_{t+1} = \theta_t - \eta_t\hnabla J_\beta(\theta_t)\end{aligned}\] حَيْثُ \(\eta_t > 0\) هُوَ حَجْمِ الخَطْوَةِ فِي التَكْرارِ \(t\)-th.

مُقارَنَةً تَعْقِيدِ التَكْرارِ بَيِّنَ تَعْزِيزِ المَخاطِرِ الحَسّاسَةِ وَالمُحايِدَة

تَعْقِيدِ تَكْرارِ تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ

نُطَوِّر تَحْلِيلِ تَعْقِيدِ التَكْرارِ لِتَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ، بِهَدَفِ الوُصُولِ إِلَى نُقْطَةً ثابِتَةٍ مِثْلِي مُتَوَقَّعَةٍ، اِسْتِناداً إِلَى الاِفْتِراضُ (ass:abc) (khaled2020better) الَّذِي يُقَيِّد اللَحْظَةِ الثانِيَةِ لِلتَدَرُّج. بَيْنَما طَبَّقَ (yuan2022general) هٰذا الاِفْتِراضُ بِنَجاحٍ عَلَى تَعْزِيزِ الحَسّاسِيَّةِ المُحايِدَةِ لِلمَخاطِرِ، لَم يَسْتَكْشِفُوا النَظِير الحَسّاسِ لِلمَخاطِرِ. تَمْتَدّ أَبْحاثنا هٰذِهِ التَحْلِيلِ إِلَى تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ، وَالَّذِي يُقَدِّم وِجْهَةِ نَظَرِ جَدِيدَةٍ حَوْلَ هٰذا المَوْضُوعِ.

بِاِفْتِراض أَنَّ الاِفْتِراضات (ass: smooth) وَ (ass:abc) صَحِيحَةٍ، نَسْتَنْتِج النَتِيجَةُ التالِيَةِ، وَالَّتِي تَتْبَع مِن النَظَرِيَّةِ 3.4 فِي (yuan2022general):

[cor:abc] بِالنِسْبَةِ لِلهَدَف الحَسّاسِ لِلمَخاطِرِ \(J_\beta\)، يُشار إِلَى ثابِتٌ النُعُومَة ليبشيتز ب \(L_\beta\). يَقَع حَجْمِ الخَطْوَةِ \(\eta\) ضِمْنَ النِطاقِ \(\left(0, \frac{2}{LB}\right)\). هُنا، نُلاحِظ أَنَّ \(B=0\) يَعْنِي أَنَّ \(\eta \in (0, \infty) \). نَعْرِف \(\delta_0 \defeq J_\beta^* - J_\beta(\theta_0)\). لَدَينا أَنَّ \[\begin{aligned} \min_{0\leq t\leq T-1} & \E{\norm{\nabla J_\beta(\theta_t)}^2} \leq \frac{2\delta_0(1+L_\beta \eta^2A)^T}{\eta T(2-L_\beta B\eta)} + \frac{L_\beta C\eta}{2-L_\beta B\eta}.\nonumber\end{aligned}\]

نُقَدِّم دَلِيلٌ النَتِيجَةُ (cor:abc) فِي المُلْحَقِ (apx: abc).

[cor:sc] فِي سِياقِ النَتِيجَةُ (cor:abc)، وَلِقِيمَة مُعَيَّنَةٍ \(\epsilon > 0\)، دَعْ \(\eta = \min\big\{\frac{1}{\sqrt{L_\beta AT}}, \frac{1}{L_\beta B}, \frac{\epsilon}{2L_\beta C}\big\}\). إِذا كانَ عَدَدٍ التكرارات \(T\) يُلَبِّي الشَرْطُ التالِي: \[\begin{aligned} T \geq \frac{12\delta_0L_\beta}{\epsilon^2}\max\left\{B, \frac{12\delta_0A}{\epsilon^2}, \frac{2C}{\epsilon^2}\right\} \defeq n_\beta, \label{eq:T}\end{aligned}\] فَإِنَّ \(\displaystyle \min_{0\leq t\leq T-1} \E{\norm{\nabla J_\beta(\theta_t)}^2} = \cO(\epsilon^2)\).

يُمْكِننا الحُصُولِ عَلَى النَتِيجَةُ (cor:sc) مِن العَمَلِ بِواسِطَةِ (khaled2020better). وِفْقاً لِلنَتِيجَة (cor:abc) وَالنَتِيجَةُ (cor:sc)، فَإِنَّ تَعْقِيدِ التَكْرارِ لِلحُصُولِ عَلَى التَدَرُّج الكامِلِ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ هُوَ \(T = \cO(\epsilon^{-2})\). بُعْدَ عَلَى الأَقَلِّ \(n_\beta\) تكرارات، يُمْكِننا تَحْقِيقِ نُقْطَةً ثابِتَةٍ مِثْلِي مُتَوَقَّعَةٍ تَقْرِيبِيّه ب \(\epsilon\). يَعْتَمِد التَعْقِيدِ عَلَى ثابِتٌ النُعُومَة ليبشيتز \(L_\beta\).

عِنْدَ تَحْلِيلِ تَعْقِيدِ التَكْرارِ لِكُلِّ مِن خوارزميات تَعْزِيزِ الحَسّاسِيَّةِ المُحايِدَةِ وَالحَسّاسَة لِلمَخاطِرِ، سَنَقُوم بِإِجْراءِ مُقارَنَةً بَيِّنَهُما. اِسْتِناداً إِلَى العَمَلِ بِواسِطَةِ (yuan2022general)، نَعْرِف \[n \defeq \frac{12\delta_0L}{\epsilon^2}\max\left\{B, \frac{12\delta_0A}{\epsilon^2}, \frac{2C}{\epsilon^2}\right\},\] كَعَدَد التكرارات لِتَحْقِيقِ نُقْطَةً ثابِتَةٍ مِثْلِي مُتَوَقَّعَةٍ تَقْرِيبِيّه ب \(\epsilon\) لِتَعْزِيزِ المُحايِد لِلمَخاطِرِ. الهَدَفَ الأَساسِيُّ هُوَ الإِجابَةَ عَلَى السُؤالُ: هَل يُمْكِننا تَحْقِيقِ تَعْقِيدِ تَكْرارِ أَقَلَّ لِتَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ مُقارَنَةً بِتَعْزِيزِ المُحايِد لِلمَخاطِرِ، بِشَكْلٍ أَساسِيٌّ \(n_\beta < n\)، وَتَحْتَ أَيّ ظُرُوفٍ يُمْكِن تَحْقِيقِ ذٰلِكَ، خاصَّةٍ فِيما يَتَعَلَّق بِاِخْتِيارِ المُعَلِّمَةُ الحَسّاسَةِ لِلمَخاطِرِ؟ إِذا اِسْتَطَعْنا تَحْقِيقِ هٰذا الهَدَفَ، فَسَيَكُون ذٰلِكَ مُفِيداً لِلغايَةِ حَيْثُ يَعْنِي أَنَّهُ عِنْدَ النَظَرِ فِي المَخاطِرِ أَثْناءَ عَمَلِيَّةِ اِتِّخاذِ القَرارِ، يُمْكِننا فِي الوَقْتِ نَفْسِهِ تَقْلِيلِ عَدَدٍ التكرارات المَطْلُوبَةِ لِلتَعَلُّمِ.

[ass: risk-value-ratio] أَفْتَرِض أَنَّ هُناكَ قِيَماً لَمَعامِل الحَسّاسِيَّةِ لِلمَخاطِرِ \(\beta\)، بِحَيْثُ يَكُون الآتِي صَحِيحاً: \[|\beta| e^{|\beta| \sum_{t=0}^\infty\gamma^t\left|r(s_t, a_t)\right|} < \sum_{t=0}^\infty\gamma^t|r(s_t, a_t)|,\]

لِنَعْرِف \(\alpha\) كَنِسْبَة بَيِّنَ هٰذَيْنِ القِيمَتَيْنِ: \[\label{eq: ratio} \alpha = \frac{|\beta| e^{|\beta|\sum_{t=0}^\infty\gamma^t|r(s_t,a_t)|}}{\sum_{t=0}^\infty\gamma^t|r(s_t,a_t)|}, \ 0<\alpha<1.\]

الاِفْتِراضُ (ass: risk-value-ratio) يَعْنِي بِشَكْلٍ أَساسِيٌّ أَنَّنا نَهْدِف إِلَى تَحْدِيدِ قِيَمِ لَمَعامِل الحَسّاسِيَّةِ لِلمَخاطِرِ \(\beta\)، بِحَيْثُ تَكُون دالَّةٍ القِيمَةِ للخوارزميه الحَسّاسَةِ لِلمَخاطِرِ أَصْغَرِ مِن تِلْكَ الخاصَّةِ بالخوارزميه المُحايِدَةِ لِلمَخاطِرِ، عَلَى طُولِ أَيّ مَسارِ \(\tau\) يَتَضَمَّن تَسَلْسُلات مِن الحالاتِ وَالإِجْراءات. مِن الضَرُورِيِّ التَأْكِيدُ عَلَى أَنَّنا نَسْعَى لِلعُثُور عَلَى وُجُودِ مِثْلَ هٰذِهِ القِيَمِ \(\beta\) بَدَلاً مِن تِلْكَ العالَمِيَّةِ، حَيْثُ أَنَّ تَحْقِيقِ العالَمِيَّةِ غَيْرِ عَمَلِيٍّ. وُجُودِ مِثْلَ هٰذِهِ القِيَمِ لَيِسَ مُقَيَّدا؛ بَل هُوَ ذُو قِيمَةَ عالِيَةٍ حَيْثُ قَد يُمْكِننا مِن تَحْقِيقِ القُوَّةِ وَالتَقارُبَ السَرِيعِ فِي آنٍ واحِدٍ. مِن خِلالَ اِسْتِخْدامِ دالَّةٍ المَنْفَعَةِ الآسِيَة وَضَمانِ صِحَّةِ الاِفْتِراضُ (ass: risk-value-ratio)، يُمْكِننا إِعادَةِ تَشْكِيلِ بِنْيَةَ وَخَصائِصَ النُعُومَة لَدالّه القِيمَةِ بِفَعّالِيَّةٍ.

ثُمَّ نُقَدِّم الاِفْتِراضُ التالِي الَّذِي يَحُدّ مِن التَدَرُّج والهسيان لِلسِياسَةِ، وَالَّذِي سَيَتِمّ اِسْتِخْدامه لَاِشْتِقاق ثابِتٌ النُعُومَة ليبشيتز \(L\) وَ\(L_\beta\) لِكُلِّ مِن تَعْزِيزِ المُحايِد وَالحَسّاس لِلمَخاطِرِ.

[ass:lipschitz_smooth_policy] تُوجَد ثَوابِتِ \(F_1, F_2 > 0\) بِحَيْثُ أَنَّهُ لِكُلِّ حالَةِ \(s\in S\)، يُلَبِّي التَدَرُّج المُتَوَقَّعِ والهسيان لِ \(\log\pi_\theta(\cdot\mid s)\) الشُرُوطِ التالِيَةِ: \[\begin{aligned} \EE{a\sim\pi_\theta(\cdot\mid s)}{\norm{\nabla_\theta\log\pi_\theta(a \mid s)}^2} & \leq F_1^2, \label{eq:G2} \\ \EE{a\sim\pi_\theta(\cdot\mid s)}{\norm{\nabla^2_\theta\log\pi_\theta(a\mid s)}} &\leq F_2. \label{eq:F} \end{aligned}\]

الثابِتُ النُعُومَة ليبشيتز

الثابِتُ النُعُومَة ليبشيتز يَقِيس نَعُومه دالَّةٍ، وَبِالأَخَصّ تُدْرِجها. بَيْنَما لا يَضْمَن ثابِتٌ النُعُومَة ليبشيتز الأَصْغَرِ بَيِّنَ خوارزميتين تَقارُباً أَسْرَعِ بِالضَرُورَةِ، حَيْثُ أَنَّهُ يَعْمَل فَقَط كَحَدٍّ أَعْلَى لِلتَدَرُّج، تُشِير تَحْلِيلاتنا، كَما هُوَ مُوَضِّح فِي النَتِيجَةُ (cor:sc) وَالمَدْعُومَة بِواسِطَةِ (Khaled et al. (2020)), إِلَى أَنَّ عَدَدٍ التكرارات المَطْلُوبَةِ لِلتَقارُب يَعْتَمِد خَطِّيّا عَلَى ثابِتٌ النُعُومَة ليبشيتز. وَبِالتالِي، يُمْكِن لِتَقْلِيلِ ثابِتٌ النُعُومَة ليبشيتز أَنَّ يُقَلِّل فِعْلِيّاً مِن عَدَدٍ التكرارات، مِمّا يَعْنِي تَحْسِينِ تَعْقِيدِ التَكْرارِ عِنْدَ مُقارَنَةً خوارزميتين إِذا كانَ لَدَيهِما نَفْسِ التَكْلِفَةِ الحِسابِيَّة لِكُلِّ تَكْرارِ. هٰذا صَحِيحٌ بِالنِسْبَةِ لَمُقارَنَتنا بَيِّنَ تَعْزِيزِ المَخاطِرِ وَتَعْزِيزِ المَخاطِرِ المُحايِدَةِ، حَيْثُ أَنَّ اِسْتِخْدامِ الأَداة المنفعيه الآسِيَة لا يُضِيف تَكْلِفَةِ حِسابِيَّةً إِضافِيَّةً.

لِذٰلِكَ، فِي هٰذا السِياقِ، سَنَقُوم بِاِشْتِقاق وَمُقارَنَة ثابِتٌ النُعُومَة ليبشيتز \(L\) وَ \(L_\beta\) عَلَى التَوالِي:

أَفْتَرِض أَنَّ الاِفْتِراضات (ass: smooth), (ass: risk-value-ratio) وَ (ass:lipschitz_smooth_policy) صَحِيحَةٍ. لَدَينا أَنَّ \[\begin{aligned} L &=& \frac{r_{max}}{(1-\gamma)^2}(F_1^2 + F_2), \nonumber \\ L_\beta &=& \alpha L,\end{aligned}\]

حَيْثُ \(0 < \alpha < 1\) هُوَ النِسْبَةِ فِي الاِفْتِراضُ (ass: risk-value-ratio)، وَالَّتِي تُمَثِّل عامِلٍ ضَرْبِ يُقَلِّل \(L_\beta\) مُقارَنَةً ب \(L\). دَرَجَةِ الخَفْضِ تَعْتَمِد عَلَى القِيمَةِ الخاصَّةِ لَمَعامِل حَسّاسِيَّةٍ المَخاطِرِ \(\beta\). \(r_{max}\) هُوَ الحَدِّ الأَقْصَى لِلمُكافَأَة، \(\gamma\) هُوَ عامِلٍ الخَصْمِ، \(F_1\) وَ \(F_2\) هُما الثَوابِتِ الَّتِي تَحُدّ التَدَرُّج والهسيان لِلسِياسَةِ كَما هُوَ مُوَضِّح فِي الاِفْتِراضُ (ass:lipschitz_smooth_policy). نُقَدِّم دَلِيلٌ الاِشْتِقاق لِ \(L\) وَ \(L_\beta\) فِي المُلْحَقِ (apx: comparison).

كَما هُوَ مَذْكُورٌ فِي (eq: ratio)، دَعُونا نَعْرِف \(x=\sum_{t=0}^\infty\gamma^t|r(s_t,a_t)|\)، وَبِالتالِي: \[\alpha(x) = \frac{|\beta| e^{|\beta|x}}{x}, \ x>0.\]

بَيْنَما تَرْتَبِط دالَّةٍ القِيمَةِ اِرْتِباطا وَثِيقاً بِإِجْراءِ تُدْرِج السِياسَةِ، هُنا يُمْكِننا مُعامَلَتها كَمُتَغَيِّر وَحِساب المُشْتَقَّة الأُولَى لِ \(\alpha\) عَلَيها. سَواءُ كانَ بِإِمْكانِ \(\alpha\) أَخَذَ القِيمَةِ الأَمْثَلُ \(x^*\) الَّتِي يَتِمّ تَحْقِيقِها بِتَعْيِينِ المُشْتَقَّة الأُولَى إِلَى الصِفْرِ، سَيَعْتَمِد عَلَى إِجْراءِ تُدْرِج السِياسَةِ.

\[\nabla \alpha(x) = \frac{|\beta|e^{|\beta|x}(|\beta|x-1)}{x^2},\]

عِنْدَما \(\nabla \alpha(x^*) = 0, x^* = \frac{1}{|\beta|}\). إِذا كانَ بِإِمْكانِ \(\alpha\) أَخَذَ القِيمَةِ الدُنْيا عِنْدَ \(x^*\) فَإِنَّ \(\alpha_{min}=\beta^2 e\)، مِن أَجْلِ أَنَّ يَكُون \(0<\alpha<1\) لِبَعْضِ قِيَمِ \(\beta\)، نَحْتاج \[\begin{aligned} \beta^2 e &<& 1, \nonumber \\ |\beta| &<& e^{-\frac{1}{2}}. \end{aligned}\]

عِلاوَةً عَلَى ذٰلِكَ، \(x=\sum_{t=0}^\infty\gamma^t|r(s_t,a_t)| \leq \frac{r_{max}}{1-\gamma}\)، وَبِالتالِي، إِذا \(\frac{1}{|\beta|} < \frac{r_{max}}{1-\gamma}\)، فَإِنَّ \[\begin{aligned} |\beta| &>& \frac{1-\gamma}{r_{max}}, \nonumber \\ \frac{1-\gamma}{r_{max}} < &|\beta|& < e^{-\frac{1}{2}}. \end{aligned}\] إِذا كانَ \(\frac{1}{|\beta|} > \frac{r_{max}}{1-\gamma}\)، فَإِنَّ \(\alpha(x)\) لا يُمْكِن أَنَّ يَأْخُذ القِيمَةِ الدُنْيا \(\beta^2 e\) عِنْدَ \(x^*\). فِي النِطاقِ \(0<x\leq \frac{r_{max}}{1-\gamma}\)، \(\alpha(x)\) تَتَناقَص تَناقَصا أُحادِيّا. وَبِالتالِي، \[\begin{aligned} \alpha(\frac{r_{max}}{1-\gamma}) &<& 1, \nonumber \\ |\beta| e^{|\beta| \frac{r_{max}}{1-\gamma}} &<& \frac{r_{max}}{1-\gamma}, \nonumber \\ |\beta| &<& k,\end{aligned}\] حَيْثُ \(k\) هُوَ ثابِتٌ يَعْتَمِد عَلَى \(r_{max}\) وَ \(\gamma\). ثُمَّ، \[\begin{equation} |\beta| < \min\{\frac{1-\gamma}{r_{max}}, k\}.\]

اِسْتِناداً إِلَى التَحْلِيلِ النَظَرِيّ أَعْلاه، لَدَينا النَظَرِيَّةِ التالِيَةِ:

[the:beta] تُوجَد مَجْمُوعَةِ مِن القِيَمِ لِ \(\beta\): \[\label{eq:beta_range} \frac{1-\gamma}{r_{max}} < |\beta| < e^{-\frac{1}{2}} \ or \ |\beta| < \min\{\frac{1-\gamma}{r_{max}}, k\}, \ \beta \neq 0,\] مِمّا يُؤَدِّي إِلَى \(L_\beta < L\)، وَبِالتالِي \(n_\beta < n\)، مِمّا يَعْنِي تَقْلِيلِ تَعْقِيدِ التَكْرارِ لِ REINFORCE الحَسّاسِ لِلمَخاطِرِ مُقارَنَةً ب REINFORCE الخالِي مِن المَخاطِرِ.

التَجارِبِ

لِلتَحَقُّقِ مِن تَحْلِيلنا النَظَرِيّ الَّذِي يُشِير إِلَى أَنَّ الخوارزميات الحَسّاسَةِ لِلمَخاطِرِ يُمْكِن أَنَّ تَحَقَّقَ تَعْقِيدِ تَكْرارِ مُحْسِن تَحْتَ قِيَمِ مُعَيَّنَةٍ لِلمَعامِل الحَسّاسِ لِلمَخاطِرِ، أَجْرَيْنا تَجارِبِ مُحاكاةَ بِاِسْتِخْدامِ بِيئَةُ المِلاحَةِ MiniGrid (MinigridMiniworld23). عَلَى وَجْهِ التَحْدِيدِ، اُسْتُخْدِمْنا بِيئَةُ MiniGrid-Empty-Random-6x6، حَيْثُ يَجِب عَلَى العامِلِ عَلَى شَكْلٍ مُثَلَّثِ أَحْمَر أَنَّ يَتَنَقَّل عَبْرَ غُرْفَةِ فارِغَةً لِلوُصُولِ إِلَى المُرَبَّعِ الأَخْضَرِ الَّذِي يُمَثِّل الهَدَفَ وَالَّذِي يُوَفِّر مُكافَأَةٍ مُتَقَطِّعَةً. يُمْكِن لِلعامِل اِتِّخاذِ الإِجْراءاتِ {يَسارِ، يَمِين، إِلَى الأَمامِ}. تَقَدَّمَ النُسَخِ العَشْوائِيَّةِ مِن هٰذِهِ البِيئَةِ تَعْقِيداً إِضافِيّا مِن خِلالَ بَدْء العامِلِ مِن مَوْقِعِ عَشْوائِيٍّ فِي بِدايَةِ كُلِّ حَلْقَةِ. هٰذا التَعْشِيق يَزِيد مِن التَبايُنِ فِي عَمَلِيَّةِ التَعَلُّمِ وَيُوَفِّر أَعْداداً مُناسِبا لَتَجارِبنا.

فِي المُمارِسَةِ العَمَلِيَّةِ، لا يُمْكِن حِسابِ التَدَرُّج الكامِلِ نَظَراً لِأَنَّهُ يَتَطَلَّب التَوَسُّط عَلَى جَمِيعِ المَساراتِ المُحْتَمَلَةِ \(\tau\sim p(\cdot \mid \theta)\) وَأُفُقُ لا نِهائِيِّ. لِذٰلِكَ، نَسْتَخْدِم تَقْدِيراً تَجْرِيبِيّا لِلتَدَرُّج يَتِمّ الحُصُولِ عَلَيهِ مِن خِلالَ أَخَذَ عَيِّنَةً مِن مَجْمُوعَةِ مِن المَساراتِ المَقْطُوعَةِ \(N=10\) لِكُلِّ تَكْرارِ، مُشار إِلَيها ب \(\tau_i = \left(s_0^i, a_0^i, r_0^i, s_1^i, \cdots, s_{H-1}^i, a_{H-1}^i, r_{H-1}^i\right)\). وَنَقُوم بِتَدْرِيبِ العامِلِ لِ \(800\) تَكْرارِ. تَمَّ الحُصُولِ عَلَى هٰذِهِ المَساراتِ مِن خِلالَ تَنْفِيذِ \(\pi_{\theta}\) لَأُفُق ثابِتٌ \(H=200\). وَعامِلٌ الخَصْمِ \(\gamma=0.99\)، \(r_{max}=1\)، \(r_{min}=0\). نَسْتَخْدِم شَبَكَةِ الإِدْراك المُتَعَدِّدِ الطَبَقاتِ (MLP) مَعَ طَبَقَةٌ مَخْفِيّه واحِدَةٍ تَحْتَوِي عَلَى \(64\) عُقْدَةِ كَشَبَكَةٍ سِياسَةِ وAdam (kingma2014adam) كَمُحْسِن بِمُعَدَّلِ تَعْلَم \(0.001\).

أَجْرَيْنا تَجارِبِ المِلاحَةِ لِكُلِّ مِن السِينارِيُوهات المُحايِدَةِ لِلمَخاطِرِ والحذره مِن المَخاطِرِ مَعَ \(\beta=\{-0.1, -0.2, -0.5, -10.0\}\)، مُسْتَخْدَمِينَ الحالَةِ المُحايِدَةِ لِلمَخاطِرِ كَأَساسٍ لِلمُقارَنَة. وَقُمْنا بتوسيط نَتائِجِ المُحاكاة عَلَى ثَلاثِ بُذُورِ عَشْوائِيَّةٍ مُخْتَلِفَةٍ. مِن خِلالَ مُراقَبَةِ النَتائِجِ، مِن الواضِحِ أَنَّهُ عِنْدَما تَقَع قِيمَةَ \(|\beta|\) ضِمْنَ النِطاقِ المُحَدَّدِ فِي نَظَرِيَّةَ [the:beta]، فَإِنَّ الخوارزميه تَتَعَلَّم بِفَعّالِيَّةٍ، كَما يَتَّضِح مِن زِيادَةِ المُكافَأَةَ الَّتِي تَقْتَرِب مِن 1.0 وَاِنْخِفاضَ مِعْيار التَدَرُّج. عِنْدَما يَكُون \(|\beta|=10.0\)، يُصْبِح التَدَرُّج كَبِيراً جِدّاً، مِمّا يُعِيق عَمَلِيَّةِ التَعَلُّمِ.

وِفْقاً لَمِعْيار التَقارُبِ FOSP، حَيْثُ يَكُون مِعْيار التَدَرُّج أَقَلَّ مِن أَو يُساوِي \(\epsilon\)، فَإِنَّهُ يُشِير إِلَى أَنَّ الخوارزميه الحذره مِن المَخاطِرِ تَتَطَلَّب عَدَداً أَقَلَّ مِن التكرارات لِلتَعَلُّمِ وَيُمْكِن أَنَّ تَتَقارَب بِشَكْلٍ أَسْرَعِ تَحْتَ قِيَمِ مُعَيَّنَةٍ مِن المَعامِلُ الحَسّاسِ لِلمَخاطِرِ.

يَسْتَقِرّ بُعْدَ حِوالِي 4000 حَلْقَةِ، بَيْنَما تَسْتَقِرّ الحالاتِ الَّتِي تَتَجَنَّب المُخاطِرَة مَعَ \(\beta = -0.2, -0.5\) بُعْدَ حِوالِي 3000 حَلْقَةِ، فِي حِينِ يَحْدُث ذٰلِكَ بُعْدَ حِوالِي 7300 حَلْقَةِ لِلحالَةِ المُحايِدَةِ لِلمَخاطِرِ. عَدَدٍ الحَلَقاتِ اللازِمَةِ لِلتَقارُب لِلحالات الَّتِي تَتَجَنَّب المُخاطِرَة يُقارِب نِصْفِ عَدَدٍ الحَلَقاتِ اللازِمَةِ لِلتَقارُب لِلحالَةِ المُحايِدَةِ لِلمَخاطِرِ. هٰذِهِ المُلاحَظَةُ تُؤَكِّد أَنَّ الخوارزميات الَّتِي تَتَجَنَّب المَخاطِرِ يُمْكِن أَنَّ تَحَقَّقَ تَعْقِيدِ تَكْرارِي أَقَلَّ، وَهُوَ ما يَتَماشَى أَيْضاً مَعَ الشَكْلِ [fig:g]، الَّذِي يُوَضِّح أَنَّ الخوارزميه الَّتِي تَتَجَنَّب المَخاطِرِ تَتَقارَب بِشَكْلٍ أَسْرَعِ إِلَى نُقْطَةً ثابِتَةٍ مِن الدَرَجَةِ الأُولَى.

الاِسْتِنْتاجاتِ

فِي هٰذا العَمَلِ، نَبْدَأ بِتَحْلِيلِ تَعْقِيدِ التَكْرارِ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ، حَيْثُ نُحَقِّق تَعْقِيدِ تَكْرارِ يَبْلُغ \(\cO(\epsilon^{-2})\) بِهَدَفِ الوُصُولِ إِلَى نُقْطَةً ثابِتَةٍ مِن الدَرَجَةِ الأُولَى. يَمُدّ هٰذا التَحْلِيلِ فَرْضِيَّةَ النُعُومَة المُتَوَقَّعَةِ مِن الأَعْمالِ السابِقَةِ وَيُمَثِّل أَوَّلِ تَمْدِيدِ لِتَحْلِيلِ تَعْقِيدِ التَكْرارِ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ. بُعْدَ ذٰلِكَ، نُقارَن تَعْقِيدِ التَكْرارِ لخوارزميه تَعْزِيزِ الحَسّاسِيَّةِ لِلمَخاطِرِ مَعَ نَظِيرَتِها غَيْرِ الحَسّاسَةِ لِلمَخاطِرِ، الَّتِي تُعْتَبَر كَأَساسٍ مُقارَنَةً. تُشِير نَتائِجنا إِلَى أَنَّ الخوارزميه الحَسّاسَةِ لِلمَخاطِرِ يُمْكِن أَنَّ تَحَقَّقَ التَقارُبِ بِعَدَدٍ أَقَلَّ مِن التكرارات. نُحَدِّد الشُرُوطِ الَّتِي قَد تُظْهِر فِيها خوارزميه الحَسّاسِيَّةِ لِلمَخاطِرِ تَعْقِيدِ تَكْرارِ أَفْضَلَ. هٰذا الاِكْتِشافِ مُهِمٌّ لِأَنَّهُ يُشِير إِلَى أَنَّهُ أَثْناءَ الأَخْذِ بِعَيْنِ الاِعْتِبارِ المَخاطِرِ خِلالَ عَمَلِيَّةِ اِتِّخاذِ القَرارِ، يُمْكِننا فِي الوَقْتِ نَفْسِهِ تَقْلِيلِ عَدَدٍ التكرارات المَطْلُوبَةِ لِلتَعَلُّمِ. لِلتَحَقُّقِ مِن نَتائِجنا النَظَرِيَّةِ، نُجْرِي تَجارِبِ مُحاكاةَ لِلمِلاحَة فِي بِيئَةُ Minigrid مَعَ مَعايِيرِ حَسّاسَةٍ لِلمَخاطِرِ المُتَغَيِّرَة. النَتائِجِ تَدْعَم بِاِسْتِمْرارٍ نَتائِجنا النَظَرِيَّةِ، حَيْثُ يُمْكِن أَنَّ يَكُون عَدَدٍ الحَلَقاتِ لِلتَقارُب فِي جَمِيعِ الحالاتِ الحذره مِن المَخاطِرِ تَقْرِيباً نِصْفِ عَدَدٍ الحَلَقاتِ لِلتَقارُب فِي حالَةِ عَدَمِ الحَسّاسِيَّةِ لِلمَخاطِرِ.