التَعَلُّمِ التعزيزي دُونِ اِتِّصالٍ هُوَ إِطارِ عَمَلٍ جَذّاب لِتَعْلَم السِياساتِ المُثْلَى مِن التَجارِبِ السابِقَةِ دُونِ تَفاعُلِ إِضافِيٍّ مَعَ البِيئَةِ. وَمَعَ ذٰلِكَ، يُواجِه التَعَلُّمِ التعزيزي دُونِ اِتِّصالٍ بِشَكْلٍ لا مَفَرَّ مِنهُ مُشْكِلَةِ التَحَوُّلاتِ التوزيعيه، حَيْثُ قَد لا تَكُون الحالاتِ وَالأَفْعالِ الَّتِي تَمَّت مُواجَهَتِها أَثْناءَ تَنْفِيذِ السِياسَةِ ضِمْنَ تَوْزِيعِ مَجْمُوعَةِ بَياناتٍ التَدْرِيبِ. الحَلِّ الشائِعُ يَتَضَمَّن دَمْجِ التَحَفُّظِ فِي السِياسَةِ أَو فِي دالَّةٍ القِيمَةِ لِلحِمايَة ضِدَّ الشُكُوكَ وَالمَجْهُولات. فِي هٰذا العَمَلِ، نُرَكِّز عَلَى تَحْقِيقِ نَفْسِ أَهْدافٍ التَحَفُّظِ وَلٰكِن مِن مَنْظُورٍ مُخْتَلِفِ. نَقْتَرِح التَحَفُّظِ التَرْكِيبِيّ مَعَ البَحْثِ عَن المِرْساة لِلتَعَلُّمِ التعزيزي دُونِ اِتِّصالٍ، وَهُوَ نَهْجٍ يَسْعَى لِلتَحَفُّظِ بِطَرِيقَةٍ تَرْكِيبَيْهِ عَلَى رَأْسِ إِعادَةِ المُعايَرَة التَوْصِيلِيَّة (transd_aviv2023)، وَالَّتِي تَقُوم بِتَحْلِيلِ المُتَغَيِّر الداخِلِيِّ (الحالَةِ فِي حالَتنا) إِلَى مَرْساه وَالفِرَق عَن المَدْخَلِ الأَصْلِيُّ. يَسْعَى التَحَفُّظِ التَرْكِيبِيّ لَدَينا إِلَى كُلِّ مِن المَراسِي وَالفُرُوقات داخِلَ التَوْزِيعِ بِاِسْتِخْدامِ نَمُوذَجَ الدِينامِيكِيّات العَكْسِيَّة المُتَعَلِّم، مِمّا يُشَجِّع عَلَى التَحَفُّظِ فِي فَضاءِ المدخلات التَرْكِيبِيّ لِلسِياسَةِ أَو دالَّةٍ القِيمَةِ. هٰذا التَحَفُّظِ التَرْكِيبِيّ مُسْتَقِلٍّ وَغَيْرِ مُدْرِكٌ لِلتَحَفُّظِ السُلُوكِيّ السائِدِ فِي التَعَلُّمِ التعزيزي دُونِ اِتِّصالٍ. نُطَبِّق التَحَفُّظِ التَرْكِيبِيّ عَلَى أَرْبَع خوارزميات مِن التَعَلُّمِ التعزيزي دُونِ اِتِّصالٍ الأَحْدَثُ وَنُقِيمها عَلَى مِعْيار D4RL، حَيْثُ يُحَسِّن التَحَفُّظِ التَرْكِيبِيّ عُمُوماً أَداءِ كُلِّ خوارزميه. الكود مُتاحٌ فِي https://github.com/runamu/compositional-conservatism.
تَمَكَّنَ التَعَلُّمِ بِالتَعْزِيز مِن تَحْقِيقِ نَجاحاتٍ مَلْحُوظَةٌ فِي مَجالاتِ مُتَعَدِّدَةِ، مِن تَوْجِيهِ حَرَكاتِ الرُوبُوتات (dasari2020robonet) وَتَحْسِينِ إِسْتراتِيجِيّاتِ الأَلْعابُ (mnih2015human) إِلَى التَدْرِيبِ الواعِدِ لَنَماذِج اللُغَةِ (rajpurkar2016squad). عَلَى الرَغْمِ مِن هٰذِهِ الإِنْجازاتِ، فَقَد دَفَعَت التَحَدِّياتِ الَّتِي تَفْرِضها التَفاعُلات الزَمَنِيَّةِ الفِعْلِيَّةِ فِي البِيئات المُعَقَّدَةِ وَالحَسّاسَة إِلَى تَطْوِيرِ التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ كَاِتِّجاه قابِلٌ لِلتَطْبِيقِ. يَتَعَلَّم التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ (wiering2012reinforcement, levine2020offline) أَو التَعَلُّمِ بِالتَعْزِيز الدفعي (lange2012batch) السِياساتِ فَقَط مِن البَياناتِ المَوْجُودَةِ مُسْبَقاً، دُونِ أَيّ تَفاعُلِ مُباشِرٍ مَعَ البِيئَةِ. يَزْداد شَعْبِيَّةٍ التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ فِي التَطْبِيقات العَمَلِيَّةِ مِثْلَ القِيادَةِ الذاتِيَّةِ (yu2020bdd100k) أَو الرِعايَةُ الصِحِّيَّةِ (gottesman2019guidelines) حَيْثُ تَكُون البَياناتِ السابِقَةِ وَفِيره.
بِطَبِيعَتِهِ، يَكُون التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ عُرْضَةً لِلتَحَوُّلات التوزيعيه. تُنْشَأ هٰذِهِ المُشْكِلَةِ عِنْدَما يَخْتَلِف تَوْزِيعِ الحالاتِ وَالإِجْراءات الَّتِي تُواجِهها أَثْناءَ تَنْفِيذِ السِياسَةِ عَن تِلْكَ المَوْجُودَةِ فِي مَجْمُوعَةِ البَياناتِ التَدْرِيبِيَّةِ، وَهِيَ حالَةِ تُشَكِّل تَحَدِّيا خاصّاً فِي التَعَلُّمِ الآلِيِّ (levine2020offline). تَتَناوَل العَدِيدَ مِن خوارزميات التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ الحالِيَّةِ هٰذِهِ المُشْكِلَةِ مِن خِلالَ تَقْلِيلِ التَحَوُّلاتِ التوزيعيه مِن خِلالَ النَهْجِ المُحافَظَةِ، بِما فِي ذٰلِكَ تَقْيِيدِ السِياسَةِ أَو تَقْدِيرٍ الشُكُوكَ لَقِياس الاِنْحِرافات التوزيعيه (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019, mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020). تَهْدِف هٰذِهِ الإِسْتراتِيجِيّات إِلَى الحِفاظِ عَلَى الوَكِيلَ ضِمْنَ التَوْزِيعات المَعْرُوفَةِ، مِمّا يُقَلِّل مِن مَخاطِرِ السُلُوكِيّاتِ غَيْرِ المُتَوَقَّعَةِ. فِي هٰذا العَمَلِ، نَسْعَى أَيْضاً إِلَى تَحْقِيقِ نَفْسِ هَدَفَ الحِفاظِ عَلَى الاِسْتِقْرارِ، مَعَ التَرْكِيزِ عَلَى مُواءَمَة تَوْزِيعِ بَياناتٍ الاِخْتِبارُ مَعَ التَوْزِيعِ المَعْرُوفُ، وَلٰكِن مِن مَنْظُورٍ مُخْتَلِفِ.
نَبْدَأ بِالاِعْتِرافِ بِأَنَّ مُشْكِلَةِ التَحَوُّلُ التوزيعي لِلحالَةِ تَرْتَبِط اِرْتِباطا وَثِيقاً بِمُعالَجَةِ كَيْفِيَّةِ التَعامُلِ مَعَ نِقاطٍ الإِدْخال خارِجَ الدَعْمِ لَمُقارَبات الوَظِيفَةِ. نَسْتَكْشِف إِمْكانِيَّةَ تَحْوِيلِ مُشْكِلَةِ التَعَلُّمِ خارِجَ الدَعْمِ إِلَى مُشْكِلَةِ خارِجَ التَرْكِيبُ مِن خِلالَ حَقَنَ التَحَيُّزات الاِسْتِقْرائِيَّة فِي مُقارَبات الوَظِيفَةِ لِلسِياسَةِ أَو وَظِيفَةٍ القِيمَةِ-Q. تَمَّ اِقْتِراحِ مِثْلَ هٰذا التَحْوِيلِ سابِقاً بِواسِطَةِ (transd_aviv2023)، حَيْثُ يُقَدِّم نَهْجاً توصيليا يُسَمَّى التَوْصِيل الثُنائِيِّ يَقُوم بِالتَنَبُّؤات مِن خِلالَ هَنْدَسَةُ ثُنائِيَّةٍ بُعْدَ إِعادَةِ مُعَلِّمَةُ الوَظِيفَةِ المُسْتَهْدَفَة. تَقُوم هٰذِهِ إِعادَةِ المُعَلِّمَةُ بِتَحْلِيلِ المُتَغَيِّر الإِدْخال إِلَى مُكَوِّنَيْنِ، وَهُما المِرْساة وَالدِلْتا، حَيْثُ المِرْساة هِيَ مُتَغَيِّر فِي فَضاءِ الإِدْخال وَالدِلْتا هِيَ الفِرَقِ بَيِّنَ المُتَغَيِّر الإِدْخال وَالمِرْساة. إِذا اِسْتَوْفَت تَوْزِيعات البَياناتِ التَدْرِيبِيَّةِ وَالاِخْتِبارِيَّة المُعاد مُعَلِّمَتها اِفْتِراضاتٍ مُعَيَّنَةٍ، وَإِذا كانَت الوَظِيفَةِ المُسْتَهْدَفَة تَتَمَتَّع بِخَصائِص مُعَيَّنَةٍ، فَإِنَّ التَوْصِيل الثُنائِيِّ يُمْكِن أَنَّ يُعالَج مُشْكِلَةِ خارِجَ التَرْكِيبُ، وَالَّتِي بِدَوْرِها قَد تُحِلّ مُشْكِلَةِ خارِجَ الدَعْمِ مَعَ الوَظِيفَةِ المُسْتَهْدَفَة الأَصْلِيَّةِ.
نَقْتَرِح إِطارا لِلحِفاظِ عَلَى التَرْكِيبُ مَعَ البَحْثِ عَن المِرْساة (COCOA) لِلتَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ، وَهُوَ إِطارِ يَعْتَمِد نَهْجاً تَرْكِيبِيّا لِلحِفاظِ عَلَى الاِسْتِقْرارِ، بِناءَ عَلَى إِعادَةِ المُعَلِّمَةُ التَوْصِيلِيَّة (transd_aviv2023). يَحُول نَهْجنا مُشْكِلَةِ التَحَوُّلُ التوزيعي إِلَى مُشْكِلَةِ خارِجَ التَرْكِيبُ. يَنْقُل هٰذا العَوامِلُ الرَئِيسِيَّةِ لِلتَعْمِيم مِن البَياناتِ إِلَى المُكَوِّناتِ المُحَلِّلَة وَالعَلاقاتِ بَيِّنَها، مِمّا يَتَطَلَّب اِخْتِيارِ المِرْساة وَالدِلْتا بِالقُرْبِ مِن تَوْزِيعِ مَجْمُوعَةِ البَياناتِ التَدْرِيبِيَّةِ.
نَقْتَرِح نَهْجاً جَدِيداً لِلبَحْثِ عَن المِرْساة مَعَ سِياسَةِ إِضافِيَّةً، تُسَمَّى سِياسَةِ البَحْثِ عَن المِرْساة، وَالَّتِي تَفْرِض عَلَى الوَكِيلَ العُثُورِ عَلَى المَراسِي ضِمْنَ المِنْطَقَةِ المَعْرُوفَةِ مِن فَضاءِ الحالَةِ. وَبِالتالِي، يُشَجِّع COCOA المَراسِي عَلَى أَنَّ تَكُون قَرِيبَةٌ مِن مَجْمُوعَةِ البَياناتِ دُونِ اِتِّصالٍ مَعَ تَقْيِيدِ الدِلْتا فِي نِطاقِ ضِيقِ مِن خِلالَ تَحْدِيدِ المَراسِي بَيِّنَ الحالاتِ المُجاوِرَةِ. يُمْكِن لِهٰذا النَهْجِ تَقْلِيلِ فَضاءِ الإِدْخال وَتَوْجِيهُهُ نَحْوَ الفَضاءِ الَّذِي تَمَّ اِسْتِكْشافه بِشَكْلٍ رَئِيسِيٍّ خِلالَ مَرْحَلَةِ التَدْرِيبِ. بِاِخْتِصار، مِن خِلالَ تَعْلَم سِياسَةِ لِلبَحْثِ عَن المَراسِي داخِلَ التَوْزِيعِ وَالاِخْتِلافات مِن الدِينامِيكِيّات المُتَعَلِّمَة، يُمْكِننا تَشْجِيعِ الحِفاظِ عَلَى الاِسْتِقْرارِ فِي فَضاءِ الإِدْخال التَرْكِيبِيّ لَمَقارِب الوَظِيفَةِ لَوَظِيفَة القِيمَةِ-Q وَالسِياسَةِ. هٰذا النَهْجِ مُسْتَقِلٍّ وَغَيْرِ مُدْرِكٌ لِلحِفاظِ عَلَى السُلُوكِ السائِدِ فِي التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ.
وَجَدْنا تَجْرِيبِيّا أَنَّ طَرِيقَتِنا تَحَسُّنِ أَداءِ أَرْبَع طُرُقٍ تَمْثِيلِيَّةٌ لِلتَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ، بِما فِي ذٰلِكَ CQL (cql_kumar2020), IQL (iql_kostrikov2022), MOPO (mopo_yu2020), وَ MOBILE (mobile_sun2023) عَلَى مِعْيار D4RL (d4rl_fu2020). كَما نُظْهِر مِن خِلالَ دِراسَةٌ اِسْتِقْطاع أَنَّ تَعْلَم سِياسَةِ البَحْثِ عَن المِرْساة فَعّالٌ فِي تَحْسِينِ أَداءِ طَرِيقَتِنا. يُمْكِن تَلْخِيصُ مُساهَماتنا الرَئِيسِيَّةِ عَلَى النَحْوِ التالِي:
نَسْعَى إِلَى الحِفاظِ عَلَى الاِسْتِقْرارِ فِي فَضاءِ الإِدْخال التَرْكِيبِيّ لَمُقارَبات الوَظِيفَةِ لَوَظِيفَة القِيمَةِ-Q وَالسِياسَةِ، بِشَكْلٍ مُسْتَقِلٍّ وَغَيْرِ مُدْرِكٌ لِلحِفاظِ عَلَى السُلُوكِ السائِدِ فِي التَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ.
نُقَدِّم الحِفاظِ عَلَى التَرْكِيبُ مَعَ البَحْثِ عَن المِرْساة (COCOA) الَّذِي يَجِد المَراسِي وَالدِلْتا داخِلَ التَوْزِيعِ مَعَ نَمُوذَجَ الدِينامِيكِيّات المُتَعَلِّم، وَهُوَ أَمْرٌ حاسِمٍ لِلتَعْمِيم التَرْكِيبِيّ.
نُظْهِر تَجْرِيبِيّا أَنَّ COCOA يُحَسِّن أَداءِ أَرْبَع خوارزميات حَدِيثَةٍ لِلتَعَلُّمِ بِالتَعْزِيز دُونِ اِتِّصالٍ عَلَى مِعْيار D4RL. بِالإِضافَةِ إِلَى ذٰلِكَ، تُظْهِر دِراسَةٌ الاِسْتِقْطاع لَدَينا فَعّالِيَّةِ سِياسَةِ البَحْثِ عَن المِرْساة مُقارَنَةً بِتَحْدِيدِ المِرْساة الاستنتاجي.
نَفْتَرِض مُشْكِلَةِ عَمَلِيَّةِ اِتِّخاذِ القَرارِ ماركوف \((\mathcal{S}, \mathcal{A}, T, R)\) مَعَ فَضاءِ حالَةِ مُسْتَمِرٍّ \(\mathcal{S}\)، وَفَضاء عَمَلٍ مُسْتَمِرٍّ \(\mathcal{A}\)، وَدالّه اِنْتِقالِ \(T: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S}\)، وَدالّه مُكافَأَةٍ \(R: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\). الهَدَفَ هُوَ إِيجادِ سِياسَةِ \(\pi: \mathcal{S} \rightarrow \mathcal{A}\) تُعَظِّم العائِدِ المُتَوَقَّعِ \(J(\pi)=\mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^{t} R\left(s_{t}, a_{t}\right)\right]\)، حَيْثُ \(\gamma \in[0,1)\) هُوَ عامِلٍ التَخْفِيض.
فِي تَعْلَم التَعْزِيز دُونِ اِتِّصالٍ، المَعْرُوفُ أَيْضاً بِتَعَلُّمِ التَعْزِيز الدفعي، نُعْطَى مَجْمُوعَةِ بَياناتٍ \(\mathcal{D}_{\text{env}}=\left\{\left(s_{i}, a_{i}, s_{i+1}, r_{i}\right)\right\}_{i=1}^{N}\) تَمَّ إِنْشاؤها بِواسِطَةِ سِياسَةِ سُلُوكِيّه. الهَدَفَ فِي تَعْلَم التَعْزِيز دُونِ اِتِّصالٍ هُوَ إِيجادِ سِياسَةِ \(\pi\) تُعَظِّم العائِدِ المُتَوَقَّعِ \(J(\pi)\) بِاِسْتِخْدامِ مَجْمُوعَةِ البَياناتِ الثابِتَةِ \(\mathcal{D}_{\text{env}}\) فَقَط. مِثْلَ مُعْظَمَ خوارزميات تَعْلَم التَعْزِيز دُونِ اِتِّصالٍ المَبْنِيَّةُ عَلَى النَمُوذَجِ، نَتَعَلَّم نَمُوذَجَ دِينامِيكِيّات \(\widehat{T}(s_{i+1}| s_{i}, a_{i})\) يَتَنَبَّأ بِحالَةٍ تالِيهِ \(s_{i+1}\) بِناءَ عَلَى حالَةِ حالِيّه \(s_{i}\) وَعَمِلَ \(a_{i}\). بِالإِضافَةِ إِلَى نَمُوذَجَ الدِينامِيكِيّات الأَمامِيّ، نَتَعَلَّم أَيْضاً نَمُوذَجَ دِينامِيكِيّات عَكْسِيٍّ \(\widehat{T}(s_{i}| s_{i+1}, a_{i})\) يَتَنَبَّأ بِحالَةٍ حالِيّه \(s_{i}\) بِناءَ عَلَى حالَةِ تالِيهِ \(s_{i+1}\) وَعَمِلَ \(a_{i}\).
نَتْبَع صِياغَةِ (transd_aviv2023) حَوْلَ مُشْكِلَةِ التَعْمِيمِ. بِدُونِ اِفْتِراضِ عَلَى تَوْزِيعِ التَدْرِيبِ وَالاِخْتِبار، يَقْتَصِر أَداءِ التَعْمِيمِ لَمُقَرَّب الدالَّةِ. تَحَدَّثَ هٰذِهِ المُشْكِلَةِ بِشَكْلٍ خاصٍّ عِنْدَما لا يَكُون تَوْزِيعِ الاِخْتِبارُ مُتَضَمِّناً فِي تَوْزِيعِ التَدْرِيبِ، وَالمَعْرُوفُ أَيْضاً بِمُشْكِلَة التَعَلُّمِ خارِجَ الدَعْمِ. كَحالَةٍ خاصَّةٍ مِن التَعَلُّمِ خارِجَ الدَعْمِ، تَحَدَّثَ مُشْكِلَةِ خارِجَ التَرْكِيبُ عِنْدَما يَتِمّ تَقْسِيمِ فَضاءِ الإِدْخال إِلَى مُكَوِّنَيْنِ، وَيَشْمَل هامِشِ تَوْزِيعِ التَدْرِيبِ لِكُلِّ مُكَوِّن ذٰلِكَ الخاصِّ بِتَوْزِيعِ الاِخْتِبارُ بَيْنَما لا يَحْتَوِي تَوْزِيعِ التَدْرِيبِ المُشْتَرَكِ بِالضَرُورَةِ عَلَى تَوْزِيعِ الاِخْتِبارُ المُشْتَرَكِ. تَحْتَ اِفْتِراضاتٍ مُعَيَّنَةٍ، يَقْتَرِح (transd_aviv2023) طَرِيقَةِ إِعادَةِ مَعايِره تَوْصِيلَيْهِ تُسَمَّى التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ لِتَحْوِيلِ مُشْكِلَةِ خارِجَ الدَعْمِ إِلَى مُشْكِلَةِ خارِجَ التَرْكِيبُ.
التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ. يُحِلّ التَقْدِيرِ تَحْتَ اِفْتِراضاتٍ مُعَيَّنَةٍ. أَوَّلاً، يَتِمّ إِعادَةِ مَعايِره الدالَّةِ الهَدَفَ \(f(x)\) كَما يَلِي: \[\label{eq:transductive_reparameterization} f(x) := \bar{f}(x-\tilde{x}, \tilde{x}),\] حَيْثُ يَعْرِف \(\tilde{x}\) بِأَنَّهُ مَرْساه، يَتِمّ اِخْتِيارُها مِن مَجْمُوعَةِ البَياناتِ التَدْرِيبِيَّةِ. الفِرَقِ (\(x-\tilde{x}\)) بَيِّنَ المُتَغَيِّر الإِدْخال \(x\) وَالمِرْساة \(\tilde{x}\) يَعْرِف ب الدِلْتا. يَتِمّ تَقْرِيبِ الدالَّةِ الهَدَفَ المُعاد مُعايَرَتها \(\bar{f}\) كَدالّه ثُنائِيَّةٍ الخَطِيَّة لِلتَضْمِينات \(\boldsymbol{\varphi_{1}}\) وَ \(\boldsymbol{\varphi_{2}}\): \[\label{eq:bilinear_representation} \bar{f_{\boldsymbol{\theta}}}(x) = \boldsymbol{\varphi_{1}}(x - \tilde{x}) \cdot \boldsymbol{\varphi_{2}}(\tilde{x}).\] بَدِيهِيّا، يُسَهِّل ذٰلِكَ خاصَّيْهِ الرُتْبَة المُنْخَفِضَة لِلتَضْمِينات \(\boldsymbol{\varphi_{1}}\) وَ \(\boldsymbol{\varphi_{2}}\)، مِمّا يُمْكِن مُقَرَّبٍ الدالَّةِ مِن التَعْمِيمِ إِلَى نِقاطٍ خارِجَ التَرْكِيبُ.
الشُرُوطِ الكافِيَةِ لِلتَحْوِيلِ الثُنائِيِّ الخَطِّيِّ. يُقَدِّم (transd_aviv2023) شُرُوطاً كافِيَةٍ لِتَطْبِيقِ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ. الاِفْتِراضات تَتَعَلَّق بِكُلِّ مِن مَجْمُوعَةِ البَياناتِ وَالدالَّة الهَدَفَ \(f\). الاِفْتِراضُ الأَوَّلِ يَتَعَلَّق ب التَغْطِيَةِ التَرْكِيبِيَّة لِمَجْمُوعَةِ البَياناتِ. يَجِب أَنَّ يَكُون لِمَجْمُوعَةِ البَياناتِ الاِخْتِبارِيَّةُ نِسْبَةَ كَثافَةُ تَرْكِيبَيْهِ مَحْدُودَةٍ بِالنِسْبَةِ لِمَجْمُوعَةِ البَياناتِ التَدْرِيبِيَّةِ. يَعْنِي ذٰلِكَ أَنَّ دَعْمِ التَوْزِيعِ المُشْتَرَكِ لَتَوْزِيعات التَدْرِيبِ لِلمُكَوِّنات يَجِب أَنَّ يَشْمَل دَعْمِ التَوْزِيعِ المُشْتَرَكِ لَتَوْزِيعات الاِخْتِبارُ لِلمُكَوِّنات. ثانِياً، يَجِب أَنَّ تَكُون الدالَّةِ الهَدَفَ \(f\) قابِلَةٍ لِلتَحْوِيلِ الثُنائِيِّ الخَطِّيِّ، أَيّ يَجِب أَنَّ تُوجَد دالَّةٍ حَتْمِيَّةِ \(\bar{f}\) بِحَيْثُ \(f(x)=\bar{f}(x-\tilde{x}, \tilde{x})\) لِجَمِيعِ \(x, \tilde{x} \in \mathcal{X}\). أَخِيراً، يَجِب أَلّا يَتَدَهْوَر تَوْزِيعِ المَراسِي التَدْرِيبِيَّةِ (sample_shah2020). تَحْتَ هٰذِهِ الشُرُوطِ الثَلاثَةِ، مِن المُمْكِنِ تَعْمِيمِ الدالَّةِ الهَدَفَ إِلَى نِقاطٍ خارِجَ التَرْكِيبُ بِحَدِّ أَدَّنِي نَظَرِي مَضْمُونِ لِلمَخاطِرِ.
الصِلَةِ بِالتَعْمِيم التَرْكِيبِيّ. فِي ضَوْء الأَدَبِيّاتِ حَوْلَ التَعْمِيمِ التَرْكِيبِيّ (compositional_wiedemer2023)، نُفَسِّر التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ كَحالَةٍ خاصَّةٍ مِن التَعْمِيمِ التَرْكِيبِيّ، حَيْثُ تَعْمَل نَماذِجَ \(\boldsymbol{\varphi_{1}}, \boldsymbol{\varphi_{2}}\) ك وَظائِفِ المُكَوِّناتِ، مُسْتَخْرَجه لِلمِيزات ذاتِ الرُتْبَة المُنْخَفِضَة لِلإِدْخال، وَيَعْمَل الجِداء الداخِلِيِّ ك وَظِيفَةٍ التَرْكِيبُ.
تُسْتَخْدَم الخوارزميات الأَساسِيَّةِ فِي تَعْلَم التَعْزِيز غَيْرِ المُتَّصِل بِالشَبَكَةِ، مِثْلَ شَبَكاتِ العُمْقِ العَصَبِيَّةِ (Deep Q-Networks) (mnih2015human) وَطُرُقِ المُمَثِّلُ-الناقِد (mnih2016asynchronous, haarnoja2018soft)، شَبَكاتِ عَصَبِيَّةُ عَمِيقَةٌ كَمُقَرَّبات لِلوَظِيفَة. لِذٰلِكَ، نَسْتَخْدِم التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ (§ [subsec:bilinear_transduction]) لَمُقَرَّبات الوَظِيفَةِ لِلسِياسَةِ وَوَظِيفَة الجُودَةِ. فِي كُلِّ مِن مَراحِلِ التَدْرِيبِ وَالاِخْتِبار، نَقُوم بِتَحْلِيلِ الحالَةِ الحالِيَّةِ \(s\) إِلَى مَرْساه \(\tilde{s}\) وَفِرَقُ \(\mathit{\Delta} s = s - \tilde{s}\)، حَيْثُ \(\tilde{s} \sim \mathcal{D}_{\text{env}}\). ثُمَّ تَكُون السِياسَةِ وَوَظِيفَة الجُودَةِ \[\label{eq:policy_qfunction} \begin{aligned} \bar{\pi}_{\boldsymbol{\theta}}(s) &= \boldsymbol{\varphi_{\boldsymbol{\theta},1}}(\mathit{\Delta} s) \cdot \boldsymbol{\varphi_{\boldsymbol{\theta},2}}(\tilde{s}), \hspace{12pt} \bar{Q}_{\boldsymbol{\phi}}(s,a) &= \boldsymbol{\varphi_{\boldsymbol{\phi},1}}(\mathit{\Delta} s, a) \cdot \boldsymbol{\varphi_{\boldsymbol{\phi},2}}(\tilde{s}, a). \end{aligned}\] يَتِمّ تَدْرِيبِ السِياسَةِ \(\pi(a|s)\) لَتَعْظِيم العائِدِ المُتَوَقَّعِ \(J(\pi)\)، وَيَتِمّ تَدْرِيبِ وَظِيفَةٍ الجُودَةِ \(Q(s, a)\) لِتَقْلِيلِ دالَّةٍ الخَسارَةِ \(\mathcal{L}_{\text{Q}}\) المُحَدَّدَةِ فِي خوارزميه تَعْلَم التَعْزِيز غَيْرِ المُتَّصِل بِالشَبَكَةِ الأَساسِيَّةِ.
يُمْكِن أَنَّ تُؤَدِّي تَحْلِيلاتٍ الحالَةِ المُخْتَلِفَةِ إِلَى فَضاءات إِدْخالُ تَرْكِيبَيْهِ مُخْتَلِفَةٍ، مِمّا يُؤَدِّي إِلَى قُدْراتٍ تَعْمِيمِ مُخْتَلِفَةٍ. مِن أَجْلِ تَلْبِيَةِ اِفْتِراضاتٍ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ فِي § [subsec:bilinear_transduction]، النَهْجِ المِثالِيُّ هُوَ إِيجادِ التَحْلِيلِ الَّذِي يُلَبِّي هٰذَيْنِ المِعْيارَيْنِ: مَرْساه داخِلَ التَوْزِيعِ وَفِرَقُ داخِلَ التَوْزِيعِ. يَتِمّ تَوْضِيحِ هٰذِهِ الحالَةِ المِثالِيَّةِ فِي الشَكْلِ [fig:anchor_delta]. وَمَعَ ذٰلِكَ، عَلَى عَكْسَ الأَعْمالِ السابِقَةِ (transd_aviv2023, pinneri2023equivariant) الَّتِي تُرَكِّز فَقَط عَلَى خاصَّيْهِ التَحْوِيلِ لِلحالَةِ الهَدَفَ، نُحاوِل التَعامُلِ مَعَ كُلِّ حالَةِ فِي كُلِّ خَطْوَةٍ، وَمِن غَيْرِ العَمَلِيِّ فَرْضِ هٰذِهِ القُيُودِ بِاِسْتِخْدامِ طُرُقٍ القُوَّةِ الغاشِمَة مِثْلَ مُقارَنَةً الحالاتِ الحالِيَّةِ بِجَمِيعِ النِقاطِ الأُخْرَى. لِذٰلِكَ، نُقَدِّم سِياسَةِ جَدِيدَةٍ لِلبَحْثِ عَن المَراسِي داخِلَ التَوْزِيعِ وَالفُرُوقات وَاِسْتِغْلال نَمُوذَجَ الدِينامِيكِيّات المُتَعَلِّم الَّذِي يَمْنَع التَحْلِيلِ التَعَسُّفِيّ، لَاِسْتِغْلال قُوَّةٍ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ. نَفْرِض أَيْضاً أَنَّ يَكُون كُلِّ فِرَقِ ضِمْنَ مَسافَةِ خَطَواتٍ قَلِيلَةٍ مِن نَمُوذَجَ الدِينامِيكِيّات لَتَقْيِيد تَوْزِيعِ الفِرَقِ فِي كُلِّ مِن مَرْحَلَةِ التَدْرِيبِ وَالاِخْتِبار إِلَى نِطاقِ مُماثِلٍ. هٰذا النَهْجِ يُقَلِّل مِن فَضاءِ الإِدْخال وَيُوَجِّهه نَحْوَ الفَضاءِ الَّذِي تَمَّ أَسَتْكَ Explore it predominantly during the training phase, thereby further enhancing generalizability.
نِصْفِ نَمُوذَجَ الدِينامِيكِيّات العَكْسِيَّة، مَسارِ البَحْثِ عَن النُقْطَةِ المَرْجِعِيَّةِ، وَالسِياسَةِ العَكْسِيَّة العَشْوائِيَّةِ المُتَبايِنَة، وَالَّتِي تُعْتَبَر مُكَوِّناتِ ضَرُورِيَّةٌ قِبَلَ تَدْرِيبِ السِياسَةِ الباحِثَةُ عَن النُقْطَةِ المَرْجِعِيَّةِ.
[subsec:learning_to_seek]
تَدْرِيبِ نَمُوذَجَ دِينامِيكِيّات العَكْسِ. بِناءَ عَلَى اِنْتِقالِ \((s, a, s')\) مَأْخُوذ مِن مَجْمُوعَةِ البَياناتِ \(\mathcal{D}_{\text{env}}\)، نَقُوم بِتَدْرِيبِ نَمُوذَجَ دِينامِيكِيّات الاِنْتِقالِ العَكْسِيّ \(\widehat{T}_{r}(s|s', a)\) (romi_wang2021, lai2020bidirectional, goyal2018recall, edwards2018forward, holyoak1999bidirectional) لِلتَنَبُّؤ بِالحالَةِ \(s\) بِناءَ عَلَى الحالَةِ التالِيَةِ \(s'\) وَالفِعْل \(a\). بِمَعْنَى آخَرِ، يَتَنَبَّأ نَمُوذَجَ الدِينامِيكِيّات العَكْسِيَّة \(T(s', a)\) ب “مِن أَيّ حالَةِ \(s\) نَأْتِي إِذا وَصَلْنا إِلَى \(s'\) بِأَخْذِ الفِعْلِ \(a\)؟”. يَتِمّ ذٰلِكَ مِن خِلالَ تَقْلِيلِ دالَّةٍ الخَسارَةِ مَعَ حالَةِ \(s\) لِمَجْمُوعَةِ البَياناتِ المُحَدَّدَةِ كَما يَلِي \[\label{eq:reverse_dynamics_loss} \mathcal{L}_{\text{r}} = \mathbb{E}_{(s, a, s') \sim \mathcal{D}_{\text{env}}} \left[ \left\| \widehat{T}_{r}(s', a) - s \right\|_{2}^{2} \right].\]
سِياسَةِ عَكْسِيّه عَشْوائِيَّةٍ مُتَبايِنه. لا نَسْتَخْدِم سِياسَةِ عَكْسِيّه مُدَرَّبَةٍ وَلٰكِن بَدَلاً مِن ذٰلِكَ نَسْتَخْدِم سِياسَةِ عَكْسِيّه اِرْتِجالَيْهِ تَخْتار فِعْلاً عَشْوائِيّا مِن مَجْمُوعَةِ البَياناتِ \(\mathcal{D}_{\text{env}}\). الأَفْعال اللاحِقَةِ فِي التَدَحْرُجات العَكْسِيَّة، بُعْدَ الفِعْلِ الأُولَى، تَتْبَع نَفْسِ الاِتِّجاهِ كَالفِعْل الأُولَى وَلٰكِنَّها تُخَفِّض قَلِيلاً مَعَ إِضافَةً ضَوْضاء غاوسيه صَغِيرَةٌ. هٰذا يَضْمَن أَنَّ التَدَحْرُج العَكْسِيّ يَبْتَعِد عَن مَجْمُوعَةِ البَياناتِ. نَظَراً لِأَنَّنا نَسْتَخْدِم أَفْعالاً عَشْوائِيَّةٍ وَنُحافِظ عَلَى اِتِّجاهِ ثابِتٌ طِوالَ التَدَحْرُج العَكْسِيّ، فَمِن المُرَجِّحِ أَنَّ نَخُوض فِي مَناطِقِ غَيْرِ مُسْتَكْشِفه خارِجَ مَجْمُوعَةِ البَياناتِ غَيْرِ المُتَّصِلَةِ. بِاِخْتِصار، تُعْطِي السِياسَةِ العَكْسِيَّة فِعْلاً \(a_{j}\) فِي كُلِّ خَطْوَةٍ تَدَحْرَجَ \(j\) كَما يَلِي: \[a_j = \phi a + \epsilon_j, \ \ \ \text{حَيْثُ } \ a \sim \mathcal{D}_{\text{env}}, \epsilon_j \sim \mathcal{N}(0, \sigma^2), \quad j=1,2,\ldots, h.\] \(h\) هُوَ طُولِ الأُفُقِ، \(\phi\) هُوَ مَعامِلِ النِطاقِ، وَ\(\sigma\) هُوَ مَعامِلِ الضَوْضاء. نُحَدِّد \(\phi=0.8\) وَ\(\sigma=0.1\) عِنْدَما يَكُون الحَدِّ الأَقْصَى لِقِيمَةِ الفِعْلِ هُوَ 1.0.
مَسارِ البَحْثِ عَن المِرْساة. نَسْتَخْدِم تَدَحْرُجات نَمُوذَجَ العَكْسِ لِصَنْعِ مَساراتٍ البَحْثِ عَن المِرْساة لِتَدْرِيبِ سِياسَةِ البَحْثِ عَن المِرْساة. أَوَّلاً، نَأْخُذ حالَةِ مَرْساه مِن مَجْمُوعَةِ البَياناتِ وَنُولَد اِنْتِقالاً عَكْسِيّا \(\mathcal{D}_{\text{reverse}}=\left\{\left(s_{i+1}, a_{i}, s_{i}, r_{i}\right)\right\}_{i=1}^{j}\) مِن حالَةِ المِرْساة بِاِسْتِخْدامِ نَمُوذَجَ الدِينامِيكِيّات العَكْسِيَّة وَالسِياسَةِ العَكْسِيَّة العَشْوائِيَّةِ المُتَبايِنَة. لاحَظَ أَنَّ اِتِّجاهِ مَسارِ البَحْثِ عَن المِرْساة يَكُون عَكْسِيّا لِذٰلِكَ الاِنْتِقالِ العَكْسِيّ، \(\mathcal{D}_{\text{reverse}}\). بِهٰذِهِ الطَرِيقَةِ، يُمْكِننا تَوْلِيدِ مَساراتٍ البَحْثِ عَن المِرْساة بِفَعّالِيَّةٍ لِتَدْرِيبِ سِياسَةِ البَحْثِ عَن المِرْساة. اِسْتِخْدامِ تَدَحْرُجات نَمُوذَجَ العَكْسِ لِمُعالَجَةِ مُشْكِلَةِ البَياناتِ خارِجَ التَوْزِيعِ تَمَّ اِقْتِراحه لِأَوَّلِ مَرَّةً بِواسِطَةِ (romi_wang2021)، الَّذِينَ يُعَزِّزُونَ مَجْمُوعَةِ البَياناتِ غَيْرِ المُتَّصِلَةِ بِالاِنْتِقال العَكْسِيّ، يُدَرِّبُونَ سِياسَةِ بِاِسْتِخْدامِ هٰذِهِ المَجْمُوعَةِ البَياناتِ المُعَزِّزَة، وَيُظْهَرُونَ فَعّالِيَّةِ مِثْلَ هٰذا النَهْجِ فِي الإِعْدادُ التَعَلُّمِ بِالتَعْزِيز غَيْرِ المُتَّصِل. وَأَخِيرا، يَتِمّ تَلْخِيصُ تَفاصِيلَ تَوْلِيدِ مَسارِ البَحْثِ عَن المِرْساة فِي الخوارزميه [algorithm:generate_anchor_seeking_trajactory].
نَقُوم بِتَدْرِيبِ سِياسَةِ البَحْثِ عَن المِرْساة \(\tilde{\pi}(a|s)\) قِبَلَ تَدْرِيبِ السِياسَةِ الرَئِيسِيَّةِ. نَسْتَخْدِم مَساراتٍ البَحْثِ عَن المِرْساة فِي § [subsec:anchor_seeking_trajectory]، وَالَّتِي تَكُون فِي الاِتِّجاهِ المُعاكِسِ لِمَجْمُوعَةِ البَياناتِ \(D_{\text{reverse}}\). مِن خِلالَ اِتِّباعِ مَسارِ مَسارِ البَحْثِ عَن المِرْساة، يَتِمّ تَدْرِيبِ سِياسَةِ البَحْثِ عَن المِرْساة لِاِخْتِيارِ الأَفْعال \(\eta\) الَّتِي تَوَجَّهَ العامِلِ فِي اِتِّجاهِ يَتَحَرَّك مِن الحُدُودِ الخارِجِيَّةِ نَحْوَ المِنْطَقَةِ المَرْئِيَّةِ. بِما أَنَّ المَسارُ المتدحرج لِلبَحْثِ عَن المِرْساة يَتِمّ إِنْشاؤه بِواسِطَةِ سِياسَةِ البَحْثِ عَن المِرْساة \(\tilde{\pi}(a|s)\) وَنَمُوذَجٌ الدِينامِيكِيّات \(\widehat{T}(s, a)\)، فَإِنَّ الاِنْتِقالِ العَكْسِيّ \(D_{\text{reverse}}\) يَعْتَمِد عَلَى \(\widehat{T}_r(s, r|s', a)\). نَظَراً لِأَنَّ الاِنْتِقالِ العَكْسِيّ صَمَّمَ لِيَنْحَرِف عَن مَجْمُوعَةِ البَياناتِ غَيْرِ المُتَّصِلَةِ بِالإِنْتِرْنِت، فَإِنَّ مَسارِ البَحْثِ عَن المِرْساة، بِاِتِّجاهه المَعْكُوس، يَضْمَن أَنَّ الاِنْتِقالِ يَتَقارَب مَرَّةً أُخْرَى مَعَ مَجْمُوعَةِ البَياناتِ مِن الحالاتِ غَيْرِ المَأْلُوفَةِ. نَتِيجَةَ لِذٰلِكَ، نَقُوم بِتَدْرِيبِ سِياسَةِ البَحْثِ عَن المِرْساة لِتَقْلِيلِ خَسارَةِ مُتَوَسِّطُ الخَطَأ المُرَبَّعِ بَيِّنَ الفِعْلِ المُتَوَقَّعِ وَالفِعْل فِي مَجْمُوعَةِ البَياناتِ \(D_{\text{reverse}}\). تَعْرِف دالَّةٍ الخَسارَةِ كَما يَلِي: \[\mathcal{L}_{\text{anchor}}(\theta) = \mathbb{E}_{\substack{\scriptscriptstyle (s', a, s) \sim \mathcal{D}_{\text{reverse}}, \scriptscriptstyle \eta \sim \tilde{\pi}_{\theta}(a|s)}} \left[ (\eta - a)^2 \right].\] بِهٰذِهِ الطَرِيقَةِ، يُمْكِن لِسِياسَةِ البَحْثِ عَن المِرْساة \(\tilde{\pi}(a|s)\) أَنَّ تُوَفِّر فِعْلاً مُناسِبا لِلتَحَرُّكِ نَحْوَ مَرْساه داخِلَ التَوْزِيعِ. يُعْطَى هٰذا الفِعْلِ لَنَمُوذَج الدِينامِيكِيّات \(\widehat{T}(s, a)\) لِلتَنَبُّؤ بِالحالَةِ التالِيَةِ. وَبِالتالِي، كَما هُوَ مُوَضِّح، يَكُون المَسارُ المتدحرج لِلبَحْثِ عَن المِرْساة سِلْسِلَةٍ مِن الاِنْتِقالاتِ الَّتِي تَبْدَأ مِن الحالَةِ الحالِيَّةِ \(s\) وَتَنْتَهِي عِنْدَ حالَةِ المِرْساة \(\tilde{s}\).
نُوَضِّح دَمْجِ نَمُوذَجَ البَحْثِ عَن المِرْساة فِي إِطارِ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ. نَخْتار خوارزميه الناقِد-المُمَثِّلُ اللَيِّن (Soft Actor-Critic (SAC)) (haarnoja2018soft) كخوارزميه تَعْلَم تَعْزِيزِ تَمْثِيلِيَّةٌ تُسْتَخْدَم مُقارَبات الوَظِيفَةِ. نَسْتَخْدِم التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ المُعَزِّز بِالبَحْث عَن المِرْساة لِشَبَكاتِ الناقِد وَالمُمَثِّلُ فِي SAC.
بِالنَظَرِ إِلَى حالَةِ الإِدْخال \(s_n\)، نَسْتَخْدِم البَحْثِ لِلحُصُولِ عَلَى إِجْراءِ مِن سِياسَةِ البَحْثِ عَن المِرْساة. يَتِمّ اِسْتِنْتاجِ المِرْساة \(\tilde{s}\) بِهٰذا الإِجْراءَ مِن خِلالَ خَطْوَةٍ الدِينامِيكِيّات الأَمامِيَّةِ ثُمَّ يَتِمّ تَحْدِيثها لِتَكُون الحالَةِ التالِيَةِ \(s_{n+1}\). بُعْدَ عِدَّةٍ مُحاوَلاتِ مِن البَحْثِ، يُمْكِننا تَحْدِيدِ المِرْساة النِهائِيَّةِ وَاِسْتِخْدامَها لِتَحْلِيلِ الحالَةِ إِلَى المِرْساة وَالفِرَق. يَتِمّ حِسابِ الفِرَقِ بَيِّنَ الحالَةِ الأَوَّلِيَّةِ \(s_n\) وَهٰذِهِ المِرْساة \(\tilde{s}\)، الفِرَقِ، كَما يَلِي: \(\Delta s = \tilde{s} - s_{n}\).
ثُمَّ نَقُوم بِتَنْفِيذِ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ كَما هُوَ مُوَضِّح فِي المُعادَلَةَ ([eq:bilinear_representation]). نَقُوم بِتَضْمِينِ \(\Delta s\) وَ \(\tilde{s}\) عَلَى التَوالِي ك \(\boldsymbol{\varphi_1}(\Delta s)\) وَ \(\boldsymbol{\varphi_2}(\tilde{s})\)، وَنَحْسِب الجِداء الداخِلِيِّ بَيِّنَهُما. ثُمَّ يَتِمّ إِدْخالُ الناتِجِ فِي طَبَقَةٌ MLP صَغِيرَةٌ لِزِيادَةِ مُرُونَةً مَقارِب الوَظِيفَةِ. هٰذِهِ الخَطْوَةِ تَقَدَّمَ غَيْرِ خَطَّيْهِ، حَيْثُ قَد لا تَكُون السِياسَةِ أَو وَظِيفَةٍ Q خَطَّيْهِ لمدخلاتها.
يُوجَز الخوارزم ([algorithm:bilinear_transduction_with_anchor_seeking]) العَمَلِيَّةِ بِأَكْمَلِها فِي وَحْدَةِ المُمَثِّلُ. فِي وَحْدَةِ الناقِد، نَقُوم بِدَمْجِ الإِجْراءَ مَعَ كُلِّ مِن المِرْساة وَالفِرَق فِي العَمَلِيَّةِ الأَمامِيَّةِ قِبَلَ تَنْفِيذِ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ. بُعْدَ ذٰلِكَ، يَتِمّ اِسْتِخْدامِ قِيَمِ الإِجْراءَ وَقِيمَةُ Q، المُشْتَقَّة ك \(\bar{f}_\text{actor}\) وَ \(\bar{f}_\text{critic}\) عَلَى التَوالِي، لِتَحْدِيثِ شَبَكاتِ الناقِد وَالمُمَثِّلُ فِي سِياسَةِ SAC.
فِي تَجارِبنا، نَهْدِف إِلَى الإِجابَةَ التَجْرِيبِيَّة عَلَى السُؤالَيْنِ التالِيَيْنِ: (i) ما مِقْدارٍ تَحْسِينِ أَداءِ الخوارزميات السابِقَةِ الخالِيَةِ مِن النَمُوذَجِ وَالمَبْنِيَّة عَلَى النَمُوذَجِ بِواسِطَةِ طَرِيقَتِنا؟ وَ (ii) ما هُوَ تَأْثِيرِ البَحْثِ عَن النِقاطِ المَرْجِعِيَّةِ عَلَى الأَداءِ؟
نَقُوم بِتَقْيِيم طَرِيقَتِنا عَلَى مَهامِّ Gym-MuJoCo فِي مِعْيار D4RL (d4rl_fu2020)، وَالَّذِي يَتَكَوَّن مِن 12 مُهِمَّةً مِن بِيئات OpenAI Gym (gym_brockman2016) وَ MuJoCo (mujoco_todorov2012). يُرْجَى الرُجُوعِ إِلَى [appendix:d4rl_benchmark_tasks] لِلتَفاصِيل حَوْلَ المَهامّ.
الخُطُوطِ الأَساسِيَّةِ. نُطَبِّق COCOA عَلَى عِدَّةٍ خوارزميات تَعْلَم تَعْزِيزِي غَيْرِ مُتَّصِل سابِقَةٍ، سَواءُ كانَت تَعْتَمِد عَلَى النَماذِجِ أَو لا تَعْتَمِد عَلَيها. تَشْمَل هٰذِهِ (i) CQL (cql_kumar2020) الَّتِي تَفْرِض عُقُوباتٍ عَلَى قِيَمِ Q عَلَى العَيْنات خارِجَ التَوْزِيعِ لِلأَمانِ، (ii) IQL (iql_kostrikov2022) الَّتِي تَسْتَفِيد مِن قُدْرَةِ التَعْمِيمِ لَمَقارِب الوَظِيفَةِ مِن خِلالَ النَظَرِ إِلَى دالَّةٍ قِيمَةَ الحالَةِ كَمُتَغَيِّر عَشْوائِيٍّ، (iii) MOPO (mopo_yu2020) كَنَهْج يَعْتَمِد عَلَى النَمُوذَجِ يَفْرِض عُقُوباتٍ عَلَى المُكافَآتُ بِناءَ عَلَى الشُكُوكَ مِن التَنَبُّؤ بِالحالاتِ اللاحِقَةِ، وَ (iv) MOBILE (mobile_sun2023) الَّتِي تَقِيس الشُكُوكَ مِن خِلالَ عَدَمِ الاِتِّساق فِي تَقْدِيرٍ بيلمان بِاِسْتِخْدامِ مَجْمُوعَةِ مِن نَماذِجَ الدِينامِيكِيّات. نَقُوم أَيْضاً بِتَقْدِيمِ نَتائِجِ (v) تَقْلِيدِ السُلُوكِ (Behavior Cloning)، وَالَّذِي يَتَعَلَّم المَهامّ مِن خِلالَ تَقْلِيدِ بَياناتٍ الخُبَراءِ. لِتَحْقِيقِ اِسْتِقْرارِ التَدْرِيبِ، يَتِمّ إِعادَةِ إِنْتاجِ جَمِيعِ خوارزميات الخَطِّ الأَساسِيُّ مَعَ تَطْبِيقِ تَطْبِيعِ الطَبَقَةِ.
النَتائِجِ. الجَدْوَلُ [tab:d4rl_benchmark] يُلَخِّص نَتائِجِ تَجارِبنا. تُشار إِلَى خوارزميات الخَطِّ الأَساسِيُّ ب “مُنْفَرِدَةٍ”، وَتُشار طَرِيقَتِنا ب “+COCOA”. نُقَدِّم مُتَوَسِّطُ العائِدِ لِآخَرِ 10 فَتَراتِ تَدْرِيبِ عَبْرَ 4 بُذُورِ، مَعَ الاِنْحِرافِ المعياري. لِجَمِيعِ الخوارزميات، نَقُوم بِإِعادَةِ إِنْتاجِ النَتائِجِ بِاِسْتِخْدامِ قاعِدَةِ الكود المَوْصُوفَة فِي المُلْحَقِ [appendix:codebase]. تُعَزِّز طَرِيقَتِنا أَداءِ جَمِيعِ خوارزميات الخَطِّ الأَساسِيُّ، كَما يَتِمّ قِياسه بِالتَحْسِين المُتَوَسِّطِ عَبْرَ المَهامّ بِاِسْتِثْناءِ المَهامّ العَشْوائِيَّةِ لِ IQL كَما يَفْعَل الوَرَقِ الأَصْلِيُّ لِ IQL. بِاِخْتِصار، تَحَسُّنِ COCOA أَداءِ الطُرُقِ الأَصْلِيَّةِ فِي 10 مِن 12 مُهِمَّةً لِ CQL، 3 مِن 9 مَهامِّ لِ IQL، 7 مِن 12 مُهِمَّةً لِ MOPO، وَ 9 مِن 12 مُهِمَّةً لِ MOBILE.
لِفَحْصٍ تَأْثِيرِ اِخْتِيارِ المِرْساة عَلَى الأَداءِ، نُجْرِي تَجْرِبَةِ بِاِسْتِخْدامِ نُسْخَةً مِن طَرِيقَتِنا لا تُسْتَخْدَم البَحْثِ عَن المِرْساة. لِهٰذِهِ الدِراسَةُ الاستئصاليه، نَسْتَخْدِم خوارزميه الاِسْتِعْلام المُسْتَمِرِّ (CQL) (cql_kumar2020) كخوارزميه أَساسِيَّةٍ بِسَبَبِ كَفاءَتها الحِسابِيَّة كخوارزميه خالِيَةً مِن النَمُوذَجِ وَاِكْتِمالها فِي دَعْمِ جَمِيعِ أَنْواعِ المَهامّ، بِما فِي ذٰلِكَ المَهامّ “العَشْوائِيَّةِ”.
المِعْيار الأَساسِيُّ. المِعْيار الأَساسِيُّ لِهٰذِهِ الدِراسَةُ الاستئصاليه مُشار إِلَيهِ ب “+COCOA (بِدُونِ A.S.)” فِي الجَدْوَلُ [tab:ablation_study_anchor_seeking]. فِي هٰذا المِعْيار الأَساسِيُّ، نَتَبَنَّى إِجْراءِ اِخْتِيارِ المِرْساة الاستدلالي مِن transd_aviv2023، مَعَ إِدْخالُ تَعْدِيلاتٍ رَئِيسِيَّةٍ لَسِياقنا. عَلَى عَكْسَ الطَرِيقَةِ الأَصْلِيَّةِ، الَّتِي تَخْتار المَراسِي بِناءَ عَلَى حالاتِ الهَدَفَ، يَخْتار مِعْيارنا الأَساسِيُّ المَراسِي بِناءَ عَلَى الحالَةِ الحالِيَّةِ، مُعالِجا غِيابِ حالَةِ الهَدَفَ فِي أَعْدادنا. لِلتَخْفِيفِ مِن المُتَطَلَّباتِ الحِسابِيَّة لِهٰذِهِ الطَرِيقَةِ، نَحُدّ اِخْتِيارنا إِلَى مَجْمُوعَةِ فَرْعِيَّةٍ مِن المُرَشَّحِينَ لِلمَراسِي، يَتِمّ أَخَذَ عَيِّناتٍ مِنها عَشْوائِيّا مِن مَجْمُوعَةِ البَياناتِ.
يَعْمَل اِخْتِيارِ المِرْساة الاستدلالي كَما يَلِي. نَقُوم فِي البِدايَةِ بِسَحْبِ \(N\) مُرَشَّحِينَ لِلمَراسِي \(s_{i}\) مِن مَجْمُوعَةِ البَياناتِ وَنَحْسِب الفِرَقِ \(\mathit{\Delta} s\) بَيِّنَ المُرَشَّحِينَ وَالحالَة الحالِيَّةِ، المَعْرِفَةِ ب \[\mathit{\Delta} s_{n} = s - s_{n}, \quad n \in \{1, \ldots, N\}, \quad s_{n} \in D_{\text{env}}. \label{eq:eq7}\] بُعْدَ ذٰلِكَ، نُقِيم كُلِّ فِرَقِ زَوْجِي بَيِّنَ \(N\) حالَةِ أُخْرَى مَأْخُوذه عَيِّناتٍ مِنها مِن \(D_{\text{env}}\) كَما يَلِي \[\mathit{\Delta} s_{i,j} = s_{i} - s_{j}, \quad i, j \in \{1, \ldots, N\}, \quad i \neq j, \quad s_{i}, s_{j} \in D_{\text{env}}. \label{eq:eq8}\] أَخِيراً، نَخْتار المِرْساة المُرَشَّحَةُ الَّتِي تُقَلِّل المَسافَةِ إِلَى الحالَةِ الحالِيَّةِ: \[\tilde{s} = s_{\tilde{n}}, \quad \text{with} \quad \tilde{n} = \underset{n}{\arg\min} \left\{ \underset{i,j}{\min} \left\| \mathit{\Delta} s_{n} - \mathit{\Delta} s_{i,j} \right\| \right\}. \label{eq:eq9}\]
يَفْرِض هٰذا المِعْيار الأَساسِيُّ نَتائِجِ تَحْلِيلِ الحالَةِ لِتَكُون قَرِيبَةٌ مِن بَياناتٍ التَوْزِيعِ مِن خِلالَ حِسابِ المَسافَةِ المُباشِرَةِ. بَيْنَما يُمْكِن أَنَّ تَكُون فَعّالَةٍ وَقابِله لِلتَطْبِيقِ إِذا كانَت مَجْمُوعَةِ البَياناتِ صَغِيرَةٌ وَ\(N\) كَبِيراً بِما فِيهِ الكِفايَةُ، فَإِنَّ قابِلِيَّتها لِلتَوَسُّع مَحْدُودَةٍ حَيْثُ تَتَزايَد كَمِّيَّةِ الحِسابِ المَطْلُوبَةِ تَرْبِيعِيّا مَعَ حَجْمِ البَياناتِ. نَظَراً لِأَنَّ تَكْلِفَةِ الحِسابِ تَتَصاعَد تَكْعِيبِيّا مَعَ حَجْمِ العَيِّنَةُ، نَضَع \(N\) عِنْدَ 30، مطابقين مِيزانِيَّتنا الحِسابِيَّة مَعَ “+COCOA”.
النَتائِجِ. نَفْحَص ما إِذا كانَت هٰذِهِ النُسْخَةَ تَحَسُّنِ أَداءِ CQL. تُلَخِّص النَتائِجِ فِي الجَدْوَلُ [tab:ablation_study_anchor_seeking]. نَقُوم بِالإِبْلاغ عَن العائِدِ المُتَوَسِّطِ لِآخَرِ 10 فَتَراتِ تَدْرِيبِ عَبْرَ 4 بُذُورِ، مَعَ الاِنْحِرافِ المعياري. يُحَقِّق المِعْيار الأَساسِيُّ “+COCOA (بِدُونِ A.S.)” أَداءِ أَعْلَى فِي مَهَمَّتَيْنِ فَقَط، “hopper-random” وَ “walker2d-random”، وَأَداء مُماثِلٍ أَو أَقَلَّ فِي المَهامّ الأُخْرَى مُقارَنَةً بِالمِعْيار الأَساسِيُّ الأَصْلِيُّ “Alone”. فِي المُقابِلِ، تَحَسُّنِ طَرِيقَتِنا “+COCOA” أَداءِ نَماذِجَ CQL فِي 10 مِن أَصْلِ 12 مُهِمَّةً. تُشِير هٰذِهِ النَتِيجَةُ إِلَى أَنَّ البَحْثِ عَن المِرْساة هُوَ مُكَوِّن حاسِمٍ لِنَجاحِ طَرِيقَتِنا.
التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل. فِي التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل، يَسْتَخْدِم العَوامِلُ مَجْمُوعَةِ بَياناتٍ مُحَدَّدَةٍ مُسْبَقاً دُونِ تَفاعُلاتٌ إِضافِيَّةً مَعَ البِيئَةِ، وَعادَةً ما يَتَّبِعُونَ إِمّا الإِسْتراتِيجِيَّةِ المُعْتَمَدَةِ عَلَى النَمُوذَجِ أَو الإِسْتراتِيجِيَّةِ المُسْتَقِلَّةِ عَن النَمُوذَجِ. تَعْمَل خوارزميات التَعَلُّمِ المُعَزِّز المُسْتَقِلَّةِ عَن النَمُوذَجِ (count_kim2023, prdc_ran2023, iql_kostrikov2022, cql_kumar2020, brac_wu2019, bear_kumar2019, bcq_fujimoto2019) عَلَى تَحْسِينِ السِياسَةِ مُباشَرَةً بِاِسْتِخْدامِ التَجارِبِ السابِقَةِ فِي ذاكِرَةِ الإِعادَة، مَعَ تَطْبِيقِ التَحَفُّظِ عَلَى دالَّةٍ القِيمَةِ أَو السِياسَةِ. فِي المُقابِلِ، تُسْتَخْدَم طُرُقٍ التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل المُعْتَمَدَةِ عَلَى النَمُوذَجِ (mobile_sun2023, rambo_rigter2022, romi_wang2021, combo_yu2021, mopo_yu2020, morel_kidambi2020) نَمُوذَجاً مُدَرِّباً فِي البِيئَةِ لِإِنْشاءِ بَياناتٍ إِضافِيَّةً تُسْتَخْدَم لِتَعْلَم السِياسَةِ. مِن خِلالَ هٰذِهِ البَياناتِ المَرْكَبَةِ، تُصْبِح هٰذِهِ الطَرِيقَةِ أَقْوَى فِي التَعْمِيمِ وَمَتِينَةٌ حَتَّى فِي الحالاتِ غَيْرِ المَرْئِيَّةِ.
التَعْمِيمِ خارِجَ التَوْزِيعِ فِي التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل. تَمَّ إِجْراءِ العَدِيدَ مِن الدِراساتِ لِتَحْسِينِ التَعْمِيمِ خارِجَ التَوْزِيعِ لخوارزميات التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل. يَتَناوَل (plas_lou2022) مُشْكِلَةِ تَحَوَّلَ تَوْزِيعِ الأَفْعال مِن خِلالَ تَقْدِيمِ نَهْجٍ قائِمٌ عَلَى المَعْلُوماتِ المُتَبادَلَةِ لِتَعْلَم نَمُوذَجَ تَضْمِينِ الأَفْعال. فِي مَسْعَى مُماثِلٍ، يَقْتَرِح (merlion_gu2022) طَرِيقَةِ تَعْلَم تَمْثِيلِ الأَفْعال الزائِفَة الَّتِي تَقِيس العَلاقاتِ السُلُوكِيَّة والتوزيعيه بَيِّنَ الأَفْعال. يُطَوِّر (pbrl_bai2022) طَرِيقَةِ مَدْفُوعَةً بِالشُكُوك تُسْتَخْدَم الاِخْتِلافِ فِي وَظائِفِ Q المُعَزِّزَة. يَزِيد مِن مَجْمُوعَةِ البَياناتِ بِبَيانات خارِجَ التَوْزِيعِ الَّتِي يَفْرِض عَلَيها عُقُوبَةَ أَكْثَرَ دِقَّةٍ. يَقْتَرِح (mocoda_pitis2022) تَحْلِيلا مَحَلِّيّاً لَدِينامِيكِيّات الاِنْتِقالِ وَتَوْسِيعِ الحالَةِ لِتَحْسِينِ التَعْمِيمِ لخوارزميات التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل. كَما يُقَدِّمُونَ بَراهِينَ نَظَرِيَّةَ لَتَعْقِيد العَيِّنَةُ وَقُدْرَةِ التَعْمِيمِ. تُشابِه طَرِيقَتِنا طَرِيقَتِهِم فِي أَنَّنا نَسْتَخْدِم أَيْضاً الهَنْدَسَةِ المِعْمارِيَّةِ المُحَلِّلَة لِلسِياسَةِ وَوَظِيفَة Q. وَمَعَ ذٰلِكَ، عَلَى عَكَسَهُم، لا نَسْتَخْدِم نَمُوذَجَ دِينامِيكِيّات مُحَلِّل وَبَدَلاً مِن ذٰلِكَ نَسْتَفِيد مِن إِطارِ عَمَلٍ التَحْوِيلِ الثُنائِيِّ الخَطِّيِّ.
التَعْمِيمِ التَرْكِيبِيّ وَالاِسْتِقْراء. يَتِمّ اِسْتِكْشافٍ التَعْمِيمِ التَرْكِيبِيّ، الَّذِي يَسْعَى لِلتَعْمِيم عَلَى تَرْكِيبات غَيْرِ مَرْئِيَّةٍ مِن المُكَوِّناتِ، مِن خِلالَ دِراساتٍ مُخْتَلِفَةٍ. يُسَلِّط (compositional_wiedemer2023) الضَوْء عَلَى إِجْراءِ تَوْلِيدِي مِن خَطْوَتَيْنِ كَأَساسَيَّ لِمُعالَجَةِ مَجْمُوعَةِ واسِعَةً مِن المُشْكِلاتِ التَرْكِيبِيَّة. يَتَضَمَّن هٰذا الإِجْراءَ تَوْلِيداً مُعَقَّدا لِلمُكَوِّنات الفَرْدِيَّةِ وَدَمْجها بِبَساطَة فِي مَخْرَجٍ واحِدٍ. يُقَدِّمُونَ مَجْمُوعَةِ مِن الشُرُوطِ الكافِيَةِ الَّتِي يُمْكِن مِن خِلالَها لِلنَماذِج المُدَرِّبَة عَلَى البَياناتِ أَنَّ تُعَمِّم بِشَكْلٍ تَرْكِيبَيَّ. فِي مُلاحَظَةُ ذاتِ صِلَةٍ، يُقَدِّم (sample_shah2020) خوارزميه تَعْلَم مُعَزِّز فَعّالَةٍ مِن حَيْثُ العَيْنات تَسْتَغِلّ البُنْيَةِ مُنْخَفَضه الرُتْبَة لَوَظِيفَة Q الأَمْثَلُ، وَهِيَ دالَّةٍ ثُنائِيَّةٍ الخَطِيَّة لِلحالات وَالأَفْعالِ. يُثْبَتُونَ تَحْسِينا كَمِّيّا فِي تَعْقِيدِ العَيِّنَةُ لِلتَعَلُّمِ المُعَزِّز مَعَ فَضاءات حالَةِ وَفِعْل مُسْتَمِرَّةٌ عَبْرَ البُنْيَةِ مُنْخَفَضه الرُتْبَة. يَسْتَكْشِف (first_dong2023) اِسْتِقْراء النَماذِجِ غَيْرِ الخَطِيَّة لِتَحَوُّلِ المَجالِ المُنَظَّمِ. يُثْبَتُونَ أَنَّ عائِلَةِ مُعَيَّنَةٍ مِن النَماذِجِ غَيْرِ الخَطِيَّة يُمْكِن أَنَّ تَسْتَقْرِئ بِنَجاحٍ إِلَى تَوْزِيعات غَيْرِ مَرْئِيَّةٍ، شَرِيطَةَ أَنَّ تَكُون تَغْطِيَةِ المِيزاتِ جَيِّدَةٍ الشُرُوطِ. يَقْتَرِح (transd_aviv2023) إِسْتراتِيجِيَّةِ اِسْتِقْراء تَعْتَمِد عَلَى التَضْمِينات الثُنائِيَّةِ الخَطِيَّة لَتَمْكِين التَعْمِيمِ التَرْكِيبِيّ، مِمّا يُعالَج مُشْكِلَةِ خارِجَ الدَعْمِ تَحْتَ شُرُوطٍ مُعَيَّنَةٍ.
لَقَد اِسْتَكْشَفَنا مَنْظُورا جَدِيداً لِلمُحافَظَةِ فِي التَعَلُّمِ المُعَزِّز خارِجَ الخَطِّ لا يَعْتَمِد عَلَى مِساحَةِ سُلُوكِ العامِلِ وَلٰكِن عَلَى مِساحَةِ الإِدْخال التَرْكِيبِيَّة لِلسِياسَةِ وَوَظِيفَة الجُودَةِ. اِقْتَرَحْنا إِطارِ عَمَلٍ عَمَلِيٍّ، COCOA، لِإِيجادِ تَحْلِيلِ أَفْضَلَ لِلحالات لِتَشْجِيعِ هٰذِهِ المُحافَظَةِ. COCOA هُوَ نَهْجٍ بَسِيطٍ وَلٰكِنَّهُ فَعّالٌ يُمْكِن تَطْبِيقِهِ عَلَى أَيّ خوارزميه تَعْلَم مُعَزِّز خارِجَ الخَطِّ تُسْتَخْدَم مُقَرَّبٍ وَظِيفَةٍ. وَجَدْنا مِن خِلالَ تَجارِبنا عَبْرَ مَهامِّ مُتَنَوِّعَةٍ فِي بِيئَةُ Gym-MuJoCo لَمِعْيار D4RL أَنَّ طَرِيقَتِنا عُمُوماً عَزَّزَت أَداءِ خوارزميات التَعَلُّمِ المُعَزِّز خارِجَ الخَطِّ.
بِما أَنَّ دِراسَتنا تُرَكِّز بِشَكْلٍ أَساسِيٌّ عَلَى الاِسْتِكْشافِ التَجْرِيبِيُّ، قَد يَكُون مِن الضَرُورِيِّ إِجْراءِ مَزِيدٍ مِن التَحْقِيقِ لِفَهْمِ أَكْثَرَ شُمُولاً لِلآلِيَّة وَراءَ تَحْسِينِ الأَداءِ أَو خَصائِصِ مِساحَةِ الإِدْخال التَرْكِيبِيَّة. عِلاوَةً عَلَى ذٰلِكَ، نَظَراً لِأَنَّ تَجارِبنا كانَت مَحْدُودَةٍ بِبِيئات الرُوبُوتات الَّتِي تَعْتَمِد عَلَى التَحَكُّمِ مَعَ مِساحاتٍ حالَةِ وَفِعْل مُسْتَمِرَّةٌ، يُمْكِن أَنَّ يَكُون تَوْسِيعِ نِطاقِ عَمَلِنا لِتَطْبِيقِ إِطارِ عَمَلٍ المُحافَظَةِ التَرْكِيبِيَّة عَلَى مَجالاتِ أُخْرَى، بِما فِي ذٰلِكَ البِيئات ذاتِ المِساحاتِ الفِعْلِيَّةِ المُنْفَصِلَة، أَو المُلاحَظاتِ المَبْنِيَّةُ عَلَى الصُوَرِ، أَو الدِينامِيكِيّات المُعَقَّدَةِ لِلغايَةِ، اِمْتِداداً قِيَماً لِهٰذا العَمَلِ.
نَشْكُر جايكيوم كِيم، سوتشان لِيَ، سيوهونغ بارَك، افيف نِتَنْياهُو، وَالمُراجِعَيْنِ المَجْهُولَيْنِ عَلَى مُناقَشاتهم القِيمَةِ وَتَعْلِيقاتهم. لَقَد دَعْمِ هٰذا العَمَلِ مِن قِبَلَ مَعْهَدِ تَخْطِيطِ وَتَقْيِيم تِكْنُولُوجِيا المَعْلُوماتِ وَالاِتِّصالاتِ (IITP) بِتَمْوِيلٍ مِن الحُكُومَةِ الكُورِيَّةِ (MSIT) (No. 2019-0-01082, SW StarLab), مَعْهَدِ تَخْطِيطِ وَتَقْيِيم تِكْنُولُوجِيا المَعْلُوماتِ وَالاِتِّصالاتِ (IITP) بِتَمْوِيلٍ مِن الحُكُومَةِ الكُورِيَّةِ (MSIT) (No. 2022-0-00156, البَحْثِ الأَساسِيُّ فِي التَعَلُّمِ المُسْتَمِرِّ لِتَحْسِينِ جُودَة الفِيدْيُوهات العَرْضِيَّةِ وَتَحْوِيلُها إِلَى ميتافيرس ثُلاثِيّ الأَبْعاد), مَعْهَدِ تَخْطِيطِ وَتَقْيِيم تِكْنُولُوجِيا المَعْلُوماتِ وَالاِتِّصالاتِ (IITP) بِتَمْوِيلٍ مِن الحُكُومَةِ الكُورِيَّةِ (MSIT) [NO.2021-0-01343, بَرْنامَجِ الدِراساتِ العُلْيا فِي الذَكاء الاِصْطِناعِيِّ (جامِعَةِ سِيُول الوَطَنِيَّةِ)], وَمِنْحَةِ مَرْكَزِ البُحُوثِ التَطْبِيقِيَّةِ فِي الذَكاء الاِصْطِناعِيِّ (CARAI) بِتَمْوِيلٍ مِن إِدارَةِ بَرْنامَجِ الاِقْتِناء الدِفاعِيِّ (DAPA) وَوِكالَةِ تَطْوِيرِ الدِفاعِ (ADD) (UD190031RD). جونهي كِيم هُوَ المُؤَلِّفُ المُراسِلُ.
لِضَمانِ القابِلِيَّةِ لِلتَكْرار، نُوَفِّر شَفْره طَرِيقَتِنا عَلَى https://github.com/runamu/compositional-conservatism. لِلحُصُولِ عَلَى قاعِدَةِ الشَفَرات لخوارزميات الأَساسِ، يُرْجَى الرُجُوعِ إِلَى المُلْحَقِ [appendix:codebase]. يَتِمّ وَصَفَ المُعَلِّماتُ الفائِقَةِ وَهَيْكَلِيَّةِ النَمُوذَجِ فِي المُلْحَقِ [appendix:hyperparameters] وَالمُلْحَقُ [appendix:model_architecture]، عَلَى التَوالِي.
نِصْفِ الفَهْد: نِصْفِ الفَهْد هُوَ رُوبُوت ثُنائِيٍّ الأَبْعاد ثُنائِيٍّ الأَرْجُل مُكَوِّن مِن 8 وُصْلاتٍ صُلْبَةً، تَشْمَل الساقَيْنِ وَالجَذَع، مُقْتَرِنه ب 6 مَفاصِل مُحَرِّكه. فَضاءِ الحالَةِ هُوَ ذُو 17 بُعْداً، يَشْمَل زَوايا المَفاصِل وَالسُرْعات. يَقُوم خَصْمِ بِزَعْزَعَة اِسْتِقْراره مِن خِلالَ مُمارَسَةِ فِعْلٍ ذُو 6 أَبْعادَ مَعَ قُوَى ثُنائِيَّةٍ الأَبْعاد عَلَى الجَذَع وَكُلُّ قَدَّمَ.
القافز: القافز هُوَ رُوبُوت أُحادِيٍّ القَدَمِ مُسَطَّح، مَجْمَعِ ب 4 وُصْلاتٍ صُلْبَةً تُمَثِّل الجَذَع، الساق العَلَوِيَّة، الساق السُفْلِيَّة، وَالقَدَم، وَيَشْمَل 3 مَفاصِل مُحَرِّكه. لَدَيهِ فَضاءِ حالَةِ ذُو 11 بُعْداً، يَتَضَمَّن زَوايا المَفاصِل وَالسُرْعات. يَسْتَخْدِم خَصْمِ قُوَّةٍ ثُنائِيَّةٍ الأَبْعاد عَلَى القَدَمِ لِتَعْطِيلِ اِسْتِقْراره.
المُشاةِ ثُنائِيٍّ الأَبْعاد: يَعْمَل المُشاةِ كَرُوبُوت ثُنائِيٍّ الأَبْعاد ثُنائِيٍّ الأَرْجُل بِتَرْكِيبَة مِن 7 وُصْلاتٍ، تُمَثِّل الساقَيْنِ وَالجَذَع، إِلَى جانِبِ 6 مَفاصِل مُحَرِّكه. ضِمْنَ فَضاءِ حالَته الَّذِي يَبْلُغ 17 بُعْداً، تَتَضَمَّن زَوايا المَفاصِل وَالسُرْعات. يَسْتَخْدِم خَصْمِ فِعْلاً ذُو 4 أَبْعادَ مَعَ قُوَى ثُنائِيَّةٍ الأَبْعاد عَلَى كُلّاً القَدَمَيْنِ لِزَعْزَعَةِ تَوازُنَهُ.
المَهارَة: المَهارَة هِيَ مُهِمَّةً مُعَقَّدَةٌ حَيْثُ يَسْتَخْدِم يَدِ روبوتيه مُحاكاةَ ب 24 دَرَجَةِ حُرِّيَّةِ لَمَهامّ مِثْلَ دَقَّ مِسْمار، فَتْحِ بابِ، تَدْوِيرِ قَلَمٍ، أَو تَحْرِيكِ كُرَةِ. نَسْتَخْدِم نَوْعَيْنِ مِن مَجْمُوعاتٍ البَياناتِ لِهٰذا: مَجْمُوعَةِ البَياناتِ “البَشَرِيَّةِ”، الَّتِي تَشْمَل 25 مَسارا توضيحيا بَشَرِيّاً، وَمَجْمُوعَةِ البَياناتِ “المُسْتَنْسَخَة”، وَهِيَ مَزِيجٍ مُتَساوٍ مِن بَياناتٍ التَوْضِيحَ وَالسُلُوكِ المُسْتَنْسَخ مِن سِياسَةِ التَوْضِيحَ.
NeoRL(qin2022neorl): NeoRL هُوَ مِعْيار مُصَمِّمٌ لِيَعْكِس الظُرُوفِ الواقِعِيَّةِ مِن خِلالَ جَمْعِ مَجْمُوعاتٍ البَياناتِ بِاِسْتِخْدامِ سِياسَةِ أَكْثَرَ حَذْراً، متماشيه بِشَكْلٍ وَثِيقٍ مَعَ طُرُقٍ جَمْعِ البَياناتِ الواقِعِيَّةِ. نَدْرَةُ وَتَحْدِيدِ البَياناتِ يُشَكِّل تَحَدِّيا كَبِيراً لخوارزميات التَعَلُّمِ الآلِيِّ خارِجَ الخَطِّ. تَدْرُس أَبْحاثنا تِسْعِ مَجْمُوعاتٍ بَياناتٍ، تَشْمَل ثَلاثِ بِيئات مُخْتَلِفَةٍ (HalfCheetah-v3, Hopper-v3, Walker2d-v3) وَثَلاثُ مُسْتَوَياتٍ مِن جُودَة البَياناتِ (L, M, H)، تُشِير إِلَى جُودَة مُنْخَفَضه، مُتَوَسِّطَةِ، وَعالِيَة، عَلَى التَوالِي. بِشَكْلٍ لافِتٍ، يُقَدِّم NeoRL كَمِّيّاتٍ مُتَفاوِتَةٍ مِن مَساراتٍ البَياناتِ التَدْرِيبِيَّةِ (100, 1000, 10000) لِكُلِّ بِيئَةُ. لَتَجارِبنا، اِخْتَرْنا بِشَكْلٍ مُوَحَّدٍ 1000 مَسارِ.
هَنْدَسَةُ نَمُوذَجَ الدِينامِيكِيّات: كَما فِي الأَعْمالِ السابِقَةِ، اُسْتُخْدِمْنا شَبَكَةِ عَصَبِيَّةُ كَأَساسٍ لَنَمُوذَج الدِينامِيكِيّات لَدَينا، وَالَّذِي يُخْرِج تَوْزِيعاً غاوسيا لِلحالَةِ التالِيَةِ وَالمُكافَأَة. مِن خِلالَ تَجْمِيعِ هٰذِهِ الشَبَكاتِ، حَقَّقْنا اِسْتِقْراراً أَكْبَرَ وَأَداء مُحَسِّناً. مِن تَجْمِيعِ سَبْعَةِ، اِخْتَرْنا أَفْضَلَ خَمْسَةِ نَماذِجَ بِناءَ عَلَى خَطَأ التَحَقُّقِ. يَتَأَلَّف العَمُودِ الفَقْرِيِّ لَنَمُوذَج الدِينامِيكِيّات مِن أَرْبَع طَبَقاتِ، كُلِّ مِنها بِبُعْد مَخْفِيّ يَبْلُغ 200.
هَنْدَسَةُ المُمَثِّلُ وَالناقِد: يَتَأَلَّف إِطارِ عَمَلٍ المُمَثِّلُ وَالناقِد مِثْلَ SAC (haarnoja2018soft) مِن وَحَداتٍ المُمَثِّلُ وَالناقِد. عادَةً ما يَمْتَلِك المُمَثِّلُ عَمُودا فَقْرِيّا مُكَوِّنا مِن شَبَكَةِ عَصَبِيَّةُ. يَتِمّ نَقْلِ الخَصائِص المُضَمَّنَة داخِلَ هٰذا العَمُودِ الفَقْرِيِّ مِن خِلالَ طَبَقَةٌ أَخِيرَةٌ تَخْرُج تَوْزِيعاً غاوسيا، مِمّا يُؤَدِّي إِلَى نَتِيجَةَ غَيْرِ حَتْمِيَّةِ. عَلَى الرَغْمِ مِن أَنَّ MOPO، MOBILE، CQL، وَ IQL (mopo_yu2020, mobile_sun2023, iql_kostrikov2022, cql_kumar2020)، تُسْتَخْدَم تَقْلِيدِيّاً 2، 2، 3، وَ 2 طَبَقاتِ عَمُود فَقُرَى بِبُعْد 256 عَلَى التَوالِي، عِنْدَ دَمْجِ COCOA، قُمْنا بِتَوْحِيدِ اِسْتِخْدامِ طَبَقَتَيْنِ عَمُود فَقُرَى بِبُعْد مَخْفِيّ يَبْلُغ 100.
هَنْدَسَةُ سِياسَةِ البَحْثِ عَن المِرْساة: تَعْمَل سِياسَةِ البَحْثِ عَن المِرْساة كَوَحْدَة إِضافِيَّةً مُشْتَرَكَةٍ بَيِّنَ المُمَثِّلُ وَالناقِد. يَتِمّ تَضْمِينِ البَياناتِ المدخله، المُكَوَّنَةِ مِن الدِلْتا وَالمِرْساة، مِن خِلالَ شَبَكَةِ عَصَبِيَّةُ وَمِن ثُمَّ يَتِمّ مُعالَجَتُها بِواسِطَةِ هَنْدَسَةُ ثُنائِيَّةٍ الخَطِّ. فِي البِدايَةِ، يَتِمّ تَضْمِينِ المدخلات إِلَى بُعْدَ 4 مَعَ شَبَكَتَيْنِ عَصَبِيَّتَيْنِ ب64 قَناةِ، وَتُنْتَج الهَنْدَسَةِ الثُنائِيَّةِ الخَطِّ ناتِجا بِبُعْد 64 بِاِسْتِخْدامِ تِلْكَ الخَصائِص المُضَمَّنَة. ثُمَّ يَتِمّ تَمْرِيرَ نواتج الهَنْدَسَةِ الثُنائِيَّةِ الخَطِّ مِن خِلالَ هندسات العَمُودِ الفَقْرِيِّ لِلمُمَثِّلِ وَالناقِد، مِمّا يُؤَدِّي إِلَى تَحْدِيدِ الفِعْلِ وَقِيمَةُ Q عَلَى التَوالِي.
حَجْمِ المُعَلِّمَةُ: تَمَّ بِناءَ سِياسَةِ البَحْثِ عَن المِرْساة عَلَى شَبَكَةِ عَصَبِيَّةُ مُدْمَجه. بِالنِسْبَةِ للخوارزميات المَبْنِيَّةُ عَلَى النَمُوذَجِ مِثْلَ MOPO وَ MOBILE، يَبْلُغ حَجْمِ مُعَلِّمَةُ الدِينامِيكِيّات حِوالِي 1.9M، مُماثِلٍ لِذٰلِكَ فِي COCOA. وَمَعَ ذٰلِكَ، فَإِنَّ حَجْمِ المُعَلِّمَةُ اللازِمِ لِتَدْرِيبِ المُمَثِّلُ وَالناقِد لِ MOPO وَ MOBILE يُعادِل 0.21M. وَمَعَ ذٰلِكَ، عِنْدَ إِضافَةً COCOA إِلَى هٰذِهِ الخوارزميات، يَنْخَفِض حَجْمِ المُعَلِّمَةُ إِلَى 0.19M. نَظَراً لِلحَجْم الكَبِيرِ لَمُعَلِّمات الدِينامِيكِيّات، فَإِنَّ مُتَطَلَّباتِ المُعَلِّمَةُ الإِجْمالِيَّةُ لِلتَدْرِيبِ عَبْرَ خوارزميات المُودِيل المُضافَةِ إِلَى COCOA تَظَلّ ثابِتَةٍ عِنْدَ 2.2M. فِي المُقابِلِ، IQL+COCOA وَ CQL+COCOA، الَّتِي تَعْمَل بِدُونِ نَمُوذَجَ دِينامِيكِيٍّ، لِكُلِّ مِنها حَجْمِ مُعَلِّمَةُ يَبْلُغ 2.0M.
تَمَّ تَصْمِيمِ طَرِيقَتِنا كَتَحْسِين إِضافِيٍّ لخوارزميات التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِلَةِ بِالإِنْتِرْنِت القائِمَةِ. وَنَتِيجَةَ لِذٰلِكَ، بَدَلاً مِن تَطْوِيرِ تَنْفِيذِ جَدِيدٍ، قُمْنا بِتَكْيِيف قَواعِدَ الشيفرات الأَساسِيَّةِ المَعْمُولِ بِها. لِضَمانِ تَكْيِيفَ الشيفره بِشَكْلٍ مُتَّسِق وَمَوْثُوق، اِعْتَمَدْنا عَلَى (offinerlkit) كَأَساسٍ لِجَمِيعِ الخوارزميات الأَساسِيَّةِ، بِما فِي ذٰلِكَ (cql_kumar2020)، (iql_kostrikov2022)، (mopo_yu2020) وَ (mobile_sun2023). يُدَعِّم مَوْثُوقَيْهِ هٰذِهِ القاعِدَةِ الشيفريه بِسِجِلّات تَدْرِيبِ مُفَصَّلَةٌ وَنَتائِجَ تَتَماشَى مَعَ تِلْكَ المَوْجُودَةِ فِي الأَوْراقِ الأَصْلِيَّةِ. بِالإِضافَةِ إِلَى ذٰلِكَ، يُقَدِّم (offinerlkit) نَتائِجِ لَمَجْمُوعات بَياناتٍ Gym-MuJoCo-v2 الَّتِي لَم تَكُن مَوْجُودَةٌ فِي أَوْراقِ CQL وMOPO الأَصْلِيَّةِ، مِمّا يُلَبِّي اِحْتِياجاتنا. لاحَظَ أَنَّ أَحَدُ مُؤَلِّفَيَّ MOBILE (mobile_sun2023) يُوَفِّر هٰذِهِ القاعِدَةِ الشيفريه. تَمَّ مُشارَكَةِ تَكْيِيفاتنا للشيفره كَعَرْض تَوْضِيحِي فِي المَوادِّ التَكْمِيلِيَّةُ.
CQL. لِكُلِّ مِن CQL وَ CQL+COCOA، نَسْتَخْدِم \(\alpha=5.0\) لِجَمِيعِ مَهامِّ D4RL-Gym لِأَنَّ قاعِدَةِ الكود المُسْتَنْسَخَة (offinerlkit) الَّتِي تُوَفِّر النَتائِجِ لَمَهامّ MuJoCo-v2، وَالَّتِي لَم تُدْرِج فِي الوَرَقَةَ الأَصْلِيَّةِ (cql_kumar2020)، تُسْتَخْدَم هٰذِهِ القِيمَةِ. بِالنِسْبَةِ لِ COCOA، تَمَّ تَحْدِيدِ طُولِ أُفُقٍ البَحْثِ عَن المِرْساة \(h\) إِلَى 1 لِمُعْظَمِ المَهامّ، بِاِسْتِثْناءِ “halfcheetah-medium-expert-v2”، “hopper-medium-expert-v2”، وَ “walker2d-medium-expert-v2”، حَيْثُ تَمَّ تَحْدِيدِ \(h\) إِلَى 3.
IQL. لِكُلِّ مِن IQL، نَسْتَخْدِم نَفْسِ المُعَلِّماتُ الفائِقَةِ المَوْصُوفَة فِي الوَرَقَةَ الأَصْلِيَّةِ (iql_kostrikov2022)، \(\tau=0.7\) وَ \(\beta=3.0\)، وَالَّتِي تُسْتَخْدَم أَيْضاً فِي قاعِدَةِ الكود المُسْتَنْسَخَة (offinerlkit). بِالنِسْبَةِ لِ IQL+COCOA، اُسْتُخْدِمْنا \(\tau=0.6\) وَ \(\beta=3.0\). بِالنِسْبَةِ لِ COCOA، حَدَّدْنا طُولِ أُفُقٍ البَحْثِ عَن المِرْساة \(h\) إِلَى 1 لِجَمِيعِ المَهامّ. لَقَد أَعَدْنا إِنْتاجِ القِيمَةِ العَشْوائِيَّةِ لِ halfcheetah، hopper، walker2d، وَالَّتِي هِيَ 6.62 إِلَى 6، 8.1 إِلَى 7، 6.1 إِلَى 6.5 عَلَى التَوالِي.
MOPO. لِ MOPO، نَسْتَخْدِم المُعَلِّماتُ الفائِقَةِ المُسْتَخْدَمَةِ فِي قاعِدَةِ الكود المُسْتَنْسَخَة (offinerlkit)، وَالَّتِي تُوَفِّر النَتائِجِ لَمَهامّ MuJoCo-v2 غَيْرِ المُدْرَجَةِ فِي الوَرَقَةَ الأَصْلِيَّةِ (mopo_yu2020). كَما فِي الوَرَقَةَ الأَصْلِيَّةِ، نَسْتَخْدِم عَدَمِ اليَقِينِ العَشْوائِيِّ لِ MOPO وَ MOPO+COCOA. بِالنِسْبَةِ لِ MOPO+COCOA، بَحَثْنا عَن أَفْضَلَ مَعامِلِ العُقُوبَةِ \(\lambda\) وَطُول التَدَحْرُج \(h_r\) لِكُلِّ مُهِمَّةً فِي النطاقات التالِيَةِ: \(\lambda \in \{0.1, 0.5, 1.0, 5.0, 10.0\}\)، \(h_r \in \{1, 5, 7, 10\}\) بِاِسْتِثْناءِ حالَةِ halfcheetah-medium-expert. تَمَّ وَصَفَ أَفْضَلَ المُعَلِّماتُ الفائِقَةِ فِي الجَدْوَلُ [tab:mopo_mobile_hyperparameters]. بِالنِسْبَةِ لِ COCOA، حَدَّدْنا طُولِ أُفُقٍ البَحْثِ عَن المِرْساة \(h\) إِلَى 1 لِجَمِيعِ المَهامّ.
MOBILE. نَسْتَخْدِم نَفْسِ المُعَلِّماتُ الفائِقَةِ المَوْصُوفَة فِي الوَرَقَةَ الأَصْلِيَّةِ (mobile_sun2023) لِ MOBILE. بِالنِسْبَةِ لِ MOBILE+COCOA، بَحَثْنا عَن أَفْضَلَ مَعامِلِ العُقُوبَةِ \(\lambda\) وَطُول التَدَحْرُج \(h_r\) لِكُلِّ مُهِمَّةً فِي النطاقات التالِيَةِ: \(\lambda \in \{0.1, 1.0, 1.5, 2.0\}\)، \(h_r \in \{1, 5, 10\}\) بِاِسْتِثْناءِ حالَةِ walker-medium-replay. تَمَّ وَصَفَ أَفْضَلَ المُعَلِّماتُ الفائِقَةِ فِي الجَدْوَلُ [tab:mopo_mobile_hyperparameters]. بِالنِسْبَةِ لِ COCOA، حَدَّدْنا طُولِ أُفُقٍ البَحْثِ عَن المِرْساة \(h\) إِلَى 1 لِجَمِيعِ المَهامّ. بِالإِضافَةِ إِلَى ذٰلِكَ، بُعْدَ التَحَقُّقِ مِن التَقارُبِ، قَصْرنا تَدْرِيبنا عَلَى أَقْصَى 2000 عَصْرَ وَحَصَلْنا عَلَى النَتائِجِ مِن هٰذا النِطاقِ الزَمَنِيِّ المُحَدَّدِ.
لَقَد قُمْنا بِتَجْرِبَةِ مِعْيارَيْنِ إِضافِيَّيْنِ - D4RL Adroit وَ NeoRL. تَمَّ تَلْخِيصُ نَتائِجِ هٰذِهِ التَجارِبِ فِي الجَدْوَلُ [tab:adroit] وَ [tab:neorl]. تَكْشِف هٰذِهِ التَحْلِيلاتِ الأَوْسَعِ أَنَّ COCOA يُعَزِّز أَداءِ IQL وَ MOBILE فِي مُعْظَمَ المَهامّ. تَمَّ إِجْراءِ جَمِيعِ التَجارِبِ عَلَى المَعايِيرِ الإِضافِيَّة دُونِ تَطْبِيقِ تَطْبِيعِ الطَبَقاتِ لِلسَماحِ بِالمُقارَنَةِ المُباشِرَةِ مَعَ الأَداءِ المَبْلَغِ عَنهُ فِي أَوْراقهم الأَصْلِيَّةِ.
أَظْهَرَت طَرِيقَتِنا تَحْسِيناتٍ مُتَّسِقه فِي الأَداءِ عَبْرَ سِتَّ مَهامِّ D4RL Adroit الَّتِي اِخْتَبَرْناها، مِمّا يُظْهِر قُوَّتِها وَقابِلِيَّتها لِلتَكَيُّفِ. بَيْنَما واجَهَت COCOA تَحَدِّياتٍ فِي المَهامّ المُعَقَّدَةِ مِثْلَ البابَ وَالمِطْرَقَة، مُشابِهَةٍ لخوارزميتها الأَصْلِيَّةِ، يَعْكِس هٰذا صُعُوبَةِ هٰذِهِ المَهامّ بِسَبَبِ المُكافَآتُ المُتَفَرِّقَة. بِشَكْلٍ مَلْحُوظٍ، فِي مَهامِّ مِثْلَ القَلَمِ، حَقَّقَت طَرِيقَتِنا تَحْسِيناتٍ مَلْحُوظَةٌ فِي الأَداءِ.
فِي Adroit، يَقْتَصِر عَصْرَ التَدْرِيبِ عَلَى 200 كَما وَصَفَ فِي (mobile_sun2023). بِالإِضافَةِ إِلَى ذٰلِكَ، اُسْتُخْدِمْنا نَفْسِ المُعَلِّماتُ الفائِقَةِ لِ MOBILE+COCOA عَلَى Adroit كَما وَصَفَ فِي الوَرَقَةَ. تَمَّ وَصَفَ المُعَلِّماتُ الفائِقَةِ لِ Adroit وَ NeoRL فِي الجَدْوَلُ [tab:combined].
تُظْهِر CQL+COCOA وَCOMBO بِعَضِّ التَشابُهات، لا سِيَّما فِي اِسْتِخْدامهما لِلدِينامِيكِيّات وَنَهْجٍ أَقَلَّ تَحَفُّظاً تُجاهَ فَضاءِ الحالَةِ-الفِعْلِ. وَمَعَ ذٰلِكَ، تَخْتَلِف منهجياتهما فِي مُتابَعَةِ التَحَفُّظِ بِشَكْلٍ كَبِيرٍ: تُرَكِّز COCOA عَلَى التَحَفُّظِ فِي فَضاءِ الإِدْخال التَرْكِيبِيّ، بَيْنَما يُؤَكِّد COMBO عَلَى تَنْظِيمِ القِيَمِ لِلأَفْعال غَيْرِ المَأْلُوفَةِ. وَبِالتالِي، COCOA وَCOMBO مُتَعامِدانِ، وَسَيَكُون مِن المُفِيدِ مُقارَنَةً دَمْجِ COCOA مَعَ COMBO، حَيْثُ يُمْكِن أَنَّ تَكُون COCOA إِضافَةً إِلَى أَيّ خوارزميه.
مُماثِلَةٍ لِCOMBO، تُظْهِر الطُرُقِ المَبْنِيَّةُ عَلَى MBPO مِثْلَ MOPO وَRAMBO أَيْضاً مَيْلاً لِلتَفَوُّق عَلَى الطُرُقِ الخالِيَةِ مِن النَماذِجِ فِي الإِعْدادات العَشْوائِيَّةِ وَالمُتَوَسِّطَةِ. يَبْدُو أَنَّ تَوْسِيعِ البَياناتِ مِن خِلالَ MBPO مُفِيدٌ بِشَكْلٍ خاصٍّ فِي هٰذِهِ المَهامّ. سَيَكُون مِن المُثِيرِ لِلاِهْتِمامِ مُقارَنَةً الدوال القِيمِيَّة المُحَدَّدَةِ لِلحالَةِ نَظَرِيّا أَو تَجْرِيبِيّا بَيِّنَ CQL، CQL+COCOA، وَCOMBO لِمَزِيدٍ مِن التَحْلِيلِ.
width=0.4
المُهِمَّةِ | \(\lambda\) | \(h_r\) | ||
---|---|---|---|---|
door-cloned-v1 | 0.5 | 7 | ||
door-human-v1 | 3 | 3 | ||
hammer-cloned-v1 | 3 | 1 | ||
hammer-human-v1 | 5 | 1 | ||
pen-cloned-v1 | 0.5 | 1 | ||
pen-human-v1 | 10 | 1 | ||
HalfCheetah-v3-low | 0.5 | 5 | ||
Hopper-v3-low | 2.5 | 5 | ||
Walker2d-v3-low | 2.5 | 1 | ||
HalfCheetah-v3-medium | 0.5 | 5 | ||
Hopper-v3-medium | 1.5 | 5 | ||
Walker2d-v3-medium | 2.5 | 1 | ||
HalfCheetah-v3-high | 1.5 | 5 | ||
Hopper-v3-high | 2.5 | 5 | ||
Walker2d-v3-high | 2.5 | 1 |
فِي هٰذا القِسْمِ، نُوَضِّح بِبَساطَة كَيْفَ يُمْكِن تَقْرِيبِ المُتَنَبِّئ التَحْوِيلِيّ الخاصِّ بِنا فِي عَمَلِيَّةِ ثُنائِيَّةٍ الخَطِيَّة بِاِسْتِخْدامِ نَظَرِيَّةَ سَتَوِنّ-فايرشتراس.
[thm:stone_weierstrass_lch] لِنَفْتَرِض أَنَّ \( X \) هُوَ فَضاءِ هاوسدورف مَضْغُوط مَحَلِّيّاً وَأَنَّ \( A \) هُوَ جَبْر فَرْعِيٍّ مِن \( C_0(X, \mathbb{R}) \). إِذا \( A \) كَثِيفٍ فِي \( C_0(X, \mathbb{R}) \) بِالنِسْبَةِ لتوبولوجيا التَقارُبِ المُوَحَّدَ إِذا وَفَقَط إِذا كانَ يَفْصِل النِقاطِ وَلا يَخْتَفِي فِي أَيّ مَكانٍ.
لِتَكُن \(\mathcal{X}\) وَ \(\mathcal{Y}\) فَضاءات هاوسدورف مَضْغُوطه مَحَلِّيّاً (LCH). بِالإِضافَةِ إِلَى ذٰلِكَ، لِتَكُن \(\mathcal{F} \subset C(\mathcal{X}; \mathbb{R})\) وَ \(\mathcal{G} \subset C(\mathcal{Y}; \mathbb{R})\) فَضاءات فَرْعِيَّةٍ مُتَّجِهَيْهِ كَثِيفَةٌ فِي توبولوجيا التَقارُبِ المُوَحَّدَ عَلَى الكومباكتا. ثُمَّ تُخْبِرنا النَظَرِيَّةِ [thm:stone_weierstrass_lch] أَنَّ \[\left\{ \sum_{k=1}^{d} f_k(x)g_k(y) \, \middle|\, f_1, \ldots, f_k \in \mathcal{F}, g_1, \ldots, g_k \in \mathcal{G}, d \in \mathbb{N} \right\} \subseteq C(\mathcal{X} \times \mathcal{Y}; \mathbb{R})\] ، وَالَّذِي يُشَكِّل جَبَرا، كَثِيفٍ فِي توبولوجيا التَقارُبِ المُوَحَّدَ عَلَى الكومباكتا. بِعِبارَةٍ أُخْرَى، إِذا كانَ لَدَينا تَضْمِينِ مُشْتَرَكٍ \(f_\theta \colon \mathcal{X} \to \mathbb{R}^d\) وَ \(g_\phi \colon \mathcal{Y} \to \mathbb{R}^d\)، فَإِنَّ \(h_{\theta,\phi}(x, y) = f_\theta(x) \cdot g_\phi(y)\) هُوَ مُقَرَّبٍ عالَمِيٍّ، بِحَيْثُ أَنَّ \((d, width) \to (\infty, \infty)\) وَ \(f_\theta(x)\)، \(g_\phi(y)\) لَهُما عُمْقِ \(\geq 2\). نَظَراً لِأَنَّنا نَسْتَخْدِم شَبَكَةِ مُعَلِّمَةُ لِتَقْرِيبِ المُتَنَبِّئ التَحْوِيلِيّ وَمِساحَةٌ الإِدْخال لَدَينا \((s, a)\) هِيَ جُزْء مِن \(\mathbb{R}^m \times \mathbb{R}^n\)، حَيْثُ \(m\) وَ \(n\) تُشِير إِلَى أَبْعادهما عَلَى التَوالِي، \(\boldsymbol{\varphi_{\boldsymbol{\theta},1}}\) وَ \(\boldsymbol{\varphi_{\boldsymbol{\theta},2}}\) وَالَّتِي تَمَّ وَصَفَها فِي القِسْمِ [subsec:offline_rl_bilinear_transduction]، يُمْكِن أَنَّ تَتَوافَق مَعَ \(f_\theta\) وَ \(g_\phi\)، عَلَى التَوالِي.
فِي هٰذا القِسْمِ، نُقَدِّم الرُسُومِ البَيانِيَّةِ لَأَداء كُلِّ خوارزميه عَلَى مَهامِّ مِعْيار D4RL. نَحْنُ نَشْمَل فَقَط 9 المَهامّ الَّتِي لَيِسَت مَهامِّ “عَشْوائِيَّةٍ” لِأَنَّ نِقاطٍ التَحَقُّقِ مِن الطُرُقِ الأَساسِيَّةِ لِلمَهامّ “العَشْوائِيَّةِ” لَم تَقَدَّمَ.