اِسْتِكْشافٍ السِياقِ وَالاِسْتِغْلالِ لِتَعْلَم التَعْزِيز

Zhenwen Dai, Federico Tomasi, Sina Ghiassian

latex

مُلَخَّصُ

التَعَلُّمِ فِي السِياقِ هُوَ نَهْجٍ واعِدٌ لِتَعْلَم السِياساتِ عَبْرَ الإِنْتِرْنِت لِطُرُقِ تَعْلَم التَعْزِيز (RL) دُونِ الاِتِّصالِ، وَالَّذِي يُمْكِن تَحْقِيقِهِ فِي وَقْتٍ الاِسْتِدْلال دُونِ الحاجَةِ إِلَى تَحْسِينِ التَدَرُّج. وَمَعَ ذٰلِكَ، يُعِيق هٰذا الأُسْلُوبِ تَكالِيفِ حِسابِيَّةً كَبِيرَةٍ ناتِجَةٍ عَن جَمْعِ مَجْمُوعاتٍ كَبِيرَةٍ مِن مَساراتٍ التَدْرِيبِ وَالحاجَةُ إِلَى تَدْرِيبِ نَماذِجَ Transformer كَبِيرَةٍ. نُعالَج هٰذا التَحَدِّي مِن خِلالَ تَقْدِيمِ خوارزميه اِسْتِكْشافٍ السِياقِ وَالاِسْتِغْلالِ (ICEE)، المُصَمِّمَة لِتَحْسِينِ كَفاءَةِ تَعْلَم السِياساتِ فِي السِياقِ. عَلَى عَكْسَ النَماذِجِ الحالِيَّةِ، تُؤَدِّي ICEE تَوازُناً بَيِّنَ الاِسْتِكْشافِ وَالاِسْتِغْلالِ فِي وَقْتٍ الاِسْتِدْلال داخِلَ نَمُوذَجَ Transformer، دُونِ الحاجَةِ إِلَى اِسْتِدْلال Bayesian صَرِيحٍ. وَنَتِيجَةَ لِذٰلِكَ، يُمْكِن لِ ICEE حَلٍّ مَشاكِلَ تَحْسِينِ Bayesian بِكَفاءَة تَعادَلَ طُرُقٍ المُعالَجَةِ المُتَحَيِّزَة بِعَمَلِيَّةِ Gaussian، وَلٰكِن فِي وَقْتٍ أَقَلَّ بِكَثِيرٍ. مِن خِلالَ التَجارِبِ فِي بِيئات العالَمِ الشَبَكِيّ، نُظْهِر أَنَّ ICEE يُمْكِن أَنَّ تَتَعَلَّم حَلٍّ مَهامِّ تَعْلَم التَعْزِيز الجَدِيدَةِ بِاِسْتِخْدامِ عَشَراتِ الحَلَقاتِ فَقَط، مِمّا يُمَثِّل تَحَسُّناً كَبِيراً عَن المِئاتُ مِن الحَلَقاتِ الَّتِي تَحْتاجها طَرِيقَةِ التَعَلُّمِ فِي السِياقِ السابِقَةِ.

مُقَدِّمَةِ

تُمَثِّل النَماذِجِ المُحَوِّلَة نَهْجاً فَعّالا لِلغايَةِ فِي نمذجه التَسَلْسُل، مَعَ تَطْبِيقات تَمْتَدّ عَبْرَ مَجالاتِ مُتَعَدِّدَةِ مِثْلَ النُصُوصِ وَالصُوَرِ وَالصَوْت. فِي مَجالِ التَعَلُّمِ المُعَزِّز (Reinforcement Learning (RL)), (NEURIPS2021_7f489f64) وَ (NEURIPS2021_099fe6b0) قَد اِقْتَرَحُوا مَفْهُومِ مُعالَجَةِ التَعَلُّمِ المُعَزِّز دُونِ اِتِّصالٍ كَمُشْكِلَة تَنَبُّؤ تَسَلْسُلَيَّ بِاِسْتِخْدامِ النَمُوذَجِ المُحَوِّلُ. لَقَد أَثْبَت هٰذا الأُسْلُوبِ نَجاحِهِ فِي التَعامُلِ مَعَ مَجْمُوعَةِ مِن المَهامّ بِاِسْتِخْدامِ تَقْنِيّاتِ نمذجه التَسَلْسُل عَلَى نِطاقِ واسِعٍ فَقَط (NEURIPS2022_b2cac94f, Reed2022-lj). يَكْمُن العَيْبِ البارِزُ فِي عَدَمِ قُدْرَةِ السِياسَةِ عَلَى تَحْسِينِ نَفْسِها عِنْدَ اِسْتِخْدامُها فِي بِيئات عَبْرَ الإِنْتِرْنِت. لِلتَغَلُّبِ عَلَى هٰذا، تَمَّ تَقْدِيمِ طُرُقٍ التَنْعِيم مِثْلَ (Zheng2022-kr)، الَّتِي تَمَكَّنَ مِن تَحْسِينِ السِياسَةِ المُسْتَمِرِّ. وَمَعَ ذٰلِكَ، غالِباً ما تَعْتَمِد هٰذِهِ الطُرُقِ عَلَى التَحْسِين القائِمِ عَلَى التَدَرُّج البَطِيء وَالمُكَلَّف مِن الناحِيَةِ الحِسابِيَّة.

مِن ناحِيَةٍ أُخْرَى، يُمْكِن لِلتَعَلُّمِ فِي السِياقِ، وَهُوَ خاصَّيْهِ مُلاحَظَةُ فِي نَماذِجَ اللُغَةِ الكَبِيرَةِ (Large Language Models (LLMs)), التَعامُلِ مَعَ المَهامّ الجَدِيدَةِ مِن خِلالَ تَوْفِيرِ تَفاصِيلَ المُهِمَّةِ مِن خِلالَ تلميحات اللُغَةِ، مِمّا يُلْغِي الحاجَةِ إِلَى التَنْعِيم. يَقْتَرِح (laskin2023incontext) خوارزميه تَعْلَم فِي السِياقِ لِلتَعَلُّمِ المُعَزِّز، وَالَّتِي تُسْتَخْدَم نَمُوذَجَ تَسَلْسُلُ لَتَقْطِير خوارزميه تَعْلَم السِياسَةِ مِن مَساراتٍ تَدْرِيبِ التَعَلُّمِ المُعَزِّز. النَمُوذَجِ الناتِجِ قادِرٌ عَلَى إِجْراءِ تَعْلَم السِياسَةِ فِي وَقْتٍ الاِسْتِدْلال مِن خِلالَ عَمَلِيَّةِ تَكْرارِيّه لِأَخْذِ العَيْنات مِن الإِجْراءاتِ وَزِيادَةِ التَلْمِيح. تَتَكَبَّد هٰذِهِ الطَرِيقَةِ تَكالِيفِ حِسابِيَّةً كَبِيرَةٍ فِي جَمْعِ مَجْمُوعاتٍ واسِعَةً مِن مَساراتٍ التَدْرِيبِ وَتَدْرِيبِ نَماذِجَ المُحَوِّلات الكَبِيرَةِ الَّتِي تَحْتاج إِلَى نمذجه جُزْء كَبِيرٍ مِن مَسارِ التَدْرِيبِ. السَبَبِ الرَئِيسِيُّ لِهٰذِهِ التَكْلِفَةِ الحِسابِيَّة العالِيَةِ هُوَ مَساراتٍ التَدْرِيبِ الطَوِيلَةِ الناتِجَةِ عَن عَمَلِيَّةِ التَجْرِبَةِ وَالخَطَأ البَطِيئَةِ لخوارزميات تَعْلَم سِياسَةِ التَعَلُّمِ المُعَزِّز.

تَهْدِف هٰذِهِ الوَرَقَةَ إِلَى تَحْسِينِ كَفاءَةِ تَعْلَم السِياسَةِ فِي السِياقِ مِن خِلالَ القَضاءِ عَلَى الحاجَةِ إِلَى التَعَلُّمِ مِن مَساراتٍ تَعْلَم السِياسَةِ. فِي سِينارِيو مِثالِيٌّ، يُمْكِن تَحْقِيقِ تَعْلَم السِياسَةِ الفَعّالَ مِن خِلالَ عَمَلِيَّةِ التَجْرِبَةِ وَالخَطَأ الفَعّالَةَ. بِالنِسْبَةِ لِمَشاكِلِ التَعَلُّمِ المُعَزِّز المبسطه مِثْلَ الأَذْرُع المُتَعَدِّدَةِ (Multi-Armed Bandits (MAB)), تَمَّ إِثْباتِ وُجُودِ عَمَلِيَّةِ التَجْرِبَةِ وَالخَطَأ الفَعّالَةَ مِثْلَ عَيِّنَةً تومسون وَالحُدُودِ العُلْيا لِلثِقَة. تَعْتَمِد هٰذِهِ العَمَلِيَّةِ، وَالَّتِي غالِباً ما تُشار إِلَيها بِاِسْمِ تِجارَةٍ التَنْقِيبِ-الاِسْتِغْلالِ (Exploration-Exploitation (EE)), بِشَكْلٍ كَبِيرٍ عَلَى عَدَمِ اليَقِينِ المَعْرِفِيِّ المُسْتَمَدّ مِن الاِعْتِقادِ البايزي. وَمَعَ ذٰلِكَ، مِن الصَعْبِ اِسْتِنْتاجِ عَدَمِ اليَقِينِ المَعْرِفِيِّ الدَقِيقِ لِمَشاكِلِ التَعَلُّمِ المُعَزِّز التسلسلي بِاِسْتِخْدامِ الطُرُقِ البايزيه التَقْلِيدِيَّةِ. فِي ضَوْء الدِراساتِ الحَدِيثَةِ حَوْلَ تَقْدِيرٍ عَدَمِ اليَقِينِ لَنَماذِج اللُغَةِ الكَبِيرَةِ (yin-etal-2023-large), نَفْحَص التَوْزِيعات التَنَبُّؤِيَّة لَنَماذِج التَسَلْسُل، مِمّا يُظْهِر أَنَّهُ، مِن خِلالَ التَدْرِيبِ بِالتَعَلُّم الإِشْرافِيّ البَحْت عَلَى البَياناتِ دُونِ اِتِّصالٍ، يُمْكِن لَنَمُوذَج التَسَلْسُل اِلْتِقاطِ عَدَمِ اليَقِينِ المَعْرِفِيِّ فِي التَنَبُّؤ بِالتَسَلْسُل. هٰذا يُوحِي بِإِمْكانِيَّة تَنْفِيذِ التَنْقِيبِ-الاِسْتِغْلالِ فِي التَعَلُّمِ المُعَزِّز دُونِ اِتِّصالٍ.

اِسْتِناداً إِلَى هٰذِهِ المُلاحَظَةُ، نُطَوِّر خوارزميه التَنْقِيبِ-الاِسْتِغْلالِ فِي السِياقِ () لِتَعْلَم السِياسَةِ. تَأْخُذ كمدخلات سِلْسِلَةٍ مِن الحَلَقاتِ المُتَعَدِّدَةِ لَنَفْس المُهِمَّةِ وَتَتَنَبَّآ بِالإِجْراء المُقابِلِ فِي كُلِّ خَطْوَةٍ مَشْرُوطَةٌ بِبَعْضِ المَعْلُوماتِ بِأَثَر رَجْعِيّ. يُشْبِه تَصْمِيمِ التَعَلُّمِ المُعَزِّز دُونِ اِتِّصالٍ هٰذا المُحَوِّلُ القراري (Decision Transformer (DT)), وَلٰكِن يَتَعامَل مَعَ تَعْلَم السِياسَةِ فِي السِياقِ مِن خِلالَ نمذجه الحَلَقاتِ المُتَعَدِّدَةِ لِمُهِمَّةِ بَيْنَما DT ينمذج حَلْقَةِ واحِدَةٍ فَقَط. عِلاوَةً عَلَى ذٰلِكَ، لا تَحْتاج هٰذِهِ الحَلَقاتِ إِلَى النَشْأَةِ مِن مَسارِ تَدْرِيبِ، مِمّا يَتَجَنَّب التَكالِيفِ الحِسابِيَّة العالِيَةِ المُرْتَبِطَةِ بِتَوْلِيد وَاِسْتِهْلاكِ مَساراتٍ التَعَلُّمِ. تَتَحَيَّز تَوْزِيعات الإِجْراءاتِ المُتَعَلِّمَة فِي DT نَحْوَ سِياسَةِ جَمْعِ البَياناتِ، وَالَّتِي قَد لا تَكُون مِثالِيَّةٍ عِنْدَما تَكُون دُونِ المُسْتَوَى الأَمْثَلُ. لِمُعالَجَةِ هٰذا التَحَيُّزِ، نُقَدِّم هَدَفاً غَيْرِ مُتَحَيِّز وَنَطّ DEVELOP form مُعَيَّنٍ مِن المَعْلُوماتِ بِأَثَر رَجْعِيّ لِلتَنْقِيبِ-الاِسْتِغْلالِ الفَعّالَ عَبْرَ الحَلَقاتِ.

مَعَ التَجارِبِ، نُوَضِّح أَنَّ سُلُوكِ التَنْقِيبِ-الاِسْتِغْلالِ يُظْهِر فِي أَثْناءَ الاِسْتِدْلال بِفَضْلِ عَدَمِ اليَقِينِ المَعْرِفِيِّ فِي التَنَبُّؤ بِالإِجْراء. هٰذا واضِحٍ بِشَكْلٍ خاصٍّ عِنْدَ تَطْبِيقِ عَلَى التَحْسِين البايزي (Bayesian Optimization (BO)), حَيْثُ أَنَّ أَداءِ يُضاهَى طَرِيقَةِ تَعْتَمِد عَلَى عَمَلِيَّةِ غاوسيه فِي مَهامِّ BO المُنْفَصِلَة. نُوَضِّح أَيْضاً أَنَّ يُمْكِن أَنَّ يُحَسِّن بِنَجاحٍ السِياسَةِ لِمُهِمَّةِ جَدِيدَةٍ مَعَ التَجارِبِ وَالأَخْطاء مِن الصِفْرِ لِمَشاكِلِ التَعَلُّمِ المُعَزِّز التسلسليه. حَسَبَ عَلَّمَنا، هِيَ الطَرِيقَةِ الأُولَى الَّتِي تُدْمِج بِنَجاحٍ التَنْقِيبِ-الاِسْتِغْلالِ فِي السِياقِ فِي التَعَلُّمِ المُعَزِّز مِن خِلالَ النمذجه التسلسليه دُونِ اِتِّصالٍ.

الأَعْمالِ ذاتِ الصِلَةِ

التَعَلُّمِ البَيانِيّ. لَقَد زادَ الاِهْتِمامِ مُؤَخَّراً بخوارزميات التَعَلُّمِ البَيانِيّ أَو تَعْلَم التَعَلُّمِ. بَيْنَما يَكُون المُتَعَلِّم عِبارَةٌ عَن وَكِيلُ يَتَعَلَّم حَلٍّ مُهِمَّةً بِاِسْتِخْدامِ البَياناتِ المَرْصُودَة، يَتَضَمَّن خوارزميه تَعْلَم التَعَلُّمِ وُجُودِ مُتَعَلِّم بَيانَيَّ يُحَسِّن بِاِسْتِمْرارٍ مِن عَمَلِيَّةِ التَعَلُّمِ لِلمُتَعَلِّم (schmidhuber1996simple, thrun2012learning, hospedales2021meta, sutton2022history). تَمَّ إِجْراءِ الكَثِيرَ مِن الأَعْمالِ فِي مَجالِ التَعَلُّمِ البَيانِيّ. عَلَى سَبِيلِ المِثالِ، اِقْتَرَحَ (finn2017model) خوارزميه تَعْلَم بَيانَيَّ عامَّةٍ لا تَعْتَمِد عَلَى النَمُوذَجِ تُدَرِّب المُعَلِّماتُ الأَوَّلِيَّةِ لِلنَمُوذَج بِحَيْثُ يَكُون لِلنَمُوذَج أَداءِ أَقْصَى فِي مُهِمَّةً جَدِيدَةٍ بُعْدَ تَحْدِيثِ مُعَلِّمات النَمُوذَجِ مِن خِلالَ بِضْعَ خَطَواتٍ تُدْرِجِيهِ مَحْسُوبَةً بِكَمِّيَّةِ صَغِيرَةٌ مِن البَياناتِ مِن المُهِمَّةِ الجَدِيدَةِ. تَشْمَل الأَعْمالِ الأُخْرَى فِي التَعَلُّمِ البَيانِيّ تَحْسِينِ المُحَسِّنات (andrychowicz2016learning, li2016learning, ravi2016optimization, wichrowska2017learned)، تَحْسِينِ التَعَلُّمِ القَلِيلُ الأَمْثِلَة (mishra2017simple, duan2017one)، تَعْلَم الاِسْتِكْشافِ (stadie2018some)، وَالتَعَلُّمِ غَيْرِ المُشَرِّفِ عَلَيهِ (hsu2018unsupervised).

فِي مَجالِ التَعَلُّمِ البَيانِيّ العَمِيقِ لِتَعْزِيزِ التَعَلُّمِ (wang2016learning)، رَكَّزَت بِعَضِّ الأَعْمالِ عَلَى شَكْلٍ خاصٍّ مِن التَعَلُّمِ البَيانِيّ يُسَمَّى التَدَرُّجات البَيانِيَّةِ. فِي التَدَرُّجات البَيانِيَّةِ، يَتِمّ تَدْرِيبِ المُتَعَلِّم البَيانِيّ بِواسِطَةِ التَدَرُّجات مِن خِلالَ قِياسُ تَأْثِيرِ المُعَلِّماتُ البَيانِيَّةِ عَلَى مُتَعَلِّم يَتِمّ تَدْرِيبه أَيْضاً بِاِسْتِخْدامِ خوارزميه التَدَرُّج (xu2018meta). فِي عَمَلٍ آخَرِ، اِسْتَخْدَمَ (zheng2018learning) التَدَرُّجات البَيانِيَّةِ لِتَعْلَم المُكافَآتُ. رَكَّزَ (gupta2018unsupervised) عَلَى أَتَمَّتْهُ عَمَلِيَّةِ تَصْمِيمِ المَهامّ فِي تَعْزِيزِ التَعَلُّمِ، لِتَحْرِيرِ الخَبِيرُ مِن عِبْءِ التَصْمِيمِ اليَدَوِيِّ لَمَهامّ التَعَلُّمِ البَيانِيّ. بِالمِثْلِ، قَدَّمَ (veeriah2019discovery) طَرِيقَةِ لَوَكِيل تَعْزِيزِ التَعَلُّمِ لِاِكْتِشافِ الأَسْئِلَةِ المصاغه كَوَظائِف قِيمَةَ عامَّةٍ مِن خِلالَ اِسْتِخْدامِ التَدَرُّجات البَيانِيَّةِ غَيْرِ القَصِيرَةِ النَظَرِ. وَمُؤَخَّراً، شَهِدَ تَعْلَم تَعْزِيزِ التَدَرُّجات البَيانِيَّةِ تَقَدُّماً كَبِيراً مِن مَكاسِبَ الأَداءِ فِي المَعايِيرِ الشَعْبِيَّةِ إِلَى خوارزميات هَجِينَةٍ لِلتَعَلُّمِ البَيانِيّ لِتَعْزِيزِ التَعَلُّمِ عَبْرَ الإِنْتِرْنِت وَغَيْرِ المُتَّصِل (xu2020meta, zahavy2020self, flennerhag2021bootstrapped, mitchell2021offline, yin-etal-2023-large, pong2022offline). تَمَّت دِراسَةٌ دَوْرِ الشَكُّ فِي تَعْزِيزِ التَعَلُّمِ البَيانِيّ مِن قِبَلَ (JMLR:v22:21-0657)، وَالَّذِي أَسْفَرَ عَن طَرِيقَةِ فَعّالَةٍ لِتَعْزِيزِ التَعَلُّمِ البَيانِيّ عَبْرَ الإِنْتِرْنِت. ثُمَّ تَمَّ تَوْسِيعِ هٰذا العَمَلِ مِن قِبَلَ (NEURIPS2021_24802454) إِلَى الإِعْدادُ غَيْرِ المُتَّصِل بِالسِياسَةِ.

تَعْلَم تَعْزِيزِ غَيْرِ مُتَّصِل. بِشَكْلٍ عامَ، تَمَّ اِقْتِراحِ تَعْلَم التَعْزِيز كَنَمُوذَج أَساسِيٌّ عَبْرَ الإِنْتِرْنِت (sutton1988learning, sutton1999policy, sutton2018reinforcement). تَأْتِي هٰذِهِ الطَبِيعَةِ التَعْلِيمِيَّةِ عَبْرَ الإِنْتِرْنِت مَعَ بِعَضِّ القُيُودِ مِثْلَ جَعَلَها صَعْبَةً لِتَبْنِيها فِي العَدِيدَ مِن التَطْبِيقات الَّتِي مِن المُسْتَحِيلِ جَمْعِ البَياناتِ عَبْرَ الإِنْتِرْنِت وَالتَعَلُّمِ فِي نَفْسِ الوَقْتِ، مِثْلَ القِيادَةِ الذاتِيَّةِ وَأَحْياناً لَيِسَت فَعّالَةٍ مِن حَيْثُ البَياناتِ كَما يُمْكِن أَنَّ تَكُون، حَيْثُ قَد تَخْتار التَعَلُّمِ مِن عَيِّنَةً ثُمَّ التَخَلُّصِ مِن العَيِّنَةُ وَالاِنْتِقالِ إِلَى العَيِّنَةُ التالِيَةِ (levine2020offline). إِحْدَى الأَفْكارَ لِلحُصُولِ عَلَى المَزِيدِ مِن الخِبْرَةِ المُجَمَّعَة هِيَ اِسْتِخْدامِ مَخازِنَ إِعادَةِ التَشْغِيلِ. عِنْدَ اِسْتِخْدامِ المَخازِنِ، يَتِمّ الاِحْتِفاظِ بِجُزْء مِن العَيْنات فِي ذاكِرَةِ ثُمَّ يَتِمّ إِعادَةِ اِسْتِخْدامُها عِدَّةٍ مَرّاتٍ بِحَيْثُ يُمْكِن لِلوَكِيل التَعَلُّمِ أَكْثَرَ مِنها (lin1992self, mnih2015human). يُشِير مُتَغَيِّر مِن تَعْلَم التَعْزِيز، يَعْرِف بِاِسْمِ تَعْلَم التَعْزِيز غَيْرِ المُتَّصِل، إِلَى خوارزميات تَعْلَم التَعْزِيز الَّتِي يُمْكِن أَنَّ تَتَعَلَّم بِالكامِلِ غَيْرِ مُتَّصِل، مِن مَجْمُوعَةِ ثابِتَةٍ مِن البَياناتِ الَّتِي تَمَّ جَمَعَها مُسْبَقاً دُونِ جَمْعِ بَياناتٍ جَدِيدَةٍ فِي وَقْتٍ التَعَلُّمِ (ernst2005tree, riedmiller2005neural, lange2012batch, fujimoto2019off, siegel2020keep, gulcehre2020rl, nair2020awac). تُرَكِّز الأَدَبِيّاتِ الحَدِيثَةِ عَلَى مُحَوِّلات القَرارِ أَيْضاً عَلَى تَعْلَم التَعْزِيز غَيْرِ المُتَّصِل (NEURIPS2021_7f489f64) لِأَنَّها تَحْتاج إِلَى حِسابِ العائِدِ المُتَبَقِّي فِي وَقْتٍ التَدْرِيبِ، وَالَّذِي بِدَوْرِهِ يَتَطَلَّب بَياناتٍ تَمَّ جَمَعَها مُسْبَقاً.

التَعَلُّمِ فِي السِياقِ. خوارزميات تَعْلَم التَعْزِيز فِي السِياقِ هِيَ تِلْكَ الَّتِي تَحَسُّنِ سِياسَتِها بِالكامِلِ فِي السِياقِ دُونِ تَحْدِيثِ مُعَلِّمات الشَبَكَةِ أَو دُونِ أَيّ تَعْدِيلِ دَقِيقٍ لِلنَمُوذَج (lu2021pretrained). تَمَّ إِجْراءِ بِعَضِّ الأَعْمالِ لِدِراسَةِ ظاهِرَةِ التَعَلُّمِ فِي السِياقِ فِي مُحاوَلَةٍ لِشَرْحِ كَيْفَ قَد يَكُون التَعَلُّمِ فِي السِياقِ مُمْكِناً (abernethy2023mechanism, min2022rethinking). يَعْمَل الوَكِيلَ “جاتو” الَّذِي طَوَّرَهُ (reed2022generalist) كَوَكِيل عامَ مُتَعَدِّدِ النَماذِجِ وَمُتَعَدِّدٍ المَهامّ وَمُتَعَدِّدٍ الأَجْسام، بِمَعْنَى أَنَّ نَفْسِ الوَكِيلَ المُدَرِّبِ يُمْكِنه لَعِبَ اتاري، وَوَضْعِ تَعْلِيقاتِ توضيحيه عَلَى الصُوَرِ، وَالدَرْدَشَة، وَتَكْدِيس الكُتَلِ بِاِسْتِخْدامِ ذِراعِ رُوبُوت حَقِيقِيٍّ فَقَط بِناءَ عَلَى سِياقه. مِن خِلالَ تَدْرِيبِ وَكِيلُ تَعْلَم التَعْزِيز عَلَى نِطاقِ واسِعٍ، أَظْهَرَ (team2023human) أَنَّ وَكِيلا فِي السِياقِ يُمْكِنه التَكَيُّفِ مَعَ بِيئات ثُلاثِيَّةٌ الأَبْعاد جَدِيدَةٍ وَمَفْتُوحه النِهايات. مِن الاِهْتِمامِ الخاصِّ بِالنِسْبَةِ لَنا هُوَ تَقْطِير الخوارزميه (AD)، وَهُوَ طَرِيقَةِ تَعْلَم تَعْزِيزِ بَيانَيَّ فِي السِياقِ (laskin2023incontext). عَلَى وَجْهِ التَحْدِيدِ، AD هُوَ طَرِيقَةِ تَعْلَم تَعْزِيزِ بَيانَيَّ فِي السِياقِ غَيْرِ مُتَّصِل. بِشَكْلٍ أَساسِيٌّ، AD خالٌ مِن التَدَرُّجات—يَتَكَيَّف مَعَ المَهامّ اللاحِقَةِ دُونِ تَحْدِيثِ مُعَلِّمات شَبَكَته.

عَدَمِ اليَقِينِ المَعْرِفِيِّ فِي تَنَبُّؤ نَمُوذَجَ التَسَلْسُل

يُعالَج DT، المَعْرُوفُ أَيْضاً بِاِسْمِ RL المَقْلُوب، مُشْكِلَةِ تَعْلَم السِياسَةِ دُونِ اِتِّصالٍ كَمُشْكِلَة فِي نمذجه التَسَلْسُل. فِي هٰذا القِسْمِ، نَنْظُر فِي نَمُوذَجَ تَسَلْسُلُ عامَ وَنُحَلِّل عَدَمِ اليَقِينِ التَنَبُّؤِيّ لَهُ.

لِتَكُن \(\mX_{1:T}=(\vx_1, \ldots, \vx_T)\) تَسَلْسُلا مِن المدخلات بِطُولِ \(T\) وَ\(\mY_{1:T} = (\vy_1, \ldots, \vy_T)\) تَسَلْسُلا مُقابِلاً مِن المُخْرِجات. نَفْتَرِض أَنَّ تَسَلْسُلُ المُخْرِجات يَتِمّ تَوْلِيده وِفْقاً لِتَوْزِيعِ اِحْتِمالَيَّ خَطْوِي مُعَلِّمٍ ب \(\vtheta\)، \(\vy_t \sim p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}, \vtheta)\). يَتِمّ تَوْلِيدِ كُلِّ تَسَلْسُلُ بِمَعامِل مُخْتَلِفِ مَأْخُوذ مِن تَوْزِيعِهِ الأُولَى، \(\vtheta \sim p(\vtheta)\). هٰذِهِ تُحَدِّد تَوْزِيعاً توليديا لَتَسَلْسُل: \[p(\mY_{1:T}, \vtheta | \mX_{1:T}) = p(\vtheta) p(\vy_1| \vx_1)\prod_{t=2}^Tp(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}, \vtheta).\] غالِباً ما يَعْرِف مُهِمَّةً نمذجه التَسَلْسُل بِأَنَّها تَدْرِيبِ نَمُوذَجَ ذاتِيٍّ الاِرْتِداد مُعَلِّمٍ ب \(\vpsi\)، \(p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\)، بِناءَ عَلَى مَجْمُوعَةِ بَياناتٍ مِن التَسَلْسُلات \(\mathcal{D} = \{\mX^{(i)}, \mY^{(i)}\}_i\) المُوَلِّدَة مِن التَوْزِيعِ التوليدي المَجْهُولِ أَعْلاه. فِي حَدٍّ البَياناتِ اللانِهائِيَّةُ، يُمْكِن صِياغَةِ هَدَفَ التَعَلُّمِ بِالاِحْتِمال الأَقْصَى لَنَمُوذَج التَسَلْسُل أَعْلاه ك \(\vpsi* = \argmax_{\vpsi} \mathcal{L}_\vpsi\), \[\label{eqn:ml_objective} \begin{split} \mathcal{L}_\vpsi =& - \sum_t \int p(\mY_{1:t-1} | \mX_{1:t-1}) \\ &\KL\left(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})|| p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\right) d \mY_{1:t-1} +C, \end{split}\] حَيْثُ \(\KL(\cdot || \cdot)\) يُشِير إِلَى اِنْحِرافٍ كولباك ليبلر وَ\(C\) ثابِتٌ بِالنِسْبَةِ لِ \(\vpsi\).

التَوْزِيعِ فِي الجانِبِ الأَيْسَر فِي مُصْطَلَحُ الانتروبيا المُتَقاطِعَة \(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\) هُوَ التَوْزِيعِ التَنَبُّؤِيّ الحَقِيقِيِّ لِ \(\vy_t|\vx_t\) مَشْرُوطا عَلَى التارِيخِ المُلاحَظِ \(\mY_{1:t-1}\) وَ\(\mX_{1:t-1}\)، وَالَّذِي يُمْكِن كِتابَته كَالتالِي: \[p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) = \int p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}, \vtheta) p(\vtheta | \mX_{1:t-1}, \mY_{1:t-1}) d \vtheta,\] حَيْثُ \[p(\vtheta| \mX_{1:t-1}, \mY_{1:t-1}) = \frac{p(\vtheta) p(\mY_{1:t-1} | \mX_{1:t-1}, \vtheta)}{\int p(\vtheta') p(\mY_{1:t-1} | \mX_{1:t-1}, \vtheta') d\vtheta'}.\] كَما هُوَ مُوَضِّح أَعْلاه، يَحْتَوِي التَوْزِيعِ التَنَبُّؤِيّ الحَقِيقِيِّ لِ \(\vy_t|\vx_t\) عَلَى كُلِّ مِن عَدَمِ اليَقِينِ العَشْوائِيِّ وَعَدَمِ اليَقِينِ المَعْرِفِيِّ، حَيْثُ يسا Contributed by \(p(\vtheta | \mX_{1:t-1}, \mY_{1:t-1})\). مَعَ بَياناتٍ كافِيَةٍ وَقُدْرَةِ نَمُوذَجِيَّةٍ، سَيَتِمّ تَدْرِيبِ التَوْزِيعِ التوليدي فِي نَمُوذَجَ التَسَلْسُل \(p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\) لِيَتَطابَق مَعَ التَوْزِيعِ التَنَبُّؤِيّ الحَقِيقِيِّ. نَتِيجَةَ لِذٰلِكَ، يُمْكِننا تَوَقَّعَ أَنَّ يَتَضَمَّن عَدَمِ اليَقِينِ المَعْرِفِيِّ فِي التَوْزِيعِ التَنَبُّؤِيّ لَنَمُوذَج التَسَلْسُل. لاحَظَ أَنَّ التَوْزِيعِ التَنَبُّؤِيّ يُمْكِن أَنَّ يَلْتَقِط عَدَمِ اليَقِينِ المَعْرِفِيِّ فِيما يَتَعَلَّق بِمُعامَلات التَسَلْسُل \(\vtheta\)، وَلٰكِنَّهُ لا يَشْمَل عَدَمِ اليَقِينِ المَعْرِفِيِّ بِشَأْنِ المُعامَلاتِ الفائِقَةِ (إِذا كانَت مَوْجُودَةٌ).

تَعْلَم السِياساتِ فِي سِياقِ مُحَدَّدٍ

الشَكُّ الابستمولوجي هُوَ المُكَوَّنِ الأَساسِيُّ لِ EE. مَعَ مُلاحَظَةُ أَنَّ نَمُوذَجَ تَوْزِيعِ التَنَبُّؤ يَحْتَوِي عَلَى شَكَّ ابستمولوجي، نُصَمِّم خوارزميه تَعْلَم سِياساتِ فِي سِياقِ مُحَدَّدٍ مَعَ EE.

نَعْتَبِر مُشْكِلَةِ حَلٍّ مَجْمُوعَةِ مِن أَلْعابِ التَعَلُّمِ المُعَزِّز بِناءَ عَلَى بَياناتٍ غَيْرِ مُتَّصِله بِالشَبَكَةِ. مِن كُلِّ لُعْبَةِ، يَتِمّ جَمْعِ مَجْمُوعَةِ مِن المَساراتِ مِن عَدَدٍ مِن السِياساتِ، حَيْثُ هُوَ مَسارِ الحَلْقَةِ \(k\)-th لِلُعْبَةِ \(i\)-th وَ \(\vo\)، \(\va\)، \(r\) تَدُلّ عَلَى الحالَةِ المَرْصُودَة، الفِعْلِ وَالمُكافَأَة عَلَى التَوالِي. السِياسَةِ المُسْتَخْدَمَةِ لِجَمْعِ \(\tau_k^{(i)}\) تَعْرِف ب \(\pi_k^{(i)}(\va_{k,t}^{(i)}|\vo_{k,t}^{(i)})\). نَقُوم بِدَمْجِ جَمِيعِ الحَلَقاتِ لِلُعْبَةِ \(i\)-th فِي تَسَلْسُلُ واحِدٍ \(\vtau^{(i)} = (\tau_1^{(i)}, \ldots, \tau_K^{(i)})\). لِلتَسْهِيل، سَيَتِمّ حَذْفَ الأَسْطُر العُلْيا \(^{(i)}\) فِي النَصِّ التالِي ما لَم يُشار صَراحَةً إِلَى اللُعْبَةِ \(i\)-th.

نَقْتَرِح نَمُوذَجَ تَسَلْسُلُ يَتِمّ تَدْرِيبه لِلتَنَبُّؤ خَطْوَةٍ بِخَطْوَةٍ ب \(p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t})\)، حَيْثُ \(R_{k,t}\) هُوَ العائِدِ المُتَبَقِّي فِي الحَلْقَةِ \(k\)-th وَالخَطْوَة الزَمَنِيَّةِ \(t\) وَ \(\mH_{k,t}=(\tau_{k, 1:t-1}, \vtau_{1:k-1})\) هُوَ التارِيخِ حَتَّى الخَطْوَةِ الزَمَنِيَّةِ \(t\) بِما فِي ذٰلِكَ الحَلَقاتِ السابِقَةِ. صِياغَةِ النَمُوذَجِ أَعْلاه مُشابِهَةٍ لِ DT وَلٰكِن تَسَلْسُلُ فِي DT يَحْتَوِي فَقَط عَلَى حَلْقَةِ واحِدَةٍ. عِلْماً بِأَنَّهُ، عَلَى عَكْسَ AD، لا يُلْزِم أَنَّ تَكُون المَساراتِ المُتَتالِيَةِ مِن خوارزميه تَعْلَم التَعَلُّمِ المُعَزِّز.

كَما هُوَ مُوَضِّح فِي القِسْمِ السابِقِ، مِن خِلالَ القِيامِ بِالتَعَلُّم بِالاِحْتِمال الأَقْصَى عَلَى المَساراتِ المُجَمَّعَة، سَيَتِمّ تَدْرِيبِ التَوْزِيعِ التَنَبُّؤِيّ لِيَتَطابَق مَعَ التَوْزِيعِ اللاحِقِ الحَقِيقِيِّ لِفِعْلِ سِياسَةِ جَمْعِ البَياناتِ، \[\label{eqn:true_action_posterior} p(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) = \frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\pi_k(\va_{k,t}|\vo_{k,t})}{\int p(R_{k,t}| \va_{k,t}', \vo_{k,t}, \mH_{k,t})\pi_k(\va_{k,t}'|\vo_{k,t}) d \va_{k,t}'},\] حَيْثُ \(p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\) هُوَ تَوْزِيعِ العائِدِ بُعْدَ الخَطْوَةِ الزَمَنِيَّةِ \(t\) التالِيَةِ لِ \(\pi_k\).

كَما هُوَ مُوَضِّح فِي ([eqn:true_action_posterior])، التَوْزِيعِ اللاحِقِ لِلفِعْل مُتَحَيِّز نَحْوَ سِياسَةِ جَمْعِ البَياناتِ. اِتِّباعِ مِثْلَ هٰذا التَوْزِيعِ لِلفِعْل يَسْمَح لَنا بِإِعادَةِ إِنْتاجِ المَساراتِ الَّتِي تَمَّ إِنْشاؤها بِواسِطَةِ سِياسَةِ جَمْعِ البَياناتِ وَلٰكِن سَيُؤَدِّي إِلَى إِعادَةِ إِنْشاءِ مَساراتٍ غَيْرِ مِثالِيَّةٍ إِذا لَم تَكُن سِياسَةِ جَمْعِ البَياناتِ مِثالِيَّةٍ. تَوْزِيعِ الفِعْلِ الأَكْثَرَ مُلاءَمَةِ هُوَ تَوْزِيعِ الفِعْلِ الَّذِي يَتَوافَق مَعَ العائِدِ المُحَدَّدِ دُونِ تَأْثِيرِ سِياسَةِ جَمْعِ البَياناتِ، أَيّ \[\label{eqn:unbiased_action_posterior} \hat{p}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) = \frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\mathcal{U}(\va_{k,t})}{\int p(R_{k,t}| \va_{k,t}', \vo_{k,t}, \mH_{k,t}) \mathcal{U}(\va_{k,t}') d \va_{k,t}'},\] حَيْثُ \(\mathcal{U}(\va_{k,t})\) هِيَ السِياسَةِ العَشْوائِيَّةِ المُوَحَّدَةِ، الَّتِي تُعْطِي جَمِيعِ الأَفْعال اِحْتِمالاتِ مُتَساوِيَةً. لَتَمْكِين نَمُوذَجَ التَسَلْسُل مِن تَعْلَم تَوْزِيعِ الفِعْلِ غَيْرِ المُتَحَيِّز، يَجِب تَعْرِيفٍ الهَدَفَ الاِحْتِمالِيّ الأَقْصَى عَلَى النَحْوِ التالِي \[\mathcal{L}_{\vpsi} =\sum_{k,t} \int \hat{p}(R_{k,t}, \va_{k,t} |\vo_{k,t}, \mH_{k,t}) \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) dR_{k,t} d \va_{k,t}.\] بُعْدَ تَطْبِيقِ حِيلَةٍ أَخَذَ العَيْنات حَسَبَ الأَهَمِّيَّةِ، يُمْكِن اِسْتِنْتاجِ تَقْرِيبِ مَوَّنْتُ كارْلُو لِلهَدَف أَعْلاه كَما يَلِي \[\label{eqn:action_correction_obj} \mathcal{L}_{\vpsi} \approx \sum_{k,t} \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}),\] حَيْثُ \(\va_{k,t} \sim \pi_k(\va_{k,t}|\vo_{k,t})\) وَ \(R_{k,t} \sim p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\)، أَيّ أَنَّ \(\va_{k,t}\) وَ \(R_{k,t}\) يَتِمّ آخُذهما مِن سِياسَةِ جَمْعِ البَياناتِ \(\pi_k\).

تَصْمِيمِ العَوْدَةِ إِلَى الهَدَفَ

العَوْدَةِ إِلَى الهَدَفَ هِيَ مُكَوِّن حاسِمٍ فِي (DT) لِحَلِّ مَهامِّ (RL) فِي الاِسْتِدْلال بِاِسْتِخْدامِ نَمُوذَجَ تَسَلْسُلَيَّ مُدَرِّبُ. تَمَّ تَصْمِيمِ نِظامِ العَوْدَةِ إِلَى الهَدَفَ لِحِسابِ إِشارَةٍ العائِدِ المُتَوَقَّعَةِ مِن حَلْقَةِ واحِدَةٍ. مِن أَجْلِ تَحْقِيقِ تَعْلَم السِياساتِ فِي سِياقِها، نُصَمِّم العَوْدَةِ إِلَى الهَدَفَ عَبْرَ الحَلَقاتِ.

تَتَكَوَّن العَوْدَةِ إِلَى الهَدَفَ مِن (DT) مِن مُكَوِّنَيْنِ: واحِدٍ لِلخَطَوات الفَرْدِيَّةِ داخِلَ حَلْقَةِ وَالآخَرِ لِلسُلُوك عَبْرَ الحَلَقاتِ، \(R_{k,t} = (c_{k,t}, \tilde{c}_k)\). تَتْبَع العَوْدَةِ إِلَى الهَدَفَ داخِلَ الحَلْقَةِ \(c_{k,t}\) التَصْمِيمِ المُسْتَخْدِمُ فِي (NEURIPS2021_7f489f64)، وَالَّذِي يَعْرِف بِأَنَّهُ المُكافَآتُ التراكميه اِبْتِداءَ مِن الخَطْوَةِ الحالِيَّةِ \(c_{k,t} = \sum_{t'>t} r_{k, t'}\). يَسْتَعِير هٰذا التَصْمِيمِ مَفْهُومِ المُكافَأَةَ التراكميه لِ (RL) وَلَهُ فائِدَةٍ تَضْمِينِ مَعْلُوماتٍ المُكافَآتُ المُسْتَقْبَلِيَّةِ الَّتِي تَتْبَع السِياسَةِ. هٰذا مُفِيدٌ جِدّاً عِنْدَما تَعْتَمِد نَتائِجِ الخَطَواتِ المُسْتَقْبَلِيَّةِ بِشِدَّةٍ عَلَى حالَةِ وَفِعْل الخَطْوَةِ الحالِيَّةِ. يَسْمَح ذٰلِكَ بِتَمْيِيز الفِعْلِ الَّذِي يُؤَدِّي إِلَى نَتِيجَةَ مُسْتَقْبَلِيَّةٍ جَيِّدَةٍ عَن الفِعْلِ الَّذِي يُؤَدِّي إِلَى نَتِيجَةَ سَيِّئَةٌ فِي نَمُوذَجَ التَسَلْسُل. الجانِبِ السَلْبِيِّ هُوَ أَنَّهُ مَعَ سِياسَةِ جَمْعِ البَياناتِ غَيْرِ الخَبِيرَة، غالِباً ما لا يُلاحِظ العَوْدَةِ إِلَى الهَدَفَ المِثالِيُّ فِي كُلِّ حالَةِ. هٰذا سَيَحُدّ مِن قُدْرَةِ نَمُوذَجَ التَسَلْسُل عَلَى تَحْقِيقِ أَداءِ أَفْضَلَ مِن سِياسَةِ جَمْعِ البَياناتِ فِي وَقْتٍ الاِسْتِدْلال.

فِي تَصْمِيمِ العَوْدَةِ إِلَى الهَدَفَ عَبْرَ الحَلَقاتِ، الوَضْعِ مُخْتَلِفِ. الحالاتِ الأَوَّلِيَّةِ لِلحَلَقات الفَرْدِيَّةِ مُسْتَقِلَّةٍ عَن بِعَضُّها البَعْضُ. ما يُحَدِّد المُكافَآتُ التراكميه لِلحَلَقات الفَرْدِيَّةِ هُوَ تَسَلْسُلُ الأَفْعال. إِذا اِعْتَبَرْنا مُجْمَلَ فَضاءِ السِياساتِ كَفَضاء الأَفْعال لِكُلِّ حَلْقَةِ، فَإِنَّ اِتِّخاذِ القَراراتِ عَبْرَ الحَلَقاتِ يَكُون أَقْرَبِ إِلَى (MAB)، حَيْثُ السِياسَةِ هِيَ الفِعْلِ وَعائِد الحَلْقَةِ هُوَ مُكافَأَةٍ (MAB). مَدْفُوعاً بِهٰذِهِ المُلاحَظَةُ، نَعْرِف العَوْدَةِ إِلَى الهَدَفَ بِناءَ عَلَى تَحْسِينِ عائِدٌ الحَلْقَةِ الحالِيَّةِ مُقارَنَةً بِجَمِيعِ الحَلَقاتِ السابِقَةِ. عَلَى وَجْهِ التَحْدِيدِ، نَعْرِف العَوْدَةِ إِلَى الهَدَفَ عَبْرَ الحَلَقاتِ كَما يَلِي: \[\tilde{c}_k = \begin{cases} 1 & \quad \bar{r}_k > \max_{1\leq j \leq k-1} \bar{r}_j,\\ 0 & \quad \text{otherwise}. \end{cases}\] حَيْثُ \(\bar{r}_k = \sum_t r_{k,t}\) هُوَ المُكافَأَةَ التراكميه لِلحَلْقَة ال\(k\)-th. بَدِيهِيّا، فِي وَقْتٍ الاِسْتِدْلال، مِن خِلالَ الشَرْطُ عَلَى \(\tilde{c}_k =1\)، نَتَّخِذ أَفْعالاً مِن سِياسَةِ “مُعَيَّنَةٍ” وِفْقاً لِاِحْتِمالَيْهِ كَوْنُها أَفْضَلَ مِن جَمِيعِ الحَلَقاتِ السابِقَةِ. هٰذا يُشَجِّع نَمُوذَجَ التَسَلْسُل عَلَى تَقْدِيمِ أَداءِ أَفْضَلَ بُعْدَ جَمْعِ المَزِيدِ وَالمَزِيدِ مِن الحَلَقاتِ. يَتَجَنَّب هٰذا التَصْمِيمِ القُيُودِ المُتَعَلِّقَةِ بِالحاجَةِ إِلَى مُراقَبَةِ مَساراتٍ تَعْلَم السِياسَةِ المُثْلَى.

اِسْتِدْلال الفِعْلِ. بُعْدَ تَدْرِيبِ نَمُوذَجَ التَسَلْسُل، يُمْكِن اِسْتِخْدامِ النَمُوذَجِ لَأَداء تَعْلَم السِياسَةِ مِن الصِفْرِ. فِي كُلِّ خَطْوَةٍ، نَأْخُذ عَيِّنَةً مِن فِعْلٍ مِن نَمُوذَجَ التَسَلْسُل مَشْرُوطا عَلَى المَسارُ حَتَّى الآنَ وَعَوْدَةِ إِلَى الهَدَفَ لِلخَطْوَة. تَعْرِف العَوْدَةِ إِلَى الهَدَفَ لِأَخْذِ عَيِّنَةً الفِعْلِ عَلَى النَحْوِ التالِي. دائِماً ما يَتِمّ ضَبْطِ العَوْدَةِ إِلَى الهَدَفَ عَبْرَ الحَلَقاتِ \(\tilde{c}_k\) عَلَى واحِدٍ لِتَشْجِيعِ تَحْسِيناتٍ السِياسَةِ. بِالنِسْبَةِ لِلعَوْدَةِ إِلَى الهَدَفَ داخِلَ الحَلْقَةِ، نَتْبَع اِسْتِدْلال الفِعْلِ المُقْتَرَحِ بِواسِطَةِ (NEURIPS2022_b2cac94f). خِلالَ تَدْرِيبِ (DT)، يَتِمّ تَدْرِيبِ نَمُوذَجَ تَسَلْسُلُ مُنْفَصِل لِلتَنَبُّؤ بِالعائِد المُنْقَسِم مِن المَساراتِ، \(p_{\vphi}(c_{k,t} | \tilde{c}_k, \vo_{k,t}, \mH_{k,t})\). فِي وَقْتٍ الاِسْتِدْلال، يَتِمّ أَخَذَ عَيِّنَةً مِن العَوْدَةِ إِلَى الهَدَفَ داخِلَ الحَلْقَةِ لِكُلِّ خَطْوَةٍ مِن تَوْزِيعِ مُعَزِّز \[q(c_{k, t}) \propto p_{\vphi}(c_{k,t} | \tilde{c}_k, \vo_{k,t}, \mH_{k,t})(\frac{c_{k,t} - c_{\min}}{c_{\max}- c_{\min}})^{\kappa}.\] يَمِيل هٰذا التَعْزِيز تَوْزِيعِ العَوْدَةِ إِلَى الهَدَفَ نَحْوَ القِيَمِ الأَعْلَى، مِمّا يُشَجِّع العامِلِ عَلَى اِتِّخاذِ أَفْعالٍ تُؤَدِّي إِلَى عَوائِد أَفْضَلَ. لا يَتِمّ دَمْجِ التَنَبُّؤ بِالعائِد فِي نَمُوذَجَ التَسَلْسُل الرَئِيسِيُّ كَما فِي (NEURIPS2022_b2cac94f)، لِأَنَّ العَوائِد تَدَخُّلٍ أَيْضاً فِي المدخلات. بِهٰذِهِ الطَرِيقَةِ، يَكْتَشِف النَمُوذَجِ بِسُرْعَةٍ أَنَّ \(c_{k,t}\) يُمْكِن التَنَبُّؤ بِهِ مِن \(c_{k, t-1}\). هٰذِهِ مُشْكِلَةِ لِأَنَّ العائِدِ الحَقِيقِيِّ لا يُمْكِن مُلاحَظَته حَتَّى نِهايَةِ حَلْقَةِ.

بُعْدَ أَخَذَ عَيِّنَةً مِن \(c_{k,t}\)، يَتِمّ أَخَذَ عَيِّنَةً مِن فِعْلٍ مَشْرُوطٌ عَلَى العَوْدَةِ إِلَى الهَدَفَ المُجَمَّعَة \(R_{k,t}\). يَتِمّ دَمْجِ الحالَةِ الناتِجَةِ وَالمُكافَأَة فِي المَسارُ لِلتَنَبُّؤ بِفِعْلِ الخَطْوَةِ التالِيَةِ. فِي نِهايَةِ حَلْقَةِ، سَنُعِيد حِسابِ العَوْدَةِ إِلَى الهَدَفَ الحَقِيقِيَّةِ \(c_{k,t}\) وَ \(\tilde{c}_k\) بِناءَ عَلَى المُكافَآتُ مِن الحَلْقَةِ بِأَكْمَلِها وَتَحْدِيثٍ العَوْدَةِ إِلَى الهَدَفَ فِي المَسارُ بِالقِيَمِ المُعاد حِسابها. هٰذا يَجْعَل المَسارُ فِي وَقْتٍ الاِسْتِدْلال قَرِيباً قَدْرَ الإِمْكانِ مِن مَساراتٍ التَدْرِيبِ. يُمْكِن العُثُورِ عَلَى وَصَفَ خوارزميه اِسْتِدْلال الفِعْلِ فِي الخوارزميه (alg:action_infer).

تَجارِبِ التَحْسِين البيزي

التَحْسِين البيزي (BO) هُوَ تَطْبِيقِ ناجِح جِدّاً لِاِسْتِكْشافِ الاِسْتِغْلالِ (EE). يُمْكِنه البَحْثِ عَن الأَمْثَلُ لَوَظِيفَة بِأَقَلِّ عَدَدٍ مِن تَقْيِيمات الوَظِيفَةِ. تَمَّ اِسْتِخْدامِ طُرُقٍ التَحْسِين البيزي المُعْتَمَدَةِ عَلَى عَمَلِيَّةِ غاوس (GP) عَلَى نِطاقِ واسِعٍ فِي مَجالاتِ مُخْتَلِفَةٍ مِثْلَ ضَبْطِ المُعَلِّماتُ الفائِقَةِ، وَاِكْتِشافِ الأَدْوِيَةِ، وَتَحْسِينِ الديناميكا الهَوائِيَّةُ. لَتَقْيِيم أَداءِ EE لِ ours، نُطَبِّقه عَلَى BO وَنُقارِنه بِطَرِيقَةٍ مُعْتَمَدَةً عَلَى GP بِاِسْتِخْدامِ واحِدَةٍ مِن أَكْثَرَ وَظائِفِ الاستحواذ اِسْتِخْداما، التَحْسِين المُتَوَقَّعِ (EI).

نَحْنُ نَعْتَبِر مُشْكِلَةِ التَحْسِين البيزي المُنْفَصِلَة. المُهِمَّةِ هِيَ العُثُورِ عَلَى المَوْقِعِ مِن مَجْمُوعَةِ ثابِتَةٍ مِن النِقاطِ الَّتِي لَدَيها أَقَلَّ قِيمَةَ وَظِيفِيّه بِأَقَلِّ عَدَدٍ مِن تَقْيِيمات الوَظِيفَةِ قَدْرَ الإِمْكانِ. يُمْكِن اِعْتِبارِ BO كَنَوْع خاصٍّ مِن العِصاباتِ مُتَعَدِّدَةِ الأَذْرُع (MAB)، حَيْثُ يَرْتَبِط كُلِّ عَمَلٍ بِمَوْقِع فِي مِساحَةِ مَحْدُودَةٍ. لِحَلِّ BO بِاِسْتِخْدامِ ours، نَقُوم بترميز مَسارِ البَحْثِ التَكْرارِيّ لَوَظِيفَة كَتَسَلْسُل واحِدٍ، حَيْثُ \(\va_t\) هُوَ مَوْقِعِ يَتِمّ فِيهِ جَمْعِ قِيمَةَ الوَظِيفَةِ فِي الخَطْوَةِ \(t\)، \(r_t\) هِيَ قِيمَةَ الوَظِيفَةِ المُقابَلَةِ وَ \(R_t\) هُوَ العائِدِ المُتَبَقِّي. يُمْكِن اِسْتِخْدامِ المُلاحَظاتِ \(\{\vo_t\}\) لترميز أَيّ مَعْلُوماتٍ جانِبِيَّةٍ مَعْرُوفَةٍ عَن الوَظِيفَةِ وَالحَدُّ الأَدْنَى. نَظَراً لِعَدَمِ تُوَفِّر مِثْلَ هٰذِهِ المَعْلُوماتِ لِ BO العامِّ، فَإِنَّنا لا نَسْتَخْدِم \(\{\vo_t\}\) فِي تَجْرِبَتنا. نَظَراً لِأَنَّ قِيمَةَ الوَظِيفَةِ يُمْكِن اِعْتِبارِها المُكافَأَةَ الفَوْرِيَّةِ المُتاحَةِ، فَإِنَّنا نُعامِل كُلِّ عَمَلٍ كَحَلْقَة مُخْتَلِفَةٍ وَنَسْتَخْدِم فَقَط العائِدِ المُتَبَقِّي ك \(R_t\) هُنا. نَظَراً لِأَنَّ كُلِّ عَمَلٍ مُرْتَبِطٌ بِمَوْقِع، فَإِنَّنا نَقُوم بِتَضْمِينِ الإِجْراءاتِ مِن خِلالَ تَعْلَم إِسْقاطِ خُطَى بَيِّنَ مِساحَةِ المَوْقِعِ وَمِساحَةٌ التَضْمِين. عِنْدَ فَكِّ تشفير إِخْراجِ Transformer لِإِجْراءِ، يَتِمّ إِنْشاءِ لُوغارِيتْم الإِجْراءَ بِاِسْتِخْدامِ MLP الَّذِي يَأْخُذ كمدخلات إِخْراجِ Transformer جَنْباً إِلَى جَنْبٍ مَعَ التَضْمِين المُرْتَبِطُ بِالإِجْراء. التَصْمِيمِ هُوَ لِمُواجَهَةِ التَحَدِّي الَّذِي قَد تَكُون مَجْمُوعَةِ المَواقِعِ لِكُلِّ وَظِيفَةٍ مُخْتَلِفَةٍ.

لِتَدْرِيبِ ours لِحَلِّ مُشْكِلَةِ التَحْسِين البيزي المُنْفَصِلَة، نَحْتاج إِلَى تَوْلِيدِ بَياناتٍ تَدْرِيبِ تَتَكَوَّن مِن أَزْواج إِدْخالُ-إِخْراجِ لَوَظائِف تَمَّ أَخَذَ عَيِّناتٍ مِنها بِشَكْلٍ عَشْوائِيٍّ. أَثْناءَ التَدْرِيبِ، يَتِمّ تَوْلِيدِ أَزْواج الإِدْخال-الإِخْراج فِي المَواقِعِ العَشْوائِيَّةِ عَلَى الفَوْرِ. نَسْتَخْدِم GP مَعَ نَواةِ Matérn 5/2 لِأَخْذِ عَيِّناتٍ مِن 1024 نُقْطَةً لِكُلِّ وَظِيفَةٍ. يَتِمّ أَخَذَ عَيِّناتٍ مِن مَواقِعِ هٰذِهِ النِقاطِ مِن تَوْزِيعِ مُوَحَّدٍ عَلَى \([0, 1]\). يَتِمّ أَخَذَ عَيِّناتٍ مِن مَقايِيسِ الطُولَ لِلنَواة مِن تَوْزِيعِ مُوَحَّدٍ عَلَى \([0.05, 0.3]\).

بُعْدَ تَدْرِيبِ ours، نَقُوم بِتَقْيِيم أَدائه عَلَى مَجْمُوعَةِ مِن وَظائِفِ المِعْيار 2D. نَسْتَخْدِم 16 وَظائِفِ 2D الَّتِي تَمَّ تَنْفِيذِها فِي (KimJ2017bayeso). يَتِمّ تَطْبِيعِ مِساحَةِ الإِدْخال لِكُلِّ وَظِيفَةٍ لِتَكُون بَيِّنَ 0 وَ 1. نَقُوم بِأَخْذِ عَيِّناتٍ مِن مَجْمُوعَةِ مُخْتَلِفَةٍ مِن 1024 نُقْطَةً مِن كُلِّ وَظِيفَةٍ وَتَطْبِيعُ قِيَمِ الوَظِيفَةِ الناتِجَةِ لِتَكُون بِمُتَوَسِّطِ صِفْر وَتَبايُنٍ وَحْدَةِ. تَمَّ إِعْطاءِ كُلِّ وَظِيفَةٍ خَمْسِ تَجارِبِ بِتَصامِيم أَوَّلِيَّةً مُخْتَلِفَةٍ. فِي كُلِّ خَطْوَةٍ مِن البَحْثِ، نَحْسِب الفِرَقِ فِي قِيمَةَ الوَظِيفَةِ بَيِّنَ التَقْدِيرِ الحالِيَّ الأَفْضَلِ وَالحَدُّ الأَدْنَى الحَقِيقِيِّ. يَتِمّ عَرَضَ الأَداءِ العامِّ لِجَمِيعِ الوَظائِفِ المُقِيمَةِ فِي الشَكْلِ [fig:bo_exp]. يَتِمّ مُقارَنَةً أَداءِ ours مَعَ طَرِيقَةِ التَحْسِين البيزي المُعْتَمَدَةِ عَلَى GP بِاِسْتِخْدامِ وَظِيفَةٍ الاستحواذ EI وَالأَساس العَشْوائِيِّ الَّذِي يَخْتار المَواقِعِ وِفْقاً لِاِحْتِمالَيْهِ عَشْوائِيَّةٍ مُوَحَّدَةٍ. “ours-biased” يُشِير إِلَى مُتَغَيِّر مِن ours الَّذِي لا يَسْتَخْدِم هَدَفَ تَصْحِيحِ التَحَيُّزِ العَمَلِ كَما هُوَ مُوَضِّح فِي ([eqn:action_correction_obj]). كَفاءَةِ البَحْثِ لِ ours مُماثِلَةٍ لِطَرِيقَةِ التَحْسِين البيزي المُعْتَمَدَةِ عَلَى GP مَعَ EI. كُلاهما أَفْضَلَ بِشَكْلٍ مَلْحُوظٍ مِن العَشْوائِيَّةِ وَأُفَضِّل بِشَكْلٍ مَلْحُوظٍ مِن ours-biased. الفَجْوَةِ فِي الأَداءِ بَيِّنَ ours وَ ours-biased تُظْهِر فُقْدانِ الكَفاءَة بِسَبَبِ التَوْزِيعِ المُتَعَلِّم المُتَحَيِّز لِلإِجْراءاتِ. القُدْرَةِ عَلَى الأَداءِ بِمُسْتَوَى مُماثِلٍ لِطَرِيقَةِ التَحْسِين البيزي المُتَقَدِّمَةِ تُظْهِر أَنَّ ours قادِرٌ عَلَى أَداءِ EE المُتَقَدِّمِ مَعَ الاِسْتِدْلال فِي السِياقِ.

مِيزَةً واضِحَةٍ لِ ours هِيَ أَنَّ البَحْثِ بِأَكْمَلِهِ يَتِمّ مِن خِلالَ اِسْتِدْلال النَمُوذَجِ دُونِ الحاجَةِ إِلَى أَيّ تَحْسِينِ تَدْرِيجِيٌّ. فِي المُقابِلِ، تَحْتاج طُرُقٍ التَحْسِين البيزي المُعْتَمَدَةِ عَلَى GP إِلَى تُناسِب وَظِيفَةٍ بَدِيلَةٍ GP فِي كُلِّ خَطْوَةٍ، مِمّا يُؤَدِّي إِلَى فِرَقِ كَبِيرٍ فِي السُرْعَةِ. يُظْهِر الشَكْلِ [fig:bo_exp_time] نَفْسِ نَتائِجِ البَحْثِ مَعَ المِحْوَرُ السيني كَوْنُهُ الوَقْتِ المنقضي. تَعْمَل جَمِيعِ الطُرُقِ عَلَى وَحْدَةِ مُعالَجَةِ الرُسُومات A100 واحِدَةٍ. بِفَضْلِ الاِسْتِدْلال فِي السِياقِ، ours أَسْرَعِ بِكَثِيرٍ مِن طُرُقٍ التَحْسِين البيزي التَقْلِيدِيَّةِ.

التَفاصِيلِ الإِضافِيَّة لِتَجارِبِ ال Bayesian Optimization

يُمْكِن العُثُورِ عَلَى المَزِيدِ مِن التَفاصِيلِ حَوْلَ تَجارِبِ ال Bayesian Optimization فِي المُلْحَقِ [sec:appendix_bo_exp].

تَجارِبِ التَعَلُّمِ المُعَزِّز

نَحْنُ نَسْتَكْشِف قُدْرَةِ التَعَلُّمِ السِياسِيِّ فِي السِياقِ لِ ours فِي مَشاكِلَ التَعَلُّمِ المُعَزِّز التسلسليه. لِإِظْهارِ قُدْرَةِ التَعَلُّمِ فِي السِياقِ، نُرَكِّز عَلَى عائِلاتِ البِيئات الَّتِي لا يُمْكِن حَلِّها مِن خِلالَ التَعْمِيمِ الفَوْرِيِّ لَنَمُوذَج مُدَرِّبُ مُسْبَقاً، لُذّاً فَإِنَّ التَعَلُّمِ السِياسِيِّ فِي السِياقِ ضَرُورِيٌّ لِحَلِّ المَهامّ. هٰذا يَعْنِي أَنَّ بِعَضِّ المَعْلُوماتِ المُهِمَّةِ لِنَجاحِ المُهِمَّةِ مَفْقُودَةٍ مِن تَمْثِيلِ الحالَةِ وَيَجِب اِكْتِشافها مِن قِبَلَ الوَكِيلَ. نَسْتَخْدِم بِيئَتَيْنِ مِن بِيئات العالَمِ الشَبَكِيّ فِي (NEURIPS2022_b2cac94f): غُرْفَةِ مَظْلِمَة وَمِفْتاح إِلَى بابِ مُظْلِمٍ. تَفاصِيلِها كَالتالِي.

الغُرْفَةِ المُظْلِمَة. تَجْرِي التَجْرِبَةِ فِي نَمُوذَجَ قَرارِ جُزْئِيٍّ مُراقِبٍ ثُنائِيٍّ الأَبْعاد، حَيْثُ يَتِمّ وَضْعِ وَكِيلُ داخِلَ غُرْفَةِ لِتَحْدِيدِ مَوْقِعِ نُقْطَةً هَدَفَ. يُمْكِن لِلوَكِيل الوُصُولِ إِلَى إِحْداثِيّات مَوْقِعِهِ \((x,y)\)، لٰكِنَّهُ غَيْرِ مُدْرِكٌ لَمَكان الهَدَفَ مِمّا يَتَطَلَّب مِنهُ اِسْتِنْتاجِ ذٰلِكَ مِن المُكافَآتُ المُسْتَلِمَة. أَبْعادَ الغُرْفَةِ هِيَ 9x9 مَعَ الإِجْراءاتِ المُمْكِنَةِ مِن قِبَلَ الوَكِيلَ تَشْمَل التَحَرُّكِ خَطْوَةٍ واحِدَةٍ إِمّا إِلَى اليَسارِ، اليَمِينِ، الأَعْلَى أَو الأَسْفَلِ، أَو البَقاءَ ثابِتاً، كُلِّ ذٰلِكَ ضِمْنَ طُولِ حَلْقَةِ مِن 20. عِنْدَ الاِنْتِهاءِ، يَتِمّ وَضْعِ الوَكِيلَ مَرَّةً أُخْرَى فِي مُنْتَصَفِ الخَرِيطَةِ. يَتِمّ النَظَرِ فِي نَوْعَيْنِ مِن البِيئات لِهٰذِهِ التَجْرِبَةِ: حالَةِ الغُرْفَةِ المُظْلِمَة حَيْثُ يَحْصُل الوَكِيلَ عَلَى مُكافَأَةٍ (r=1) فِي كُلِّ مَرَّةً يَتِمّ فِيها تَحْقِيقِ الهَدَفَ، وَحالَةُ الغُرْفَةِ المُظْلِمَة الصَعْبَةِ حَيْثُ المُكافَآتُ نادِرَةً (r=1 مَرَّةً واحِدَةٍ فَقَط لِتَحْقِيقِ الهَدَفَ). كَلْماً لَم تَكُن قِيمَةَ المُكافَأَةَ 1، سَتَعْتَبِر 0. بِخِلافِ (NEURIPS2022_b2cac94f)، نُحافِظ عَلَى حَجْمِ الغُرْفَةِ فِي الحالَةِ الصَعْبَةِ لِيَكُون 9 x 9.

المِفْتاحَ إِلَى البابَ المُظْلِمُ. هٰذا الإِعْدادُ مُشابِهٍ لِلغُرْفَةِ المُظْلِمَة، وَلٰكِن مَعَ مِيزاتِ تَحَدِّي إِضافِيَّةً. مُهِمَّةً الوَكِيلَ هِيَ تَحْدِيدِ مَوْقِعِ مِفْتاحَ غَيْرِ مَرْئِيّ لِتَلَقِّي مُكافَأَةٍ لِمَرَّةٍ واحِدَةٍ بِقِيمَةِ r=1، وَبُعْدَ ذٰلِكَ، تَحْدِيدِ مَوْقِعِ بابِ غَيْرِ مَرْئِيّ لِلحُصُولِ عَلَى مُكافَأَةٍ أُخْرَى لِمَرَّةٍ واحِدَةٍ بِقِيمَةِ r=1. خِلافٍ ذٰلِكَ، تَظَلّ المُكافَأَةَ عِنْدَ r=0. مَوْقِعِ الوَكِيلَ الأُولَى فِي كُلِّ حَلْقَةِ يَتِمّ إِعادَةِ تَعْيِينِهِ بِشَكْلٍ عَشْوائِيٍّ. حَجْمِ الغُرْفَةِ لا يَزال 9 x 9 وَلٰكِن طُولِ الحَلْقَةِ يَزِيد إِلَى 50 خَطْوَةٍ.

لِجَمْعِ البَياناتِ لِلتَدْرِيبِ غَيْرِ المُتَّصِل، نَقُوم بِأَخْذِ عَيِّناتٍ مِن مَجْمُوعَةِ مِن الأَلْعابُ الجَدِيدَةِ لِكُلِّ دَفْعَةً صَغِيرَةٌ. نَجْمَع \(K\) حَلَقاتِ مِن كُلِّ لُعْبَةِ. بِفَضْلِ قُدْرَةِ EE لِ ours، لا تَحْتاج البَياناتِ التَدْرِيبِيَّةِ أَنَّ تَكُون مِن خوارزميه تَعْلَم RL حَقِيقِيَّةٍ مِثْلَ شَبَكَةِ Q العَمِيقَةِ (DQN)، وَالَّتِي تَكُون مُكَلَّفَةٍ لِلتَشْغِيل. بَدَلاً مِن ذٰلِكَ، نَسْمَح لِسِياسَةِ جَمْعِ البَياناتِ الرَخِيصَةِ بِالعَمَلِ لِ \(K\) حَلَقاتِ بِشَكْلٍ مُسْتَقِلٍّ وَنَقُوم بِدَمْجِ الحَلَقاتِ الناتِجَةِ فِي تَسَلْسُلُ واحِدٍ. نَسْتَخْدِم نُسْخَةً \(\epsilon\)-الجَشِعَة مِن السِياسَةِ الأَمْثَلُ “الغِشِّ”. تَعْرِف السِياسَةِ مَوْقِعِ الهَدَفَ الَّذِي لا يَعْرِفه الوَكِيلَ وَسَتَتَحَرَّك مُباشَرَةً نَحْوَ الهَدَفَ بِاِحْتِمال \(1-\epsilon\) وَبِاِحْتِمال \(\epsilon\) سَتُتَّخَذ إِجْراءِ لا يَقْرُب الوَكِيلَ مِن الهَدَفَ. لِكُلِّ حَلْقَةِ، يَتِمّ أَخَذَ عَيِّنَةً \(\epsilon\) مِن تَوْزِيعِ مُوَحَّدٍ بَيِّنَ 0 وَ 1. بَدِيهِيّا، تَمْتَلِك هٰذِهِ السِياسَةِ بِعَضِّ الفُرَصِ لِحَلِّ لُعْبَةِ بِكَفاءَة عِنْدَما يَكُون \(\epsilon\) صَغِيراً وَلٰكِن فِي المُتَوَسِّطِ لا تَقَدَّمَ أَداءِ جَيِّداً. لِتَجارِبِ الغُرْفَةِ المُظْلِمَة، يَتَكَوَّن كُلِّ تَسَلْسُلُ مِن 50 حَلْقَةِ وَلِلمِفْتاح إِلَى البابَ المُظْلِمُ، يَتَكَوَّن مِن 20 حَلْقَةِ.

الغُرْفَةِ المُظْلِمَة (مُتَحَيِّزه). لِإِظْهارِ فَوائِدَ EE لِمُشْكِلَةِ التَعَلُّمِ المُعَزِّز التسلسلي عِنْدَما لا يُمْكِن أَنَّ تَكُون سِياسَةِ جَمْعِ البَياناتِ مِثالِيَّةٍ، نَقُوم بِإِنْشاءِ نُسْخَةً مُتَغَيِّره مِن بِيئَةُ الغُرْفَةِ المُظْلِمَة. فِي كُلِّ خَطْوَةٍ، تَتَّخِذ سِياسَةِ جَمْعِ البَياناتِ إِجْراءِ “اليَسارِ” بِاِحْتِمال \(2/3\) وَبِاِحْتِمال \(1/3\) تَتَصَرَّف كَما هُوَ مُوَضِّح أَعْلاه. فِي وَقْتٍ التَدْرِيبِ، يُمْكِن أَنَّ يَكُون الهَدَفَ فِي أَيّ مَكانٍ فِي الغُرْفَةِ وَ، فِي وَقْتٍ التَقْيِيم، سَيَظْهَر الهَدَفَ فَقَط عَلَى الجانِبِ الأَيْمَن حَيْثُ \(x>5\).

لِمَشاكِلِ التَعَلُّمِ المُعَزِّز التسلسليه، يَتَكَوَّن ours مِن نَمُوذَجَيْنِ تسلسليين: واحِدٍ لِتُوَقِّع الإِجْراءَ وَالآخَرِ لِتُوَقِّع العائِدِ المُتَبَقِّي داخِلَ الحَلْقَةِ. يَأْخُذ نَمُوذَجَ تَسَلْسُلُ العائِدِ المُتَبَقِّي كمدخلات تَسَلْسُلُ الثُلاثِيّات الحالَةِ، الإِجْراءَ، المُكافَأَةَ وَيَتَنَبَّآ بِالعائِد المُتَبَقِّي داخِلَ الحَلْقَةِ. يَأْخُذ نَمُوذَجَ تَوَقَّعَ الإِجْراءَ كمدخلات تَسَلْسُلُ الثُلاثِيّات وَالعائِدَيْنِ المُتَبَقِّيَيْنِ \(R_{k,t}\) وَيَتَنَبَّآ بِتَسَلْسُل الإِجْراءاتِ. يَتِمّ تَدْرِيبِ النَمُوذَجَيْنِ مَعاً بِنَفْسِ مُحْسِن التَدَرُّج. لِتَشْجِيعِ ours عَلَى حَلٍّ الأَلْعابُ بِسُرْعَةٍ، عِنْدَ حِسابِ العائِدِ المُتَبَقِّي داخِلَ الحَلْقَةِ، يُعْطَى مُكافَأَةٍ سَأَلُبّه، \(-1/T\)، لِكُلِّ خَطْوَةٍ لا تَتَلَقَّى مُكافَأَةٍ، حَيْثُ \(T\) هُوَ طُولِ الحَلْقَةِ. كُلّاً مِن \(\tilde{c}_k\) وَ\(c_{k,t}\) مُتَقَطِّعانِ وَمُمَيَّزانِ.

طُرُقٍ الأَساسِ

المَصْدَرُ. نَسْتَخْدِم سِياسَةِ جَمْعِ البَياناتِ كَأَساسٍ لِلمُقارَنَة. حَيْثُ تُحِلّ سِياسَةِ جَمْعِ البَياناتِ كُلِّ حَلْقَةِ بِشَكْلٍ مُسْتَقِلٍّ، نَحْسِب العائِدِ المُتَوَسِّطِ عَبْرَ عِدَّةٍ حَلَقاتِ.

تَقْطِير الخوارزميه (laskin2023incontext). خوارزميه التَعَلُّمِ فِي السِياقِ الَّتِي تَقْطُر خوارزميات التَعَلُّمِ المُعَزِّز مِن مَساراتٍ تَدْرِيبِ التَعَلُّمِ المُعَزِّز. تَقْطِير الخوارزميه يَتَنَبَّأ بِالفِعْلِ اِسْتِناداً فَقَط إِلَى الحالاتِ الحالِيَّةِ وَتارِيخَ الثُلاثِيّات الحالَةِ، الفِعْلِ وَالمُكافَأَة. نَحْنُ نَقُوم بِتَكْرار تَنْفِيذِ تَقْطِير الخوارزميه بِاِسْتِخْدامِ هَنْدَسَةُ المُحَوِّلُ كَما فِي ours. نُطَبِّق تَقْطِير الخوارزميه عَلَى نَفْسِ بَياناتٍ التَدْرِيبِ الَّتِي يَسْتَخْدِمها ours (متجاهلين إِشاراتٍ العَوْدَةِ إِلَى الذَهابِ)، عَلَى الرَغْمِ مِن أَنَّها مَوْلِده مِن مَساراتٍ تَعْلَم التَعَلُّمِ المُعَزِّز.

تَقْطِير الخوارزميه المُرَتَّب. تَمَّ تَصْمِيمِ تَقْطِير الخوارزميه لِيَتِمّ تَدْرِيبه عَلَى مَساراتٍ تَعْلَم التَعَلُّمِ المُعَزِّز. خاصَّيْهِ مُهِمَّةً لَمَسارات تَعْلَم التَعَلُّمِ المُعَزِّز هِيَ أَنَّ أَداءِ العامِلِ يَزْداد تَدْرِيجِيّاً خِلالَ التَدْرِيبِ. لَتَقْلِيد مِثْلَ هٰذِهِ المَساراتِ بِاِسْتِخْدامِ بَياناتنا، نَقُوم بِفَرْز الحَلَقاتِ فِي تَسَلْسُلُ وِفْقاً لِ \(\epsilon\) المُعَيَّنِ مِن سِياسَةِ جَمْعِ البَياناتِ بِتَرْتِيب تَنازُلِي. \(\epsilon\) يُحَدِّد مَدَى قُرْبَ سِياسَةِ جَمْعِ البَياناتِ مِن السِياسَةِ المُثْلَى. فِي هٰذا التَرْتِيبِ، تَمِيل الحَلَقاتِ فِي مَوْضِعَ لاحِقٍ مِن التَسَلْسُل إِلَى أَنَّ يَكُون لَها عائِدٌ أَعْلَى. نَقُوم بِتَدْرِيبِ تَقْطِير الخوارزميه بِاِسْتِخْدامِ هٰذِهِ التَسَلْسُلات المَرْتَبَةِ بَدَلاً مِن الأَصْلِيَّةِ.

مُحَوِّلِ القَرارِ مُتَعَدِّدِ الأَلْعابُ (NEURIPS2022_b2cac94f). مُحَوِّلِ القَرارِ مُتَعَدِّدِ الأَلْعابُ لَيِسَ خوارزميه تَعْلَم فِي السِياقِ. نَقُوم بِتَدْرِيبِ مُحَوِّلِ القَرارِ مُتَعَدِّدِ الأَلْعابُ بِاِسْتِخْدامِ حَلْقَةِ واحِدَةٍ فَقَط مِن كُلِّ لُعْبَةِ مُعَيَّنَةٍ. أَداءِ مُحَوِّلِ القَرارِ مُتَعَدِّدِ الأَلْعابُ يُظْهِر ما هُوَ أَداءِ العامِلِ عِنْدَما لا يُوجَد تَعْلَم سِياسَةِ فِي السِياقِ.

التَقْيِيم وَالنَتائِجِ

بُعْدَ التَدْرِيبِ، سَيَتِمّ تَقْيِيمِ OURS فِي حَلٍّ مَجْمُوعَةِ مِن الأَلْعابُ المُعَيَّنَة. يَتِمّ وَصَفَ خوارزميه الاِسْتِدْلال فِي Alg. [alg:action_infer]. لا يَتِمّ إِجْراءِ تَحْدِيثِ لِلنَمُوذَج عَبْرَ الإِنْتِرْنِت بِواسِطَةِ OURS وَجَمِيعِ الطُرُقِ الأَساسِيَّةِ فِي وَقْتٍ التَقْيِيم. لِكُلِّ لُعْبَةِ مُعَيَّنَةٍ، سَيَتَصَرَّف OURS وَنَوْعانِ مِن AD لِمُدَّةِ \(K\) حَلَقاتِ مُتَتالِيَةٍ. فِي كُلِّ حَلْقَةِ، يَتِمّ اِسْتِخْدامِ المَساراتِ مِن الحَلَقاتِ السابِقَةِ كَما هُوَ مُوَضِّح فِي تَمْثِيلِ التارِيخِ. مِن المِثالِيُّ أَنَّ يُحَدِّد العامِلِ الأَداءِ الجَيِّدِ المَعْلُوماتِ المَفْقُودَةَ بِأَقَلِّ عَدَدٍ مُمْكِنٍ مِن الحَلَقاتِ ثُمَّ يُعَظِّم العائِدِ فِي الحَلَقاتِ التالِيَةِ. لِكُلِّ مُشْكِلَةِ، نَقُوم بِأَخْذِ عَيِّنَةً مِن 100 لُعْبَةِ وَ\(K\) هُوَ 50 لِغُرْفَةِ الظَلامِ وَ20 لَمِفْتاح البابَ.

تُظْهِر نَتائِجِ التَجْرِبَةِ فِي Fig. [fig:rl_exp]. يُمْكِن لِ OURS حَلٍّ الأَلْعابُ المُعَيَّنَة بِكَفاءَة مُقارَنَةً بِالطُرُقِ الأَساسِيَّةِ. تَسْمَح قُدْرَةِ EE لِ OURS بِالبَحْث عَن المَعْلُوماتِ المَفْقُودَةَ بِكَفاءَة ثُمَّ يَتَصَرَّف بِثِقَةٍ بِمُجَرَّدِ العُثُورِ عَلَى المَعْلُوماتِ المَفْقُودَةَ. مُؤَشِّرُ لِهٰذا السُلُوكِ هُوَ الاِنْخِفاضِ المُسْتَمِرِّ لَتَشَتَّت الأَفْعال كَما يَخْتَبِر العامِلِ المَزِيدِ مِن الحَلَقاتِ.

كَما هُوَ مُتَوَقَّعٌ، يَتَعَلَّم AD الأَصْلِيُّ تَقْلِيدِ سِياسَةِ جَمْعِ البَياناتِ، مِمّا يُؤَدِّي إِلَى أَداءِ مُتَوَسِّطُ يَقِلّ قَلِيلاً عَن سِياسَةِ جَمْعِ البَياناتِ. يَفْشَل MGDT فِي حَلٍّ مُعْظَمَ الأَلْعابُ بِسَبَبِ المَعْلُوماتِ المَفْقُودَةَ. مِن المُثِيرِ لِلاِهْتِمامِ، عَلَى الرَغْمِ مِن أَنَّ بَياناتٍ التَدْرِيبِ لَم تَتَوَلَّد مِن خوارزميه تَعْلَم RL، فَإِنَّ AD-sorted قادِرٌ عَلَى اِسْتِنْساخِ سُلُوكِ سِياسَةِ جَمْعِ البَياناتِ ب \(\epsilon\) مُخْتَلِفِ فِي مَراحِلِ مُخْتَلِفَةٍ، مِمّا يَسْمَح لَهُ بِحَلِّ الأَلْعابُ فِي نِهايَةِ السِلْسِلَة.

لَم يَتِمّ عَرَضَ OURS-biased فِي Fig. [fig:rl_dark_room_easy], Fig. [fig:rl_dark_room_hard] وَ Fig. [fig:rl_key2door] حَيْثُ أَنَّهُ يُحَقِّق أَداءِ مُماثِلٍ لِ OURS. السَبَبِ هُوَ أَنَّهُ لا تُوجَد تَحِيز واضِحٍ فِي تَوْزِيعِ الأَفْعال لِسِياسَةِ جَمْعِ البَياناتِ. وَمَعَ ذٰلِكَ، كَما هُوَ مُوَضِّح فِي Fig. [fig:dark_room_easy_biased], بِالنِسْبَةِ لِبِيئَةٍ غُرْفَةِ الظَلامِ (مُتَحَيِّزه)، يَتَفَوَّق OURS بِوُضُوحٍ عَلَى OURS-biased، حَيْثُ يُمْكِنه التَغَلُّبُ عَلَى التَحَيُّزِ فِي سِياسَةِ جَمْعِ البَياناتِ وَالحِفاظِ عَلَى عَدَمِ اليَقِينِ الكافِي فِي تَوْزِيعِ الأَفْعال لِاِسْتِكْشافِ الجانِبِ الأَيْمَن مِن الغُرْفَةِ. يَفْشَل AD-sorted فِي المُهِمَّةِ لِأَنَّهُ يَسْتَنْسِخ سِياسَةِ جَمْعِ البَياناتِ، وَالَّتِي مِن غَيْرِ المُرَجِّحِ أَنَّ تُحِلّ المَهامّ بِسَبَبِ التَحَيُّزِ فِي الأَفْعال.

الخُلاصَةِ

فِي هٰذِهِ الوَرَقَةَ، نُحَلِّل التَوْزِيعِ التَنَبُّؤِيّ لَنَماذِج التَسَلْسُل وَنُظْهَر أَنَّ التَوْزِيعِ التَنَبُّؤِيّ يُمْكِن أَنَّ يَحْتَوِي عَلَى عَدَمِ اليَقِينِ الابستمولوجي، مِمّا يَلهم خَلْقُ خوارزميه EE. نُقَدِّم خوارزميه EE فِي السِياقِ بِتَوْسِيعِ صِيغَةِ DT إِلَى تَعْلَم السِياساتِ فِي السِياقِ وَاِشْتِقاق هَدَفَ تَدْرِيبِيٍّ غَيْرِ مُتَحَيِّز. مِن خِلالَ التَجارِبِ عَلَى مَشاكِلَ BO وَ RL المُنْفَصِلَة، نُظْهِر أَنَّ: (i) ours يُمْكِن أَنَّ يُؤَدِّي EE فِي التَعَلُّمِ فِي السِياقِ دُونِ الحاجَةِ إِلَى اِسْتِدْلال بِإِيزِي صَرِيحٍ؛ (ii) أَداءِ ours يُعادِل أَفْضَلَ طُرُقٍ BO دُونِ الحاجَةِ إِلَى تَحْسِينِ التَدَرُّج، مِمّا يُؤَدِّي إِلَى تَسْرِيعُ كَبِيرٍ؛ (iii) يُمْكِن حَلٍّ مَهامِّ RL جَدِيدَةٍ فِي غُضُونِ عَشَراتِ الحَلَقاتِ.

اِشْتِقاق هَدَفَ نَمُوذَجَ التَسَلْسُل

يُمْكِن اِشْتِقاق هَدَفَ الاِحْتِمالِ الأَقْصَى لَنَمُوذَج التَسَلْسُل فِي ([eqn:ml_objective]) بِالخَطَواتِ التالِيَةِ. \[\begin{aligned} \mathcal{L}_\vpsi =& \int p(\mY_{1:T}, \vtheta | \mX_{1:T}) \log p_{\vpsi}(\mY_{1:T} | \mX_{1:T}) d \mY_{1:T} d\vtheta\\ =& \int p(\mY_{1:T}, \vtheta | \mX_{1:T}) \log \prod_{t=1}^T p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:T} d\vtheta\\ =& \sum_{t=1}^T \int p(\mY_{1:T}, \vtheta | \mX_{1:T}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:T} d\vtheta\\ =& \sum_{t=1}^T \int p(\mY_{1:t} | \mX_{1:t}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:t} \\ =& \sum_{t=1}^T \int p(\mY_{1:t-1} | \mX_{1:t-1}) p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:t} \\ =& \sum_{t=1}^T \int p(\mY_{1:t-1} | \mX_{1:t-1}) \Big( p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \\ & - p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \Big) d \mY_{1:t} \\ & + \int p(\mY_{1:t-1} | \mX_{1:t-1}) p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \log p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) d \mY_{1:t} \\ =& \sum_{t=1}^T \int p(\mY_{1:t-1} | \mX_{1:t-1}) \Big( - \KL\left(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})|| p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\right) \Big)d \mY_{1:t-1} \\ & + \int p(\mY_{1:t-1} | \mX_{1:t-1}) H\Big(p(\vy_{t} | \vx_t, \mX_{1:t-1}, \mY_{1:t-1}) \Big) d \mY_{1:t-1}\\ =& - \sum_t \int p(\mY_{1:t-1} | \mX_{1:t-1}) \KL\left(p(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})|| p_{\vpsi}(\vy_t | \vx_t, \mX_{1:t-1}, \mY_{1:t-1})\right) d \mY_{1:t-1} +C, \end{aligned}\]

اِشْتِقاق الهَدَفَ غَيْرِ المُتَحَيِّز

يَشْمَل نَهْجٍ مُحَوِّلِ القَرارِ فِي التَعَلُّمِ المُعَزِّز غَيْرِ المُتَّصِل تَدْرِيبِ تَوْزِيعِ الفِعْلِ مَشْرُوطا بِالعائِد، مِمّا يَسْمَح بِأَخْذِ عَيِّنَةً مِن الفِعْلِ فِي وَقْتٍ الاِسْتِدْلال مِن خِلالَ تَقْدِيمِ العائِدِ المُتَوَقَّعِ (العائِدِ المُتَبَقِّي). بِما أَنَّ العائِدِ هُوَ نَتِيجَةَ الأَفْعال الحالِيَّةِ وَاللاحِقَة، يُمْكِن إِعادَةِ صِياغَةِ تَوْزِيعِ الفِعْلِ الَّذِي يُحاوِل النَمُوذَجِ تُعَلِّمه عَلَى أَنَّهُ تَوْزِيعِ بَعْدِي لِلفِعْل، كَما هُوَ مُقَدَّمِ فِي المُعادَلَةَ ([eqn:true_action_posterior]). لاحَظَ أَنَّ المُعادَلَةَ ([eqn:true_action_posterior]) تُحَدِّد تَوْزِيعِ البَياناتِ، وَالَّذِي يَنْبَغِي تَمْيِيزه عَن نَمُوذَجَ الشَبَكَةِ العَصَبِيَّةِ \(p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t})\). كَما هُوَ مُلاحِظ فِي المُعادَلَةَ ([eqn:true_action_posterior])، فَإِنَّ تَوْزِيعِ الفِعْلِ مُتَناسِب مَعَ تَوْزِيعِ العائِدِ، وَيَتِمّ تَرْجِيحَ ذٰلِكَ بِواسِطَةِ اِحْتِمالِ الفِعْلِ مِن سِياسَةِ جَمْعِ البَياناتِ. وَبِما أَنَّهُ التَوْزِيعِ البعدي المُشْتَقَّ بِواسِطَةِ قاعِدَةِ بايز، نُسَمِّيه بِتَوْزِيعِ الفِعْلِ البعدي “الحَقِيقِيِّ”.

لِوَضْعِ هٰذا بِشَكْلٍ بَدِيهِيٍّ، إِذا اِسْتَطاعَ نَمُوذَجَ مُطابَقَة المُعادَلَةَ ([eqn:true_action_posterior]) بِدِقَّةٍ، فَسَيُؤَدَّى ذٰلِكَ إِلَى تَحِيز تَوْزِيعِ الفِعْلِ نَحْوَ سِياسَةِ جَمْعِ البَياناتِ. عَلَى سَبِيلِ المِثالِ، فِي تَسَلْسُلُ مُسَجَّلُ مُسْبَقاً، إِذا تَمَّ اِخْتِيارِ فِعْلٍ بِشَكْلٍ عَشْوائِيٍّ بِاِحْتِمالَيْهِ مُنْخَفَضه جِدّاً مِن سِياسَةِ جَمْعِ البَياناتِ، وَلٰكِن يُحَقِّق عائِداً عالِياً، فَإِنَّ تَوْزِيعِ الفِعْلِ اللاحِقِ فِي المُعادَلَةَ ([eqn:true_action_posterior]) سَيُعْطِي اِحْتِمالَيْهِ ضَئِيلَةً لِلفِعْل المَعْنِيَّ، بِالنَظَرِ إِلَى العائِدِ العالِي. عَلَى الرَغْمِ مِن مُلاحَظَةُ عائِدٌ عالٍ بُعْدَ الفِعْلِ، مِمّا قَد يُشِير إِلَى اِحْتِمالَيْهِ عالِيَةٍ لِ \(p(R_{k,t} | \va_{k,t}, \vo_{k,t}, \mH_{k,t})\)، فَإِنَّ اِحْتِمالَيْهِ الفِعْلِ الناتِجَةِ مُرَجِّحه بِواسِطَةِ اِحْتِمالَيْهِ الفِعْلِ فِي سِياسَةِ جَمْعِ البَياناتِ، \(\pi_k(\va_{k,t}|\vo_{k,t})\)، مِمّا يُؤَدِّي إِلَى قِيمَةَ صَغِيرَةٌ. لِذٰلِكَ، عَلَى الرَغْمِ مِن أَنَّ ([eqn:true_action_posterior]) هُوَ التَوْزِيعِ البعدي الحَقِيقِيِّ لِلفِعْل، إِلّا أَنَّهُ لَيِسَ التَوْزِيعِ المَرْغُوب فِيهِ لِنَمُوذَجِنا.

مِن الناحِيَةِ المِثالِيَّةِ، يَنْبَغِي أَنَّ يَكُون تَوْزِيعِ الفِعْلِ، كَما هُوَ مُوَضِّح فِي المُعادَلَةَ ([eqn:unbiased_action_posterior])، مُتَناسِبا فَقَط مَعَ تَوْزِيعِ العائِدِ وَغَيْرِ مُتَأَثِّر بِسِياسَةِ جَمْعِ البَياناتِ. مَعَ مِثْلَ هٰذا التَوْزِيعِ، سَيَتِمّ القَضاءِ عَلَى التَقْلِيلُ غَيْرِ المَرْغُوب فِيهِ بِسَبَبِ سِياسَةِ جَمْعِ البَياناتِ، مِمّا يُحِلّ المُشْكِلَةِ المَذْكُورَةِ.

كَما هُوَ مُوَضِّح أَعْلاه، نَوَدّ أَنَّ نَتَعَلَّم تَوْزِيعِ الفِعْلِ فِي ([eqn:unbiased_action_posterior]) بَدَلاً مِن تَوْزِيعِ الفِعْلِ فِي ([eqn:true_action_posterior]). وَمَعَ ذٰلِكَ، نَظَراً لِأَنَّ ([eqn:true_action_posterior]) هُوَ تَوْزِيعِ الفِعْلِ الحَقِيقِيِّ لِلبَيانات، فَإِنَّ الهَدَفَ التَدْرِيبِيِّ الشائِعُ لِلأَقْصَى دَرَجَةِ الإِمْكانِيَّة سَيَجْعَل النَمُوذَجِ يُطابِق تَوْزِيعِ الفِعْلِ فِي ([eqn:true_action_posterior]).

يُمْكِن اِشْتِقاق الهَدَفَ غَيْرِ المُتَحَيِّز لِتَعْلَم تَوْزِيعِ الفِعْلِ فِي ([eqn:action_correction_obj]) بِالخَطَواتِ التالِيَةِ.

لَتَمْكِين النَمُوذَجِ مِن تَعْلَم تَوْزِيعِ الفِعْلِ فِي ([eqn:unbiased_action_posterior]) بَدَلاً مِن ذٰلِكَ، نَبْدَأ بِتَحْدِيدِ الهَدَفَ التَدْرِيبِيِّ المَرْغُوب كَما لَو أَنَّ البَياناتِ تَتْبَع التَوْزِيعِ ([eqn:unbiased_action_posterior]): \[\begin{aligned} \mathcal{L}_{\vpsi} =& \sum_{k,t} \int \hat{p}(R_{k,t}, \va_{k,t} |\vo_{k,t}, \mH_{k,t}) \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) dR_{k,t} d \va_{k,t} \\ =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int \hat{p}(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\\end{aligned}\]

ثُمَّ نُطَبِّق حِيلَةٍ أَخَذَ العَيْنات حَسَبَ الأَهَمِّيَّةِ لِإِدْخالِ التَوْزِيعِ البعدي الحَقِيقِيِّ لِلفِعْل فِي المُعادَلَةَ: \[\begin{aligned} \mathcal{L}_{\vpsi} =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\hat{p}(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t})}{p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t})}\\ &\log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t}\end{aligned}\]

بُعْدَ إِعادَةِ تَرْتِيبَ المُعادَلَةَ، نَحْصُل عَلَى صِياغَةِ أَوْضَحَ لِلهَدَف: \[\begin{aligned} \mathcal{L}_{\vpsi} =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\mathcal{U}(\va_{k,t})}{ \hat{p}(R_{k,t}| \vo_{k,t}, \mH_{k,t})}}{\frac{p(R_{k,t}| \va_{k,t}, \vo_{k,t}, \mH_{k,t})\pi_k(\va_{k,t}|\vo_{k,t})}{ p(R_{k,t}| \vo_{k,t}, \mH_{k,t})}} \\ & \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\ =& \sum_{k,t} \int\hat{p}(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\mathcal{U}(\va_{k,t})p(R_{k,t}| \vo_{k,t}, \mH_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})\hat{p}(R_{k,t}| \vo_{k,t}, \mH_{k,t})} \\ & \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\ =& \sum_{k,t} \int p(R_{k,t} |\vo_{k,t}, \mH_{k,t}) \Big( \int p(\va_{k,t} |R_{k,t}, \vo_{k,t}, \mH_{k,t}) \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \\ & \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} \Big) dR_{k,t} \\ =& \sum_{k,t} \int p(R_{k,t}, \va_{k,t} | \vo_{k,t}, \mH_{k,t}) \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}) d \va_{k,t} dR_{k,t} \end{aligned}\]

لاحَظَ أَنَّ التَوْزِيعِ الاِحْتِمالِيّ فِي المُقَدَّمَةِ هُوَ الآنَ التَوْزِيعِ المُشْتَرَكِ لِلعائِد وَالفِعْل فِي تَوْزِيعِ البَياناتِ. نُطَبِّق تَقْرِيبِ مَوَّنْتُ كارْلُو لِلتَكامُل مِن خِلالَ النَظَرِ فِي أَنَّ البَياناتِ المُسَجَّلَةِ هِيَ عَيِّناتٍ مِن تَوْزِيعِ البَياناتِ. نَحْصُل عَلَى الهَدَفَ التَدْرِيبِيِّ المُقْتَرَحِ. \[\begin{aligned} \mathcal{L}_{\vpsi} \approx& \sum_{k,t} \frac{\mathcal{U}(\va_{k,t})}{\pi_k(\va_{k,t}|\vo_{k,t})} \log p_{\vpsi}(\va_{k,t} | R_{k,t}, \vo_{k,t}, \mH_{k,t}), \quad R_{k,t}, \va_{k,t} \sim p(R_{k,t}, \va_{k,t} | \vo_{k,t}, \mH_{k,t}) \end{aligned}\]

تَفاصِيلَ التَنْفِيذِ

تَمَّ تَنْفِيذِ ours بِناءَ عَلَى nanoGPT1. بِالنِسْبَةِ لِتَجارِبِ التَعَلُّمِ بِالتَعْزِيز، يَحْتَوِي ours عَلَى 12 طَبَقَةٌ مَعَ تَضْمِينات بُعْدَيْهِ مِقْدارُها 128. هُناكَ 4 رُؤُوسِ فِي الاِنْتِباهِ المُتَعَدِّدِ الرُؤُوسِ. نَسْتَخْدِم مُحْسِن Adam مَعَ مُعَدَّلِ تَعْلَم \(10^{-5}\).

تَجارِبِ التَحْسِين البيزي

نَعْتَبِر مُشْكِلَةِ التَحْسِين البيزي المُتَقَطِّعَة. المُهِمَّةِ هِيَ إِيجادِ المَوْقِعِ مِن مَجْمُوعَةِ ثابِتَةٍ مِن النِقاطِ الَّتِي تَحْتَوِي عَلَى أَقَلَّ قِيمَةَ لِلدالَّة بِأَقَلِّ عَدَدٍ مُمْكِنٍ مِن تَقْيِيمات الدالَّةِ. فِي بِدايَةِ البَحْثِ، يَتِمّ إِعْطاءِ قِيَمِ الدالَّةِ لِبَعْضِ المَواقِعِ المُخْتارَة عَشْوائِيّا. سَيَطْلُب مِن خوارزميه التَحْسِين البيزي اِقْتِراحِ مَوْقِعِ يَكْمُن فِيهِ الحَدِّ الأَدْنَى لِلدالَّة، ثُمَّ يَتِمّ جَمْعِ قِيمَةَ الدالَّةِ مِن المَوْقِعِ المُقْتَرَحِ. سَيَتِمّ تَكْرارِ حَلْقَةِ الاِقْتِراحِ وَالتَقْيِيم عَدَداً ثابِتاً مِن المَرّاتِ. يَتِمّ تَقْيِيمِ أَداءِ خوارزميه التَحْسِين البيزي بِناءَ عَلَى سُرْعَتُها فِي إِيجادِ الحَدِّ الأَدْنَى لِلدالَّة.

قائِمَةً الدوال ثُنائِيَّةٍ الأَبْعاد المُسْتَخْدَمَةِ لِلتَقْيِيمات هِيَ: برانين، بِيل، بوهاتشيفسكي، بوكين 6، ديجونج 5، دروبويف، ايجهولدر، جولدستين بِرايْس، هولدر تيبل، كِيم 1، كِيم 2، كِيم 3، ميشاليفيتش، شوبرت، سَيَكِس هامب كَإِمِيل، ثَرِيٍّ هامب كَإِمِيل.

تَمَّ تَنْفِيذِ خَطِّ الأَساسِ لِلتَحْسِين المُتَوَقَّعِ بِاِسْتِخْدامِ (balandat2020botorch). اُسْتُخْدِمْنا فِئَةٌ “SingleTaskGP” لَنَمُوذَج البَدِيلُ GP، الَّذِي يَسْتَخْدِم نَواةِ ماترن 5/2 مَعَ أَوْلَوِيَّةٌ جاما عَلَى مَقايِيسِ الطُولَ.

النَتائِجِ الكَمِّيَّةِ لِتَجارِبِ التَعَلُّمِ المُعَزِّز المُنْفَصِلَة

يُرْجَى العُثُورِ أَدَنّاهُ عَلَى المُقارَنَةِ الكَمِّيَّةِ لِتَجارِبِ التَعَلُّمِ المُعَزِّز المَعْرُوضَةِ فِي الشَكْلِ. تُظْهِر القِيَمِ المَعْرُوضَةِ العَوائِد المُتَوَسِّطَةِ عَلَى مَدَى 100 لُعْبَةِ مُعَيَّنَةٍ وَالقِيَمِ المَوْجُودَةِ بَيِّنَ الأَقْواس هِيَ فَتَراتِ الثِقَةِ لَتَقْدِيرات المُتَوَسِّطِ، وَالَّتِي تَتَوافَق مَعَ المِنْطَقَةِ المُظَلِّلَة فِي الشَكْلِ. نَأْخُذ ثَلاثِ نِقاطٍ زَمَنِيَّةٍ عَلَى طُولِ مَساراتٍ التَعَلُّمِ السِياسِيِّ فِي السِياقِ. بِما أَنَّ MGDT لا يَسْتَطِيع تَحْدِيثِ السِياسَةِ فِي وَقْتٍ الاِسْتِدْلال، فَإِنَّنا نُقَدِّر عائِدٌ مُتَوَسِّطُ واحِدٍ لِكُلِّ لُعْبَةِ.

الغُرْفَةِ المُظْلِمَة (الحَلْقَةِ العاشِرَةِ) الغُرْفَةِ المُظْلِمَة (الحَلْقَةِ الثَلاثُونَ) الغُرْفَةِ المُظْلِمَة (الحَلْقَةِ الخَمْسُونَ)
ICEE 8.15 (1.29) 12.37 (1.14) 13.61 (0.86)
AD 3.74 (1.15) 4.51 (1.17) 4.03 (1.15)
AD-sorted 0.05 (0.05) 3.83 (0.87) 12.48 (1.37)
MGDT 1.86 (0.93) 1.86 (0.93) 1.86 (0.93)
المَصْدَرُ 5.13 (1.19) 5.13 (1.19) 5.13 (1.19)
الغُرْفَةِ المُظْلِمَة (صَعْبَةً) (العاشِرَةِ) الغُرْفَةِ المُظْلِمَة (صَعْبَةً) (الثَلاثُونَ) الغُرْفَةِ المُظْلِمَة (صَعْبَةً) (الخَمْسُونَ)
ICEE 0.48 (0.10) 0.74 (0.09) 0.79 (0.08)
AD 0.33 (0.09) 0.43 (0.10) 0.43 (0.10)
AD-sorted 0.08 (0.05) 0.55 (0.10) 0.75 (0.08)
MGDT 0.09 (0.06) 0.09 (0.06) 0.09 (0.06)
المَصْدَرُ 0.51 (0.10) 0.51 (0.10) 0.51 (0.10)
المِفْتاحَ إِلَى البابَ المُظْلِمُ (الخامِسَةِ) المِفْتاحَ إِلَى البابَ المُظْلِمُ (العاشِرَةِ) المِفْتاحَ إِلَى البابَ المُظْلِمُ (العِشْرُونَ)
ICEE 1.04 (0.15) 1.50 (0.12) 1.84 (0.08)
AD 0.67 (0.15) 1.02 (0.17) 0.94 (0.17)
AD-sorted 0.17 (0.08) 0.84 (0.14) 1.77 (0.09)
MGDT 0.34 (0.11) 0.34 (0.11) 0.34 (0.11)
المَصْدَرُ 1.10 (0.19) 1.10 (0.19) 1.10 (0.19)

  1. https://github.com/karpathy/nanoGPT