MTLight: تَعَلُّم تَعْزِيزِي مُتَعَدِّد المَهامّ فَعّال لِلتَحَكُّم فِي إِشارات المُرُور

Liwen Zhu
Peking University
liwenzhu@pku.edu.cn
Peixi Peng
Peking University
pxpeng@pku.edu.cn
Zongqing Lu
Peking University
zongqing.lu@pku.edu.cn
Yonghong Tian
Peking University
yhtian@pku.edu.cn

latex

مُلَخَّص

لِلتَحَكُّم فِي إِشارات المُرُور تَأْثِير كَبِير عَلَى تَخْفِيف الاِزْدِحام المُرُورِيّ فِي المُدُن الحَدِيثَة. لَقَد تَمَّ اِسْتِخْدام تَعَلُّم التَعْزِيز العَمِيق بِشَكْل واسِع لِهٰذِهِ المُهِمَّة فِي السَنَوات الأَخِيرَة، حَيْثُ أَظْهَر أَداء وَاعِد، وَلٰكِنَّهُ واجَه أَيْضاً العَدِيد مِن التَحَدِّيات مِثْل الأَداء المَحْدُود وَعَدَم كَفاءَة العَيِّنات. لِمُواجَهَة هٰذِهِ التَحَدِّيات، تَمَّ اقتراح MTLight لِتَعْزِيز مُراقَبَة العامِل بِحالَة كامِنَة، يَتِمّ تَعَلُّمها مِن العَدِيد مِن مُؤَشِّرات المُرُور. فِي الوَقْت نَفْسِهِ، يَتِمّ بِناء مَهامّ مُساعِدة وَإِشْرافِيَّة مُتَعَدِّدة لِتَعَلُّم الحالَة الكامِنَة، وَيَتِمّ اِسْتِخْدام نَوْعَيْن مِن مِيزات الجُزْء الكامِن، المِيزَة المُحَدَّدة لِلمُهِمَّة وَالمِيزَة المُشْتَرَكة لِلمُهِمَّة، لِجَعْل الحالَة الكامِنَة أَكْثَر ثَراءً. أَظْهَرَت التَجارِب المُوسَّعة الَّتِي أُجْرِيَت عَلَى CityFlow أَنَّ MTLight يَمْتَلِك سُرْعَة تَقارُب رائِدة وَأداء تَقارُبي. لَقَد قُمْنا أَيْضاً بِمُحاكاة تَحْت نَمَط ذُرْوَة الساعَة فِي جَمِيع السِينارِيُوهات مَع زِيادَة صُعُوبَة التَحَكُّم وَأَشارَت النَتائِج إِلَى أَنَّ MTLight قابِل لِلتَكَيُّف بِشَكْل كَبِير.

مُقَدِّمَة

يَهْدِف التَحَكُّم فِي إِشارات المُرُور إِلَى تَنْسِيق إِشارات المُرُور عَبْر التَقاطُعات لِتَحْسِين كَفاءَة المُرُور فِي مِنْطَقَة أَو مَدِينَة، وَالَّتِي تَلْعَب دَوْراً هامّاً فِي النَقْل الفَعّال. تَهْدِف مُعْظَم الطُرُق التَقْلِيدِيَّة إِلَى التَحَكُّم فِي إِشارات المُرُور بِواسِطَة الوَقْت الثابِت (koonce2008traffic) أَو الاِسْتِدْلالات المُصَمَّمة يَدَوِيّاً (kouvelas2014maximum)، وَالَّتِي تَعْتَمِد بِشَكْل كَبِير عَلَى المَعْرِفَة الخَبِيرَة وَالتَنْقِيب العَمِيق فِي البَيانات التارِيخِيَّة الإِقْلِيمِيَّة لِلمُرُور، مِمّا يَجْعَل مِن الصَعْب نَقْلها. مُؤَخَّراً، تُسْتَخْدَم الطُرُق المَبْنِيَّة عَلَى تَعَلُّم التَعْزِيز العَمِيق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) شَبَكَة عَصَبِيَّة عَمِيقَة لِلتَحَكُّم فِي تَقاطُع حَيْثُ يَتِمّ تَعَلُّم الشَبَكَة مِن خِلال التَفاعُل المُباشِر مَع البِيئَة. وَمَع ذٰلِكَ، بِسَبَب وَفْرَة مُؤَشِّرات المُرُور (عَدَد السَيّارات، طُول الطابُور، وَقْت الاِنْتِظار، السُرْعَة، إلخ)، وَتَعْقِيد المُلاحَظَة وَالبِيئَة الدِينامِيكِيَّة، فَإِنَّ المُشْكِلَة تَظَلّ تَحَدِّياً وَلَم تُحَلّ بَعْد.

نَظَراً لِأَنَّ المُلاحَظَة، وَالمُكافَأَة، وَدِينامِيكِيّات كُل إِشارَة مُرُور مُرْتَبِطَة اِرْتِباطاً وَثِيقاً بِالآخَرِين، فَإِنَّ تَحْسِين التَحَكُّم فِي إِشارات المُرُور فِي شَبَكَة طُرُق واسِعَة النِطاق ينمذج بِشَكْل طَبِيعِيّ كَمُشْكِلَة تَعَلُّم تَعْزِيزِي مُتَعَدِّد الوُكَلاء (MARL). تَمَّ اقتراح مُعْظَم الأَعْمال السابِقَة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) لِتَعَلُّم سِياسَة كُل وَكِيل مَشْرُوطَة فَقَط عَلَى المُلاحَظات الأَوَّلِيَّة لِلتَقاطُع، مَع تَجاهُل مُساعَدَة الحالَة العالَمِيَّة، وَالَّتِي يُمْكِن الوُصُول إِلَيها فِي المَدِينَة الذَكِيَّة. كَما ذُكِر فِي (zheng2019diagnosing)، فَإِنَّ المَقايِيس المُخْتَلِفَة لَها تَأْثِير كَبِير عَلَى مُهِمَّة التَحَكُّم فِي إِشارات المُرُور. وَبِالتالِي، يَجِب أَن لا يَشْمَل تَصْمِيم المُلاحَظَة لِلوكِيل المُلاحَظات الأَوَّلِيَّة لِلتَقاطُع فَحَسْب، بَل أَيْضاً الحالَة العالَمِيَّة. يُمْكِن أَن يَسْتَفِيد تَصْمِيم المُلاحَظَة الجَيِّد لِلوكِيل بِشَكْل كامِل مِن العَيِّنات، وَيُحَسِّن لَيْس فَقَط أَداء السِياسَة وَلٰكِن أَيْضاً كَفاءَة العَيِّنَة. وَمَع ذٰلِكَ، هُناك كَمِّيَّة هائِلَة مِن المُؤَشِّرات أَو المَقايِيس المُرُورِيَّة فِي الحالَة العالَمِيَّة، وَمِن الصَعْب تَصْمِيم مُلاحَظَة وَكِيل مُناسِبة وَغَيْر مُتَكَرِّرة بَيْن هٰذِهِ المُؤَشِّرات. مِن ناحِيَة، قَد لا يُمَثِّل تَصْمِيم المُلاحَظَة المُوجَزَة بِشَكْل مُفْرِط خَصائِص الحالَة بِشَكْل كافٍ وَشامِل، وَبِالتالِي يُؤَثِّر عَلَى دِقَّة تَقْدِير اِنتِقال الحالَة وَكَذٰلِكَ عَلَى اِخْتِيار الإِجْراء. فِي المُقابِل، إِذا تَمَّ اِسْتِخْدام مَجْمُوعَة مُعَقَّدة مِن المَقايِيس كَمُلاحَظَة، فَمِن الصَعْب تَحْدِيد أوزان المَقايِيس المُخْتَلِفَة بِدِقَّة، وَقَد يَتَسَبَّب ذٰلِكَ فِي تَكْرار البَيانات وَاِنْفِجار الأَبْعاد، مِمّا لا يَزِيد فَقَط مِن اِسْتِهْلاك الحوسبة، وَلٰكِن أَيْضاً يَجْعَل مِن الصَعْب عَلَى الوَكِيل التَعَلُّم.

مِن أَجْل تَوْفِير تَمْثِيل كافٍ لِمُهِمَّة التَحَكُّم فِي إِشارات المُرُور، يَتِمّ تَقْدِيم الحالَة الكامِنَة. عَلَى وَجْهِ التَحْدِيد، المُلاحَظَة الأَوَّلِيَّة مُطابِقة لِلتَقاطُع، وَالَّتِي تَتَكَوَّن مِن عِدَّة مُتَغَيِّرات ذات مَعانٍ دَلالِيّة مُحَدَّدة (أَي عَدَد السَيّارات عَلَى كُل مَسار قادِم وَالمَرْحَلَة الحالِيَّة لِلإِشارَة). ثُمَّ، يَتِمّ تَعْزِيز المُلاحَظَة الأَوَّلِيَّة بِواسِطَة الفَضاء الكامِن. لِتَعَلُّم الفَضاء الكامِن مِن الحالَة العالَمِيَّة، يَتِمّ بِناء مَهامّ مُساعِدة وَإِشْرافِيَّة مُتَعَدِّدة، وَالَّتِي تَتَعَلَّق بِالتَحَكُّم فِي إِشارات المُرُور. أَي أَنَّ عِدَّة إِحْصائِيّات مِن تارِيخ الحالَة العالَمِيَّة تُؤَخَذ كمدخلات، يَتِمّ اِسْتِخْدام شَبَكَة مَبْنِيَّة عَلَى الشَبَكَة العَصَبِيَّة المُتَكَرِّرة (RNN) أَوَّلاً، وَمِن ثُمَّ يَتِمّ تَقْدِيم عِدَّة فُرُوع لاحِقاً لِلتَنَبُّؤ بِأَنْواع مُتَعَدِّدة مِن إِحْصائِيّات الحالَة العالَمِيَّة، مِثْل تَوْزِيع التَدَفُّق وَتَوْزِيع وَقْت السَفَر، عَلَى التَوالِي. لِجَعْل الفَضاء الكامِن أَكْثَر ثَراءً، يَتِمّ اِسْتِخْراج نَوْعَيْن مِن مِيزات التَضْمِين: المِيزَة المُحَدَّدة لِلمُهِمَّة وَالمِيزَة المُشْتَرَكة لِلمُهِمَّة. الأُولَى مُسْتَخْرَجة بِواسِطَة الفَرْع المُحَدَّد لِلمُهِمَّة وَتُمَثِّل المَعْلُومات المَدْفُوعَة بِالمَهَمَّة، بَيْنَما الأَخِيرَة مِن طَبَقَة مُشْتَرَكة لِلمُهِمَّة وَيُمْكِن أَن تُعَبِّر عَن خَصائِص أَساسِيَّة أَكْثَر عُمُومِيَّة. وَبِالتالِي، فَهِيَ مكملة لِبَعْضِها البَعْض وَيَتِمّ اِسْتِخْدامهما كِلاهما لِتَعْزِيز المُلاحَظَة الأَوَّلِيَّة. أَخِيراً، مَشْرُوطاً عَلَى المُلاحَظَة المُعَزَّزة، يَتِمّ تَعَلُّم السِياسَة بِواسِطَة (DRL) (mnih2015human). لاحِظ أَنَّ المَهامّ المُتَعَدِّدة يَتِمّ تَعَلُّمها فِي نَفْس الوَقْت مَع (DRL)، مِمّا يَجْعَل الفَضاء الكامِن أَكْثَر تَكَيُّفاً مَع تَعَلُّم السِياسَة.

الأَعْمال ذات الصِلَة

تَرْد الإشارة إلى الأَعْمال ذات الصِلَة فِي القِسْم [sec:related_work]، وَالمُقَدِّمات فِي القِسْم [sec:preliminaries]. يَتِمّ تَقْدِيم إِعْداد التَعَلُّم المُتَعَدِّد الوُكَلاء فِي القِسْم [sec:problem_definition]. يُقَدِّم القِسْم [sec:method] تَفاصِيل الطَرِيقَة المُقْتَرَحَة. يُقَدِّم القِسْم [sec:experiment] النَتائِج التَجْرِيبِيَّة الَّتِي تُظْهِر تَجْرِبِيّاً كَفاءَة MT-Light. وَأَخِيراً، يَتِمّ مُناقَشَة الاِسْتِنْتاجات وَالأَعْمال المُسْتَقْبَلِيَّة فِي القِسْم [sec:conclusion].

بَيان المُشْكِلَة

تَعْرِيف المُشْكِلَة

نَعْتَبِر مُشْكِلَة التَحَكُّم فِي إِشارات المُرُور لِعِدَّة وُكَلاء، حَيْثُ يَتِمّ نمذجة المُهِمَّة كَلُعْبَة ماركوف (Markov Game) (littman1994markov)، وَالَّتِي يُمْكِن تَمْثِيلها بِالمَجْمُوعَة \(\mathcal{G}=<\mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma>\). \(\mathcal{N} \equiv\{1, \ldots, n\}\) هِيَ مَجْمُوعَة مَحْدُودَة مِن الوُكَلاء، وَكُل تَقاطُع فِي السِينارِيو يَتِمّ التَحَكُّم فِيه بِواسِطَة وَكِيل. \(\mathcal{S}\) هِيَ مَجْمُوعَة مَحْدُودَة مِن فَضاء الحالَة العالَمِيّ. \(\mathcal{A}\) تَدُلّ عَلَى فَضاء العَمَل لِوكِيل فَرْدِيّ. العَمَل المُشْتَرَك \(\boldsymbol{a} \in \mathbf{A} \equiv \mathcal{A}^{n}\) هُوَ مَجْمُوعَة مِن الأَعْمال الفَرْدِيَّة \(\left[a_{i}\right]_{i=1}^{n}\). فِي كُل خَطْوَة زَمَنِيَّة، يَتَلَقَّى كُل وَكِيل \(i\) مُلاحَظَة \(o_{i} \in \mathcal{O}\)، يَخْتار عَمَلاً \(a_{i}\)، يُؤَدِّي إِلَى الحالَة التالِيَة \(s^{\prime}\) وِفْقاً لِوَظِيفَة الاِنْتِقال \(\mathcal{P}\left(s^{\prime} \mid s, \boldsymbol{a}\right)\) وَمُكافَأَة \(r=\mathcal{R}(s, \mathbf{a})\) لِكُل وَكِيل. \(\mathcal{H}\) هُوَ أُفُق الزَمَن وَ \(\gamma \in[0,1)\) هُوَ عامِل الخَصْم.

تَصْمِيم الوَكِيل

يَتِمّ التَحَكُّم فِي كُل تَقاطُع فِي النِظام بِواسِطَة وَكِيل. فِيمَا يَلِي، نُقَدِّم تَصْمِيم الحالَة وَتَصْمِيم الفِعْل وَتَصْمِيم المُكافَأَة لِوكِيل التَعَلُّم المُعَزِّز.