MTLight: تَعَلُّمٌ تَعْزِيزِيٌّ مُتَعَدِّدُ المَهامّ فَعّال لِلتَّحكُّمِ فِي إِشاراتِ المُرور

Liwen Zhu | Peking University | liwenzhu@pku.edu.cn
Peixi Peng | Peking University | pxpeng@pku.edu.cn
Zongqing Lu | Peking University | zongqing.lu@pku.edu.cn
Yonghong Tian | Peking University | yhtian@pku.edu.cn

مُلَخَّص

لِلتحكُّم في إشاراتِ المُرور أثرٌ كبير في تخفيفِ الازدحامِ المروريّ في المُدنِ الحديثة. استُخدِمَ التعلُّمُ التعزيزيّ العميق على نطاقٍ واسع لهذه المهمّة في السنوات الأخيرة، وقد أظهر أداءً واعدًا، لكنه واجه أيضًا تحدّياتٍ عدّة مثل محدوديّة الأداء وضعف كفاءة العيِّنات. لمواجهة هذه التحدّيات، نقترح MTLight لتعزيز تمثيل الحالة الكامنة عبر تتبُّع طيفٍ واسع من مَقاييسِ حركةِ المرور. وفي الوقت ذاته، نبني مهامّ مُساعِدة وإشرافيّة متعدّدة لتعلُّم هذه الحالة الكامنة، مع استخدام نوعَيْن من ميزات التضمين: ميزات خاصّة بالمهمّة وأُخرى مشتركة، بغية إغناء التمثيل الكامن. تُظهر التجارب الموسَّعة على CityFlow أنّ MTLight يمتاز بسرعةِ تقارُبٍ رائدة وأداءٍ مُنافِس. كما حاكَيْنا نمط ساعة الذروة في سيناريوهاتٍ متنوّعة مع ازدياد صعوبة التحكُّم، وأظهرت النتائج أن MTLight يتمتّع بقدرةٍ عالية على التكيُّف.

مُقَدِّمَة

يهدف التحكُّم في إشارات المرور إلى تنسيق الإشارات عبر التقاطعات لتحسين كفاءة المرور على مستوى منطقةٍ أو مدينة، وهو ما يؤدّي دورًا هامًّا في النقل الفعّال. تَركّز الطرائق التقليدية للتحكُّم بالإشارات إمّا على التوقيت الثابت (koonce2008traffic) أو على خوارزميات حدسيّة مُصمَّمة يدويًّا (kouvelas2014maximum) وتعتمد اعتمادًا كبيرًا على الخبرة والتنقيب العميق في بيانات المرور التاريخيّة على مستوى الإقليم، ممّا يحدّ من قابليّتها للنقل. في الآونة الأخيرة، باتت الأساليب المعتمِدة على التعلُّم التعزيزي العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) تستخدم الشبكات العصبيّة العميقة لتعلُّم سياسات التحكُّم في كلّ تقاطع من خلال التفاعل المباشر مع البيئة. ومع ذلك، وبسبب كثرة المقاييس المروريّة (عدد المركبات، أطوال الطوابير، أزمنة الانتظار، السرعات، إلخ) وتعقيد الملاحظات والبيئة الديناميكيّة، لا تزال المشكلة صعبةً وغير محسومة.

نظرًا لارتباط ملاحظات كلّ إشارة ومكافآتها وديناميكياتها بعضُها ببعض، فإن تحسين التحكُّم في الإشارات ضمن شبكة طرق واسعة النطاق يُمكِن تمثيله على نحوٍ طبيعيّ كمشكلة تعلُّمٍ تعزيزيّ متعددة الوكلاء (MARL). تقترح معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) تعلُّم سياسة كلّ وكيل بالاعتماد فقط على ملاحظات التقاطع المحليّة الأوليّة، مع إغفال الحالة العالميّة المُتاحة في المدينة الذكيّة. وكما ذُكِر في (zheng2019diagnosing)، فإن للمقاييس المختلفة أثرًا كبيرًا في مهمّة التحكُّم بالإشارات؛ لذا يجب ألّا يقتصر تصميمُ ملاحظةِ الوكيل على المعلومات المحليّة، بل أن يشمل أيضًا الحالة العالميّة.

إن تصميمَ ملاحظةٍ جيّد يمكّن من الاستفادة التامّة من العيّنات، فيحسّن ليس فقط أداءَ السياسة، بل أيضًا كفاءةَ أخذِ العيّنة. بيد أنّ الحالة العالميّة تزخر بمقاييسَ مروريّةٍ عديدة، ومن الصعب تصميمُ ملاحظةٍ مناسبة وغير مُكرّرة للوكيل من بينها. فمن جهة، قد لا يَفي التصميمُ المُختصر بتمثيل خصائص الحالة على نحوٍ كافٍ، ممّا يؤثّر في دقّة تقدير انتقال الحالة واختيار الفعل. ومن جهةٍ أخرى، إذا استُخدِمت مجموعةٌ مُعقَّدة من المقاييس، فقد يصعُب ضبط أوزانها بدقّة، ما يؤدّي إلى تكرار البيانات وانفجار الأبعاد، وزيادة استهلاك الموارد الحاسوبيّة وتعقيد تعلُّم الوكيل.

وعليه، ومن أجل توفير تمثيلٍ وافٍ لمهمّة التحكُّم بالإشارات، نُقَدِّم مفهوم الحالة الكامنة. بدايةً، نأخذ في الاعتبار الملاحظةَ المحليّة الأوليّة لكلّ تقاطع، ثم نُعزِّز هذه الملاحظة بجزءٍ كامن يُتعلَّم من الحالة العالميّة. ولِبناء هذا الجزء الكامن، نضع مهامّ مُساعِدة وإشرافيّة متعدّدة ذات صلة بأنماط حركة المرور؛ حيث تُعالج شبكةٌ متكرّرة (RNN) تسلسلًا من إحصاءات التاريخ العالمي، ثم تتفرّع إلى تنبّؤاتٍ مختلفة مثل توزيع التدفق المروري وأزمنة السفر. ولإثراءِ الفضاء الكامن، تستخرج البنية نوعَيْن من ميزات التضمين: ميزاتٍ خاصّة بالمهمّة وأخرى مشتركة، بحيث يُكَمِّل بعضُها بعضًا عند تعزيز الملاحظة الأوليّة. وأخيرًا، وبناءً على الملاحظة المُعزَّزة، نتعلّم السياسة باستخدام DRL (mnih2015human)، حيث تُدرَّب المهامّ المتعدّدة بالتوازي مع تعلُّم السياسة، ممّا يجعل التمثيل الكامن أكثر تكيُّفًا.

الأَعْمالُ ذاتُ الصِّلة

تتنوّعُ أعمالُ التحكُّم في إشارات المرور بين الطرائق القائمة على التوقيت الثابت (koonce2008traffic) والحلول الحدسيّة المُصمَّمة يدويًّا (kouvelas2014maximum)، وصولًا إلى أساليب التعلُّم التعزيزي العميق (DRL) التي تتعلّم سياسات التحكُّم مباشرةً من التفاعل مع البيئة (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic). يَنظر خطٌّ واسع من الأعمال إلى المشكلة على أنّها تعلُّمٌ تعزيزيّ متعدد الوكلاء (MARL) بسبب الترابط بين التقاطعات (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning)، إلا أنّ كثيرًا منها يكتفي بالملاحظات المحليّة، مُهمِلًا الحالة العالميّة التي ثبت تأثيرها الكبير (zheng2019diagnosing). يُعالِج MTLight هذه الفجوة عبر تعلُّم حالةٍ كامنةٍ غنيّة تُدمِج المقاييس المحليّة والعالميّة مع مهامّ مُساعِدة مُشتركة وخاصّة.

بَيانُ المُشْكِلَة

تَعْرِيفُ المُشْكِلَة

نَعُدّ مشكلةَ التحكُّم في إشارات المرور متعدّدةَ الوكلاء، ونُمثِّلُها كلعبةِ ماركوف (Markov Game) (littman1994markov)، والتي يمكن توصيفُها بالمجموعة \(\mathcal{G}=\langle \mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma\rangle\). \(\mathcal{N}=\{1, \ldots, n\}\) هي مجموعةُ الوكلاء، ويُتحكَّم في كلّ تقاطع بواسطة وكيلٍ منفرد. \(\mathcal{S}\) هو فضاءُ الحالة العالميّة، و\(\mathcal{A}\) فضاءُ الأفعال الفردي. يمثّل الفعلُ المُشترَك \(\boldsymbol{a}\in \mathbf{A}\equiv\mathcal{A}^{n}\) مجموعةَ الأفعال الفرديّة \([a_i]_{i=1}^n\). في كلّ خطوةٍ زمنيّة، يتلقّى الوكيل \(i\) ملاحظة \(o_i\in\mathcal{O}\)، ويختار فعلًا \(a_i\)، وينتقل النظام إلى الحالة التالية \(s'\) وفقًا لدالّة الانتقال \(\mathcal{P}(s'\mid s,\boldsymbol{a})\)، ويحصل كلّ وكيلٍ على مكافأة \(r_i=\mathcal{R}(s,\boldsymbol{a})\). \(\mathcal{H}\) هو الأفقُ الزمنيّ و\(\gamma\in[0,1)\) عاملُ الخصم.

تَصْمِيمُ الوَكِيل

يُدير كلَّ تقاطعٍ وكيلٌ مستقل. فيما يلي نُبيِّن تصميم الملاحظة والفعل والمكافأة لوكيل التعلُّم التعزيزي.