مُلخَّص

يُؤثِّر التحكُّم في إشارات المرور تأثيرًا كبيرًا في تخفيف الازدحام المروري بالمدن الحديثة. استُخدمت تقنيات التعلُّم المُعزَّز على نطاق واسع في هذه المهمّة مؤخرًا وأظهرت أداءً واعدًا، لكنها واجهت تحدّيات مثل محدوديّة الأداء وضعف كفاءة العيِّنات. لمواجهة ذلك، نقترح MTLight الذي يُعزِّز مُشاهدات الوكيل بتمثيل حالةٍ كامنة مُتعلَّمة من مؤشِّرات متعدِّدة لحركة المرور. وفي الوقت نفسه، نبني مهامًا مساعِدة مُشرفّة لتعلُّم هذه الحالة الكامنة، ونستخرج نوعين من الميزات الكامنة: ميزة مُشتركة بين المهام وميزة مُخصَّصة للمهمّة، لجعل التمثيل الكامن أغنى. تُظهر تجارب موسَّعة على CityFlow أنّ MTLight يحقق سرعة تقارب رائدة وأداءً تقاربيًا مُتفوقًا. كما نحاكي ظروف ساعة الذروة في جميع السيناريوهات مع زيادة صعوبة التحكُّم، وتُشير النتائج إلى قدرة MTLight العالية على التكيُّف.

مقدمة

يهدف التحكُّم في إشارات المرور إلى تنسيق الأطوار الإشارية عبر التقاطعات لتحسين كفاءة الحركة ضمن منطقة أو مدينة، وهو ما يلعب دورًا مهمًّا في النقل الفعّال. تعتمد معظم المناهج التقليدية على توقيت ثابت (koonce2008traffic) أو على قواعد استدلال مُصمَّمة يدويًّا (kouvelas2014maximum)، ما يستلزم خبرة بشرية وتحليلًا عميقًا لبيانات تاريخية محليّة ويُقوِّض قابلية النقل. في المقابل، تُدرِّب الطرق المبنية على التعلُّم المُعزَّز العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) شبكاتٍ عصبية تتحكّم بالتقاطعات عبر التفاعل المباشر مع البيئة. غير أنّ وفرة مؤشِّرات المرور (عدد المركبات، طول الطابور، وقت الانتظار، السرعة، …) وتعقيد المشاهدة وديناميكية البيئة تجعل المسألة ما تزال صعبة.

نظرًا لارتباط ملاحظات كل إشارة ومكافآتها وديناميكياتها بعضها ببعض، فإن تحسين التحكُّم في إشارات المرور على شبكة واسعة يُصاغ طبيعيًّا على هيئة تعلُّم مُعزَّز مُتعدِّد الوكلاء (MARL). معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) تعلَّمت سياساتٍ مُشروطة على الملاحظة المحليّة الخام للتقاطع فقط، متجاهلةً معلومات الحالة العالمية التي تتاح في المدن الذكيّة. وقد أُشير في (zheng2019diagnosing) إلى أنّ المقاييس المختلفة تؤثّر بقوة في مهمّة التحكُّم. لذلك ينبغي أن تشمل ملاحظة الوكيل، إضافةً إلى بيانات التقاطع المحليّة، معلوماتٍ عن الحالة العالمية. إن تصميم ملاحظةٍ جيّدة يُحسِّن الاستفادة من العيّنات ويرفع أداء السياسة وكفاءتها. لكن كثرة مؤشِّرات الحالة العالمية تجعل تصميم ملاحظةٍ مناسبةٍ وغير مُكرَّرة أمرًا عسيرًا: فالتلخيص المُفرِط قد لا يُمثِّل خصائص الحالة بدقّة كافية، بينما تُسبب الملاحظة الغنية غير المُنظَّمة تضخُّم الأبعاد وتكرار البيانات وصعوبة التعلُّم.

لذلك نقدِّم تمثيلًا كامنًا للحالة يدعم مهمّة التحكُّم. تبدأ الملاحظة الخام المحلية بعدّة متغيّرات ذات دلالة (كعدد المركبات على كل مسار وارد والطور الإشاري الحالي)، ثم نُعزِّزها بفضاءٍ كامنٍ مُتعلَّم من الحالة العالمية عبر مهام مساعِدة مُشرفّة ذات صلة بالتحكُّم. نُغذِّي شبكةً عصبية مُتكرِّرة (RNN)، من نوع GRU، بتسلسلات إحصائيّة مُستخرَجة من سجلات الحالة العالمية، ثم نتفرّع إلى رؤوس تنبؤ عدّة لتقدير توزيعات مثل تدفُّق المرور ومتوسّط زمن السفر. ولإغناء الفضاء الكامن نستخلص ميزتين كامنتين: ميزة مُشتركة بين المهام وأخرى مُخصَّصة للمهمّة. الأولى تعبّر عن خصائص عامة أساسية، والثانية عن معلومات مُوجَّهة بالمهمّة. وبذلك تتكاملان معًا لتعزيز الملاحظة الخام. وأخيرًا، وبالاشتراط على الملاحظة المُعزَّزة، نتعلّم السياسة بواسطة DRL (mnih2015human). تُدرَّب المهام المتعدّدة والسياسة تزامنيًّا، ما يجعل الفضاء الكامن أكثر تكيُّفًا مع تعلُّم السياسة.

تنظيم الورقة

نعرِّف إعداد المشكلة المُتعدِّد الوكلاء ثم تصميم الوكيل. بعد ذلك نعرض منهج MTLight وتفاصيل التعلُّم المُتعدِّد المهام للحالة الكامنة وسياسة التعلُّم. ثم نبيّن النتائج التجريبية، وأخيرًا نختتم بالاستنتاجات واتجاهات العمل المستقبلي.

بيان المشكلة

تعريف المشكلة

ننظر في التحكُّم بإشارات المرور عبر وكلاء متعدّدين، حيث نُنمذج المهمّة كلُعبة ماركوفيّة (Littman1994markov) تُعرَّف بالصيغة \(\mathcal{G}=\langle\mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma\rangle\). تمثّل \(\mathcal{N}\equiv\{1,\ldots,n\}\) مجموعة الوكلاء، وكل تقاطع تتحكّم به وكيـلة واحدة. \(\mathcal{S}\) فضاء الحالة العالمية، و\(\mathcal{A}\) فضاء أفعال الوكيل الفردي. الفعل المُشترك \(\boldsymbol{a}\in\mathbf{A}\equiv\mathcal{A}^{n}\) يضمّ أفعال الأفراد \(\left[a_{i}\right]_{i=1}^{n}\). في كل خطوة زمنية يتلقّى الوكيل \(i\) ملاحظة \(o_{i}\in\mathcal{O}\) ويختار فعلًا \(a_{i}\)، فتنتقل الحالة إلى \(s'\) وفقًا لدالة الانتقال \(\mathcal{P}(s'\mid s,\boldsymbol{a})\) وتحصل مكافأة \(r=\mathcal{R}(s,\boldsymbol{a})\). يمثّل \(\mathcal{H}\) أُفُق الزمن، و\(\gamma\in[0,1)\) عامل الخصم.

تصميم الوكيل

يُسند إلى كل تقاطع وكيلٌ واحد. نعرض تصميم الملاحظة والفعل والمكافأة.

الملاحظة. تتكوّن الملاحظة الخام من: (1) عدد المركبات على كل مسار وارد \(\mathbf{f}_t^v\)؛ (2) الطور الإشاري الحالي \(\mathbf{f}_t^s\). تُعرَّف ملاحظة الوكيل \(i\) كما يلي: \[ \begin{aligned} o_{i}=\{\mathbf{f}_t^v,\ \mathbf{f}_t^s\}, \end{aligned} \] حيث \(\mathbf{f}_t^v=\{V_{l_{1}^{in}},V_{l_{2}^{in}},\ldots,V_{l_{m}^{in}}\}\) و\({l}^{in}=\{l_{1}^{in},\ldots,l_{m}^{in}\}\) مجموعة المسارات الواردة إلى التقاطع. أما الطور الحالي \(\mathbf{f}_t^s=p_{k},\ k\in\{1,\ldots,K\}\)، حيث يمثّل كل طور \(p_k\) بمُتجه واحد ساخن، و\(K\) عدد الأطوار. هدفنا تعلُّم فضاء كامن يُعزِّز هذه الملاحظة الخام.
الفعل. فعل الوكيل هو اختيار الطور للفترة الزمنية التالية: \[ \begin{aligned} a_{i}=p_{k},\quad k\in\{1,\ldots,K\}. \end{aligned} \] يُيسّر هذا الاختيار المباشر مرونةً أعلى في تخطيط التحكُّم المروري.
المكافأة. نُعرِّف مكافأة الوكيل على أنّها سالب مجموع أطوال الطوابير على المسارات الواردة (zheng2019diagnosing, huang2021modellight, zang2020metalight, zheng2019learning, wei2019colight): \[ \begin{aligned} r_{i}=-\sum_{m=1}^{M} q_{l^{in}_{m}}, \end{aligned} \] حيث \(q_{l^{in}_{m}}\) طول الطابور على المسار الوارد \(l^{in}_{m}\).

الطريقة

نقدِّم MTLight الذي يدمج شبكةً مُتعدِّدة المهام مع شبكة وكيل للتعلُّم المُعزَّز. نستخدم شبكة Deep Q-Network (DQN) (mnih2015human) لتقريب دالّة القيمة Q، بما ينسجم مع أعمالٍ سابقة (chen2020toward, wei2019colight, wei2019presslight, zheng2019learning, wei2018intellilight). أمّا الوحدة مُتعدِّدة المهام فتتّبع مشاركة صارمة للمعاملات (caruana1997multitask) عبر طبقاتٍ مشتركة بين جميع المهام مع رؤوس إخراج خاصّة بكل مهمّة.

التعلُّم المُتعدِّد المهام للحالة الكامنة

إضافةً إلى \(\mathbf{f}_t^v\) و\(\mathbf{f}_t^s\)، نستفيد من معلومات الحالة العالمية بصيغٍ زمنية، مثل: أعداد المركبات الوافدة خلال الخطوات \(\tau\) الماضية \(\mathbf{f}_{t-\tau:t}^c=[\mathbf{f}_{t-\tau}^c,\ldots,\mathbf{f}_{t}^c]\)، ومتوسط زمن السفر \(\mathbf{f}_{t-\tau:t}^{tr}\)، وطول الطابور \(\mathbf{f}_{t-\tau:t}^{q}\)، وعدد المركبات على الطريق \(\mathbf{f}_{t-\tau:t}^{vr}\) في الفترة نفسها.

نُعرِّف أربع مهام مُساعِدة:

تقريب توزيع التدفُّق. مهمّة \(\mathcal{T}_{flow}\) تُقدِّر متوسّط \(\mu_{f}\) وتباين \(\sigma_{f}^{2}\) معدّل وصول التدفُّق حتى الزمن \(t\): \[ \begin{aligned} (\mu_{f},\ \sigma_{f}^{2})\leftarrow[\mathbf{f}_t^v,\ \mathbf{f}_t^s,\ \mathbf{f}_{t-\tau:t}^c,\ \mathbf{f}_{t-\tau:t}^{tr},\ \mathbf{f}_{t-\tau:t}^{q},\ \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned} \]
تقريب توزيع زمن السفر. مهمّة \(\mathcal{T}_{travel}\) تُقدِّر متوسّط \(\mu_{tr}\) وتباين \(\sigma_{tr}^{2}\) زمن السفر حتى \(t\): \[ \begin{aligned} (\mu_{tr},\ \sigma_{tr}^{2})\leftarrow[\mathbf{f}_t^v,\ \mathbf{f}_t^s,\ \mathbf{f}_{t-\tau:t}^c,\ \mathbf{f}_{t-\tau:t}^{tr},\ \mathbf{f}_{t-\tau:t}^{q},\ \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned} \]
تقريب طول الطابور التالي. مهمّة \(\mathcal{T}_{queue}\) تتنبّأ بمتوسّط طول الطابور \(q\) في الخطوة التالية: \[ \begin{aligned} q\leftarrow[\mathbf{f}_t^v,\ \mathbf{f}_t^s,\ \mathbf{f}_{t-\tau:t}^c,\ \mathbf{f}_{t-\tau:t}^{tr},\ \mathbf{f}_{t-\tau:t}^{q},\ \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned} \]
تقريب عدد المركبات على الطريق. مهمّة \(\mathcal{T}_{vehicles}\) تتنبّأ بعدد المركبات \(V^{r}\) الموجودة حاليًّا في الشبكة: \[ \begin{aligned} V^{r}\leftarrow[\mathbf{f}_t^v,\ \mathbf{f}_t^s,\ \mathbf{f}_{t-\tau:t}^c,\ \mathbf{f}_{t-\tau:t}^{tr},\ \mathbf{f}_{t-\tau:t}^{q},\ \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned} \] لا يشمل ذلك المركبات التي أنهت رحلتها أو لم تدخل الشبكة بعد.

نظرًا لاختلاف المقاييس والأبعاد بين السلاسل الزمنية \(\mathbf{f}_{t-\tau:t}^{(\cdot)}\) والملاحظات المحليّة، نستخدم أربع طبقات خطّية مستقلّة مع ReLU لتوسيعها: \[ \begin{aligned} \mathbf{h}^{c}&=\mathrm{ReLU}(\mathbf{W}_{1}\mathbf{f}_{t-\tau:t}^{c}+\mathbf{b}_{1}),\\ \mathbf{h}^{tr}&=\mathrm{ReLU}(\mathbf{W}_{2}\mathbf{f}_{t-\tau:t}^{tr}+\mathbf{b}_{2}),\\ \mathbf{h}^{q}&=\mathrm{ReLU}(\mathbf{W}_{3}\mathbf{f}_{t-\tau:t}^{q}+\mathbf{b}_{3}),\\ \mathbf{h}^{vr}&=\mathrm{ReLU}(\mathbf{W}_{4}\mathbf{f}_{t-\tau:t}^{vr}+\mathbf{b}_{4}). \end{aligned} \] ثم نُدمج المُدخلات المُضمَّنة ونُمرِّرها عبر طبقة خطّية وReLU لحساب الحالة الكامنة \(\mathbf{H}_{t}\): \[ \begin{aligned} \mathbf{H}_{t}=\mathrm{ReLU}\big(\mathbf{W}\,(\mathbf{f}_t^v,\ \mathbf{f}_t^s,\ \mathbf{h}^{c},\ \mathbf{h}^{tr},\ \mathbf{h}^{q},\ \mathbf{h}^{vr})+\mathbf{b}\big). \end{aligned} \]

استنادًا إلى \(\mathbf{H}_{t}\)، تمرّ البيانات عبر طبقة مشتركة بين المهام (تتضمن GRU) لتوليد الميزة الكامنة المُشتركة بين المهام، ثم تُغذّى أربع فروع مستقلّة خاصّة بكل مهمّة لإنتاج الميزة الكامنة المُخصَّصة للمهمّة. نتّبع رؤى (zhao2017learning) باستخراج ميزاتٍ كامنةٍ هرميّة: نعتبر ناتج الطبقة المشتركة بعد GRU هو الحالة العقلية (أعمّ وأكثر تجريدًا)، بينما دمج مخرجات الطبقات الخاصّة بالمهام يمثّل الحالة الظاهرة (أدقّ ومُوجَّهة بالمهمّة). يتكامل النوعان ويُستخدمان معًا لتعزيز الملاحظة.

السياسة مع الحالة الكامنة

باستخدام الحالة الكامنة، نُعزِّز ملاحظة الوكيل من \(\mathbf{o}_t\) إلى \((\mathbf{o}_t,\ \mathbf{o}_{t}^{shr},\ \mathbf{o}_{t}^{spe})\)، حيث تُشير \(\mathbf{o}_{t}^{shr}\) إلى الميزة المُشتركة بين المهام، و\(\mathbf{o}_{t}^{spe}\) إلى الميزة المُخصَّصة للمهمّة. هدف السياسة \(\pi^{\theta}\) تعظيم المكافأة التراكمية: \[ \begin{aligned} \max_{\theta}\ J(\theta)=\mathbb{E}_{\substack{a_t \sim \pi^\theta(a_t \mid \mathbf{o}_t,\mathbf{o}_{t}^{shr},\mathbf{o}_{t}^{spe})}}\left[\sum_{t=0}^{\mathcal{H}-1}\gamma^{t}r_{t+1}\right]. \end{aligned} \] يعمل الوكيل الذي يُعظِّم الهدف السابق عمل وكيل بايزي أمثل (ghavamzadeh2015bayesian) عند التعامل مع المعرفة حول المهام ذات الصلة بصفتها أَولويّات معلوماتية عن البيئة. تقلّل الوحدة مُتعدِّدة المهام تعقيد النموذج وتؤمِّن أَولويّاتٍ إحصائيّة، وتُخفِّض انحياز التمثيل بدفع خوارزميّة التعلُّم إلى فضاء حلٍّ أصغر، ما يُسرّع التقارب ويحسّن الأداء.

التجربة

أجرينا التجارب على منصّة CityFlow (zhang2019cityflow)، وهي محاكٍ مفتوح المصدر على مستوى المدينة للتحكُّم في إشارات المرور. تُوفِّر المنصّة بيئةً للتفاعل؛ تُنفِّذ الوكيلات الأفعال عبر تبديل الأطوار الإشارية، وتُعيد البيئة إشعارات الحالة والمكافآت.

نورد تفاصيل شبكات الطرق وتكوينات التدفُّق والطرائق الأساس في الملاحق ذات الصلة.

مقارنة الأداء

نتائج مقارنة أساليب التحكُّم عبر مدن وسيناريوهات متنوّعة

(lr)2-3 (lr)4-5 (lr)6-7 (lr)8-9	real	syn_peak	real	syn_peak	real	syn_peak	real	syn_peak

تُظهر النتائج بوضوح أنّ: 1) عمومًا تتفوّق طرق التعلُّم المُعزَّز على الطرق التقليدية، ما يبرز ميّزتها. وإضافةً إلى ذلك يقدّم MTLight أداءً متقدِّمًا في معظم المدن وتكوينات التدفُّق، مؤكِّدًا فعاليته. 2) يُظهر MTLight تعميمًا جيّدًا عبر سيناريوهات وتكوينات مختلفة؛ فمثلًا يحقّق maxpressure أداءً جيّدًا في hangzhou مع realflow لكنه يتراجع تحت synflow، بينما يحافظ MTLight على أداءٍ جيّدٍ ومستقرّ عبر هذه الأوضاع. 3) يتفوّق MTLight على individualrl وmetalight وpresslight بفوارق كبيرة (على التوالي: 693.46 و461.80 و432.38)، إذ إن تلك الطرق تتعلّم سياسة الإشارة من ملاحظاتها المحلية فقط وتُهمِل تأثير الجيران، بينما يُضمِّن MTLight معلومات الجوار ضمن بيئة التعلُّم. 4) تستفيد colight وgeneralight من مزج معلومات الجيران وتؤدّيان أداءً جيّدًا، غير أنّ MTLight يتفوّق عليهما في عدّة سيناريوهات، مع تحسينات تصل إلى نحو 42.5 و398، وذلك بفضل المعرفة المسبقة المُكتسَبة من الشبكة مُتعدِّدة المهام والتي تدعم قرارات أكثر دقّة.

دراسات الإزالة (Ablation)

للوقوف على إسهام كل مكوّن، نقارن أربعة متغيّرات من MTLight عبر سيناريوهات متنوّعة:

Base: يحتفظ بشبكة السياسة فقط ويزيل شبكة المهام المتعدّدة.
Base-Raw: يحتفظ بشبكة السياسة ويستغني عن شبكة المهام المتعدّدة، لكنه يُضيف مُدخلات الأخيرة الخام مباشرةً إلى الملاحظة.
Base-Per: يحتفظ بالشبكتين لكنه يستخدم الحالة الكامنة المُشتركة بين المهام فقط، ويزيل الحالة المُخصَّصة للمهمّة.
Base-Tem: يحتفظ بالشبكتين لكنه يستخدم الحالة الكامنة المُخصَّصة للمهمّة فقط، ويزيل الحالة المُشتركة.

أما MTLight الكامل فيجمع شبكة السياسة مع كلٍّ من الحالة الكامنة المُشتركة والحالة المُخصَّصة. تُظهر النتائج أنّ: 1) Base هو الأضعف لأن تعلّم سياسةٍ فعّالة بشكلٍ مستقل صعبٌ في بيئةٍ مُتعدِّدة الوكلاء وديناميكيّة. 2) يتحسّن الأداء مع Base-Per وBase-Tem مقارنةً بـBase وBase-Raw، ما يُبرز فعاليّة كلٍّ من الحالة المُشتركة (المعلومات السابقة الثابتة المرتبطة بمهام متقاربة) والحالة المُخصَّصة (المعلومات المُلائمة للاتجاهات الآنيّة). 3) تفوّق MTLight الكامل يؤكّد أنّ النوعين مُتكاملان، وأن جميع المكوّنات المقترحة تُسهم إيجابيًّا في النتيجة النهائية.

الخلاصة

قدّمنا MTLight، وهو منهج فعّال للتعلُّم المُعزَّز مُتعدِّد المهام للتحكُّم في إشارات المرور قابلٌ للتوسّع إلى شبكاتٍ حضرية معقّدة ومتعدّدة الوكلاء. تُظهر البنية الكامنة قدرتها على تعلُّم تمثيلاتٍ هرميّةٍ غنيّة تُميِّز بين ميزاتٍ مُشتركة عبر المهام وأخرى مُخصَّصة للمهمّة. عبر مجموعات بيانات لمدنٍ عدّة، برهنا أنّ هذا التمثيل المُستلهَم من مهام متّصلة، مع تكييف السياسة عليه، يُمكِّن الوكيل من التكيُّف مع بيئاتٍ معقّدة. نستنتج أنّ استبقاء تقريباتٍ أوليّة (Prior) مشتقّة من مهام متّصلة يُساعد مقارنةً بالمقاربات الخالية من النماذج، خاصّةً عندما تكون معلومات البيئة وفيرة ولا يمكن اختزالها في تصميم حالةٍ اصطناعي.

وفي أعمالٍ لاحقة، يمكن تعلُّم أَولويّاتٍ كامنة من بيانات خبراء مُسبقة باستخدام التعلُّم بالتقليد (song2018multi) أو عبر تدريبٍ مُسبق بالاعتماد على خوارزميّاتٍ مُتعدِّدة الوكلاء على شبكةٍ مُتعدِّدة المهام.

الملحق

تُدرج هنا تفاصيل إضافية مثل مواصفات شبكات الطرق، وتكوينات التدفُّق، ووصف الطرائق الأساس وإعدادات التدريب.