MTLight: التعلُّم المتعدد المهام الفعّال للتحكُّم في إشارات المرور باستخدام تقنيات التعلُّم المعزَّز

Liwen Zhu
Peking University
liwenzhu@pku.edu.cn
Peixi Peng
Peking University
pxpeng@pku.edu.cn
Zongqing Lu
Peking University
zongqing.lu@pku.edu.cn
Yonghong Tian
Peking University
yhtian@pku.edu.cn

مُلخَّص

يؤثّر التحكُّم في إشارات المرور بشكل كبير على تخفيف الازدحام المروري في المدن الحديثة. لقد تم استخدام تقنيات التعلُّم المعزَّز على نطاق واسع لهذه المهمة في السنوات الأخيرة، حيث أظهرت أداءً واعدًا، لكنها واجهت أيضًا العديد من التحديات مثل الأداء المحدود وضعف كفاءة العينات. لمواجهة هذه التحديات، تم اقتراح MTLight لتعزيز مراقبة الوكيل بحالة كامنة يتم تعلُّمها من مؤشرات مرور متعددة. في الوقت نفسه، يتم بناء مهام مساعدة وإشرافية متعددة لتعلُّم الحالة الكامنة، ويُستخدم نوعان من الميزات الكامنة المضمَّنة، الميزة المحددة للمهمة والميزة المشتركة بين المهام، لجعل الحالة الكامنة أكثر ثراءً. أظهرت التجارب الموسعة التي أُجريت على CityFlow أن MTLight يتمتع بسرعة تقارب رائدة وأداء تقاربي متميز. كما نقوم بمحاكاة تحت نمط ساعة الذروة في جميع السيناريوهات مع زيادة صعوبة التحكُّم، وتشير النتائج إلى أن MTLight قابل للتكيُّف بشكل كبير.

مقدمة

يهدف التحكُّم في إشارات المرور إلى تنسيق إشارات المرور عبر التقاطعات لتحسين كفاءة المرور في منطقة أو مدينة، وهو ما يلعب دورًا هامًا في النقل الفعّال. تعتمد معظم الطرق التقليدية للتحكُّم في إشارات المرور على توقيت ثابت (koonce2008traffic) أو استدلالات مصممة يدويًا (kouvelas2014maximum)، والتي تعتمد بشكل كبير على المعرفة الخبيرة والتنقيب العميق في البيانات التاريخية المرورية الإقليمية، مما يجعل من الصعب نقلها. مؤخرًا، تُستخدم الطرق المبنية على تعلُّم التعزيز العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) حيث يتم تدريب شبكة عصبية عميقة للتحكُّم في التقاطع من خلال التفاعل المباشر مع البيئة. ومع ذلك، بسبب وفرة مؤشرات المرور (عدد السيارات، طول الطابور، وقت الانتظار، السرعة، إلخ)، وتعقيد الملاحظة والبيئة الديناميكية، تظل المشكلة تحديًا ولم تُحل بعد.

نظرًا لأن الملاحظة والمكافأة وديناميكيات كل إشارة مرور مرتبطة ارتباطًا وثيقًا بالآخرين، فإن تحسين التحكُّم في إشارات المرور في شبكة طرق واسعة النطاق يُنمذج بشكل طبيعي كمشكلة تعلُّم تعزيز متعدد الوكلاء (MARL). معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) اقترحت تعلُّم سياسة كل وكيل مشروطة فقط على الملاحظات الأولية للتقاطع، مع تجاهل مساعدة الحالة العالمية، والتي يمكن الوصول إليها في المدينة الذكية. كما ذُكر في (zheng2019diagnosing)، فإن المقاييس المختلفة لها تأثير كبير على مهمة التحكُّم في إشارات المرور. وبالتالي، يجب ألا يقتصر تصميم ملاحظة الوكيل على الملاحظات الأولية للتقاطع فقط، بل يشمل أيضًا الحالة العالمية. يمكن لتصميم ملاحظة جيدة للوكيل أن يستفيد بالكامل من العينات، ويحسّن ليس فقط أداء السياسة ولكن أيضًا كفاءة العينة. ومع ذلك، هناك كمية هائلة من مؤشرات أو مقاييس المرور في الحالة العالمية، ومن الصعب تصميم ملاحظة وكيل مناسبة وغير متكررة بين هذه المؤشرات. من جهة، قد لا يمثّل تصميم الملاحظة الموجزة بشكل مفرط خصائص الحالة بشكل كافٍ وشامل، وبالتالي يؤثر على دقة تقدير انتقال الحالة وكذلك على اختيار الإجراء. في المقابل، إذا تم استخدام مجموعة معقدة من المقاييس كملاحظة، فمن الصعب تحديد أوزان المقاييس المختلفة بدقة، وقد يتسبب ذلك في تكرار البيانات وانفجار الأبعاد، مما لا يزيد فقط من استهلاك الحوسبة ولكن أيضًا يصعّب على الوكيل التعلُّم.

من أجل توفير تمثيل كافٍ لمهمة التحكُّم في إشارات المرور، يتم تقديم الحالة الكامنة. على وجه التحديد، الملاحظة الأولية مطابقة للتقاطع، والتي تتكوّن من عدة متغيرات ذات معانٍ دلالية محددة (أي عدد السيارات على كل مسار قادم والمرحلة الحالية للإشارة). ثم، يتم تعزيز الملاحظة الأولية بواسطة الفضاء الكامن. لتعلُّم الفضاء الكامن من الحالة العالمية، يتم بناء عدة مهام مساعدة وإشرافية، والتي تتعلق بالتحكُّم في إشارات المرور. أي أن عدة إحصائيات من تاريخ الحالة العالمية تُؤخذ كمدخلات، ويُستخدم أولاً شبكة قائمة على الشبكة العصبية المتكررة (RNN)، ثم يتم تقديم عدة فروع لاحقًا للتنبؤ بأنواع متعددة من الإحصائيات للحالة العالمية، مثل توزيع التدفق وتوزيع وقت السفر، على التوالي. لجعل الفضاء الكامن أكثر ثراءً، يتم استخراج نوعين من ميزات التضمين: الميزة المحددة للمهمة والميزة المشتركة بين المهام. الأولى تُستخرج بواسطة الفرع المحدد للمهمة وتمثل المعلومات المدفوعة بالمهمة، بينما الأخيرة من طبقة مشتركة بين المهام ويمكن أن تعبّر عن خصائص أساسية أكثر عمومية. وبالتالي، فهما مكملتان لبعضهما البعض ويُستخدم كلاهما لتعزيز الملاحظة الأولية. وأخيرًا، مشروطًا على الملاحظة المعزَّزة، يتم تعلُّم السياسة بواسطة (DRL) (mnih2015human). لاحظ أن المهام المتعددة يتم تعلُّمها في وقت واحد مع (DRL)، مما يجعل الفضاء الكامن أكثر تكيفًا مع تعلُّم السياسة.

الأعمال ذات الصلة

نستعرض الأعمال ذات الصلة في القسم [sec:related_work]، والمقدمات في القسم [sec:preliminaries]. يتم تقديم إعداد التعلُّم متعدد الوكلاء في القسم [sec:problem_definition]. يقدم القسم [sec:method] تفاصيل الطريقة المقترحة. يقدم القسم [sec:experiment] النتائج التجريبية التي تظهر كفاءة Multi-Agent Reinforcement Learning بشكل تجريبي. وأخيرًا، تتم مناقشة الاستنتاجات والأعمال المستقبلية في القسم [sec:conclusion].

بيان المشكلة

تعريف المشكلة

نعتبر مشكلة التحكُّم في إشارات المرور لعدة وكلاء، حيث يتم نمذجة المهمة كلعبة ماركوف (Littman1994markov)، والتي يمكن تمثيلها بالصيغ \(\mathcal{G}=<\mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma>\). \(\mathcal{N} \equiv\{1, \ldots, n\}\) هي مجموعة محدودة من الوكلاء، وكل تقاطع في السيناريو يتم التحكُّم فيه بواسطة وكيل. \(\mathcal{S}\) هي مجموعة محدودة من فضاء الحالة العالمي. \(\mathcal{A}\) يدل على فضاء العمل لوكيل فردي. العمل المشترك \(\boldsymbol{a} \in \mathbf{A} \equiv \mathcal{A}^{n}\) هو مجموعة من الأعمال الفردية \(\left[a_{i}\right]_{i=1}^{n}\). في كل خطوة زمنية، يتلقى كل وكيل \(i\) ملاحظة \(o_{i} \in \mathcal{O}\)، يختار عملاً \(a_{i}\)، ينتج عنه الحالة التالية \(s^{\prime}\) وفقًا لوظيفة الانتقال \(\mathcal{P}\left(s^{\prime} \mid s, \boldsymbol{a}\right)\) ومكافأة \(r=\mathcal{R}(s, \mathbf{a})\) لكل وكيل. \(\mathcal{H}\) هو أفق الزمن و \(\gamma \in[0,1)\) هو عامل الخصم.

تصميم الوكيل

يتم التحكُّم في كل تقاطع في النظام بواسطة وكيل. فيما يلي، نقدم تصميم الحالة، تصميم الفعل وتصميم المكافأة لوكيل التعلُّم المعزَّز.

الطريقة

في هذا القسم، سنقدّم الوحدات الرئيسية لطريقتنا المقترحة MTLight، التي تركز على تعلُّم الحالة الكامنة المشتركة المتعلقة بالمهمة والحالة الكامنة الخاصة بالمهمة من خلال تقديم شبكة متعددة المهام مساعدة لدعم تعلُّم السياسات. توصف العملية الكاملة لـ MTLight في الخوارزمية [alg:train].

MTLight يتكوّن من شبكة متعددة المهام وشبكة وكيل. بالنسبة للأخيرة، يتم استخدام شبكة Deep Q-Network (DQN) (mnih2015human) كمقرِّب وظيفي لتقدير دالة القيمة Q، وهو ما يتوافق مع الطرق السابقة (chen2020toward, wei2019colight, wei2019presslight, zheng2019learning, wei2018intellilight). وحدة متعددة المهام تعتمد نمط مشاركة المعلمات الصعبة (caruana1997multitask)، والذي يُطبَّق عادةً عبر مشاركة الطبقات المخفية بين جميع المهام، مع الاحتفاظ بعدة طبقات ناتجة خاصة بكل مهمة.

التعلُّم المتعدد المهام للحالة الكامنة

لكل وكيل، تتضمن ملاحظته الأولية عدد السيارات \(\mathbf{f}_t^v\) والمرحلة الإشارية الحالية \(\mathbf{f}_t^s\). بالإضافة إلى ذلك، يتم تقديم عدة معلومات من الحالة العامة، مثل: عدد السيارات القادمة في الخطوات \(\tau\) الأخيرة، المشار إليها بـ \(\mathbf{f}_{t-\tau:t}^c = [\mathbf{f}_{t-\tau}^c, \mathbf{f}_{t-\tau+1}^c, \ldots, \mathbf{f}_{t}^c]\)، متوسط وقت السفر خلال الخطوات \(\tau\) الماضية، المشار إليه بـ \(\mathbf{f}_{t-\tau:t}^{tr} = [\mathbf{f}_{t-\tau}^{tr}, \mathbf{f}_{t-\tau+1}^{tr}, \ldots, \mathbf{f}_{t}^{tr}]\)، طول الطابور خلال الخطوات \(\tau\) الماضية، المشار إليه بـ \(\mathbf{f}_{t-\tau:t}^{q} = [\mathbf{f}_{t-\tau}^{q}, \mathbf{f}_{t-\tau+1}^{q}, \ldots, \mathbf{f}_{t}^{q}]\)، والسيارات الحالية خلال الخطوات \(\tau\) الماضية، المشار إليها بـ \(\mathbf{f}_{t-\tau:t}^{vr} = [\mathbf{f}_{t-\tau}^{vr}, \mathbf{f}_{t-\tau+1}^{vr}, \ldots, \mathbf{f}_{t}^{vr}]\).

تتضمن وحدة التعلُّم المتعدد المهام المهام الأربع التالية:

  1. تقريب توزيع الجريان. نستخدم \(\mathcal{T}_{flow}\) للإشارة إلى مهمة تقدير توزيع الجريان، أي التنبؤ بالمتوسط \(\mu_{f}\) والتباين \(\sigma_{f}^{2}\) لمعدل وصول الجريان من البداية حتى خطوة الزمن \(t\). يمكن الإشارة إلى المهمة كما يلي: \[\begin{aligned} (\mu_{f}, \sigma_{f}^{2}) \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]

  2. تقريب توزيع وقت السفر. نستخدم \(\mathcal{T}_{travel}\) للإشارة إلى مهمة تقدير توزيع وقت السفر، أي التنبؤ بالمتوسط \(\mu_{tr}\) والتباين \(\sigma_{tr}^{2}\) لمتوسط وقت السفر للسيارات التي أكملت الرحلة من البداية حتى خطوة الزمن \(t\): \[\begin{aligned} (\mu_{tr}, \sigma_{tr}^{2}) \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]

  3. تقريب طول الطابور التالي. نستخدم \(\mathcal{T}_{queue}\) للإشارة إلى مهمة تقدير طول الطابور التالي، أي التنبؤ بمتوسط عدد \(q\) من السيارات في الطابور في الخطوة التالية: \[\begin{aligned} q \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]

  4. تقريب السيارات على الطريق. نستخدم \(\mathcal{T}_{vehicles}\) للإشارة إلى مهمة تقدير السيارات على الطريق، أي التنبؤ بعدد السيارات \( V^{r}\) الموجودة في النظام: \[\begin{aligned} V^{r} \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\] لاحظ أن السيارات التي أكملت الرحلات أو التي لم تدخل بعد إلى شبكة الطرق لا تنتمي إلى هذه.

تعمل المهام المذكورة أعلاه كمساعدات لتعلُّم الفضاء الكامن. نظرًا لأن أعداد \(\mathbf{f}_{t-\tau:t}^c\), \(\mathbf{f}_{t-\tau:t}^{tr}\), \(\mathbf{f}_{t-\tau:t}^{q}\), \(\mathbf{f}_{t-\tau:t}^{vr}\) لها مقاييس وأبعاد مختلفة عن \(\mathbf{f}_t^v\) و \(\mathbf{f}_t^s\)، يتم استخدام أربع طبقات خطية مستقلة ووظائف ReLU أولاً لتوسيعها على التوالي: \[\begin{aligned} \mathbf{h}^{c} = {ReLU}(\mathbf{W}_{1} \mathbf{f}_{t-\tau:t}^{c}+\mathbf{b}_{1}), \ \mathbf{h}^{tr} = {ReLU}(\mathbf{W}_{2} \mathbf{f}_{t-\tau:t}^{tr}+\mathbf{b}_{2}), \\ \mathbf{h}^{q} = {ReLU}(\mathbf{W}_{3} \mathbf{f}_{t-\tau:t}^{q}+\mathbf{b}_{3}), \ \mathbf{h}^{vr} = {ReLU}(\mathbf{W}_{4} \mathbf{f}_{t-\tau:t}^{vr}+\mathbf{b}_{4}).\end{aligned}\]

ثم يتم استخدام طبقة خطية ووظيفة ReLU لحساب الحالة الخفية بعد دمج جميع المدخلات المضمَّنة: \[\begin{aligned} \mathbf{H}_{t} = {ReLU}(\mathbf{W}_{} (\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{h}^{c}, \mathbf{h}^{tr}, \mathbf{h}^{q}, \mathbf{h}^{vr})+\mathbf{b}_{}).\end{aligned}\]

استنادًا إلى \(\mathbf{H}_{t}\)، يتم استخدام وحدة شبكة مشتركة بين المهام لتوليد ميزتها الكامنة المشتركة (وتسمى أيضًا الحالة الظاهرة). ثم يتم تقديم أربع فروع مستقلة لكل مهمة وحساب الميزة الكامنة المحددة للمهمة (وتسمى أيضًا الحالة العقلية) منها. تم سرد التنفيذ المحدد لهندسة الشبكة في الملحق.

نستخدم نموذج متغير كأمن واحد لاستخراج الميزات الكامنة الهرمية، والتي تتبع رؤى (zhao2017learning). أي أن الحالة العقلية هي ناتج الطبقة المشتركة بعد GRU في شبكة التعلُّم المتعدد المهام ويمكن أن تعبّر عن خصائص أساسية أكثر عمومية. بالمقابل، الحالة الظاهرة هي دمج ناتج الطبقة المحددة للمهمة وتمثل المعلومات المدفوعة بالمهمة. بعبارة أخرى، الحالة العقلية أكثر عمومية، بينما الحالة الظاهرة أكثر دقة. وبالتالي، فهما مكملتان لبعضهما البعض وكلاهما مستخدم في طريقتنا.

السياسة مع الحالة الكامنة

بمساعدة الحالة الكامنة، يتم تعزيز ملاحظة العامل من \(\mathrm{\mathbf{o}_t}\) إلى \((\mathrm{\mathbf{o}_t},\mathrm{\mathbf{o}_{t}^{shr}},\mathrm{\mathbf{o}_{t}^{spe}})\). بالنسبة للسياسة \(\pi^{\theta}\)، الهدف هو تعظيم المكافأة التراكمية: \[\begin{aligned} \max\limits_{\theta}J(\theta)=\mathbb{E}_{\substack{a_t \sim \pi^\theta(a_t \mid \mathrm{\mathbf{o}_t},\mathrm{\mathbf{o}_{t}^{shr}}. \mathrm{\mathbf{o}_{t}^{spe}})}}\sum\limits_{t=0}^{\mathcal{H}-1}\gamma^{t}r_{t+1}. \label{eq:RL}\end{aligned}\]

العامل الذي يعظّم المعادلة [eq:RL] يتصرّف بشكل مثالي تحت عدم اليقين ويُسمى الأمثل بايز (ghavamzadeh2015bayesian)، بافتراض أننا نعامل المعرفة حول المهام المتعلقة كأولويتنا الابستمولوجية عن البيئة. وحدة المهام المتعددة تقلل من تعقيد النموذج وتعطي أولويات معلوماتية للنموذج. بالإضافة إلى ذلك، يمكنها تقليل التحيز في التمثيل بطريقة تدفع خوارزمية التعلُّم لإيجاد حل في منطقة أصغر من التمثيلات عند التقاطع بدلاً من منطقة كبيرة لمهمة واحدة. هذا يحفز على تقارب أسرع وأفضل.

التجربة

نقوم بإجراء التجارب على منصة CityFlow (zhang2019cityflow)، وهي منصة محاكاة مفتوحة المصدر على مستوى المدينة للتحكُّم في إشارات المرور. تُستخدم المحاكاة كبيئة لتوفير حالة للتحكُّم في إشارات المرور، حيث يقوم الوكلاء بتنفيذ الإجراءات من خلال تغيير مراحل إشارات المرور، وتقوم المحاكاة بإرجاع التغذية الراجعة.

يرجى الرجوع إلى الملحق [sec:road_networks] والملحق [sec:flow_configurations] للإعدادات التفصيلية لشبكة الطرق وتكوين تدفق المرور. يتم وصف الأساسيات بالتفصيل في الملحق [sec:baselines].

مقارنة الأداء

(lr)2-3 (lr)4-5 (lr)6-7 (lr)8-9 real syn_peak real syn_peak real syn_peak real syn_peak
maxpressure 416.82 2320.65 355.12 1218.13 380.42 1481.48 389.45 1387.87 1387.87
fixedtime 718.29 1787.58 814.09 1739.69 1849.78 2086.59 786.54 1845.03 1453.45
sotl 1209.26 2062.49 1453.97 1991.03 1890.55 2140.15 1376.52 2098.09 1777.76
individualrl 743.00 1819.57 843.63 1745.07 1867.86 2100.68 769.47 1845.34 1466.83
metalight 480.77 1576.32 784.98 1854.38 261.34 2145.49 694.83 2083.26 1235.17
presslight 529.64 1754.09 809.87 1930.98 302.87 1846.76 639.04 1832.76 1205.75
colight 297.89 1077.29 511.43 1217.17 159.81 1457.56 438.45 1367.38 815.87
generalight 335.18 1574.93 585.89 1616.28 1208.73 1686.49 792.22 1574.10 1171.73
base 705.85 1718.37 808.28 1703.21 903.82 2097.84 728.49 1937.45 1325.41
baseraw 684.34 1845.92 623.94 1835.45 592.34 1934.04 703.56 1845.32 1258.11
baseper 313.28 1146.79 499.88 1325.27 463.15 1416.65 438.69 1371.53 871.91
basetem 431.55 1446.63 517.09 1430.96 431.65 1669.61 684.83 1442.35 1006.83
mtlight 161.24 1011.67 346.93 1176.02 209.46 1394.15 402.57 1284.93 748.37

يسرد الجدول [tab:performance_1] النتائج المقارنة، ومن الواضح أن: ١) بشكل عام، تؤدي طرق التعلُّم الآلي أداءً أفضل من الطرق التقليدية، وهذا يدل على ميزة التعلُّم الآلي. علاوة على ذلك، mtlight يتفوّق على الطرق الأخرى في معظم المدن وتكوينات التدفق، مما يُظهر فعالية الطريقة. ٢) mtlight يُظهر تعميمًا جيدًا لسيناريوهات وتكوينات مختلفة. على سبيل المثال، maxpressure يؤدي بشكل جيد في hangzhou مع realflow، بينما تحت ظروف المرور synflow، maxpressure يظهر أداءً أسوأ بكثير من الطرق الأخرى. بالمقابل، mtlight لا يحقق فقط أداءً جيدًا تحت تكوينات متنوعة من hangzhou، بل يُظهر أيضًا استقرارًا كبيرًا. ٣) mtlight يتفوّق على individualrl، metalight و presslight بفارق 693.46، 461.80 و 432.38 على التوالي. السبب هو أنهم يتعلمون سياسة إشارات المرور فقط باستخدام ملاحظاتهم ويتجاهلون تأثير الجيران، بينما mtlight يعتبر الجيران جزءًا من البيئة للمساعدة في التعلُّم. ٤) معلومات الجيران المُمَذْجَة في colight و generalight يمكن أن تتكيف مع مجموعة متنوعة من التدفقات، وكلاهما يؤدي أداءً جيدًا. بينما نتائج mtlight أفضل منهما في سيناريوهات متعددة، مما يؤدي إلى تحسين بمقدار 42.5 و 398. مقارنةً بهما، mtlight يستفيد من المعرفة المسبقة المكتسبة من شبكة متعددة المهام لاتخاذ قرارات أكثر دقة.

التجريدات

للتحقق بشكل أفضل من مساهمة كل مكوّن، تم تقييم ثلاثة نماذج من MT-Light تحت مجموعة متنوعة من السيناريوهات، كما هو موضح في الجدول [tab:performance_1].

لاحظ أن MT-Light يحتوي على جميع الوحدات: شبكة السياسات، شبكة المهام المتعددة مع الحالة الكامنة المحددة للمهمة والحالة الكامنة المشتركة بين المهام.

تُقدّم نتائج التقييم الكمي في الجدول [tab:performance_1]. يمكننا الحصول على النتائج التالية: 1) بين هذه النماذج الأربعة، أداء Base هو الأسوأ. السبب أنه من الصعب تعلُّم سياسة فعّالة بشكل مستقل في مهمة التحكُّم في إشارات المرور متعددة الوكلاء، حيث تتغير البيئة المحيطة ديناميكيًا، لكن Base لا يدرك ذلك. 2) مقارنة بـ Base و Base-Raw، تظهر تحسينات Base-Per و Base-Tem فعالية الحالة الكامنة المشتركة بين المهام Per-Latent-State والحالة الكامنة المحددة للمهمة Tem-Latent-State على التوالي. Per-Latent-State تعكس المعلومات السابقة التي تظل ثابتة عبر الزمن مع مهام متعددة مرتبطة، Tem-Latent-State تعكس المعلومات السابقة التي تتماشى مع أحدث الاتجاهات المتغيرة، وكلاهما يساعد السياسة على اتخاذ قرارات مثلى بايزية. 3) الحالتان الكامنتان Per-Latent-State و Tem-Latent-State فعالتان لأن كل منهما تمثيل فعّال لميزات البيئة. مقارنةً بهما، تفوق MT-Light يشير إلى أن Per-Latent-State و Tem-Latent-State مكملتان لبعضهما البعض. بشكل عام، جميع المكونات المقترحة تسهم بشكل إيجابي في النتائج النهائية.

الخلاصة

قدّمنا MTLight، وهي طريقة فعّالة لتعلُّم تعزيز متعدد المهام للتحكُّم في إشارات المرور يمكن توسيع نطاقها إلى شبكات طرق حضرية معقدة متعددة الوكلاء بمقاييس مختلفة. أظهرنا أن البنية الكامنة لـ MTLight تتعلّم تمثيلات كامنة هرمية للمهام المتصلة، مفصّلة بين الحالات الكامنة المشتركة بين المهام والمحددة لكل مهمة. في مجموعات بيانات عدة مدن، أثبتنا أن هذا التمثيل الكامن المستوحى من مهام متعددة متصلة، وتكييف السياسة عليه، يسمح للوكيل بالتكيُّف مع البيئة المعقدة. نستنتج أن الحفاظ على التقريبات السابقة للمهام المتصلة يساعد مقارنة بالنهج الخالية من النماذج، خاصة عندما يكون هناك الكثير من المعلومات في البيئة ولا يمكن التعبير عنها بالكامل بتصميم حالة اصطناعية.

للمستقبل، يمكن تعلُّم الأولوية الكامنة من بيانات الخبراء المعدة مسبقًا باستخدام تقنيات التعلُّم بالتقليد (song2018multi)، أو باستخدام خوارزميات متعددة الوكلاء الحالية للتدريب المسبق على شبكة متعددة المهام.

الملحق

يمكنك تضمين أقسام إضافية أخرى هنا.

تفاصيل تنفيذ MT-Light
العناصر التفاصيل
عدد خطوات السياسة 3600
معامل الخصم \(\gamma\) 0.95
سياسة \(\epsilon\) 0.1 \(\rightarrow\) 0.01
معدل تناقص \(\epsilon\) 0.995
معدل تعلُّم السياسة 0.005
دفعة صغيرة للسياسة 32
أبعاد الفضاء الكامن المشترك للمهمة 5
أبعاد الفضاء الكامن المحدد للمهمة 5
معامل الحالة الكامنة المشتركة للمهمة 10
معامل الحالة الكامنة المحددة للمهمة 10
شبكة السياسة طبقتان مخفيتان،
الهندسة المعمارية 20 عقدة لكل منهما،
تفعيلات ReLU
محسّن شبكة السياسة RMSprop مع معدل تعلُّم 0.001
وخسارة MSE
5 طبقات تضمين MLP،
2 طبقات FC مشتركة قبل GRU،
GRU بحجم خفي 64،
هندسة معمارية متعددة المهام طبقة FC مشتركة واحدة بعد GRU،
4 طبقات FC محددة للمهمة،
4 طبقات مخرجات محددة للمهمة
تفعيلات ReLU
محسّن متعدد المهام Adam مع معدل تعلُّم 0.01
وخسارة MSE

الأعمال ذات الصلة

طرق التحكُّم بإشارات المرور التقليدية والمتكيفة

تم تصميم معظم طرق التحكُّم بإشارات المرور التقليدية استنادًا إلى التحكُّم بالإشارات الثابتة (webster1958traffic)، التحكُّم المتكيف (chiu1992adaptive) أو التحكُّم بإشارات المرور المنظمة ذاتيًا (chiu1993self, cools2013self, lowrie1990scats, svanes1981scat, hunt1981scoot). تعتمد هذه الطرق على المعرفة الخبيرة وغالبًا ما تؤدي إلى نتائج غير مرضية في المواقف الواقعية المعقدة. لحل هذه المشكلة، تم اقتراح عدة طرق مبنية على التحسين (roess2004traffic, varaiya2013max, kouvelas2014maximum) لتحسين متوسط وقت السفر، الإنتاجية، إلخ.، والتي تقرر خطط إشارات المرور استنادًا إلى البيانات المرصودة بدلاً من المعرفة البشرية المسبقة. ومع ذلك، تعتمد هذه الطرق عادةً على افتراضات صارمة قد لا تكون صحيحة في الحالات الواقعية (webster1966traffic). بالإضافة إلى ذلك، فإن مشاكل التحسين هذه عادةً ما تكون صعبة المسار وتتطلب قوة حوسبة كبيرة في السيناريوهات المعقدة.

طرق التحكُّم في إشارات المرور بناءً على التعلُّم المعزَّز

تهدف طرق التحكُّم في إشارات المرور بناءً على التعلُّم المعزَّز إلى تعلُّم السياسات من التفاعلات مع البيئة. استخدمت الدراسات السابقة تعلُّم Q الجدولي (el2013multiagent, abdoos2013holonic, dusparic2009distributed, abdoos2011traffic) حيث يتطلب تقطيع الحالات في البيئة إلى أجزاء متقطعة وذات أبعاد منخفضة. لمعالجة مشكلة الفضاء الحالي الكبير أو المستمر، تُستخدم التطورات الحديثة في التعلُّم المعزَّز العميق مع تمثيلات الحالة المستمرة المعقدة (مثل الصور أو متجهات الميزات) لرسم الحالات ذات الأبعاد العالية إلى الأفعال.

تم بذل جهود لتصميم استراتيجيات تصوغ المهمة كعامل واحد (wei2018intellilight, mannion2016experimental, huang2021modellight, zang2020metalight, oroojlooy2020attendlight, jiang2021dynamic, rizzo2019time) أو بعض التقاطعات المعزولة (zheng2019diagnosing, zheng2019learning, xiong2019learning, wei2019presslight, chen2020toward, oroojlooy2020attendlight, zhang2020generalight, zhang2020planlight)، أي أن كل عامل يتخذ قرارًا لنفسه. تكون الطرق المذكورة أعلاه عادةً سهلة التوسّع، ولكن قد تواجه صعوبة في تحقيق الأداء الأمثل العالمي بسبب نقص التعاون. لحل المشكلة، يُعتبر أسلوب آخر يتمثل في نمذجة الفعل بين العوامل التعليمية بشكل مشترك مع التحسين المركزي (van2016coordinated, kuyer2008multiagent). ومع ذلك، مع زيادة عدد العوامل، يؤدي التحسين المشترك عادةً إلى انفجار الأبعاد، مما أعاق الاعتماد الواسع النطاق لمثل هذه الطرق في التحكُّم بإشارات المرور على نطاق واسع. للتغلب على الصعوبة، يتم تنفيذ نوع آخر من الطرق بطريقة لا مركزية، مع مراعاة التعاون بين الجيران مع تصميم المكافأة والحالة المناسبة (arel2010reinforcement, nishi2018traffic, wei2019colight, xu2021hierarchically). تضيف طرق مثل (el2013multiagent, chu2019multi) معلومات الجيران إلى الحالات، (nishi2018traffic, wei2019colight, yu2020macar, guo2021urban) تضيف ميزات خفية للجيران إلى الحالات، و (xu2021hierarchically) تحسّن وقت السفر في الحي كمكافأة إضافية. ومع ذلك، فإن الدمج البسيط لمعلومات الجيران ليس معقولًا بما فيه الكفاية لأن تأثير التقاطعات المجاورة ليس متوازنًا. على عكس الطرق المذكورة أعلاه التي تضيف معلومات الجيران إلى الحالة، يتعلّم أسلوبنا الحالات الكامنة المشتركة والمحددة للمهمة من خلال بناء شبكة متعددة المهام.

التعلُّم المتعدد المهام

التعلُّم المتعدد المهام هو نمط تعلُّم يهدف إلى تعلُّم مهام متعددة ذات صلة بشكل مشترك بحيث يمكن استغلال المعرفة الموجودة في مهمة لتعزيز المهام الأخرى. وقد وجدت الأعمال السابقة (oh2017zero, zhang2021survey, ruder2017overview, ndirango2019generalization) أنه من خلال مشاركة التمثيل بين المهام ذات الصلة وتعلُّم جميع المهام بشكل مشترك، يمكن تحقيق تعميم أفضل مقارنة بتعلُّم كل مهمة بشكل مستقل. تشكيل المهام المساعدة لمساعدة المهمة الرئيسية هو فرع من التعلُّم المتعدد المهام. يُعرف التعلُّم بالتعزيز بأنه غير فعّال من حيث العينات، ونقل المعرفة من المهام المساعدة الأخرى هو أداة قوية لتحسين كفاءة التعلُّم (jaderberg2016reinforcement, lin2019adaptive, lyle2021effect, tongloy2017asynchronous, bellemare2019geometric). يجمع البحث (lin2019adaptive) بين المهام المساعدة المختلفة التي توفر اتجاهات التدرج لتسريع تدريب المهمة الرئيسية للتعلُّم بالتعزيز. بالمقارنة، يهدف عملنا إلى نقل المعرفة من المهام المساعدة ذات الصلة بالمهمة كأساس للمهمة الرئيسية للتعلُّم بالتعزيز، لتعزيز الأداء في نهاية المطاف. على وجه التحديد، ننمذج شبكة التعلُّم المتعدد المهام كهيكل كامن حيث يتم توليد الحالة الكامنة المشتركة بين المهام من الطبقات المبكرة ويتم توليد الحالة الكامنة المحددة للمهمة من الطبقات الأعمق. هذا يحفز السياسة على تعلُّم السلوكيات المثلى حسب بايز: يمكن للسياسة أن تأخذ في الاعتبار عدم اليقين الخاص بها حول المعلومات الشاملة عند اختيار الإجراءات.

المقدمات

في هذا القسم، نقدم أولاً بعض المفاهيم الأساسية المتعلقة بتحكُّم إشارات المرور (TSC) التي تم التعرف عليها على نطاق واسع في الأعمال السابقة (wei2019colight, zheng2019learning, zhang2020generalight, wei2019presslight, chen2020toward, zang2020metalight). لاحظ أن هذه المفاهيم يمكن تعميمها بسهولة على تقاطعات أخرى ذات هياكل مختلفة.

الخوارزمية

تم عرض الخوارزمية في الخوارزمية [alg:train].

مجموعات البيانات

شبكات الطرق

تأتي سيناريوهات التقييم من خرائط شبكات طرق حقيقية لأربع مناطق مختلفة الأحجام، وتشمل هانغتشو (الصين)، جينان (الصين)، نيويورك (الولايات المتحدة الأمريكية) وشنتشن (الصين). شبكات الطرق والبيانات لهانغتشو، جينان ونيويورك مأخوذة من مجموعات البيانات العامة1. خريطة شبكة الطرق لشنتشن تم إعدادها بواسطة فريقنا وهي مشتقة من OpenStreetMap2. تحتوي شبكات الطرق في جينان وهانغتشو على 12 و16 تقاطعًا في شبكات \(4 \times 3\) و\(4 \times 4\) على التوالي. تشتمل شبكة الطرق في نيويورك على 48 تقاطعًا في شبكة \(16 \times 3\). تحتوي شبكة الطرق في شنتشن على 33 تقاطعًا، وهي ليست على شكل شبكة مقارنة بالخرائط الثلاث الأخرى.

معدل الوصول لمجموعة بيانات المرور الواقعية
(lr)3-6 المتوسط الانحراف المعياري الأقصى الأدنى
هانغتشو 16 (4 \(\times\) 4) 248.58 42.25 333 212
جينان 12 (4\(\times\)3) 524.58 102.91 672 256
نيويورك 48 (16\(\times\)3) 235.33 5.84 244 224
شنتشن 33 (غير شبكية) 147.92 79.35 255 22

ccccc مجموعة البيانات & الزمن &

إحصائيات بيانات المرور الاصطناعية
معدل الوصول
(مركبات/ث)

&

إحصائيات بيانات المرور الاصطناعية
المركبات
الوافدة

&

إحصائيات بيانات المرور الاصطناعية
المركبات
المتراكمة


& 0-600 & 1.00 & 600 & 600
& 600-1200 & 0.25 & 150 & 750
& 1200-1800 & 4.00 & 2400 & 3150
& 1800-2400 & 2.00 & 1200 & 4350
& 2400-3000 & 0.2 & 120 & 4470
& 3000-3600 & 0.5 & 150 & 4770

إحصائيات تردد الانعطاف في التقاطعات في جميع الطرق.
(ll)2-3 (ll)4-5 (ll)6-7 الواقعي ذروة_التخليق الواقعي ذروة_التخليق الواقعي ذروة_التخليق
انعطاف يسار 1093 5175 3044 5833 3886 7169
متابعة مستقيم 6620 16293 12175 13704 17498 27976
انعطاف يمين 3184 8752 5972 8747 4021 7421

تكوينات التدفق

نقوم بتشغيل التجارب تحت تكوينين للتدفق المروري: التدفق المروري الحقيقي والتدفق المروري الاصطناعي. التدفق المروري الحقيقي هو بيانات إحصائية ساعة من العالم الواقعي مع تباين طفيف في معدلات وصول السيارات، كما هو موضح في الجدول [tab:data_statistics_1]. نظرًا لأن الاستراتيجيات الواقعية غالبًا ما تفشل خلال فترات الاختناق (ساعة الذروة)، لتقييم أداء طرق التحكُّم في إشارات المرور بشكل أفضل في سيناريو الذروة المسطحة، نستخدم مجموعات بيانات اصطناعية، والتي تظهر تباينًا أكثر دراماتيكية في معدلات وصول السيارات، كما هو موضح في الجدول [tab:data_statistics_2]. وصف مفصل لتكوينات التدفق المروري هو:

معايير التقييم

وفقًا للدراسات السابقة (wei2019colight, wei2019presslight, xiong2019learning, chen2020toward, zang2020metalight)، نستخدم متوسط وقت السفر لتقييم أداء الطرق المختلفة للتحكُّم في إشارات المرور. يشير متوسط وقت السفر إلى الوضع المروري العام في منطقة ما على مدى فترة زمنية. للحصول على تعريف مفصل لمتوسط وقت السفر، انظر القسم [sec:preliminaries]. نظرًا لأن عدد السيارات ومواقع الأصل والوجهة (OD) ثابتة، فإن استراتيجيات التحكُّم في إشارات المرور الأفضل تؤدي إلى تقليل متوسط وقت السفر.

الأسس المرجعية

تمت مقارنة طريقتنا مع الفئتين التاليتين من الطرق: طرق النقل التقليدية وطرق التعلُّم المعزَّز. يرجى ملاحظة أنه لضمان مقارنة عادلة، تم تعلُّم جميع طرق التعلُّم المعزَّز دون أي معلمات مسبقة التدريب وتم تقييم الطرق تحت نفس الظروف. تم الحصول على النتائج من خلال تشغيل الأكواد المصدرية (https://github.com/traffic-signal-control/RL_signals). تم تشغيل جميع الأسس المرجعية بثلاث بذور عشوائية، وتم أخذ المتوسط كنتيجة نهائية. فترة الفعل هي خمس ثوانٍ لكل طريقة، والأفق هو 3600 ثانية لكل حلقة. على وجه التحديد، تحتوي الطرق المقارنة على:

الطرق التقليدية

الطرق المبنية على التعلُّم المعزَّز


  1. https://traffic-signal-control.github.io/

  2. سيتم إصدار خريطة شبكة الطرق وبيانات شنتشن لتسهيل البحوث المستقبلية.