يؤثّر التحكُّم في إشارات المرور بشكل كبير على تخفيف الازدحام المروري في المدن الحديثة. لقد تم استخدام تقنيات التعلُّم المعزَّز على نطاق واسع لهذه المهمة في السنوات الأخيرة، حيث أظهرت أداءً واعدًا، لكنها واجهت أيضًا العديد من التحديات مثل الأداء المحدود وضعف كفاءة العينات. لمواجهة هذه التحديات، تم اقتراح MTLight لتعزيز مراقبة الوكيل بحالة كامنة يتم تعلُّمها من مؤشرات مرور متعددة. في الوقت نفسه، يتم بناء مهام مساعدة وإشرافية متعددة لتعلُّم الحالة الكامنة، ويُستخدم نوعان من الميزات الكامنة المضمَّنة، الميزة المحددة للمهمة والميزة المشتركة بين المهام، لجعل الحالة الكامنة أكثر ثراءً. أظهرت التجارب الموسعة التي أُجريت على CityFlow أن MTLight يتمتع بسرعة تقارب رائدة وأداء تقاربي متميز. كما نقوم بمحاكاة تحت نمط ساعة الذروة في جميع السيناريوهات مع زيادة صعوبة التحكُّم، وتشير النتائج إلى أن MTLight قابل للتكيُّف بشكل كبير.
يهدف التحكُّم في إشارات المرور إلى تنسيق إشارات المرور عبر التقاطعات لتحسين كفاءة المرور في منطقة أو مدينة، وهو ما يلعب دورًا هامًا في النقل الفعّال. تعتمد معظم الطرق التقليدية للتحكُّم في إشارات المرور على توقيت ثابت (koonce2008traffic) أو استدلالات مصممة يدويًا (kouvelas2014maximum)، والتي تعتمد بشكل كبير على المعرفة الخبيرة والتنقيب العميق في البيانات التاريخية المرورية الإقليمية، مما يجعل من الصعب نقلها. مؤخرًا، تُستخدم الطرق المبنية على تعلُّم التعزيز العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) حيث يتم تدريب شبكة عصبية عميقة للتحكُّم في التقاطع من خلال التفاعل المباشر مع البيئة. ومع ذلك، بسبب وفرة مؤشرات المرور (عدد السيارات، طول الطابور، وقت الانتظار، السرعة، إلخ)، وتعقيد الملاحظة والبيئة الديناميكية، تظل المشكلة تحديًا ولم تُحل بعد.
نظرًا لأن الملاحظة والمكافأة وديناميكيات كل إشارة مرور مرتبطة ارتباطًا وثيقًا بالآخرين، فإن تحسين التحكُّم في إشارات المرور في شبكة طرق واسعة النطاق يُنمذج بشكل طبيعي كمشكلة تعلُّم تعزيز متعدد الوكلاء (MARL). معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) اقترحت تعلُّم سياسة كل وكيل مشروطة فقط على الملاحظات الأولية للتقاطع، مع تجاهل مساعدة الحالة العالمية، والتي يمكن الوصول إليها في المدينة الذكية. كما ذُكر في (zheng2019diagnosing)، فإن المقاييس المختلفة لها تأثير كبير على مهمة التحكُّم في إشارات المرور. وبالتالي، يجب ألا يقتصر تصميم ملاحظة الوكيل على الملاحظات الأولية للتقاطع فقط، بل يشمل أيضًا الحالة العالمية. يمكن لتصميم ملاحظة جيدة للوكيل أن يستفيد بالكامل من العينات، ويحسّن ليس فقط أداء السياسة ولكن أيضًا كفاءة العينة. ومع ذلك، هناك كمية هائلة من مؤشرات أو مقاييس المرور في الحالة العالمية، ومن الصعب تصميم ملاحظة وكيل مناسبة وغير متكررة بين هذه المؤشرات. من جهة، قد لا يمثّل تصميم الملاحظة الموجزة بشكل مفرط خصائص الحالة بشكل كافٍ وشامل، وبالتالي يؤثر على دقة تقدير انتقال الحالة وكذلك على اختيار الإجراء. في المقابل، إذا تم استخدام مجموعة معقدة من المقاييس كملاحظة، فمن الصعب تحديد أوزان المقاييس المختلفة بدقة، وقد يتسبب ذلك في تكرار البيانات وانفجار الأبعاد، مما لا يزيد فقط من استهلاك الحوسبة ولكن أيضًا يصعّب على الوكيل التعلُّم.
من أجل توفير تمثيل كافٍ لمهمة التحكُّم في إشارات المرور، يتم تقديم الحالة الكامنة. على وجه التحديد، الملاحظة الأولية مطابقة للتقاطع، والتي تتكوّن من عدة متغيرات ذات معانٍ دلالية محددة (أي عدد السيارات على كل مسار قادم والمرحلة الحالية للإشارة). ثم، يتم تعزيز الملاحظة الأولية بواسطة الفضاء الكامن. لتعلُّم الفضاء الكامن من الحالة العالمية، يتم بناء عدة مهام مساعدة وإشرافية، والتي تتعلق بالتحكُّم في إشارات المرور. أي أن عدة إحصائيات من تاريخ الحالة العالمية تُؤخذ كمدخلات، ويُستخدم أولاً شبكة قائمة على الشبكة العصبية المتكررة (RNN)، ثم يتم تقديم عدة فروع لاحقًا للتنبؤ بأنواع متعددة من الإحصائيات للحالة العالمية، مثل توزيع التدفق وتوزيع وقت السفر، على التوالي. لجعل الفضاء الكامن أكثر ثراءً، يتم استخراج نوعين من ميزات التضمين: الميزة المحددة للمهمة والميزة المشتركة بين المهام. الأولى تُستخرج بواسطة الفرع المحدد للمهمة وتمثل المعلومات المدفوعة بالمهمة، بينما الأخيرة من طبقة مشتركة بين المهام ويمكن أن تعبّر عن خصائص أساسية أكثر عمومية. وبالتالي، فهما مكملتان لبعضهما البعض ويُستخدم كلاهما لتعزيز الملاحظة الأولية. وأخيرًا، مشروطًا على الملاحظة المعزَّزة، يتم تعلُّم السياسة بواسطة (DRL) (mnih2015human). لاحظ أن المهام المتعددة يتم تعلُّمها في وقت واحد مع (DRL)، مما يجعل الفضاء الكامن أكثر تكيفًا مع تعلُّم السياسة.
نستعرض الأعمال ذات الصلة في القسم [sec:related_work]، والمقدمات في القسم [sec:preliminaries]. يتم تقديم إعداد التعلُّم متعدد الوكلاء في القسم [sec:problem_definition]. يقدم القسم [sec:method] تفاصيل الطريقة المقترحة. يقدم القسم [sec:experiment] النتائج التجريبية التي تظهر كفاءة Multi-Agent Reinforcement Learning بشكل تجريبي. وأخيرًا، تتم مناقشة الاستنتاجات والأعمال المستقبلية في القسم [sec:conclusion].
نعتبر مشكلة التحكُّم في إشارات المرور لعدة وكلاء، حيث يتم نمذجة المهمة كلعبة ماركوف (Littman1994markov)، والتي يمكن تمثيلها بالصيغ \(\mathcal{G}=<\mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma>\). \(\mathcal{N} \equiv\{1, \ldots, n\}\) هي مجموعة محدودة من الوكلاء، وكل تقاطع في السيناريو يتم التحكُّم فيه بواسطة وكيل. \(\mathcal{S}\) هي مجموعة محدودة من فضاء الحالة العالمي. \(\mathcal{A}\) يدل على فضاء العمل لوكيل فردي. العمل المشترك \(\boldsymbol{a} \in \mathbf{A} \equiv \mathcal{A}^{n}\) هو مجموعة من الأعمال الفردية \(\left[a_{i}\right]_{i=1}^{n}\). في كل خطوة زمنية، يتلقى كل وكيل \(i\) ملاحظة \(o_{i} \in \mathcal{O}\)، يختار عملاً \(a_{i}\)، ينتج عنه الحالة التالية \(s^{\prime}\) وفقًا لوظيفة الانتقال \(\mathcal{P}\left(s^{\prime} \mid s, \boldsymbol{a}\right)\) ومكافأة \(r=\mathcal{R}(s, \mathbf{a})\) لكل وكيل. \(\mathcal{H}\) هو أفق الزمن و \(\gamma \in[0,1)\) هو عامل الخصم.
يتم التحكُّم في كل تقاطع في النظام بواسطة وكيل. فيما يلي، نقدم تصميم الحالة، تصميم الفعل وتصميم المكافأة لوكيل التعلُّم المعزَّز.
الملاحظة. تتكوّن ملاحظتنا الأولية من جزأين: (1) عدد المركبات على كل مسار وارد \(\mathbf{f}_t^v\)؛ (2) الطور الإشاري الحالي \(\mathbf{f}_t^s\). يمكن الحصول عليهما مباشرة من المحاكي، وتُوصف المفاهيم بالتفصيل في القسم [sec:preliminaries]. تُعرّف الملاحظة الخام للوكيل \(i\) بـ \[\begin{aligned} o_{i} = \{ \mathbf{f}_t^v, \mathbf{f}_t^s \},\end{aligned}\] حيث \(\mathbf{f}_t^v = \{{V}_{l_{1}^{in}}, {V}_{l_{2}^{in}}, \ldots, {V}_{l_{m}^{in}} \}\) و\({l}^{in} = \{l_{1}^{in}, \ldots, l_{m}^{in}\}\) هي مجموعة محدودة من المسارات الواردة في التقاطع. الطور الإشاري الحالي \(\mathbf{f}_t^s = {p}_{k}, k \in {1, \ldots, K}\)، و\(K\) هو العدد الإجمالي للأطوار. يُمثّل كل طور \(p\) كمُتجه واحد ساخن. هدفنا هو تعلُّم الفضاء الكامن لتعزيز الملاحظة الخام للاستفادة بشكل أفضل من العينة.
الفعل. فعل كل وكيل هو اختيار الطور للفترة الزمنية التالية. لاحظ أن الأطوار قد تُنظَّم بطريقة تسلسلية في الواقع، بينما يجعل اختيار طور مباشر خطة التحكُّم في المرور أكثر مرونة. يُعرّف فعل الوكيل \(i\) بـ \[\begin{aligned} a_{i} = \{ \mathbf{f}_t^s\},\end{aligned}\] حيث \(\mathbf{f}_t^s = {p}_{k}, k \in {1, \ldots, K}\).
المكافأة. نُعرّف المكافأة بأنها سالب طول الطابور على المسارات الواردة، وهو أمر مقبول عمومًا ومعقول في الأعمال السابقة (zheng2019diagnosing, huang2021modellight, zang2020metalight, zheng2019learning, wei2019colight). تُعرّف مكافأة الوكيل \(i\) بـ \[\begin{aligned} r_{i} = -\sum^{M}_{m} q_{l^{in}_{m}},\end{aligned}\] حيث \(q_{l^{in}_{m}}\) هو طول الطابور على المسار الوارد \(l^{in}_{m}\).
في هذا القسم، سنقدّم الوحدات الرئيسية لطريقتنا المقترحة MTLight، التي تركز على تعلُّم الحالة الكامنة المشتركة المتعلقة بالمهمة والحالة الكامنة الخاصة بالمهمة من خلال تقديم شبكة متعددة المهام مساعدة لدعم تعلُّم السياسات. توصف العملية الكاملة لـ MTLight في الخوارزمية [alg:train].
MTLight يتكوّن من شبكة متعددة المهام وشبكة وكيل. بالنسبة للأخيرة، يتم استخدام شبكة Deep Q-Network (DQN) (mnih2015human) كمقرِّب وظيفي لتقدير دالة القيمة Q، وهو ما يتوافق مع الطرق السابقة (chen2020toward, wei2019colight, wei2019presslight, zheng2019learning, wei2018intellilight). وحدة متعددة المهام تعتمد نمط مشاركة المعلمات الصعبة (caruana1997multitask)، والذي يُطبَّق عادةً عبر مشاركة الطبقات المخفية بين جميع المهام، مع الاحتفاظ بعدة طبقات ناتجة خاصة بكل مهمة.
لكل وكيل، تتضمن ملاحظته الأولية عدد السيارات \(\mathbf{f}_t^v\) والمرحلة الإشارية الحالية \(\mathbf{f}_t^s\). بالإضافة إلى ذلك، يتم تقديم عدة معلومات من الحالة العامة، مثل: عدد السيارات القادمة في الخطوات \(\tau\) الأخيرة، المشار إليها بـ \(\mathbf{f}_{t-\tau:t}^c = [\mathbf{f}_{t-\tau}^c, \mathbf{f}_{t-\tau+1}^c, \ldots, \mathbf{f}_{t}^c]\)، متوسط وقت السفر خلال الخطوات \(\tau\) الماضية، المشار إليه بـ \(\mathbf{f}_{t-\tau:t}^{tr} = [\mathbf{f}_{t-\tau}^{tr}, \mathbf{f}_{t-\tau+1}^{tr}, \ldots, \mathbf{f}_{t}^{tr}]\)، طول الطابور خلال الخطوات \(\tau\) الماضية، المشار إليه بـ \(\mathbf{f}_{t-\tau:t}^{q} = [\mathbf{f}_{t-\tau}^{q}, \mathbf{f}_{t-\tau+1}^{q}, \ldots, \mathbf{f}_{t}^{q}]\)، والسيارات الحالية خلال الخطوات \(\tau\) الماضية، المشار إليها بـ \(\mathbf{f}_{t-\tau:t}^{vr} = [\mathbf{f}_{t-\tau}^{vr}, \mathbf{f}_{t-\tau+1}^{vr}, \ldots, \mathbf{f}_{t}^{vr}]\).
تتضمن وحدة التعلُّم المتعدد المهام المهام الأربع التالية:
تقريب توزيع الجريان. نستخدم \(\mathcal{T}_{flow}\) للإشارة إلى مهمة تقدير توزيع الجريان، أي التنبؤ بالمتوسط \(\mu_{f}\) والتباين \(\sigma_{f}^{2}\) لمعدل وصول الجريان من البداية حتى خطوة الزمن \(t\). يمكن الإشارة إلى المهمة كما يلي: \[\begin{aligned} (\mu_{f}, \sigma_{f}^{2}) \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]
تقريب توزيع وقت السفر. نستخدم \(\mathcal{T}_{travel}\) للإشارة إلى مهمة تقدير توزيع وقت السفر، أي التنبؤ بالمتوسط \(\mu_{tr}\) والتباين \(\sigma_{tr}^{2}\) لمتوسط وقت السفر للسيارات التي أكملت الرحلة من البداية حتى خطوة الزمن \(t\): \[\begin{aligned} (\mu_{tr}, \sigma_{tr}^{2}) \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]
تقريب طول الطابور التالي. نستخدم \(\mathcal{T}_{queue}\) للإشارة إلى مهمة تقدير طول الطابور التالي، أي التنبؤ بمتوسط عدد \(q\) من السيارات في الطابور في الخطوة التالية: \[\begin{aligned} q \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]
تقريب السيارات على الطريق. نستخدم \(\mathcal{T}_{vehicles}\) للإشارة إلى مهمة تقدير السيارات على الطريق، أي التنبؤ بعدد السيارات \( V^{r}\) الموجودة في النظام: \[\begin{aligned} V^{r} \leftarrow [\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{f}_{t-\tau:t}^c, \mathbf{f}_{t-\tau:t}^{tr}, \mathbf{f}_{t-\tau:t}^{q}, \mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\] لاحظ أن السيارات التي أكملت الرحلات أو التي لم تدخل بعد إلى شبكة الطرق لا تنتمي إلى هذه.
تعمل المهام المذكورة أعلاه كمساعدات لتعلُّم الفضاء الكامن. نظرًا لأن أعداد \(\mathbf{f}_{t-\tau:t}^c\), \(\mathbf{f}_{t-\tau:t}^{tr}\), \(\mathbf{f}_{t-\tau:t}^{q}\), \(\mathbf{f}_{t-\tau:t}^{vr}\) لها مقاييس وأبعاد مختلفة عن \(\mathbf{f}_t^v\) و \(\mathbf{f}_t^s\)، يتم استخدام أربع طبقات خطية مستقلة ووظائف ReLU أولاً لتوسيعها على التوالي: \[\begin{aligned} \mathbf{h}^{c} = {ReLU}(\mathbf{W}_{1} \mathbf{f}_{t-\tau:t}^{c}+\mathbf{b}_{1}), \ \mathbf{h}^{tr} = {ReLU}(\mathbf{W}_{2} \mathbf{f}_{t-\tau:t}^{tr}+\mathbf{b}_{2}), \\ \mathbf{h}^{q} = {ReLU}(\mathbf{W}_{3} \mathbf{f}_{t-\tau:t}^{q}+\mathbf{b}_{3}), \ \mathbf{h}^{vr} = {ReLU}(\mathbf{W}_{4} \mathbf{f}_{t-\tau:t}^{vr}+\mathbf{b}_{4}).\end{aligned}\]
ثم يتم استخدام طبقة خطية ووظيفة ReLU لحساب الحالة الخفية بعد دمج جميع المدخلات المضمَّنة: \[\begin{aligned} \mathbf{H}_{t} = {ReLU}(\mathbf{W}_{} (\mathbf{f}_t^v, \mathbf{f}_t^s, \mathbf{h}^{c}, \mathbf{h}^{tr}, \mathbf{h}^{q}, \mathbf{h}^{vr})+\mathbf{b}_{}).\end{aligned}\]
استنادًا إلى \(\mathbf{H}_{t}\)، يتم استخدام وحدة شبكة مشتركة بين المهام لتوليد ميزتها الكامنة المشتركة (وتسمى أيضًا الحالة الظاهرة). ثم يتم تقديم أربع فروع مستقلة لكل مهمة وحساب الميزة الكامنة المحددة للمهمة (وتسمى أيضًا الحالة العقلية) منها. تم سرد التنفيذ المحدد لهندسة الشبكة في الملحق.
نستخدم نموذج متغير كأمن واحد لاستخراج الميزات الكامنة الهرمية، والتي تتبع رؤى (zhao2017learning). أي أن الحالة العقلية هي ناتج الطبقة المشتركة بعد GRU في شبكة التعلُّم المتعدد المهام ويمكن أن تعبّر عن خصائص أساسية أكثر عمومية. بالمقابل، الحالة الظاهرة هي دمج ناتج الطبقة المحددة للمهمة وتمثل المعلومات المدفوعة بالمهمة. بعبارة أخرى، الحالة العقلية أكثر عمومية، بينما الحالة الظاهرة أكثر دقة. وبالتالي، فهما مكملتان لبعضهما البعض وكلاهما مستخدم في طريقتنا.
بمساعدة الحالة الكامنة، يتم تعزيز ملاحظة العامل من \(\mathrm{\mathbf{o}_t}\) إلى \((\mathrm{\mathbf{o}_t},\mathrm{\mathbf{o}_{t}^{shr}},\mathrm{\mathbf{o}_{t}^{spe}})\). بالنسبة للسياسة \(\pi^{\theta}\)، الهدف هو تعظيم المكافأة التراكمية: \[\begin{aligned} \max\limits_{\theta}J(\theta)=\mathbb{E}_{\substack{a_t \sim \pi^\theta(a_t \mid \mathrm{\mathbf{o}_t},\mathrm{\mathbf{o}_{t}^{shr}}. \mathrm{\mathbf{o}_{t}^{spe}})}}\sum\limits_{t=0}^{\mathcal{H}-1}\gamma^{t}r_{t+1}. \label{eq:RL}\end{aligned}\]
العامل الذي يعظّم المعادلة [eq:RL] يتصرّف بشكل مثالي تحت عدم اليقين ويُسمى الأمثل بايز (ghavamzadeh2015bayesian)، بافتراض أننا نعامل المعرفة حول المهام المتعلقة كأولويتنا الابستمولوجية عن البيئة. وحدة المهام المتعددة تقلل من تعقيد النموذج وتعطي أولويات معلوماتية للنموذج. بالإضافة إلى ذلك، يمكنها تقليل التحيز في التمثيل بطريقة تدفع خوارزمية التعلُّم لإيجاد حل في منطقة أصغر من التمثيلات عند التقاطع بدلاً من منطقة كبيرة لمهمة واحدة. هذا يحفز على تقارب أسرع وأفضل.
نقوم بإجراء التجارب على منصة CityFlow (zhang2019cityflow)، وهي منصة محاكاة مفتوحة المصدر على مستوى المدينة للتحكُّم في إشارات المرور. تُستخدم المحاكاة كبيئة لتوفير حالة للتحكُّم في إشارات المرور، حيث يقوم الوكلاء بتنفيذ الإجراءات من خلال تغيير مراحل إشارات المرور، وتقوم المحاكاة بإرجاع التغذية الراجعة.
يرجى الرجوع إلى الملحق [sec:road_networks] والملحق [sec:flow_configurations] للإعدادات التفصيلية لشبكة الطرق وتكوين تدفق المرور. يتم وصف الأساسيات بالتفصيل في الملحق [sec:baselines].
(lr)2-3 (lr)4-5 (lr)6-7 (lr)8-9 | real | syn_peak | real | syn_peak | real | syn_peak | real | syn_peak | |
maxpressure | 416.82 | 2320.65 | 355.12 | 1218.13 | 380.42 | 1481.48 | 389.45 | 1387.87 | 1387.87 |
fixedtime | 718.29 | 1787.58 | 814.09 | 1739.69 | 1849.78 | 2086.59 | 786.54 | 1845.03 | 1453.45 |
sotl | 1209.26 | 2062.49 | 1453.97 | 1991.03 | 1890.55 | 2140.15 | 1376.52 | 2098.09 | 1777.76 |
individualrl | 743.00 | 1819.57 | 843.63 | 1745.07 | 1867.86 | 2100.68 | 769.47 | 1845.34 | 1466.83 |
metalight | 480.77 | 1576.32 | 784.98 | 1854.38 | 261.34 | 2145.49 | 694.83 | 2083.26 | 1235.17 |
presslight | 529.64 | 1754.09 | 809.87 | 1930.98 | 302.87 | 1846.76 | 639.04 | 1832.76 | 1205.75 |
colight | 297.89 | 1077.29 | 511.43 | 1217.17 | 159.81 | 1457.56 | 438.45 | 1367.38 | 815.87 |
generalight | 335.18 | 1574.93 | 585.89 | 1616.28 | 1208.73 | 1686.49 | 792.22 | 1574.10 | 1171.73 |
base | 705.85 | 1718.37 | 808.28 | 1703.21 | 903.82 | 2097.84 | 728.49 | 1937.45 | 1325.41 |
baseraw | 684.34 | 1845.92 | 623.94 | 1835.45 | 592.34 | 1934.04 | 703.56 | 1845.32 | 1258.11 |
baseper | 313.28 | 1146.79 | 499.88 | 1325.27 | 463.15 | 1416.65 | 438.69 | 1371.53 | 871.91 |
basetem | 431.55 | 1446.63 | 517.09 | 1430.96 | 431.65 | 1669.61 | 684.83 | 1442.35 | 1006.83 |
mtlight | 161.24 | 1011.67 | 346.93 | 1176.02 | 209.46 | 1394.15 | 402.57 | 1284.93 | 748.37 |
يسرد الجدول [tab:performance_1] النتائج المقارنة، ومن الواضح أن: ١) بشكل عام، تؤدي طرق التعلُّم الآلي أداءً أفضل من الطرق التقليدية، وهذا يدل على ميزة التعلُّم الآلي. علاوة على ذلك، mtlight يتفوّق على الطرق الأخرى في معظم المدن وتكوينات التدفق، مما يُظهر فعالية الطريقة. ٢) mtlight يُظهر تعميمًا جيدًا لسيناريوهات وتكوينات مختلفة. على سبيل المثال، maxpressure يؤدي بشكل جيد في hangzhou مع realflow، بينما تحت ظروف المرور synflow، maxpressure يظهر أداءً أسوأ بكثير من الطرق الأخرى. بالمقابل، mtlight لا يحقق فقط أداءً جيدًا تحت تكوينات متنوعة من hangzhou، بل يُظهر أيضًا استقرارًا كبيرًا. ٣) mtlight يتفوّق على individualrl، metalight و presslight بفارق 693.46، 461.80 و 432.38 على التوالي. السبب هو أنهم يتعلمون سياسة إشارات المرور فقط باستخدام ملاحظاتهم ويتجاهلون تأثير الجيران، بينما mtlight يعتبر الجيران جزءًا من البيئة للمساعدة في التعلُّم. ٤) معلومات الجيران المُمَذْجَة في colight و generalight يمكن أن تتكيف مع مجموعة متنوعة من التدفقات، وكلاهما يؤدي أداءً جيدًا. بينما نتائج mtlight أفضل منهما في سيناريوهات متعددة، مما يؤدي إلى تحسين بمقدار 42.5 و 398. مقارنةً بهما، mtlight يستفيد من المعرفة المسبقة المكتسبة من شبكة متعددة المهام لاتخاذ قرارات أكثر دقة.
للتحقق بشكل أفضل من مساهمة كل مكوّن، تم تقييم ثلاثة نماذج من MT-Light تحت مجموعة متنوعة من السيناريوهات، كما هو موضح في الجدول [tab:performance_1].
Base يحتفظ فقط بشبكة السياسات ويزيل شبكة المهام المتعددة.
Base-Raw يحتفظ فقط بشبكة السياسات ويتخلى عن شبكة المهام المتعددة، لكنه يستخدم مباشرة الإدخال الأصلي لوحدة المهام المتعددة كجزء من الملاحظة.
Base-Per يحتفظ بشبكة المهام المتعددة والسياسة، لكنه يحتوي فقط على الحالة الكامنة المشتركة بين المهام ويزيل الحالة الكامنة المحددة للمهمة.
Base-Tem يحتفظ بشبكة المهام المتعددة والسياسة. على عكس Base-Per، Base-Tem يحتوي فقط على الحالة الكامنة المحددة للمهمة ويزيل الحالة الكامنة المشتركة بين المهام.
لاحظ أن MT-Light يحتوي على جميع الوحدات: شبكة السياسات، شبكة المهام المتعددة مع الحالة الكامنة المحددة للمهمة والحالة الكامنة المشتركة بين المهام.
تُقدّم نتائج التقييم الكمي في الجدول [tab:performance_1]. يمكننا الحصول على النتائج التالية: 1) بين هذه النماذج الأربعة، أداء Base هو الأسوأ. السبب أنه من الصعب تعلُّم سياسة فعّالة بشكل مستقل في مهمة التحكُّم في إشارات المرور متعددة الوكلاء، حيث تتغير البيئة المحيطة ديناميكيًا، لكن Base لا يدرك ذلك. 2) مقارنة بـ Base و Base-Raw، تظهر تحسينات Base-Per و Base-Tem فعالية الحالة الكامنة المشتركة بين المهام Per-Latent-State والحالة الكامنة المحددة للمهمة Tem-Latent-State على التوالي. Per-Latent-State تعكس المعلومات السابقة التي تظل ثابتة عبر الزمن مع مهام متعددة مرتبطة، Tem-Latent-State تعكس المعلومات السابقة التي تتماشى مع أحدث الاتجاهات المتغيرة، وكلاهما يساعد السياسة على اتخاذ قرارات مثلى بايزية. 3) الحالتان الكامنتان Per-Latent-State و Tem-Latent-State فعالتان لأن كل منهما تمثيل فعّال لميزات البيئة. مقارنةً بهما، تفوق MT-Light يشير إلى أن Per-Latent-State و Tem-Latent-State مكملتان لبعضهما البعض. بشكل عام، جميع المكونات المقترحة تسهم بشكل إيجابي في النتائج النهائية.
قدّمنا MTLight، وهي طريقة فعّالة لتعلُّم تعزيز متعدد المهام للتحكُّم في إشارات المرور يمكن توسيع نطاقها إلى شبكات طرق حضرية معقدة متعددة الوكلاء بمقاييس مختلفة. أظهرنا أن البنية الكامنة لـ MTLight تتعلّم تمثيلات كامنة هرمية للمهام المتصلة، مفصّلة بين الحالات الكامنة المشتركة بين المهام والمحددة لكل مهمة. في مجموعات بيانات عدة مدن، أثبتنا أن هذا التمثيل الكامن المستوحى من مهام متعددة متصلة، وتكييف السياسة عليه، يسمح للوكيل بالتكيُّف مع البيئة المعقدة. نستنتج أن الحفاظ على التقريبات السابقة للمهام المتصلة يساعد مقارنة بالنهج الخالية من النماذج، خاصة عندما يكون هناك الكثير من المعلومات في البيئة ولا يمكن التعبير عنها بالكامل بتصميم حالة اصطناعية.
للمستقبل، يمكن تعلُّم الأولوية الكامنة من بيانات الخبراء المعدة مسبقًا باستخدام تقنيات التعلُّم بالتقليد (song2018multi)، أو باستخدام خوارزميات متعددة الوكلاء الحالية للتدريب المسبق على شبكة متعددة المهام.
يمكنك تضمين أقسام إضافية أخرى هنا.
العناصر | التفاصيل |
---|---|
عدد خطوات السياسة | 3600 |
معامل الخصم \(\gamma\) | 0.95 |
سياسة \(\epsilon\) | 0.1 \(\rightarrow\) 0.01 |
معدل تناقص \(\epsilon\) | 0.995 |
معدل تعلُّم السياسة | 0.005 |
دفعة صغيرة للسياسة | 32 |
أبعاد الفضاء الكامن المشترك للمهمة | 5 |
أبعاد الفضاء الكامن المحدد للمهمة | 5 |
معامل الحالة الكامنة المشتركة للمهمة | 10 |
معامل الحالة الكامنة المحددة للمهمة | 10 |
شبكة السياسة | طبقتان مخفيتان، |
الهندسة المعمارية | 20 عقدة لكل منهما، |
تفعيلات ReLU | |
محسّن شبكة السياسة | RMSprop مع معدل تعلُّم 0.001 |
وخسارة MSE | |
5 طبقات تضمين MLP، | |
2 طبقات FC مشتركة قبل GRU، | |
GRU بحجم خفي 64، | |
هندسة معمارية متعددة المهام | طبقة FC مشتركة واحدة بعد GRU، |
4 طبقات FC محددة للمهمة، | |
4 طبقات مخرجات محددة للمهمة | |
تفعيلات ReLU | |
محسّن متعدد المهام | Adam مع معدل تعلُّم 0.01 |
وخسارة MSE |
تم تصميم معظم طرق التحكُّم بإشارات المرور التقليدية استنادًا إلى التحكُّم بالإشارات الثابتة (webster1958traffic)، التحكُّم المتكيف (chiu1992adaptive) أو التحكُّم بإشارات المرور المنظمة ذاتيًا (chiu1993self, cools2013self, lowrie1990scats, svanes1981scat, hunt1981scoot). تعتمد هذه الطرق على المعرفة الخبيرة وغالبًا ما تؤدي إلى نتائج غير مرضية في المواقف الواقعية المعقدة. لحل هذه المشكلة، تم اقتراح عدة طرق مبنية على التحسين (roess2004traffic, varaiya2013max, kouvelas2014maximum) لتحسين متوسط وقت السفر، الإنتاجية، إلخ.، والتي تقرر خطط إشارات المرور استنادًا إلى البيانات المرصودة بدلاً من المعرفة البشرية المسبقة. ومع ذلك، تعتمد هذه الطرق عادةً على افتراضات صارمة قد لا تكون صحيحة في الحالات الواقعية (webster1966traffic). بالإضافة إلى ذلك، فإن مشاكل التحسين هذه عادةً ما تكون صعبة المسار وتتطلب قوة حوسبة كبيرة في السيناريوهات المعقدة.
تهدف طرق التحكُّم في إشارات المرور بناءً على التعلُّم المعزَّز إلى تعلُّم السياسات من التفاعلات مع البيئة. استخدمت الدراسات السابقة تعلُّم Q الجدولي (el2013multiagent, abdoos2013holonic, dusparic2009distributed, abdoos2011traffic) حيث يتطلب تقطيع الحالات في البيئة إلى أجزاء متقطعة وذات أبعاد منخفضة. لمعالجة مشكلة الفضاء الحالي الكبير أو المستمر، تُستخدم التطورات الحديثة في التعلُّم المعزَّز العميق مع تمثيلات الحالة المستمرة المعقدة (مثل الصور أو متجهات الميزات) لرسم الحالات ذات الأبعاد العالية إلى الأفعال.
تم بذل جهود لتصميم استراتيجيات تصوغ المهمة كعامل واحد (wei2018intellilight, mannion2016experimental, huang2021modellight, zang2020metalight, oroojlooy2020attendlight, jiang2021dynamic, rizzo2019time) أو بعض التقاطعات المعزولة (zheng2019diagnosing, zheng2019learning, xiong2019learning, wei2019presslight, chen2020toward, oroojlooy2020attendlight, zhang2020generalight, zhang2020planlight)، أي أن كل عامل يتخذ قرارًا لنفسه. تكون الطرق المذكورة أعلاه عادةً سهلة التوسّع، ولكن قد تواجه صعوبة في تحقيق الأداء الأمثل العالمي بسبب نقص التعاون. لحل المشكلة، يُعتبر أسلوب آخر يتمثل في نمذجة الفعل بين العوامل التعليمية بشكل مشترك مع التحسين المركزي (van2016coordinated, kuyer2008multiagent). ومع ذلك، مع زيادة عدد العوامل، يؤدي التحسين المشترك عادةً إلى انفجار الأبعاد، مما أعاق الاعتماد الواسع النطاق لمثل هذه الطرق في التحكُّم بإشارات المرور على نطاق واسع. للتغلب على الصعوبة، يتم تنفيذ نوع آخر من الطرق بطريقة لا مركزية، مع مراعاة التعاون بين الجيران مع تصميم المكافأة والحالة المناسبة (arel2010reinforcement, nishi2018traffic, wei2019colight, xu2021hierarchically). تضيف طرق مثل (el2013multiagent, chu2019multi) معلومات الجيران إلى الحالات، (nishi2018traffic, wei2019colight, yu2020macar, guo2021urban) تضيف ميزات خفية للجيران إلى الحالات، و (xu2021hierarchically) تحسّن وقت السفر في الحي كمكافأة إضافية. ومع ذلك، فإن الدمج البسيط لمعلومات الجيران ليس معقولًا بما فيه الكفاية لأن تأثير التقاطعات المجاورة ليس متوازنًا. على عكس الطرق المذكورة أعلاه التي تضيف معلومات الجيران إلى الحالة، يتعلّم أسلوبنا الحالات الكامنة المشتركة والمحددة للمهمة من خلال بناء شبكة متعددة المهام.
التعلُّم المتعدد المهام هو نمط تعلُّم يهدف إلى تعلُّم مهام متعددة ذات صلة بشكل مشترك بحيث يمكن استغلال المعرفة الموجودة في مهمة لتعزيز المهام الأخرى. وقد وجدت الأعمال السابقة (oh2017zero, zhang2021survey, ruder2017overview, ndirango2019generalization) أنه من خلال مشاركة التمثيل بين المهام ذات الصلة وتعلُّم جميع المهام بشكل مشترك، يمكن تحقيق تعميم أفضل مقارنة بتعلُّم كل مهمة بشكل مستقل. تشكيل المهام المساعدة لمساعدة المهمة الرئيسية هو فرع من التعلُّم المتعدد المهام. يُعرف التعلُّم بالتعزيز بأنه غير فعّال من حيث العينات، ونقل المعرفة من المهام المساعدة الأخرى هو أداة قوية لتحسين كفاءة التعلُّم (jaderberg2016reinforcement, lin2019adaptive, lyle2021effect, tongloy2017asynchronous, bellemare2019geometric). يجمع البحث (lin2019adaptive) بين المهام المساعدة المختلفة التي توفر اتجاهات التدرج لتسريع تدريب المهمة الرئيسية للتعلُّم بالتعزيز. بالمقارنة، يهدف عملنا إلى نقل المعرفة من المهام المساعدة ذات الصلة بالمهمة كأساس للمهمة الرئيسية للتعلُّم بالتعزيز، لتعزيز الأداء في نهاية المطاف. على وجه التحديد، ننمذج شبكة التعلُّم المتعدد المهام كهيكل كامن حيث يتم توليد الحالة الكامنة المشتركة بين المهام من الطبقات المبكرة ويتم توليد الحالة الكامنة المحددة للمهمة من الطبقات الأعمق. هذا يحفز السياسة على تعلُّم السلوكيات المثلى حسب بايز: يمكن للسياسة أن تأخذ في الاعتبار عدم اليقين الخاص بها حول المعلومات الشاملة عند اختيار الإجراءات.
في هذا القسم، نقدم أولاً بعض المفاهيم الأساسية المتعلقة بتحكُّم إشارات المرور (TSC) التي تم التعرف عليها على نطاق واسع في الأعمال السابقة (wei2019colight, zheng2019learning, zhang2020generalight, wei2019presslight, chen2020toward, zang2020metalight). لاحظ أن هذه المفاهيم يمكن تعميمها بسهولة على تقاطعات أخرى ذات هياكل مختلفة.
المسارات الواردة/الخارجة. المسارات الواردة تشير إلى المسارات التي تقترب السيارات من دخول التقاطع من خلالها. وعادةً ما تحتوي على ثلاثة أنواع أساسية: “الانعطاف يسارًا”، “المستقيم” و“الانعطاف يمينًا” من الداخل إلى الخارج. المسارات الخارجة تشير إلى المسارات التي تقترب السيارات من مغادرة التقاطع من خلالها.
شبكة الطرق. شبكة الطرق هي جزء من مجموعة بيانات تمثل منطقة من المدينة. تتكوّن شبكة الطرق من تقاطعات مراقبة بإشارات، تقاطعات غير مراقبة، ومسارات تربط التقاطعات. عمومًا، تختلف أطوال المسارات، عدد المسارات والمواقع النسبية للتقاطعات من شبكة طرق إلى أخرى.
المرحلة. المرحلة هي وحدة توقيت تحكُّم مرتبطة بتحكُّم واحد أو أكثر من الحركات، تمثل التباديل والتوافيق المختلفة لتدفقات المرور. إعداد المرحلة الأربعة هو الأكثر شيوعًا في الواقع، ولكن يمكن أن يختلف عدد المراحل بسبب اختلاف هياكل التقاطعات (تقاطعات ثلاثية، خماسية، إلخ).
طول الطابور. طول الطابور هو عدد السيارات التي تنتظر عند تقاطع بسبب إشارة حمراء. السيارات على المسار الوارد بسرعة أقل من 0.1m/s تعتبر في حالة انتظار.
متوسط وقت السفر. وقت سفر السيارة هو الفرق الزمني بين دخولها ومغادرتها منطقة معينة. متوسط وقت سفر جميع السيارات في شبكة الطرق هو القياس الأكثر استخدامًا لتقييم أداء تحكُّم إشارات المرور (wei2019colight, wei2019presslight, zhang2020generalight, chen2020toward, zheng2019learning).
توزيع التدفق. توزيع التدفق هو توزيع المرور الداخل إلى شبكة الطرق، والذي يُعبَّر عنه عمومًا بمعدل وصول السيارات، أي حجم المرور الداخل إلى شبكة الطرق في وحدة الزمن.
السيارات على الطريق. السيارات على الطريق تشير إلى السيارات الجارية، أي السيارات التي دخلت شبكة الطرق ولم تصل إلى نقطة النهاية. السيارات على الطريق يمكن أن تمثل الحمل الزمني الفعلي على شبكة الطرق.
تم عرض الخوارزمية في الخوارزمية [alg:train].
تأتي سيناريوهات التقييم من خرائط شبكات طرق حقيقية لأربع مناطق مختلفة الأحجام، وتشمل هانغتشو (الصين)، جينان (الصين)، نيويورك (الولايات المتحدة الأمريكية) وشنتشن (الصين). شبكات الطرق والبيانات لهانغتشو، جينان ونيويورك مأخوذة من مجموعات البيانات العامة1. خريطة شبكة الطرق لشنتشن تم إعدادها بواسطة فريقنا وهي مشتقة من OpenStreetMap2. تحتوي شبكات الطرق في جينان وهانغتشو على 12 و16 تقاطعًا في شبكات \(4 \times 3\) و\(4 \times 4\) على التوالي. تشتمل شبكة الطرق في نيويورك على 48 تقاطعًا في شبكة \(16 \times 3\). تحتوي شبكة الطرق في شنتشن على 33 تقاطعًا، وهي ليست على شكل شبكة مقارنة بالخرائط الثلاث الأخرى.
(lr)3-6 | المتوسط | الانحراف المعياري | الأقصى | الأدنى | |
هانغتشو | 16 (4 \(\times\) 4) | 248.58 | 42.25 | 333 | 212 |
جينان | 12 (4\(\times\)3) | 524.58 | 102.91 | 672 | 256 |
نيويورك | 48 (16\(\times\)3) | 235.33 | 5.84 | 244 | 224 |
شنتشن | 33 (غير شبكية) | 147.92 | 79.35 | 255 | 22 |
ccccc مجموعة البيانات & الزمن &
معدل الوصول |
(مركبات/ث) |
&
المركبات |
الوافدة |
&
المركبات |
المتراكمة |
& 0-600 & 1.00 & 600 & 600
& 600-1200 & 0.25 & 150 & 750
& 1200-1800 & 4.00 & 2400 & 3150
& 1800-2400 & 2.00 & 1200 & 4350
& 2400-3000 & 0.2 & 120 & 4470
& 3000-3600 & 0.5 & 150 & 4770
(ll)2-3 (ll)4-5 (ll)6-7 | الواقعي | ذروة_التخليق | الواقعي | ذروة_التخليق | الواقعي | ذروة_التخليق |
انعطاف يسار | 1093 | 5175 | 3044 | 5833 | 3886 | 7169 |
متابعة مستقيم | 6620 | 16293 | 12175 | 13704 | 17498 | 27976 |
انعطاف يمين | 3184 | 8752 | 5972 | 8747 | 4021 | 7421 |
نقوم بتشغيل التجارب تحت تكوينين للتدفق المروري: التدفق المروري الحقيقي والتدفق المروري الاصطناعي. التدفق المروري الحقيقي هو بيانات إحصائية ساعة من العالم الواقعي مع تباين طفيف في معدلات وصول السيارات، كما هو موضح في الجدول [tab:data_statistics_1]. نظرًا لأن الاستراتيجيات الواقعية غالبًا ما تفشل خلال فترات الاختناق (ساعة الذروة)، لتقييم أداء طرق التحكُّم في إشارات المرور بشكل أفضل في سيناريو الذروة المسطحة، نستخدم مجموعات بيانات اصطناعية، والتي تظهر تباينًا أكثر دراماتيكية في معدلات وصول السيارات، كما هو موضح في الجدول [tab:data_statistics_2]. وصف مفصل لتكوينات التدفق المروري هو:
التدفق الحقيقي. تدفقات المرور في هانغتشو (الصين)، جينان (الصين) ونيويورك (الولايات المتحدة الأمريكية) مأخوذة من مجموعات البيانات العامة، والتي تمت معالجتها من مصادر متعددة. تدفق المرور في شنتشن (الصين) تم إنشاؤه بواسطة فريقنا بناءً على مسارات المرور التي تم جمعها من 80 كاميرا إشارة حمراء و16 كاميرا مراقبة في ساعة واحدة. إحصائيات البيانات مدرجة في الجدول [tab:data_statistics_1].
التدفق الاصطناعي. التدفق الاصطناعي هو تدفق مروري مختلط بإجمالي تدفق 4770 في ساعة واحدة، لمحاكاة ذروة ثقيلة. معدل الوصول يتغير كل 10 دقائق، والذي يُستخدم لمحاكاة توزيع التدفق المروري غير المتساوي في العالم الحقيقي، تفاصيل معدل وصول السيارات والتدفق المروري التراكمي موضحة في الجدول [tab:data_statistics_2].
وفقًا للدراسات السابقة (wei2019colight, wei2019presslight, xiong2019learning, chen2020toward, zang2020metalight)، نستخدم متوسط وقت السفر لتقييم أداء الطرق المختلفة للتحكُّم في إشارات المرور. يشير متوسط وقت السفر إلى الوضع المروري العام في منطقة ما على مدى فترة زمنية. للحصول على تعريف مفصل لمتوسط وقت السفر، انظر القسم [sec:preliminaries]. نظرًا لأن عدد السيارات ومواقع الأصل والوجهة (OD) ثابتة، فإن استراتيجيات التحكُّم في إشارات المرور الأفضل تؤدي إلى تقليل متوسط وقت السفر.
تمت مقارنة طريقتنا مع الفئتين التاليتين من الطرق: طرق النقل التقليدية وطرق التعلُّم المعزَّز. يرجى ملاحظة أنه لضمان مقارنة عادلة، تم تعلُّم جميع طرق التعلُّم المعزَّز دون أي معلمات مسبقة التدريب وتم تقييم الطرق تحت نفس الظروف. تم الحصول على النتائج من خلال تشغيل الأكواد المصدرية (https://github.com/traffic-signal-control/RL_signals). تم تشغيل جميع الأسس المرجعية بثلاث بذور عشوائية، وتم أخذ المتوسط كنتيجة نهائية. فترة الفعل هي خمس ثوانٍ لكل طريقة، والأفق هو 3600 ثانية لكل حلقة. على وجه التحديد، تحتوي الطرق المقارنة على:
طريقة الضغط الأقصى (maxpressure) (varaiya2013max) هي طريقة تقليدية رائدة، تختار بشكل جشع المرحلة ذات الضغط الأعلى. يُعرّف الضغط بأنه الفرق في كثافة المركبات بين المسار القادم والمسار الخارج، وتعني كثافة المركبات العدد الفعلي للمركبات مقسومًا على العدد الأقصى المسموح به للمركبات.
الوقت الثابت (fixedtime) (koonce2008traffic) مع إزاحة عشوائية (roess2004traffic) ينفذ كل مرحلة في حلقة المراحل بمدة محددة مسبقًا لمدة المرحلة، وهو ما يُستخدم على نطاق واسع للمرور المستقر.
عتبة الضوء الذاتي (sotl) (cools2013self) يحدد عتبة محددة مسبقًا لعدد المركبات المنتظرة على المسارات القادمة. بمجرد تجاوز المركبات المنتظرة للعتبة، سيتم التحوّل إلى المرحلة التالية.
التحكُّم المستقل (Individual RL) (wei2018intellilight) يتم التحكُّم المستقل لكل وكيل في بيئة متعددة الوكلاء، حيث يتم التحكُّم في كل تقاطع من قبل وكيل واحد. لا يتم مشاركة مخزن الإعادة ومعلمات الشبكة، وتحديث النموذج مستقل. لا يوجد نقل للمعلومات بين الوكلاء، ولا يتم الأخذ بعين الاعتبار معلومات الجيران.
ميتا لايت (MetaLight) (zang2020metalight) هي طريقة تعلُّم معزَّز قائمة على القيمة من خلال تهيئة المعلمات، وهي مبنية على MAML (finn2017model). ميتا لايت في الأصل هي نهج وكيل فردي للتعلُّم الميتا على مهام منفصلة متعددة. هنا نقوم بتوسيعها إلى سيناريو متعدد الوكلاء دون الأخذ بعين الاعتبار معلومات الجيران.
بريس لايت (PressLight) (wei2019presslight) يجمع بين الطريقة التقليدية للمرور MaxPressure (varaiya2013max) مع تكنولوجيا التعلُّم المعزَّز معًا. بريس لايت هي طريقة تعلُّم معزَّز تعمل على تحسين ضغط كل تقاطع.
كو لايت (CoLight) (wei2019colight) يستخدم التحويل البياني وآلية الانتباه لنمذجة معلومات الجيران، ثم يستخدم هذه المعلومات لتحسين طول الطابور.
جنرال لايت (Generalight) (zhang2020generalight) هي طريقة تعلُّم معزَّز ميتا تُستخدم شبكة عدائية توليدية لتوليد تدفقات مرور متنوعة واستخدامها لبناء بيئات التدريب.