MTLight: تعلم تعزيزِي متعدد المهام فعّال للتحكم في إشارات المرور

Liwen Zhu
Peking University
liwenzhu@pku.edu.cn
Peixi Peng
Peking University
pxpeng@pku.edu.cn
Zongqing Lu
Peking University
zongqing.lu@pku.edu.cn
Yonghong Tian
Peking University
yhtian@pku.edu.cn

latex

ملخص

للتحكم في إشارات المرور تأثير كبير على تخفيف الازدحام المروري في المدن الحديثة. في السنوات الأخيرة، استُخدم التعلم التعزيزي العميق على نطاق واسع لهذه المهمة، حيث أظهر نتائج واعدة، لكنه واجه أيضًا عدة تحديات مثل محدودية الأداء وضعف كفاءة العينات. لمواجهة هذه التحديات، اقترحنا MTLight لتعزيز التمثيل الكامن للحالة من خلال تتبع مجموعة واسعة من مؤشرات المرور. في الوقت نفسه، بُنيت مهام مساعدة وإشرافية متعددة لتعلّم هذا التمثيل الكامن، إضافة إلى استخدام نوعين من ميزات التضمين: خاصة بالمهمة ومشتركة، لإثراء التمثيل الكامن. أظهرت التجارب الموسعة التي أُجريت على CityFlow أن MTLight يتميز بسرعة تقارب رائدة وأداء تنافسي. كما قمنا بمحاكاة ذروة حركة المرور في سيناريوهات ذات صعوبة متزايدة في التحكم، وأشارت النتائج إلى قدرة عالية على التكيف.

مقدمة

يهدف التحكم في إشارات المرور إلى تنسيق الإشارات عبر التقاطعات لتحسين كفاءة الحركة في منطقة أو مدينة، وهو عامل مهم في النقل الفعّال. ترتكز معظم الأساليب التقليدية للتحكم في الإشارات إما على جداول زمنية ثابتة (koonce2008traffic) أو على قواعد مصممة يدويًّا (kouvelas2014maximum)، وتعتمد بشكل كبير على الخبرة والتحليل المعمق للبيانات التاريخية للمرور، مما يصعّب نقلها. مؤخرًا، بدأت الأساليب المبنية على التعلم التعزيزي العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) تستخدم الشبكات العصبية العميقة لتعلم سياسات التحكم في كل تقاطع عبر التفاعل المباشر مع البيئة. ومع ذلك، تبقى المشكلة تحديًا بسبب وفرة مؤشرات المرور (عدد السيارات، طول الطابور، وقت الانتظار، السرعة، إلخ) وتعقيد الملاحظات والبيئة الديناميكية.

نظرًا لأن الملاحظة والمكافأة وديناميكيات كل إشارة مرتبطة ارتباطًا وثيقًا بالإشارات الأخرى، يُمكن نمذجة التحكم في الإشارات ضمن شبكة طرق واسعة النطاق كمشكلة تعلم تعزيزي متعدد الوكلاء (MARL). اقترحت معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) تعلم سياسة كل وكيل بالاعتماد فقط على ملاحظات التقاطع المحلية، مع تجاهل الحالة العالمية المتاحة في المدينة الذكية. وكما ذُكر في (zheng2019diagnosing)، للمقاييس المختلفة تأثير كبير على مهمة التحكم في الإشارات. لذلك، يجب ألا يقتصر تصميم ملاحظة الوكيل على المعلومات المحلية فحسب، بل يشمل أيضًا الحالة العالمية.

يمكن لتصميم ملاحظة جيد أن يستفيد بشكل كامل من العينات، محسنًا ليس فقط أداء السياسة ولكن أيضًا كفاءة العينة. ومع ذلك، توجد عدّة مؤشرات مرورية في الحالة العالمية، ويصعب اختيار ملاحظة وكيل مناسبة وغير متكررة بسبب التوازن بين الاكتفاء في التمثيل وتقليل الأبعاد. فمن ناحية، قد لا يمثل التصميم المقتصر خصائص الحالة بدقة كافية، مما يؤثر على تقدير انتقال الحالة واختيار الإجراء. ومن ناحية أخرى، إذا استخدمنا مجموعة معقدة من المؤشرات، فقد يصعب ضبط أوزانها بدقة، مما يؤدي إلى ازدواجية البيانات وزيادة الأبعاد، بالإضافة إلى استهلاك موارد حاسوبية عالية وتعقيد تعلم الوكيل.

لذلك، ولتوفير تمثيل كافٍ لمهمة التحكم في الإشارات، نُقدّم مفهوم التمثيل الكامن. أولًا، نأخذ الملاحظة المحلية الأولية لكل تقاطع، ثم نُعزّز هذه الملاحظة بجزء كامن يُتعلم من الحالة العالمية. لبناء هذا الجزء الكامن، صُممت مهام مساعدة وإشرافية متعددة تتعلق بأنماط حركة المرور، حيث تعالج شبكة متكررة (RNN) تسلسلًا من إحصاءات التاريخ العالمي، ثم تتفرع لتنبؤات مختلفة مثل توزيع التدفقات ووقت السفر. ولإثراء الفضاء الكامن، تستخرج هذه البنية نوعين من ميزات التضمين: خاصة بالمهمة وعامة (مشتركة)، مما يكملهما بعضهما البعض عند تعزيز الملاحظة الأولية. أخيرًا، بناءً على الملاحظة المعززة، تُتعلم السياسة عبر (DRL) (mnih2015human)، حيث تُدرّب المهام المتعددة في آن واحد مع تعلم السياسة، مما يجعل التمثيل الكامن أكثر تكيفًا.

الأعمال ذات الصلة

يُستعرض العمل السابق في القسم [sec:related_work]، ويُقدّم الأساس النظري في القسم [sec:preliminaries]. يُوضّح القسم [sec:problem_definition] صياغة مشكلة التعلم متعدد الوكلاء. بينما يُفصّل القسم [sec:method] منهجية MTLight. يُقدّم القسم [sec:experiment] النتائج التجريبية التي تبيّن فعالية الطريقة. وأخيرًا، يناقش القسم [sec:conclusion] الاستنتاجات والأعمال المستقبلية.

بيان المشكلة

تعريف المشكلة

نفترض مشكلة التحكم في إشارات المرور متعددة الوكلاء، حيث تُنمذج اللعبة كلعبة ماركوف (Markov Game) (littman1994markov)، ويمكن تمثيلها بالمعادلة \(\mathcal{G}=\langle \mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma\rangle\). \(\mathcal{N}=\{1, \ldots, n\}\) هي مجموعة الوكلاء، بحيث يتحكم كل وكيل في تقاطع واحد. \(\mathcal{S}\) تمثل فضاء الحالة العالمي، و\(\mathcal{A}\) فضاء الأفعال لكل وكيل. يشير الفعل المشترك \(\boldsymbol{a}\in \mathbf{A}\equiv\mathcal{A}^{n}\) إلى مجموعة الأفعال الفردية \([a_i]_{i=1}^n\). في كل خطوة زمنية، يتلقى الوكيل \(i\) ملاحظة \(o_i\in\mathcal{O}\)، يختار فعلًا \(a_i\)، ثم ينتقل النظام إلى الحالة التالية \(s'\) وفقًا لدالة الانتقال \(\mathcal{P}(s'\mid s,\boldsymbol{a})\)، ويحصل كل وكيل على مكافأة \(r_i=\mathcal{R}(s,\boldsymbol{a})\). تمثل \(\mathcal{H}\) أفق الزمن و\(\gamma\in[0,1)\) عامل الخصم.

تصميم الوكيل

يتحكم في كل تقاطع وكيل مستقل. فيما يلي، نوضح تصميم الملاحظة وتصميم الفعل وتصميم المكافأة لوكيل التعلم التعزيزي.