MTLight: التعلُّم المتعدد المهام الفعّال للتحكُّم في إشارات المرور باستخدام تقنيات التعلُّم المعزَّز

Liwen Zhu
Peking University
liwenzhu@pku.edu.cn
Peixi Peng
Peking University
pxpeng@pku.edu.cn
Zongqing Lu
Peking University
zongqing.lu@pku.edu.cn
Yonghong Tian
Peking University
yhtian@pku.edu.cn

مُلخَّص

يؤثر التحكم في إشارات المرور تأثيرًا كبيرًا في تخفيف الازدحام المروري في المدن الحديثة. في السنوات الأخيرة، استُخدمت تقنيات التعلم المعزز على نطاق واسع لهذه المهمة، حيث أظهرت أداءً واعدًا، لكنها ما تزال تواجه تحديات متعددة، مثل الأداء المحدود وكفاءة العينات المنخفضة. لمواجهة هذه التحديات، تم اقتراح MTLight لتعزيز معلومات الوكيل عبر حالة كامنة يتم تعلمها من مؤشرات مرور متعددة. في الوقت نفسه، تُبنى مهام مساعدة إشرافية متعددة لتعلم الحالة الكامنة، ويُستخدم نوعان من ميزات التضمين الكامنة، الميزة الخاصة بكل مهمة والميزة المشتركة بين المهام، لإثراء هذه الحالة. أظهرت التجارب الموسعة على CityFlow أن MTLight يتمتع بسرعة تقارب رائدة وأداء متفوق. كما قمنا بإجراء محاكاة لنمط ساعة الذروة في جميع السيناريوهات مع زيادة صعوبة التحكم، وتشير النتائج إلى أن MTLight يتمتع بقدرة عالية على التكيف.

مقدمة

يهدف التحكم في إشارات المرور إلى تنسيق الإشارات عبر التقاطعات لتحسين كفاءة المرور في منطقة أو مدينة، وهو ما يلعب دورًا هامًا في النقل الفعّال. تعتمد معظم الطرق التقليدية للتحكم في الإشارات على التوقيت الثابت (koonce2008traffic) أو استدلالات مصممة يدويًا (kouvelas2014maximum), مما يصعّب نقلها. مؤخرًا، تُستخدم الطرق المبنية على التعلم المعزز العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) حيث يتم تدريب شبكة عصبية عميقة للتحكم في التقاطع من خلال التفاعل المباشر مع البيئة. ومع ذلك، بسبب وفرة مؤشرات المرور (عدد السيارات، طول الطابور، وقت الانتظار، السرعة، إلخ)، وتعقيد الملاحظة والبيئة الديناميكية، تظل المشكلة تحديًا ولم تُحل بعد.

نظرًا لأن الملاحظة والمكافأة وديناميكيات كل إشارة مرور مرتبطة ارتباطًا وثيقًا، فإن تحسين التحكم في إشارات المرور في شبكة طرق واسعة النطاق يُنمذج بشكل طبيعي كمشكلة تعلم تعزيز متعدد الوكلاء (MARL). معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) اقترحت تعلم سياسة كل وكيل مشروطة فقط على الملاحظات الأولية للتقاطع، مع تجاهل مساعدة الحالة العالمية، المتوافرة في المدن الذكية. كما ذكر في (zheng2019diagnosing)، فإن المقاييس المختلفة لها تأثير كبير على مهمة التحكم في إشارات المرور. وبالتالي، يجب ألا يقتصر تصميم ملاحظة الوكيل على الملاحظات الأولية للتقاطع فقط، بل يشمل أيضًا الحالة العالمية. يمكن لتصميم ملاحظة جيدة للوكيل أن يستفيد بالكامل من العينات، ويحسن ليس فقط أداء السياسة ولكن أيضًا كفاءة العينة. ومع ذلك، هناك كمية هائلة من مؤشرات المرور في الحالة العالمية، ومن الصعب تصميم ملاحظة وكيل مناسبة وغير متكررة بين هذه المؤشرات. من جهة، قد لا تمثل هذه الملاحظة الموجزة بشكل مفرط خصائص الحالة بشكل كافٍ وشامل، وبالتالي تؤثر على دقة تقدير انتقال الحالة وكذلك على اختيار الإجراء. من ناحية أخرى، إذا تم استخدام مجموعة معقدة من المقاييس كملاحظة، فمن الصعب تحديد أوزان المقاييس المختلفة بدقة، وقد يتسبب ذلك في تكرار البيانات وانفجار الأبعاد، مما لا يزيد فقط من استهلاك الحوسبة ولكن أيضًا يصعّب على الوكيل التعلم.

من أجل توفير تمثيل كافٍ لمهمة التحكم في إشارات المرور، يتم تقديم الحالة الكامنة. على وجه التحديد، الملاحظة الأولية الخاصة بالتقاطع، والتي تتكوّن من عدة متغيرات ذات معانٍ دلالية محددة (أي عدد السيارات على كل مسار قادم والمرحلة الحالية للإشارة). بعد ذلك، يتم تعزيز الملاحظة الأولية بواسطة الفضاء الكامن. لتعلّم الفضاء الكامن من الحالة العالمية، يتم بناء عدة مهام مساعدة إشرافية، تتعلق بالتحكم في إشارات المرور. تُؤخذ عدة إحصائيات من تاريخ الحالة العالمية كمدخلات، ويُستخدم أولًا RNN ثم يتم تفرّع الشبكة إلى عدة فروع للتنبؤ بأنواع مختلفة من إحصائيات الحالة العالمية، مثل توزيع التدفق وتوزيع أوقات السفر، على التوالي. لإثراء الفضاء الكامن، يتم استخراج نوعين من ميزات التضمين الكامنة: الميزة الخاصة بكل مهمة والميزة المشتركة بين المهام. الأولى تُستخرج بواسطة الفرع المحدد للمهمة وتمثل المعلومات المدفوعة بالمهمة، بينما الثانية من طبقة مشتركة بين المهام وتمثل خصائص أساسية أكثر عمومية. بالتالي، هما مكملتان لبعضهما ويُستخدم كلاهما لتعزيز الملاحظة الأولية. وأخيرًا، مشروطًا على الملاحظة المعزَّزة، يتم تعلم السياسة بواسطة DRL (mnih2015human). يجدر بالذكر أن المهام المتعددة تُتعلم في وقت واحد مع DRL، مما يجعل الفضاء الكامن أكثر تكيفًا مع تعلم السياسة.

الأعمال ذات الصلة

نستعرض الأعمال ذات الصلة في القسم [sec:related_work]، والمقدمات في القسم [sec:preliminaries]. يتم تقديم إعداد التعلم متعدد الوكلاء في القسم [sec:problem_definition]. يقدم القسم [sec:method] تفاصيل الطريقة المقترحة. يقدم القسم [sec:experiment] النتائج التجريبية التي تثبت كفاءة التعلم المعزز متعدد الوكلاء. وأخيرًا، تُناقش الاستنتاجات والأعمال المستقبلية في القسم [sec:conclusion].

بيان المشكلة

تعريف المشكلة

نعتبر مشكلة التحكم في إشارات المرور لعدة وكلاء، حيث تُنمذج المهمة كلعبة ماركوف (Littman1994markov)، والتي يمكن تمثيلها بالصيغ \(\mathcal{G}=<\mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma>\). \(\mathcal{N}\equiv\{1,\ldots,n\}\) هي مجموعة محدودة من الوكلاء، وكل تقاطع في السيناريو يُتحكم فيه بواسطة وكيل. \(\mathcal{S}\) هي مجموعة فضاء الحالة العالمي. \(\mathcal{A}\) يدل على فضاء العمل لوكيل فردي. العمل المشترك \(\boldsymbol{a}\in\mathbf{A}\equiv\mathcal{A}^n\) هو مجموعة الأعمال الفردية \(\{a_i\}_{i=1}^n\). في كل خطوة زمنية، يتلقى كل وكيل \(i\) ملاحظة \(o_i\in\mathcal{O}\) ويختار عملًا \(a_i\)، فينتج عن ذلك الحالة التالية \(s'\) وفقًا لوظيفة الانتقال \(\mathcal{P}(s'\mid s,\boldsymbol{a})\) ومكافأة \(r_i=\mathcal{R}(s,\boldsymbol{a})\). \(\mathcal{H}\) هو أفق الزمن و\(\gamma\in[0,1)\) هو عامل الخصم.

تصميم الوكيل

يتم التحكم في كل تقاطع بواسطة وكيل. فيما يلي تصميم الحالة والفعل والمكافأة لوكيل التعلم المعزز.

الملاحظة. تتكوّن الملاحظة الأولية من جزأين: (1) عدد المركبات على كل مسار وارد \(\mathbf{f}_t^v\)؛ (2) الطور الإشاري الحالي \(\mathbf{f}_t^s\). يمكن الحصول عليهما مباشرة من المحاكي، وتُوصف المفاهيم بالتفصيل في القسم [sec:preliminaries]. تُعرّف الملاحظة الخام للوكيل \(i\) بـ \[\begin{aligned} o_{i} = \{\mathbf{f}_t^v,\mathbf{f}_t^s\},\end{aligned}\] حيث \(\mathbf{f}_t^v=\{V_{l_1^{in}},V_{l_2^{in}},\ldots,V_{l_m^{in}}\}\) و\(l^{in}=\{l_1^{in},\ldots,l_m^{in}\}\) هي مجموعة المسارات الواردة في التقاطع، والطور الإشاري الحالي \(\mathbf{f}_t^s=p_k,k\in\{1,\ldots,K\}\)، و\(K\) عدد الأطوار الإجمالي، ويُمثّل كل طور \(p\) بمؤشر واحد ساخن. هدفنا هو تعلم الفضاء الكامن لتعزيز الملاحظة الخام للاستفادة بشكل أفضل من العينة.
الفعل. فعل كل وكيل هو اختيار الطور للفترة الزمنية التالية. يُعرّف فعل الوكيل \(i\) بـ \[\begin{aligned} a_{i} = \{\mathbf{f}_t^s\},\end{aligned}\] حيث \(\mathbf{f}_t^s=p_k,k\in\{1,\ldots,K\}\).
المكافأة. تُعرّف المكافأة بأنها سالب طول الطابور على المسارات الواردة، وهي مقبولة عمومًا (zheng2019diagnosing, huang2021modellight, zang2020metalight, zheng2019learning, wei2019colight). تُعرّف مكافأة الوكيل \(i\) بـ \[\begin{aligned} r_{i}=-\sum_{m=1}^M q_{l_m^{in}},\end{aligned}\] حيث \(q_{l_m^{in}}\) هو طول الطابور على المسار الوارد \(l_m^{in}\).

الطريقة

في هذا القسم، سنعرض الوحدات الرئيسية لطريقتنا المقترحة MTLight، التي تركز على تعلم كل من الحالة الكامنة المشتركة والمحددة بالمهام، عبر استخدام شبكة مساعدة متعددة المهام لدعم تعلم السياسات. توصف العملية الكاملة لـ MTLight في الخوارزمية [alg:train].

MTLight يتكوّن من شبكة متعددة المهام وشبكة وكيل. بالنسبة للأخيرة، يتم استخدام شبكة Deep Q-Network (DQN) (mnih2015human) كمقرِّب لوظيفة القيمة Q، موافقةً مع الأعمال السابقة (chen2020toward, wei2019colight, wei2019presslight, zheng2019learning, wei2018intellilight). الوحدة متعددة المهام تتبع استراتيجية مشاركة صارمة للمعلمات (caruana1997multitask) عبر مشاركة الطبقات المخفية بين جميع المهام والاحتفاظ بطبقات مخصصة لكل مهمة.

التعلُّم المتعدد المهام للحالة الكامنة

لكل وكيل، تتضمن ملاحظته الأولية عدد السيارات \(\mathbf{f}_t^v\) والمرحلة الإشارية الحالية \(\mathbf{f}_t^s\). بالإضافة إلى ذلك، يتم تقديم عدة معلومات من الحالة العالمية، مثل: عدد السيارات القادمة في الخطوات \(\tau\) الأخيرة (\(\mathbf{f}_{t-\tau:t}^c\)), متوسط وقت السفر خلال الخطوات الماضية (\(\mathbf{f}_{t-\tau:t}^{tr}\)), طول الطابور خلال الخطوات الماضية (\(\mathbf{f}_{t-\tau:t}^{q}\))، والسيارات الحالية خلال الخطوات الماضية (\(\mathbf{f}_{t-\tau:t}^{vr}\)).

تتضمن وحدة التعلُّم المتعدد المهام المهام الأربع التالية:

تقدير توزيع التدفق. نستخدم \(\mathcal{T}_{flow}\) للإشارة إلى مهمة تقدير توزيع التدفق، أي التنبؤ بالمتوسط \(\mu_{f}\) والتباين \(\sigma_{f}^{2}\) لمعدل وصول التدفق حتى خطوة الزمن \(t\): \[\begin{aligned} (\mu_{f}, \sigma_{f}^{2}) \leftarrow [\mathbf{f}_t^v,\mathbf{f}_t^s,\mathbf{f}_{t-\tau:t}^c,\mathbf{f}_{t-\tau:t}^{tr},\mathbf{f}_{t-\tau:t}^{q},\mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]
تقدير توزيع أوقات السفر. نستخدم \(\mathcal{T}_{travel}\) للإشارة إلى مهمة تقدير توزيع أوقات السفر، أي التنبؤ بالمتوسط \(\mu_{tr}\) والتباين \(\sigma_{tr}^{2}\) لمتوسط وقت السفر للسيارات المكتملة حتى الخطوة \(t\): \[\begin{aligned} (\mu_{tr}, \sigma_{tr}^{2}) \leftarrow [\mathbf{f}_t^v,\mathbf{f}_t^s,\mathbf{f}_{t-\tau:t}^c,\mathbf{f}_{t-\tau:t}^{tr},\mathbf{f}_{t-\tau:t}^{q},\mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]
تقدير طول الطابور التالي. نستخدم \(\mathcal{T}_{queue}\) للإشارة إلى مهمة تقدير طول الطابور القادم، أي التنبؤ بعدد \(q\) السيارات في الطابور في الخطوة التالية: \[\begin{aligned} q \leftarrow [\mathbf{f}_t^v,\mathbf{f}_t^s,\mathbf{f}_{t-\tau:t}^c,\mathbf{f}_{t-\tau:t}^{tr},\mathbf{f}_{t-\tau:t}^{q},\mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\]
تقدير عدد السيارات على الطريق. نستخدم \(\mathcal{T}_{vehicles}\) للإشارة إلى مهمة تقدير عدد السيارات على الطريق، أي التنبؤ بعدد السيارات \(V^{r}\) الحالية في النظام: \[\begin{aligned} V^{r} \leftarrow [\mathbf{f}_t^v,\mathbf{f}_t^s,\mathbf{f}_{t-\tau:t}^c,\mathbf{f}_{t-\tau:t}^{tr},\mathbf{f}_{t-\tau:t}^{q},\mathbf{f}_{t-\tau:t}^{vr}]. \end{aligned}\] لاحظ أن السيارات المكتملة أو التي لم تدخل بعد في شبكة الطرق لا تُحتسب في هذا التنبؤ.

تعمل المهام السابقة كمساعدات لتعلُّم الفضاء الكامن. نظرًا لاختلاف مقاييس وأبعاد \(\mathbf{f}_{t-\tau:t}^c\), \(\mathbf{f}_{t-\tau:t}^{tr}\), \(\mathbf{f}_{t-\tau:t}^{q}\), \(\mathbf{f}_{t-\tau:t}^{vr}\) عن \(\mathbf{f}_t^v\) و\(\mathbf{f}_t^s\)، يُستخدم أربع طبقات خطية مستقلة مع وظائف ReLU أولًا لتوسيعها:

\[\begin{aligned} \mathbf{h}^{c} = ReLU(\mathbf{W}_{1}\mathbf{f}_{t-\tau:t}^{c}+\mathbf{b}_{1}),\ \mathbf{h}^{tr} = ReLU(\mathbf{W}_{2}\mathbf{f}_{t-\tau:t}^{tr}+\mathbf{b}_{2}),\\ \mathbf{h}^{q} = ReLU(\mathbf{W}_{3}\mathbf{f}_{t-\tau:t}^{q}+\mathbf{b}_{3}),\ \mathbf{h}^{vr} = ReLU(\mathbf{W}_{4}\mathbf{f}_{t-\tau:t}^{vr}+\mathbf{b}_{4}). \end{aligned}\]

ثم تُستخدم طبقة خطية ووظيفة ReLU لحساب الحالة الكامنة \(\mathbf{H}_{t}\) بعد دمج جميع الميزات:

\[\begin{aligned} \mathbf{H}_{t} = ReLU(\mathbf{W}[\mathbf{f}_t^v,\mathbf{f}_t^s,\mathbf{h}^{c},\mathbf{h}^{tr},\mathbf{h}^{q},\mathbf{h}^{vr}]+\mathbf{b}). \end{aligned}\]

استنادًا إلى \(\mathbf{H}_{t}\)، يتم استخدام وحدة شبكة مشتركة بين المهام لتوليد الميزة الكامنة المشتركة (الحالة الظاهرة). ثم تقسم الشبكة إلى أربعة فروع مستقلة لكل مهمة لحساب الميزة الكامنة المحددة للمهمة (الحالة العقلية) منها. تم تفصيل هندسة الشبكة في الملحق.

نستخدم نموذجًا متغيرًا كامنًا واحدًا لاستخراج الميزات الهرمية، موافقًا لرؤى (zhao2017learning). أي أن الحالة العقلية (مخرج الطبقة المشتركة بعد وحدات GRU) تعبّر عن خصائص أساسية عامة، في حين أن الحالة الظاهرة (مخرجات الفروع المحددة) تمثل معلومات مقتصرة ومدفوعة بالمهمة. بالتالي، هما مكملتان ويُستخدم كلاهما في التعزيز.

السياسة مع الحالة الكامنة

بمساعدة الحالة الكامنة، تعزز ملاحظة الوكيل من \(\mathbf{o}_t\) إلى (\mathbf{o}_t,\mathbf{o}_{t}^{shr},\mathbf{o}_{t}^{spe}). بالنسبة للسياسة \(\pi^{\theta}\)، الهدف هو تعظيم المكافأة التراكمية:

\[\begin{aligned} \max_{\theta}J(\theta)=\mathbb{E}_{a_t\sim\pi^\theta(a_t\mid \mathbf{o}_t,\mathbf{o}_{t}^{shr},\mathbf{o}_{t}^{spe})}\sum_{t=0}^{\mathcal{H}-1}\gamma^{t}r_{t+1}. \end{aligned}\]

الوكيل الذي يعظّم المعادلة [eq:RL] يتصرّف مثاليًا تحت عدم اليقين ويُسمى الأمثل بايز (ghavamzadeh2015bayesian), باعتبار المعرفة حول المهام المتصلة أولوية ابستمولوجية بالنسبة للبيئة. تقلل وحدة المهام المتعددة من تعقيد النموذج وتمنح أسبقية معلوماتية، كما تساعد على تقليل التحيز التمثيلي وتدفع الخوارزمية لإيجاد حل في مساحة تمثيلات أصغر وأدق.

التجربة

نُجري التجارب على منصة CityFlow (zhang2019cityflow)، وهي منصة محاكاة مفتوحة المصدر على مستوى المدينة للتحكم في إشارات المرور. تُستخدم المحاكاة لتوفير بيئة تفاعلية، حيث ينفذ الوكلاء الإجراءات بتغيير مراحل الإشارات وتُعاد التغذية الراجعة.

يرجى الرجوع إلى الملحق [sec:road_networks] والملحق [sec:flow_configurations] للإعدادات التفصيلية لشبكة الطرق وتكوين تدفق المرور. وتم وصف الأساسيات في الملحق [sec:baselines].

مقارنة الأداء


(lr)2-3 (lr)4-5 (lr)6-7 (lr)8-9	real	syn_peak	real	syn_peak	real	syn_peak	real	syn_peak

يسرد الجدول [tab:performance_1] النتائج المقارنة، ومن الواضح ما يلي: ١) بشكل عام، تحقق طرق التعلم المعزز أداءً أفضل من الطرق التقليدية، مما يدل على تفوّق هذا النهج. علاوة على ذلك، يتفوّق MTLight على الطرق الأخرى في معظم المدن وتكوينات تدفق المرور، مما يبرهن على فعالية طرقتنا. ٢) يُظهر MTLight تعميمًا جيدًا عبر سيناريوهات وتكوينات مختلفة؛ فعلى سبيل المثال، يؤدي maxpressure بشكل جيد في hangzhou مع تدفقات المرور الفعلية (realflow)، بينما تحت ظروف المرور التوليفية (synflow)، يقدم maxpressure أداءً أسوأ بكثير من الطرق الأخرى. بالمقابل، لا يقتصر أداء MTLight على التميز في تكوينات hangzhou المتنوعة، بل يُظهر أيضًا استقرارًا ملحوظًا. ٣) يتفوّق MTLight على طرق individualrl وmetalight وpresslight بفوارق تصل إلى 693.46 و461.80 و432.38 نقطة على التوالي. ويعزى ذلك إلى أن هذه الطرق تتعلم سياسة إشارات المرور باستخدام ملاحظاتها فقط وتتجاهل تأثير الوكلاء المجاورين، بينما يعتبر MTLight هؤلاء الوكلاء جزءًا من البيئة لدعم عملية التعلم. ٤) يمكن لنماذج colight وgeneralight، التي تضمن معلومات الجيران، التكيف مع تدفقات مرور متنوعة وتقدم أداءً جيدًا. إلا أن MTLight يتفوق عليهما في سيناريوهات متعددة، محققًا تحسنًا قدره 42.5 و398 نقطة على الترتيب، بفضل استفادته من المعرفة المسبقة المكتسبة عبر شبكة المهام المتعددة لاتخاذ قرارات أكثر دقة.

التجريدات

للتحقق من مساهمة كل مكوّن، تم تقييم أربعة نماذج من MTLight تحت مجموعة متنوعة من السيناريوهات، كما هو موضح في الجدول [tab:performance_1].

Base يحتفظ فقط بشبكة السياسات ويزيل شبكة المهام المتعددة.
Base-Raw يحتفظ بشبكة السياسات ويتخلى عن شبكة المهام المتعددة، لكنه يستخدم مباشرة الإدخال الأصلي لوحدة المهام المتعددة كجزء من الملاحظة.
Base-Per يحتفظ بشبكة المهام المتعددة والسياسة، لكنه يحتوي فقط على الحالة الكامنة المشتركة بين المهام ويزيل الحالة الكامنة المحددة للمهمة.
Base-Tem يحتفظ بشبكة المهام المتعددة والسياسة، لكنه يحتوي فقط على الحالة الكامنة المحددة للمهمة ويزيل الحالة الكامنة المشتركة بين المهام.

تُقدّم نتائج التقييم الكمي في الجدول [tab:performance_1]. يمكن استخلاص النتائج التالية: ١) يعد نموذج Base الأقل أداءً بين النماذج الأربعة؛ ويعزى ذلك لصعوبة تعلم سياسة فعّالة بشكل مستقل في مهمة التحكم متعدد الوكلاء حيث تتغير البيئة ديناميكيًا، في حين أن نموذج Base لا يأخذ ذلك في الحسبان. ٢) مقارنةً بنموذجي Base وBase-Raw، يظهر كل من Base-Per وBase-Tem تحسنًا نتيجة استخدام الحالة الكامنة المشتركة بين المهام (Per-Latent-State) والحالة الكامنة المحددة للمهمة (Tem-Latent-State) على التوالي. ٣) تعكس الحالة الكامنة المشتركة (Per-Latent-State) المعلومات الثابتة عبر الزمن المتعلقة بالمهام المتصلة، في حين تعكس الحالة الكامنة المحددة (Tem-Latent-State) المعلومات المتغيرة المتماشية مع الاتجاهات الآنية؛ وكلاهما يساعد السياسة على اتخاذ قرارات بايزية مثلى. ٤) يبين تفوق MTLight على جميع هذه النماذج أن Per-Latent-State وTem-Latent-State يكملان بعضهما البعض، مما يؤكد الإسهام الإيجابي لكافة المكونات في النتائج النهائية.

الخلاصة

قدّمنا MTLight، وهي طريقة فعّالة للتعلّم المعزز متعدد المهام للتحكم في إشارات المرور يمكن توسيعها لتطبيقها على شبكات طرق حضرية معقدة تحتوي على عدة وكلاء وتستخدم مقاييس متنوعة. أظهرنا أن البنية الكامنة في MTLight تتعلم تمثيلات كامنة هرمية للمهمات المتصلة، مجزأة إلى حالات كامنة مشتركة بين المهام وأخرى محددة بكل مهمة. في مجموعات بيانات مدن متعددة، برهنا أن هذا التمثيل الكامن المستمد من مهمات متصلة، إلى جانب تكيف السياسة بناءً عليه، يمكّن الوكيل من التكيف مع بيئات معقدة. نستنتج أن الاستعانة بالتقريبات السابقة للمهمات المتصلة مفيد مقارنةً بالنهج خالي النموذج، خاصةً عندما يحتوي البيئة على كم كبير من المعلومات يصعب التعبير عنها بالكامل عبر تصميم حالة اصطناعية.

مستقبلاً، يمكن تعلم الأوزان الكامنة من بيانات الخبراء المجهزة مسبقًا باستخدام تقنيات التعلم بالتقليد (song2018multi)، أو عبر استخدام خوارزميات تعدد الوكلاء الحالية للتدريب المسبق على شبكة مهام متعددة.

الملحق

يمكنك تضمين أقسام إضافية أخرى هنا.