```html
latex
للتحكم في إشارات المرور أثر كبير في تخفيف الازدحام المروري في المدن الحديثة. لقد تم استخدام التعلم التعزيزي العميق بشكل واسع لهذه المهمة في السنوات الأخيرة، حيث أظهر أداءً واعدًا، ولكنه واجه أيضًا عدة تحديات مثل محدودية الأداء وقلة كفاءة العيّنات. لمواجهة هذه التحديات، اقترحنا MTLight لتعزيز تمثيل الحالة الكامنة من خلال متابعة مجموعة واسعة من مؤشرات المرور. في الوقت نفسه، بُنيت مهام مساعدة وإشرافية متعددة لتعلم هذه الحالة الكامنة، إضافة إلى استخدام نوعين من ميزات التضمين: الميزة الخاصة بالمهمة والميزة المشتركة، وذلك لإثراء التمثيل الكامن. أظهرت التجارب الموسَّعة التي أُجريت على CityFlow أن MTLight يتميز بسرعة تقارب رائدة وأداءً منافسًا. كما قمنا بمحاكاة نمط ذروة الساعة في مختلف السيناريوهات مع زيادة صعوبة التحكم، وأشارت النتائج إلى أن MTLight يتمتع بقدر كبير من القدرة على التكيف.
يهدف التحكم في إشارات المرور إلى تنسيق الإشارات عبر التقاطعات لتحسين كفاءة المرور في منطقة أو مدينة، والتي تلعب دورًا هامًا في النقل الفعّال. تستهدف معظم الطرق التقليدية التحكم في الإشارات إما بالزمن الثابت (koonce2008traffic) أو بالاستدلالات المصممة يدويًّا (kouvelas2014maximum)، وتعتمد بشكل كبير على الخبرة والتنقيب العميق في البيانات التاريخية الإقليمية للمرور، مما يصعّب نقلها. مؤخرًا، باتت الأساليب المبنية على تعلم التعزيز العميق (DRL) (guo2021urban,jintao2020learning,pan2020spatio,he2020spatio,tong2021combinatorial,wang2020deep,gu2020exploiting,liu2021urban,xu2021hierarchically,zhang2021periodic) تستخدم شبكات عصبية عميقة لتعلم سياسات التحكم في كل تقاطع عبر التفاعل المباشر مع البيئة. ومع ذلك، بسبب وفرة مؤشرات المرور (عدد السيارات، طول الطابور، وقت الانتظار، السرعة، إلخ) وتعقيد الملاحظات والبيئة الديناميكية، تظل المشكلة تحديًا ولم تُحَل بعد.
نظرًا لأن الملاحظة والمكافأة وديناميكيات كل إشارة مرتبطة ارتباطًا وثيقًا بالأخرى، فإن تحسين التحكم في الإشارات ضمن شبكة طرق واسعة النطاق يُنمذج بشكل طبيعي كمشكلة تعلم تعزيزي متعدد الوكلاء (MARL). اقترحت معظم الأعمال السابقة (wei2019presslight,zhang2020generalight,chen2020toward,zheng2019learning) تعلم سياسة كل وكيل اعتمادًا فقط على ملاحظات التقاطع الأولية، مع إهمال الحالة العالمية المتاحة في المدينة الذكية. كما ذكر في (zheng2019diagnosing), للمقاييس المختلفة تأثير كبير على مهمة التحكم في الإشارات. لذلك، يجب ألا يقتصر تصميم ملاحظة الوكيل على المعلومات المحلية فحسب، بل يشمل أيضًا الحالة العالمية.
يمكن لتصميم ملاحظة جيد أن يستفيد بالكامل من العيّنات، محسنًا ليس فقط أداء السياسة ولكن أيضًا كفاءة العيّنة. ومع ذلك، هناك عدد هائل من المقاييس المرورية في الحالة العالمية، ومن الصعب تصميم ملاحظة وكيل مناسبة وغير متكررة بينها. فمن ناحية، قد لا يمثل التصميم المُختصر خصائص الحالة بما يكفي، مما يؤثر على دقة تقدير انتقال الحالة واختيار الإجراء. ومن ناحية أخرى، إذا استخدمنا مجموعة معقدة من المقاييس، فقد يصعب ضبط أوزانها بدقة، مما يؤدي إلى تكرار البيانات وانفجار الأبعاد، وزيادة استهلاك الموارد الحاسوبية وتعقيد تعلم الوكيل.
لذلك، ولتوفير تمثيل كافٍ لمهمة التحكم في الإشارات، نُقدم مفهوم الحالة الكامنة. أولًا، تمت مراعاة الملاحظة الأولية المحلية لكل تقاطع، ثم تُعزَّز هذه الملاحظة بجزء كامن يُتعلم من الحالة العالمية. لبناء هذا الجزء الكامن، وُضعت مهام مساعدة وإشرافية متعددة تتعلق بأنماط حركة المرور، حيث تُعالج شبكة متكررة (RNN) تسلسلًا من إحصاءات التاريخ العالمي، ثم تتفرع لتنبؤات مختلفة مثل توزيع التدفق ووقت السفر. ولإثراء الفضاء الكامن، تستخرج هذه البنية نوعين من ميزات التضمين: خاصة بالمهمة وعامة (مشتركة)، مما يكمّل بعضه البعض عند تعزيز الملاحظة الأولية. أخيرًا، بناءً على الملاحظة المعززة، تُتعلم السياسة عبر (DRL) (mnih2015human), حيث تُدرَّب المهام المتعددة في آنٍ واحد مع تعلم السياسة، مما يجعل التمثيل الكامن أكثر تكيفًا.
يُستعرض العمل السابق في القسم [sec:related_work]، ويُقدَّم الأساس النظري في القسم [sec:preliminaries]. يُوضّح القسم [sec:problem_definition] صياغة مشكلة التعلم المتعدد الوكلاء. بينما يُفصّل القسم [sec:method] منهجية MTLight. يُقدّم القسم [sec:experiment] النتائج التجريبية التي تبيّن فعالية طريقة MTLight. وأخيرًا، يناقش القسم [sec:conclusion] الاستنتاجات والأعمال المستقبلية.
نعتبر مشكلة التحكم في إشارات المرور متعددة الوكلاء، حيث تُنمذج اللعبة كـ ماركوف (Markov Game) (littman1994markov)، ويمكن تمثيلها بالمجموعة \(\mathcal{G}=\langle \mathcal{N},\mathcal{S}, \mathcal{A}, \mathcal{O}, \mathcal{P}, \mathcal{R}, \mathcal{H}, \gamma\rangle\). \(\mathcal{N}=\{1, \ldots, n\}\) هي مجموعة الوكلاء، وكل تقاطع يُتحكم فيه بواسطة وكيل منفرد. \(\mathcal{S}\) هي فضاء الحالة العالمية، و\(\mathcal{A}\) فضاء الأفعال لكل وكيل. يمثل الفعل المشترك \(\boldsymbol{a}\in \mathbf{A}\equiv\mathcal{A}^{n}\) مجموعة الأفعال الفردية \([a_i]_{i=1}^n\). في كل خطوة زمنية، يتلقى الوكيل \(i\) ملاحظة \(o_i\in\mathcal{O}\)، يختار فعلًا \(a_i\)، ينتقل النظام إلى الحالة التالية \(s'\) وفقًا لدالة الانتقال \(\mathcal{P}(s'\mid s,\boldsymbol{a})\)، ويحصل كل وكيل على مكافأة \(r_i=\mathcal{R}(s,\boldsymbol{a})\). \(\mathcal{H}\) هو أفق الزمن و\(\gamma\in[0,1)\) عامل الخصم.
يتحكم في كل تقاطع وكيل مستقل. فيما يلي، نوضح تصميم الملاحظة وتصميم الفعل وتصميم المكافأة لوكيل التعلم المعزز.
المُلاحَظَة. تتكون ملاحظة الوكيل الأولية من جزأين: (1) عدد المركبات على كل مسار وارد \(\mathbf{f}_t^v\)؛ (2) الطور الحالي للإشارة \(\mathbf{f}_t^s\). يُمكن الحصول على كلا الجزأين مباشرة من المحاكي، وقد وُصفت المفاهيم بالتفصيل في القسم [sec:preliminaries]. تُعرَّف الملاحظة الأولية للوكيل \(i\) بـ \[ o_{i} = \{ \mathbf{f}_t^v, \mathbf{f}_t^s \}, \] حيث \(\mathbf{f}_t^v = \{V_{l_{1}^{in}}, V_{l_{2}^{in}}, \ldots, V_{l_{m}^{in}}\}\) و\(\{l_{1}^{in}, \ldots, l_{m}^{in}\}\) هي المسارات الواردة للتقاطع، والطوار الحالية \(\mathbf{f}_t^s=p_k, k\in\{1,\ldots,K\}\) تمثل بمتجه التمثيل الحراري. هدفنا تعلم الفضاء الكامن لتعزيز هذه الملاحظة والاستفادة بشكل أفضل من العيّنات.
الفِعْل. فعل كل وكيل هو اختيار الطور للفترة الزمنية التالية. مع أن الطوار قد تُنظَّم متسلسلة في الواقع، فإن الاختيار المباشر يوفر مرونة أكبر. يُعرَّف فعل الوكيل \(i\) بـ \[ a_{i} = \{ \mathbf{f}_t^s\}, \] حيث \(\mathbf{f}_t^s=p_k, k\in\{1,\ldots,K\}.\)
المُكافَأَة. نعَّرِّف المكافأة كسالب مجموع أطوال الطوابير على المسارات الواردة، وهو معيار شائع في الأعمال السابقة (zheng2019diagnosing, huang2021modellight, zang2020metalight, zheng2019learning, wei2019colight). تُعرَّف مكافأة الوكيل \(i\) بـ \[ r_{i} = -\sum_{m=1}^{M} q_{l^{in}_{m}}, \] حيث \(q_{l^{in}_{m}}\) طول الطابور على المسار الوارد \(l^{in}_{m}\).