التنبُّؤ التعاوُني بالحركة مع الاتّصال بين وُكلاء متعدِّدين

Zhuoyuan Wu, Yuping Wang, Hengbo Ma, Zhaowei Li, Hang Qiu, Jiachen Li

ملخّص

أدّى التقدُّم في تقنيات المركبات ذاتية القيادة ونُضج اتّصال المركبة بكلّ شيء إلى تعزيز قدرات المركبات المتّصلة والمؤتمتة على نحوٍ تعاوني. وانطلاقًا من الإدراك التعاوُني، يستكشف هذا البحث إمكانية وفاعلية التنبُّؤ التعاوُني بالحركة. تستخدم طريقتنا، CMP، إشارات LiDAR كمدخلات لتعزيز قدرات التتبُّع والتنبُّؤ. وعلى خلاف الأعمال السابقة التي ركّزت منفصلةً إمّا على الإدراك التعاوُني أو على التنبُّؤ بالحركة، فإن إطارنا، بحسب علمنا، هو الأوّل الذي يتناول المشكلة الموحَّدة حيث تتشارك المركبات المتّصلة والمؤتمتة (CAVs) المعلومات في كلٍّ من وحدات الإدراك ووحدات التنبُّؤ. نُدرج في تصميمنا القدرة على التعامل مع قيود النطاق التردُّدي الواقعية لاتّصال المركبة بكلّ شيء وتأخيرات النقل، مع معالجة تمثيلات إدراكية كبيرة الحجم. نقترح كذلك وحدةً لتجميع التنبؤات تُوحِّد تنبؤات المركبات المتّصلة والمؤتمتة المختلفة وتنتج التنبُّؤ النهائي. ومن خلال تجارب مكثفة ودراسات حذف، نُظهر فاعلية طريقتنا في مهام الإدراك التعاوُني والتتبُّع والتنبُّؤ بالحركة. وعلى وجه الخصوص، تُقلِّل CMP خطأ التنبُّؤ المتوسّط بنسبة 17.2\% مع عددٍ أقلّ من حالات الكشف الفائت مقارنةً بإعدادٍ غير تعاوني. يمثّل عملُنا خطوةً كبيرةً إلى الأمام في القدرات التعاوُنية للمركبات المتّصلة والمؤتمتة، مُظهِرًا تحسُّنًا في الأداء في السيناريوهات المعقّدة.

مقدّمة

يعتمد نظام القيادة الذاتية الحالي أساسًا على قدرات الإدراك الموجودة على متن المركبة. غير أنّ هذا الاعتماد، شأنه شأن السائقين البشريين، عُرضة لمواقف تحتوي على عوائق أو رؤية محدودة. وبالاستفادة من تعدُّد نقاط الرؤية، يستخدم الإدراك التعاوُني (AVR, autocast, wang2020v2vnet, opv2v, xu2022cobevt) اتّصالات المركبة بكلّ شيء (V2X) لمشاركة المعلومات الحسّية بين المركبات المتّصلة والمؤتمتة (CAVs) والبنية التحتية. وتختلف المعلومات المتبادلة شكلاً ومحتوىً، فتشمل البيانات الخام، والميزات المُعالجة، أو الأجسام المكتشفة، إلى جانب البيانات الوصفية ذات الصلة (مثل الطوابع الزمنية والأوضاع). ومن خلال دمج هذه المعلومات من وجهات نظر متعدّدة لتكوين صورة موحَّدة من منظور المركبة المُستقبِلة، يمكن للإدراك الموجود على متنها، بعد تعزيزه، أن «يرى» ما وراء خطّ الرؤية المباشر ومن خلال العوائق.

حتّى الآن، انحصر البحث في اتّصال المركبة بالمركبة (V2V) إلى حدّ كبير في الإدراك التعاوُني أو في التنبُّؤ بالحركة، من دون دراسات شاملة تُعنى بدمجهما. وإلى جانب كشف الأجسام، تتضمّن معظم الأعمال مهامًا مساعدة مثل التنبُّؤ (wang2020v2vnet) ورسم الخرائط (xu2022v2xvit) كمخرجات داعمة. يقترح (wang2020v2vnet) طريقة V2V للإدراك والتنبُّؤ، تنقل التمثيلات الوسيطة لميزات سُحب النقاط. ومع ذلك، يبقى دمج الإدراك والتنبُّؤ لتحقيق تعاون V2V كامل غير مُستكشَف، كما هو موضَّح في الشكل التوضيحي (b). أمّا على صعيد التنبُّؤ بالحركة، فقد استخدمت الجهود الأولى (hu2020collaborative, Choi2021prediction, v2voffloading) شبكات LSTM على مجموعات بيانات بسيطة. وتعتمد الدراسات الحديثة (shi2023motion, shi2024mtr++, wang2023eqdrive) على آليات الانتباه والمحوّلات الرسومية لتعزيز التنبُّؤ بالحركة. غير أنّ هذه المناهج ترتكز إلى مسارات حقيقية، فتُهمِل اللايقين وعدم الدقّة الناجمَين عن مهام الكشف والتتبُّع في المراحل السابقة. لذا يبقى الاعتماد على بيانات الحقيقة الأرضية غير كافٍ لمواجهة التحدّي الواقعي المتمثّل في التعامل مع مسارات غير مؤكَّدة، ما يؤكد الحاجة إلى بحث يدمج الإدراك والتنبُّؤ ضمن تعاون V2V.

لسدّ الفجوة بين الإدراك التعاوُني والتنبُّؤ بالحركة، نقدّم إطارًا جديدًا للتنبُّؤ التعاوُني بالحركة قائمًا على البيانات الحسّية الخام. وبحسب علمنا، فنحن أوّل مَن يطوّر طريقة عملية تحلّ مشكلتَي الإدراك والتنبُّؤ بشكل مشترك مع اتّصالات CAV في كلا المكوّنين. يُوضَّح إطارنا المقترَح في الشكل الخاص بالمنهجيّة. يستخلص كلّ CAV تمثيل ميزات بمنظور «عين الطائر» (BEV) من سحابة نقاط LiDAR الخاصّة به. ثم تُعالَج هذه الميزات وتُضغط ويُبَثّ ما يلزم منها إلى مركبات CAVs القريبة. وعند الاستلام، يدمج الوكلاء المُستقبِلون ترميزات الميزات المنقولة. وبعد الحصول على بيانات إدراك تاريخية، يتنبّأ كلّ CAV بمسارات الأجسام المحيطة بالاستناد إلى العمود الفقري لنموذج MTR (shi2023motion). ثم تُبَثّ المسارات المتوقّعة من كلّ CAV مرّة أخرى. وأثناء تجميع نموذجنا لتنبؤات المركبات المحيطة، تُستفاد كذلك من التنبؤات والميزات الوسيطة الآتية من وحدة الإدراك لتحسين التنبُّؤ بالحركة. تأخذ منهجيّتنا بالحسبان تأخيرات النقل الواقعية بين مركبات CAVs وقيود النطاق التردُّدي، مع تحقيق أداء مُرضٍ.

في هذه الورقة، تتمثّل مساهماتُنا الرئيسة فيما يلي:

الأعمال ذات الصلة

الإدراك التعاوُني

يُتيح الإدراك التعاوُني للمركبات ذاتية القيادة استخدام أنظمة الاتّصالات المتقدّمة لمشاركة المعلومات وتوسيع مجالات رؤيتها. وقد طوّرت الأعمال السابقة تقنيات الدمج المُبكِّر للكشف التعاوُني عن الأجسام بالاستناد إلى بيانات الكاميرا الخام أو الرادار أو صور RGB (autocast). غير أنّ هذه الاستراتيجية تتطلّب نطاقًا تردُّديًّا عاليًا للحفاظ على قياسات الاستشعار كاملةً. أمّا استراتيجية الدمج المتأخِّر فتسمح للمركبات بمشاركة نواتج الكشف النهائية فقط، والاعتماد على وحدة أخرى لدمج الكشوفات (latefusion). لكن في التطبيقات الواقعية، يقتصر أداء الدمج المتأخِّر بفعل فقدان معلومات السياق وحساسية دقّة الكشف الفردي.

ولتحقيق توازنٍ بين هذه المُفاضلات، باتت استراتيجية الدمج المتوسِّط (coopernaut, wang2020v2vnet, qiao2023adaptive, xu2022cobevt) أكثر شيوعًا. في هذه الاستراتيجية، تستخدم المركبات مُشفِّراتٍ لمعالجة معلومات المشهد المحيط وخريطة الطريق إلى ميزات وسيطة، ثم تُشارك هذه الميزات مع المركبات المحيطة. وعند الاستلام، تدمج المركبات هذه الميزات مع معلوماتها الخاصّة وتنتج نتائج إدراكٍ أفضل. على سبيل المثال، استُخدمت الشبكات العصبية الرسومية في V2VNet (wang2020v2vnet) لتجميع المعلومات من وجهات نظر مختلفة. كما قدّمت AttFuse (opv2v) آليّةَ انتباهٍ لدمج الميزات المتوسّطة. واقترح (qiao2023adaptive) نموذج دمجٍ يختار الميزات المتوسّطة بشكلٍ تكيُّفي لتحقيق تكاملٍ أفضل. واعتمدت CoBEVT (xu2022cobevt) وHM-ViT (xiang2023hmvit) على محوّلات الرؤية لتعزيز معالجة مُدخلات الكاميرا ودمج الميزات، مُحقِّقةً نتائج واعدة على مجموعة بيانات OPV2V (opv2v).

تنبُّؤ الحركة

يُعدّ تنبُّؤ الحركة موضوعًا بحثيًّا رئيسًا آخر في القيادة الذاتية. وغالبًا ما تركّز الأبحاث على بيئة غير تعاوُنية حيث تتنبّأ مركبة ذاتية واحدة من دون اتّصال (li2020evolvegraph, gao2020vectornet, toyungyernsub2022dynamics, li2021spatio, varadarajan2021multipath++, girase2021loki, choi2021shared, sun2022m2i, lange2024scene, shi2023motion, dax2023disentangled, ruan2023learning, li2023game). وتتضمّن الطرق الحديثة (sun2022m2i, gao2020vectornet, wang2023equivariant) ترميز المسارات التاريخية وخطوط الخرائط إلى متجهات عالية الأبعاد، ثم استخدام الشبكات الرسومية لالتقاط العلاقات، فطبقات فكّ التشفير لإنتاج التنبؤات. وقد أدخلت أعمالٌ أحدث بنية المحوّلات إلى نماذجها؛ إذ يستخدم كلٌّ من MTR (shi2023motion) وMTR++ (shi2024mtr++) أزواج استعلامٍ للحركة، يكون كلّ زوجٍ منها مسؤولًا عن تنبُّؤ نمط حركة واحد، وهو ما يُعدّ أكفأ من الاستراتيجيات القائمة على الأهداف (gu2021densetnt) وأسرع تقاربًا من استراتيجيات الانحدار المباشر (varadarajan2021multipath++, ngiam2022scene).