latex
مُلخص
أدى التقدم في تقنيات المركبات ذاتية القيادة ونضج تواصل المركبة مع كل شيء إلى تعزيز قدرات المركبات المتصلة والمؤتمتة التعاونية. استنادًا إلى الإدراك التعاوني، يستكشف هذا البحث إمكانية وفعالية التنبؤ بالحركة التعاونية. تستخدم طريقتنا، CMP، إشارات LiDAR كمدخلات لتعزيز قدرات التتبع والتنبؤ. على عكس الأعمال السابقة التي ركزت بشكل منفصل إما على الإدراك التعاوني أو التنبؤ بالحركة، فإن إطار عملنا، حسب علمنا، هو الأول الذي يتناول المشكلة الموحدة حيث تتشارك المركبات المتصلة والمؤتمتة التعاونية المعلومات في كل من وحدات الإدراك والتنبؤ. ندمج القدرة الفريدة على التعامل مع قيود النطاق الترددي الواقعية لتواصل المركبة مع كل شيء وتأخيرات النقل، مع معالجة تمثيلات الإدراك الضخمة في تصميمنا. نقترح أيضًا وحدة تجميع التنبؤ، التي توحد التنبؤات التي حصلت عليها المركبات المتصلة والمؤتمتة التعاونية المختلفة وتنتج التنبؤ النهائي. من خلال تجارب مكثفة ودراسات الحذف، نوضح فعالية طريقتنا في مهام الإدراك التعاوني والتتبع والتنبؤ بالحركة. على وجه الخصوص، تقلل CMP من خطأ التنبؤ الوسطي بنسبة 17.2\% مع عدد أقل من حالات الكشف المفقودة مقارنة بإعداد عدم التعاون. يمثل عملنا خطوة كبيرة إلى الأمام في القدرات التعاونية للمركبات المتصلة والمؤتمتة، مما يظهر تحسنًا في الأداء في السيناريوهات المعقدة.
مقدمة
يعتمد نظام القيادة الذاتية الحالي بشكل أساسي على قدرات الإدراك المدمجة على متنه. ومع ذلك، مثل السائقين البشريين، فإن هذا الاعتماد عرضة للمواقف التي تحتوي على عوائق أو رؤية محدودة. من خلال الاستفادة من نقاط الرؤية المتعددة، يستخدم الإدراك التعاوني (AVR, autocast, wang2020v2vnet, opv2v, xu2022cobevt) اتصالات المركبة بكل شيء (V2X) لمشاركة المعلومات الحسية بين المركبات المتصلة والمؤتمتة (CAVs) والبنية التحتية. تختلف المعلومات المشتركة في الشكل، بما في ذلك البيانات الخام، والميزات المعالجة، أو الكائنات المكتشفة، جنبًا إلى جنب مع البيانات الوصفية ذات الصلة (مثل الطوابع الزمنية والأوضاع). من خلال دمج هذه المعلومات من وجهات نظر متعددة لتكوين صورة موحدة من منظور المركبة المتلقية، يمكن للإدراك الموجود على متنه المعزز أن "يرى" ما وراء خط الرؤية المباشر ومن خلال العوائق.
وحتى الآن، اقتصر البحث في مجال المركبة إلى المركبة (V2V) إلى حد كبير على الإدراك التعاوني أو التنبؤ بالحركة، دون دراسات شاملة حول الجمع بينهما. بجانب الكشف عن الأجسام، تتضمن معظم الأعمال مهامًا مساعدة أخرى مثل التنبؤ (wang2020v2vnet) ورسم الخرائط (xu2022v2xvit) كمخرجات داعمة. يقترح (wang2020v2vnet) طريقة V2V للإدراك والتنبؤ، التي تنقل التمثيلات الوسيطة لميزات سحابة النقاط. ومع ذلك، يظل دمج الإدراك والتنبؤ لتحقيق التعاون V2V بشكل كامل غير مُستكشف، كما هو موضح في الشكل [fig:teaser](b). فيما يتعلق بالتنبؤ بالحركة، استخدمت الجهود الأولية (hu2020collaborative, Choi2021prediction, v2voffloading) شبكات LSTM على مجموعات بيانات بسيطة. وتعتمد الدراسات الحديثة (shi2023motion, shi2024mtr++, wang2023eqdrive) على شبكات الانتباه وشبكات التحويل الرسومية لتعزيز التنبؤ بالحركة. ومع ذلك، تستند هذه النهج إلى بيانات المسار الحقيقية متجاهلةً عدم اليقين وعدم الدقة المنتشرة من مهام الكشف والتتبع المنبع. يظل هذا الاعتماد على بيانات الحقيقة الأرضية غير كافٍ للتحدي الواقعي المتمثل في التعامل مع المسارات غير المؤكدة، مما يؤكد الحاجة إلى بحث يدمج الإدراك والتنبؤ في التعاون V2V.
لسد الفجوة القائمة بين الإدراك التعاوني والتنبؤ بالحركة، نقدم إطار عمل جديد للتنبؤ التعاوني بالحركة قائمًا على البيانات الحسية الخام. حسب علمنا، نحن أول من يطور طريقة عملية تحل الإدراك والتنبؤ بشكل مشترك مع اتصالات CAV في كلا المكونين. يتم توضيح إطار عملنا المقترح في الشكل [fig:method]. يستخلص كل CAV تمثيل ميزة منظور الطائر (BEV) الخاصة به من سحابة نقاط LiDAR الخاصة به. تتم معالجة هذه البيانات وضغطها وبثها إلى CAVs القريبة الأخرى. يقوم الوكلاء المتلقون بدمج ترميز الميزة المنقولة. بعد الحصول على بيانات الإدراك التاريخية، يتنبأ كل CAV بمسارات الأجسام المحيطة استنادًا إلى العمود الفقري لـ MTR (shi2023motion). ثم يتم بث المسارات المتوقعة من كل CAV مرة أخرى. بينما يجمع نموذجنا التنبؤات من CAVs المحيطة، تُستخدم التنبؤات والميزات الوسيطة من الإدراك لتحسين التنبؤ بالحركة. يسمح أسلوبنا بتأخيرات النقل الواقعية بين CAVs وقيود النطاق الترددي مع تحقيق أداء مرضٍ.
في هذه الورقة، تتمثل مساهماتنا الرئيسية فيما يلي:
- نقترح إطار عمل عملي مقاوم للتأخير للتنبؤ التعاوني بالحركة، يستفيد من المعلومات المشتركة بواسطة CAVs متعددة لتعزيز أداء الإدراك والتنبؤ بالحركة.
- نحلل متطلبات النطاق الترددي لمشاركة المعلومات التعاونية ونصمم تمثيلاً خفيفًا للاتصال.
- نطور وحدة تجميع التنبؤات المستندة إلى المحولات للاستفادة من التنبؤات المشتركة بواسطة CAVs أخرى، مما يحسن دقة التنبؤ.
الأعمال ذات الصلة
الإدراك التعاوني
يتيح الإدراك التعاوني للمركبات ذاتية القيادة استخدام أنظمة الاتصالات المتقدمة لمشاركة المعلومات وتوسيع مجالات رؤيتها. طورت الأعمال السابقة تقنيات الدمج المبكر للكشف التعاوني عن الأجسام استنادًا إلى بيانات الكاميرا الخام أو الرادار أو RGB (autocast). ومع ذلك، تتطلب هذه الاستراتيجية نطاقًا تردديًا عريضًا عاليًا للحفاظ على قياسات الاستشعار الكاملة. استراتيجية أخرى، الدمج المتأخر، تسمح للمركبات بمشاركة الكشف النهائي فقط والاعتماد على نموذج آخر لدمج الكشوفات (latefusion). ومع ذلك، في التطبيقات الواقعية، يقتصر أداء الدمج المتأخر بفقدان معلومات السياق ودقة الكشف الفردية.
لتحقيق توازن بين هذه المقايضات، أصبحت استراتيجية الدمج المتوسط (coopernaut, wang2020v2vnet, qiao2023adaptive, xu2022cobevt) أكثر شيوعًا. في هذه الاستراتيجية، تستخدم المركبات نماذج التشفير لمعالجة معلومات المرور المحيطة والخريطة إلى ميزات وسيطة، ثم تشارك هذه الميزات مع المركبات المحيطة. عند الاستلام، تدمج المركبات هذه الميزات مع معلوماتها الخاصة وتنتج نتائج إدراك أفضل. على سبيل المثال، استُخدمت الشبكة العصبية الرسومية في V2VNet (wang2020v2vnet) لتجميع المعلومات من وجهات نظر مختلفة. كما نُشرت AttFuse (opv2v) آلية انتباه لدمج الميزات المتوسطة. واقترح (qiao2023adaptive) نموذج دمج يختار الميزات المتوسطة بشكل تكيفي لتحقيق تكامل أفضل. اعتمدت CoBEVT (xu2022cobevt) و HM-ViT (xiang2023hmvit) على محولات الرؤية لتعزيز معالجة إدخال الكاميرا ودمج الميزات وتحقيق نتائج واعدة على مجموعة بيانات OPV2V (opv2v).
تنبؤ الحركة
تُعد تنبؤات الحركة موضوعًا بحثيًا رئيسيًا آخر في القيادة الذاتية. غالبًا ما تركز الأبحاث على بيئة غير تعاونية حيث تتنبأ مركبة ذاتية واحدة بدون تواصل (li2020evolvegraph, gao2020vectornet, toyungyernsub2022dynamics, li2021spatio, varadarajan2021multipath++, girase2021loki, choi2021shared, sun2022m2i, lange2024scene, shi2023motion, dax2023disentangled, ruan2023learning, li2023game). تتضمن الطرق الحديثة (sun2022m2i, gao2020vectornet, wang2023equivariant) ترميز المسارات التاريخية وخطوط الخرائط إلى متجهات عالية الأبعاد واستخدام الشبكات الرسومية لالتقاط العلاقات، تليها طبقات فك التشفير لإنتاج التنبؤات. أدخلت الأعمال الأحدث هيكل المحولات في نماذجها. يستخدم كل من MTR (shi2023motion) و MTR++ (shi2024mtr++) أزواج استعلام الحركة حيث يكون كل زوج مسؤولًا عن تنبؤ وضع حركة واحد، وهو أكثر كفاءة من استراتيجيات الأهداف (gu2021densetnt) ويتقارب بشكل أسرع من استراتيجيات الانحدار المباشر (varadarajan2021multipath++, ngiam2022scene).