LaTeX
أدى التقدم في تقنيات المركبات ذاتية القيادة ونضج تواصل المركبة مع كل شيء إلى تعزيز قدرات المركبات المتصلة والمؤتمتة التعاونية. استنادًا إلى الإدراك التعاوني، يستكشف هذا البحث إمكانية وفعالية التنبؤ بالحركة التعاونية. تستخدم طريقتنا، CMP، إشارات LiDAR كمدخلات لتعزيز قدرات التتبع والتنبؤ. على عكس الأعمال السابقة التي ركزت بشكل منفصل إما على الإدراك التعاوني أو التنبؤ بالحركة، حسب علمنا، إطار عملنا هو الأول الذي يتناول المشكلة الموحدة حيث تتشارك المركبات المتصلة والمؤتمتة المعلومات في كل من وحدات الإدراك والتنبؤ. ندمج القدرة الفريدة على التعامل مع قيود النطاق الترددي الواقعية لتواصل المركبة مع كل شيء وتأخيرات النقل، إضافةً إلى معالجة التمثيلات الضخمة الناتجة عن الإدراك في تصميمنا. نقترح أيضًا وحدة تجميع التنبؤ، التي توحد التنبؤات التي حصلت عليها المركبات المتصلة والمؤتمتة التعاونية المختلفة وتنتج التنبؤ النهائي. من خلال تجارب مكثفة ودراسات الحذف، نوضح فعالية طريقتنا في مهام الإدراك التعاوني والتتبع والتنبؤ بالحركة. على وجه الخصوص، تقلل CMP من الخطأ المتوسط للتنبؤ بنسبة 17.2% مع عدد أقل من حالات الكشف المفقودة مقارنةً بالإعداد غير التعاوني. يمثل عملنا خطوة كبيرة إلى الأمام في القدرات التعاونية للمركبات المتصلة والمؤتمتة، مما يظهر تحسنًا في الأداء في السيناريوهات المعقدة.
يعتمد نظام القيادة الذاتية الحالي بشكل أساسي على قدرات الإدراك الموجودة على متنه. ومع ذلك، مثل السائقين البشريين، يقف هذا الاعتماد حائلًا عندما تواجه المركبة عوائق أو رؤية محدودة. من خلال الاستفادة من وجهات نظر متعددة، يستخدم الإدراك التعاوني (AVR, autocast, wang2020v2vnet, opv2v, xu2022cobevt) اتصالات المركبة بكل شيء (V2X) لمشاركة المعلومات الحسية بين المركبات المتصلة والمؤتمتة (CAVs) والبنية التحتية. تختلف المعلومات المشتركة في الشكل، بما في ذلك البيانات الخام، والميزات المعالجة، أو الكائنات المكتشفة، جنبًا إلى جنب مع البيانات الوصفية ذات الصلة (مثل الطوابع الزمنية والأوضاع). من خلال دمج هذه المعلومات من وجهات نظر متعددة لتكوين صورة موحدة من منظور المركبة المتلقية، يمكن للإدراك المعزز على متنه أن «يرى» ما وراء خط الرؤية المباشر ومن خلال العوائق.
وحتى الآن، اقتصر البحث في مجال المركبة إلى المركبة (V2V) إلى حد كبير على الإدراك التعاوني أو التنبؤ بالحركة، دون دراسات شاملة حول الجمع بينهما. بجانب الكشف عن الأجسام، تتضمن معظم الأعمال مهامًا مساعدة أخرى مثل التنبؤ (wang2020v2vnet) ورسم الخرائط (xu2022v2xvit) كمخرجات داعمة. تقترح wang2020v2vnet طريقة V2V للإدراك والتنبؤ، التي تنقل التمثيلات الوسيطة لميزات سحابة النقاط. ومع ذلك، لا يزال دمج الإدراك والتنبؤ لتحقيق التعاون V2V بشكل كامل غير مُستكشف، كما هو موضح في الشكل [fig:teaser](b). فيما يتعلق بالتنبؤ بالحركة، استخدمت الجهود الأولية (hu2020collaborative, Choi2021prediction, v2voffloading) شبكات LSTM على مجموعات بيانات بسيطة. وتعتمد الدراسات الحديثة (shi2023motion, shi2024mtr++, wang2023eqdrive) على الانتباه والتحويل الرسومي لتعزيز التنبؤ بالحركة. ومع ذلك، تستند هذه النهج إلى بيانات الحقيقة الأرضية متجاهلةً عدم اليقين والدقة المنخفضة المنتشرة من مهام الكشف والتتبع المنبع، ما يؤكد الحاجة إلى بحث يدمج الإدراك والتنبؤ في التعاون V2V.
لسد الفجوة بين الإدراك التعاوني والتنبؤ بالحركة، نقدم إطار عمل جديد للتنبؤ التعاوني بالحركة قائمًا على البيانات الحسية الخام. حسب علمنا، نحن أول من يطور طريقة عملية تحل الإدراك والتنبؤ بشكل مشترك مع اتصالات CAV في كلا المكونين. يتم توضيح إطار عملنا المقترح في الشكل [fig:method]. يستخلص كل CAV تمثيل ميزة منظور الطائر (BEV) الخاص به من سحابة نقاط LiDAR. تتم معالجة هذه البيانات وضغطها وبثها إلى CAVs القريبة الأخرى، حيث يدمج الوكلاء المتلقون ترميز الميزة المنقولة. بعد الحصول على بيانات الإدراك التاريخية، يتنبأ كل CAV بمسارات الأجسام المحيطة استنادًا إلى العمود الفقري لـ MTR (shi2023motion). ثم تُبث التنبؤات مرة أخرى، فيجمع نموذجنا بين تنبؤات الوكلاء المحيطين والميزات الوسيطة من الإدراك لتحسين التنبؤ بالحركة. يسمح هذا الأسلوب بالتعامل مع تأخيرات النقل وقيود النطاق الترددي الواقعية مع تحقيق أداء مُرضٍ.
في هذه الورقة، تتمثل مساهماتنا الرئيسية فيما يلي:
نقترح إطار عمل عملي مقاوم للتأخير للتنبؤ التعاوني بالحركة، يستفيد من المعلومات المشتركة بواسطة CAVs متعددة لتعزيز أداء الإدراك والتنبؤ بالحركة.
نحلل متطلبات النطاق الترددي لمشاركة المعلومات التعاونية ونصمم تمثيلاً خفيفًا للاتصال.
نطور وحدة تجميع التنبؤات المستندة إلى المحولات للاستفادة من التنبؤات المشتركة بواسطة CAVs أخرى، مما يحسن دقة التنبؤ.
يتيح الإدراك التعاوني للمركبات ذاتية القيادة استخدام أنظمة الاتصالات المتقدمة لمشاركة المعلومات وتوسيع مجالات رؤيتها. طورت الأعمال السابقة تقنيات الدمج المبكر للكشف التعاوني عن الأجسام استنادًا إلى بيانات الكاميرا الخام أو الرادار أو RGB (autocast)، إلا أن هذه الاستراتيجية تتطلب نطاقًا تردديًا عاليًا للحفاظ على قياسات الاستشعار كاملة. استراتيجية أخرى، الدمج المتأخر، تسمح بمشاركة نتائج الكشف النهائية فقط والاعتماد على نموذج آخر لدمج الكشوفات (latefusion)، لكن أداء هذه الطريقة في الواقع محدود بفقدان معلومات السياق ودقة الكشف الفردية.
لتحقيق توازن بين هذه المقايضات، أصبحت استراتيجية الدمج المتوسط (coopernaut, wang2020v2vnet, qiao2023adaptive, xu2022cobevt) أكثر شيوعًا. في هذه الاستراتيجية، تستخدم المركبات نماذج التشفير لتحويل معلومات المرور المحيطة والخريطة إلى ميزات وسيطة ثم تشاركها مع المركبات المجاورة. عند الاستلام، تدمج المركبات هذه الميزات مع بياناتها الخاصة لإنتاج نتائج إدراك أفضل. على سبيل المثال، استُخدمت الشبكة العصبية الرسومية في V2VNet (wang2020v2vnet) لتجميع المعلومات من وجهات نظر مختلفة. كما قدمت AttFuse (opv2v) آلية انتباه لدمج الميزات المتوسطة، واقترح qiao2023adaptive نموذج دمج يختار الميزات المتوسطة بشكل تكيفي لتحقيق تكامل أفضل. اعتمدت CoBEVT (xu2022cobevt) وHM-ViT (xiang2023hmvit) على محولات الرؤية لتعزيز معالجة إدخال الكاميرا ودمج الميزات، محققة نتائج واعدة على مجموعة بيانات OPV2V (opv2v).
تُعد تنبؤات الحركة موضوعًا بحثيًا رئيسيًا آخر في القيادة الذاتية. غالبًا ما تركز الأبحاث على بيئات غير تعاونية حيث تتنبأ مركبة واحدة بدون تواصل (li2020evolvegraph, gao2020vectornet, toyungyernsub2022dynamics, li2021spatio, varadarajan2021multipath++, girase2021loki, choi2021shared, sun2022m2i, lange2024scene, shi2023motion, dax2023disentangled, ruan2023learning, li2023game). تتضمن الطرق الحديثة (sun2022m2i, gao2020vectornet, wang2023equivariant) ترميز المسارات التاريخية وخطوط الخرائط إلى متجهات عالية الأبعاد واستخدام الشبكات الرسومية لالتقاط العلاقات، تليها طبقات فك التشفير لإنتاج التنبؤات. أدخلت الأعمال الأحدث هيكل المحولات في نماذجها؛ يستخدم كل من MTR (shi2023motion) وMTR++ (shi2024mtr++) أزواج استعلام الحركة حيث يكون كل زوج مسؤولًا عن تنبؤ وضع حركة واحد، مما يجعله أكثر كفاءة من استراتيجيات الأهداف (gu2021densetnt) ويتقارب بشكل أسرع من استراتيجيات الانحدار المباشر (varadarajan2021multipath++, ngiam2022scene).