التنبؤ بالحركة التعاونية مع التواصل بين الوكلاء المتعددين

Zhuoyuan Wu, Yuping Wang, Hengbo Ma, Zhaowei Li, Hang Qiu, Jiachen Li

latex

مُلخص

أدى التقدم في تقنيات المركبات الذاتية ونضج تواصل المركبة مع كل شيء إلى تعزيز قدرات المركبات المتصلة والمؤتمتة التعاونية. استنادًا إلى الإدراك التعاوني، يستكشف هذا البحث إمكانية وفعالية التنبؤ بالحركة التعاونية. تستخدم طريقتنا، CMP، إشارات LiDAR كمدخلات لتعزيز قدرات التتبع والتنبؤ. على عكس الأعمال السابقة التي ركزت بشكل منفصل إما على الإدراك التعاوني أو التنبؤ بالحركة، فإن إطار عملنا، حسب علمنا، هو الأول الذي يتناول المشكلة الموحدة حيث تتشارك المركبات المتصلة والمؤتمتة التعاونية المعلومات في كل من وحدات الإدراك والتنبؤ. ندمج القدرة الفريدة على التعامل مع قيود النطاق الترددي الواقعية لتواصل المركبة مع كل شيء وتأخيرات النقل، مع معالجة تمثيلات الإدراك الضخمة في تصميمنا. نقترح أيضًا وحدة تجميع التنبؤ، التي توحد التنبؤات التي حصلت عليها المركبات المتصلة والمؤتمتة التعاونية المختلفة وتنتج التنبؤ النهائي. من خلال تجارب مكثفة ودراسات حذف، نوضح فعالية طريقتنا في مهام الإدراك التعاوني والتتبع والتنبؤ بالحركة. على وجه الخصوص، تقلل CMP من خطأ التنبؤ الوسطي بنسبة 17.2% مع عدد أقل من حالات الكشف المفقودة مقارنة بإعداد عدم التعاون. يمثل عملنا خطوة كبيرة إلى الأمام في القدرات التعاونية للمركبات المتصلة والمؤتمتة، مما يظهر تحسنًا في الأداء في السيناريوهات المعقدة.

مقدمة

يعتمد نظام القيادة الذاتية الحالي بشكل حاسم على إدراكه الموجود على متنه. ومع ذلك، مثل السائقين البشر، فإن هذا الاعتماد عرضة للمواقف التي تحتوي على عوائق أو رؤية محدودة. من خلال الاستفادة من نقاط الرؤية المتعددة، يستخدم الإدراك التعاوني (AVR, autocast, wang2020v2vnet, opv2v, xu2022cobevt) اتصالات المركبة بكل شيء (V2X) لمشاركة المعلومات الحسية بين المركبات المتصلة والمؤتمتة (CAVs) والبنية التحتية. تختلف المعلومات المشتركة في الشكل، بما في ذلك البيانات الخام، والميزات المعالجة، أو الكائنات المكتشفة، جنبًا إلى جنب مع البيانات الوصفية ذات الصلة (مثل الطوابع الزمنية والأوضاع). من خلال دمج هذه المعلومات من وجهات نظر متعددة إلى وجهة نظر مركبة المتلقي، يمكن للإدراك الموجود على متنه المعزز الآن "رؤية" ما وراء خط الرؤية المباشر ومن خلال العوائق.

لقد اقتصر البحث الحالي في مجال المركبة إلى المركبة (V2V) إلى حد كبير على الإدراك التعاوني أو التنبؤ بالحركة، دون وجود دراسات شاملة حول تطبيقهما المشترك. بالإضافة إلى كشف الكائنات، تتضمن معظم الأعمال مهامًا أخرى، مثل التنبؤ (wang2020v2vnet) ورسم الخرائط (xu2022v2xvit) كمخرجات مساعدة. يقترح (wang2020v2vnet) طريقة V2V للإدراك والتنبؤ، والتي تنقل التمثيلات الوسيطة لميزات سحابة النقاط. ومع ذلك، لا يزال دمج الإدراك والتنبؤ، كما هو موضح في الشكل [fig:teaser](b)، لتحقيق التعاون V2V بشكل كامل غير مستكشف. فيما يتعلق بالتنبؤ بالحركة، تستخدم الجهود الأولية (hu2020collaborative, Choi2021prediction, v2voffloading) شبكات LSTM على مجموعات بيانات بسيطة. تعتمد الدراسات الحديثة (shi2023motion, shi2024mtr++, wang2023eqdrive) على شبكات الانتباه وشبكات التحويل الرسومية لتعزيز التنبؤ بالحركة. ومع ذلك، تعتمد هذه النهج على بيانات المسار الحقيقية، متجاهلة عدم اليقين وعدم الدقة المنتشرة من مهام الكشف والتتبع المنبع. يظل هذا الاعتماد على بيانات الحقيقة غير كافٍ لمواجهة التحدي الواقعي للتعامل مع المسارات غير المؤكدة، مما يؤكد الحاجة إلى بحث يدمج الإدراك والتنبؤ في التعاون V2V.

لسد الفجوة بين الإدراك التعاوني والتنبؤ بالحركة، نقدم إطار عمل جديد للتنبؤ التعاوني بالحركة استنادًا إلى البيانات الحسية الخام. حسب علمنا، نحن الأوائل الذين نطور طريقة عملية تحل مشكلة الإدراك والتنبؤ بشكل مشترك مع اتصالات CAV في كلا المكونين. يتم توضيح إطار عملنا المقترح في الشكل [fig:method]. يحسب كل CAV تمثيل ميزة الرؤية العلوية (BEV) الخاصة به من سحابة نقاط LiDAR الخاصة به. تتم معالجة البيانات وضغطها وبثها إلى CAVs القريبة الأخرى. يقوم الوكلاء المتلقون بدمج ترميز الميزة المنقولة. بعد الحصول على بيانات الإدراك التاريخية، يمكن التنبؤ بمسارات الكائنات المحيطة من قبل كل CAV استنادًا إلى العمود الفقري لـ MTR (shi2023motion). ثم يتم بث المسارات المتوقعة من كل CAV مرة أخرى. بينما يجمع نموذجنا التنبؤات من CAVs المحيطة، يتم استخدام التنبؤات والميزات الوسيطة من الإدراك لتحسين التنبؤات بالحركة. يسمح أسلوبنا بتأخيرات النقل الواقعية بين CAVs وقيود النطاق الترددي مع تحقيق أداء مرضٍ.

في هذه الورقة، تتمثل مساهماتنا الرئيسية فيما يلي:

الأعمال ذات الصلة

الإدراك التعاوني

يتيح الإدراك التعاوني للمركبات ذاتية القيادة استخدام أنظمة الاتصالات المتقدمة لمشاركة المعلومات لتوسيع مجالات الرؤية لديها. لقد طورت الأعمال السابقة تقنيات الدمج المبكر للكشف التعاوني عن الأجسام استنادًا إلى بيانات الكاميرا الخام أو الرادار الضوئي أو الكاميرا RGB (autocast). ومع ذلك، تتطلب هذه الاستراتيجية نطاقًا عريضًا عاليًا للنقل بسبب الحفاظ على قياسات الاستشعار الكاملة. استراتيجية أخرى، الدمج المتأخر، تسمح للمركبات بمشاركة الكشف النهائي فقط والاعتماد على نموذج آخر لدمج الكشوفات التي تولدها المركبات ذاتية القيادة (latefusion). ومع ذلك، في التطبيقات الواقعية، يقتصر أداء الدمج المتأخر بفقدان معلومات السياق ودقة الكشف الفردية.

لتحقيق التوازن بين هذه المقايضات، أصبحت استراتيجية الدمج المتوسط (coopernaut, wang2020v2vnet, qiao2023adaptive, xu2022cobevt) أكثر شيوعًا. في هذه الاستراتيجية، تستخدم المركبات ذاتية القيادة نماذج التشفير لمعالجة معلومات المرور المحيطة ومعلومات الخريطة إلى ميزات متوسطة، ثم تشارك هذه الميزات مع المركبات المحيطة. عند استلام هذه الميزات، تدمج المركبات ذاتية القيادة هذه الميزات مع معلوماتها الخاصة وتنتج نتائج إدراك أفضل. على سبيل المثال، استُخدمت الشبكة العصبية الرسومية في V2VNet (wang2020v2vnet) لتجميع المعلومات من وجهات نظر مختلفة. نُشرت AttFuse (opv2v) آلية الانتباه لدمج الميزات المتوسطة. اقترح (qiao2023adaptive) نموذج دمج يختار بشكل تكيفي الميزات المتوسطة لتحقيق تكامل أفضل. لقد اعتمدت CoBEVT (xu2022cobevt) و HM-ViT (xiang2023hmvit) بشكل كبير على نماذج محول الرؤية لتعزيز معالجة إدخال الكاميرا وتكامل الميزات وتحقيق نتائج واعدة على مجموعة بيانات OPV2V (opv2v).

تنبؤ الحركة

تُعد تنبؤات الحركة موضوعًا بحثيًا رئيسيًا آخر في القيادة الذاتية. تركز الأبحاث الرئيسية غالبًا على بيئة غير تعاونية حيث تتنبأ مركبة ذاتية واحدة بدون تواصل (li2020evolvegraph, gao2020vectornet, toyungyernsub2022dynamics, li2021spatio, varadarajan2021multipath++, girase2021loki, choi2021shared, sun2022m2i, lange2024scene, shi2023motion, dax2023disentangled, ruan2023learning, li2023game). تقوم الطرق الحديثة (sun2022m2i, gao2020vectornet, wang2023equivariant) بترميز مسارات العوامل التاريخية وخطوط الخرائط إلى متجهات ذات أبعاد عالية واستخدام شبكات العصبونات الرسومية لالتقاط علاقاتها، والتي يتبعها طبقات فك التشفير لإنتاج التنبؤات. أدخلت الأعمال الأحدث هيكل المحولات إلى نماذجها. يستخدم كل من MTR (shi2023motion) و MTR++ (shi2024mtr++) أزواج استعلام الحركة حيث يكون كل زوج مسؤولًا عن تنبؤ وضع حركة واحد، وهو أكثر كفاءة من استراتيجيات الأهداف (gu2021densetnt) ويتقارب بشكل أسرع من استراتيجيات الانحدار المباشر (varadarajan2021multipath++, ngiam2022scene).

صياغة المشكلة

الهدف من مهمة التنبؤ التعاوني هو استنتاج المسارات المستقبلية لجميع العوامل المتحركة في المشهد التي يمكن اكتشافها بواسطة مركبات ذاتية القيادة تعاونية متعددة مزودة بأجهزة استشعار على متنها. في هذا العمل، نستخدم فقط معلومات LiDAR للإدراك (أي، كشف الأجسام وتتبعها) للحصول على مسارات العوامل. نرمز لعدد المركبات ذاتية القيادة بـ \(N_{\text{CAV}}\)، وسحابة نقاط LiDAR للمركبة ذاتية القيادة \(i\) في الوقت \(t\) بـ \(\mathbf{L}^i_{t}, i = 1,...,N_{\text{CAV}}\)، ومعلومات الخريطة المحلية بـ \(\mathbf{M}^i_{t}\). نفترض أن هناك \(N_t\) عوامل مكتشفة في الوقت \(t\)، نرمز لمساراتهم التاريخية بـ \(\mathbf{X}_{t-T_\text{h}+1:t}\) حيث \(T_\text{h}\) يمثل أفق التاريخ. نهدف إلى استنتاج مساراتهم المستقبلية متعددة الأوضاع \(\hat{\mathbf{X}}_{t+1:t+T_\text{f}}\) استنادًا إلى المعلومات المذكورة أعلاه حيث \(T_\text{f}\) يمثل أفق التنبؤ.

الطريقة

نظرة عامة على الطريقة

يتكون إطار العمل لدينا من ثلاثة مكونات رئيسية: الإدراك التعاوني، وتنبؤ المسار، وتجميع التنبؤات. تأخذ وحدة الإدراك التعاوني البيانات الحسية الخام التي تم الحصول عليها من قبل المركبات ذاتية القيادة وتنتج مسارات العوامل المرصودة من خلال كشف الأجسام وتتبع الأجسام المتعددة. ثم، تأخذ وحدة تنبؤ المسار الملاحظات التاريخية وتستنتج المسارات المستقبلية من وجهة نظر كل مركبة ذاتية القيادة. أخيرًا، تستفيد وحدة تجميع التنبؤات من التنبؤات من جميع المركبات ذاتية القيادة وتنتج فرضيات التنبؤ النهائية.

الإدراك التعاوني

تهدف وحدة الإدراك التعاوني إلى اكتشاف وتتبع الأجسام استنادًا إلى سحب نقاط الليدار ثلاثية الأبعاد التي تم الحصول عليها من قبل المركبات ذاتية القيادة المتعددة. لقد قمنا بتعديل (xu2022cobevt) ليكون العمود الفقري لنموذج اكتشاف الأجسام التعاوني يليه متتبع (DBLP:conf/iros/WengWHK20) للحصول على مسارات تاريخية للعوامل.

اكتشاف الأجسام التعاوني. يتم استخدام (Lang_Vora_Caesar_Zhou_Yang_Beijbom_2019) لاستخراج ميزات سحابة النقاط لكل مركبة ذاتية القيادة بدقة فوكسل تبلغ (0.4, 0.4, 4) على طول محاور \(x\), \(y\), و \(z\). قبل التعاون بين الوكلاء، يحسب كل مركبة ذاتية القيادة \(i\) ميزة منظور الطائر (BEV) \(\mathbf{F}^i \in \mathbb{R}^{H \times W \times C}\)، حيث \(H\)، \(W\)، و \(C\) تمثل الارتفاع، العرض، والقنوات على التوالي.

بسبب القيود العتادية في العالم الحقيقي على حجم البيانات المنقولة لتطبيقات السيارة إلى السيارة، من الضروري ضغط ميزات BEV قبل النقل لتجنب التأخيرات الكبيرة الناتجة عن النطاق الترددي. كما في (xu2022cobevt)، يتم استخدام مشفر تلقائي تلافيفي لضغط الميزات وفك ضغطها. عند استلام الرسائل البث التي تحتوي على تمثيلات BEV المتوسطة ووضع المرسل، يتم استخدام مشغل تحويل مكاني قابل للتفاضل \(\mathbf{\Gamma_{\xi}}\) لمحاذاة الميزات مع إحداثيات السيارة الأنانية، والذي يكتب كـ \(\mathbf{H}^i=\mathbf{\Gamma_{\xi}}\left(\mathbf{F}^i\right) \in \mathbb{R}^{H \times W \times C}\). تسمح طريقتنا بتأخير يصل إلى 100 مللي ثانية أثناء نقل الميزات من خلال أخذ الرسائل المرسلة من قبل المركبات ذاتية القيادة الأخرى في الإطار الأخير. نظرًا لأن المستشعرات تتجدد بسرعة أكبر من 10 إطارات في الثانية، سيتم إسقاط الإطارات التي تستغرق أكثر من 100 مللي ثانية للنقل (على سبيل المثال، المعاد إرسالها جزئيًا أو المفقودة)، وسيتم استخدام الإطار الأخير بدلاً من ذلك.

ثم، يتم استخدام (xu2022cobevt) لدمج ميزات BEV التي تم استلامها من وكلاء مختلفين. على وجه التحديد، تجمع السيارة الأنانية أولاً جميع الميزات المتاحة في موتر \(\mathbf{h}\in \mathbb{R}^{N_\text{CAV} \times H\times W\times C}\)، والذي تتم معالجته بعد ذلك بواسطة وحدة (xu2022cobevt) للحصول على الميزة المدمجة \(\mathbf{h'}\in \mathbb{R}^{H\times W\times C}\). وأخيرًا، يتم تطبيق طبقتين تلافيفيتين \(3 \times3\) للتصنيف والانحدار للحصول على صناديق التحديد ثلاثية الأبعاد للأجسام.

ينتج (xu2022cobevt) مجموعة من الكشوف في الوقت \(t\) المشار إليها بـ \(\mathbf{D}_{t}=\{\mathbf{D}^1_t,..., \mathbf{D}_t^{N_t}\}\)، حيث \(N_t\) يمثل العدد الإجمالي للكشوف. يتميز كل كشف \(D_t^j\) بمجموعة \((x, y, z, \theta, l, w, h, s)\)، والتي تحتوي على الإحداثيات ثلاثية الأبعاد لمركز الجسم (\(x\), \(y\), \(z\))، والأبعاد ثلاثية الأبعاد لصندوق التحديد للجسم (\(l\), \(w\), \(h\))، وزاوية التوجيه \(\theta\)، ودرجة الثقة \(s\).

تتبع الأجسام المتعددة. يتم استخدام وحدة التتبع لربط صناديق التحديد ثلاثية الأبعاد للأجسام المكتشفة في تسلسلات المسار. نعتمد (DBLP:conf/iros/WengWHK20)، وهي خوارزمية تتبع متعددة الأجسام عبر الإنترنت، والتي تأخذ في الاعتبار الكشوف في الإطار الحالي والمسارات المرتبطة في الإطارات السابقة. على وجه التحديد، بعد الحصول على صناديق التحديد ثلاثية الأبعاد من وحدة اكتشاف الأجسام التعاونية، نطبق مرشح كالمان ثلاثي الأبعاد للتنبؤ بحالة المسارات المرتبطة من الإطارات السابقة إلى الإطار الحالي. ثم، يتم تبني وحدة ربط البيانات لمطابقة المسارات المتوقعة من مرشح كالمان وصناديق التحديد المكتشفة في الإطار الحالي. يقوم مرشح كالمان ثلاثي الأبعاد بتحديث حالة المسارات المطابقة استنادًا إلى الكشف المطابق. خلال عملية التتبع، تقوم ذاكرة الولادة والموت بإنشاء مسارات للأجسام الجديدة وحذف المسارات للأجسام التي اختفت. يمكن العثور على مزيد من التفاصيل حول هذه العمليات في (DBLP:conf/iros/WengWHK20). تخرج وحدة التتبع المسارات التاريخية لجميع العوامل المكتشفة في الوقت \(t\)، المشار إليها بـ \(\mathbf{X}_{t-T_\text{h}+1:t}\)، والتي تعمل كمدخل لوحدة التنبؤ بالمسار.

تنبؤ الحركة

تم بناء وحدة تنبؤ الحركة لدينا على أساس نموذج (shi2023motion)، وهو نموذج حديث يتألف من مشفر سياق المشهد ومفكك الحركة. نقدم فقط مقدمة عامة، ويمكن العثور على مزيد من التفاصيل حول النموذج في (shi2023motion).

بالنسبة للمركبة الآلية المتصلة \(i\)، يقوم مشفر سياق المشهد باستخراج الميزات من مسارات العوامل \(\mathbf{X}_{t-T_\text{h}+1:t}\) ومعلومات الخريطة المحلية \(\mathbf{M}^i_{t}\). يتم تمثيل مسارات العوامل على شكل متجهات خطية (gao2020vectornet)، والتي تتم معالجتها بواسطة مشفر خطوط شبيه بـ PointNet (qi2017pointnet) لاستخراج ميزات العوامل. يتم تشفير معلومات الخريطة بواسطة محول الرؤية (dosovitskiy2020image) لاستخراج ميزات الخريطة. ثم يتم استخدام مشفر محول لالتقاط سياق المشهد المحلي. تستخدم كل طبقة انتباه متعدد الرؤوس مع استعلامات ومفاتيح وقيم محددة بالنسبة لمخرجات الطبقة السابقة وترميزات الموضع، مدمجة مع تضمينات المسار وتضمينات الخريطة. يتم التنبؤ بحركات العوامل المستقبلية عبر الانحدار بناءً على الميزات الماضية للعوامل المستخرجة. يتم إعادة تشفير هذه التنبؤات بواسطة نفس المشفر الخطي ودمجها مع ميزات السياق التاريخية.

بعد الحصول على ميزات سياق المشهد، يتم استخدام مفكك حركة مبني على المحول لتوليد فرضيات تنبؤ متعددة الأوضاع من خلال التحسين المشترك لتحديد النية العالمية وتحسين الحركة المحلية. على وجه التحديد، يتم توليد \(K\) نقاط نية تمثيلية \(\mathbf{I}\in \mathbb{R}^{K\times 2}\) باعتماد خوارزمية تجميع \(k\)-means على نقاط النهاية لمسارات الحقيقة الأرضية (\(K=64\) في إعداداتنا)، حيث تمثل كل نقطة نية وضع حركة ضمني يمثل اتجاه الحركة. يعزز تحسين الحركة المحلية تحديد النية العالمية من خلال تحسين المسارات بشكل تكراري مع ميزات المسار الدقيقة. يتم تعيين الاستعلام الديناميكي الأول عند نقطة النية، ويتم تحديثه ديناميكيًا بناءً على المسار المتوقع في كل طبقة من طبقات المفكك، باعتباره تضمينًا موضعيًا لنقطة المكان.

في المفكك، تنقل استعلامات النية الثابتة المعلومات عبر نوايا الحركة بينما تجمع استعلامات البحث الديناميكية معلومات محددة للمسار من سياق المشهد. يتم التعبير عن استعلام الحركة المحدث كـ \(\mathbf{C}^j\in \mathbb{R}^{K\times D}\) في الطبقة \(j\) حيث \(D\) هو بعد الميزة. تضيف كل طبقة من طبقات المفكك رأس تنبؤ إلى \(\mathbf{C}^j\) لإنشاء مسارات مستقبلية. نظرًا لطبيعة السلوكيات متعددة الأوضاع للعوامل، يتم اعتماد نموذج خليط الغاوسي لتوزيعات المسار. لكل خطوة زمنية مستقبلية \(t' \in \{t+1,...,t+T_\text{f}\}\)، نستنتج احتمال \(p\) والمعلمات (\(\mu_x, \mu_y, \sigma_x, \sigma_y, \rho\)) لمكونات الغاوسية من خلال \[\label{eq:gau_reg} \mathbf{Z}^j_{t+1:t+T_\text{f}} = \text{MLP}(\mathbf{C}^j),\] حيث \(\mathbf{Z}^j_{t'}\in \mathbb{R}^{{K}\times 6}\) يحتوي على معلمات \(K\) مكونات غاوسية \(\mathcal{N}_{1:\mathcal{K}}(\mu_x, \sigma_x; \mu_y, \sigma_y; \rho)\) والاحتمالات المقابلة \(p_{1:K}\). يتم كتابة توزيع موضع العامل في الوقت \(t'\) كما يلي \[\label{eq:gau_prob} P^j_{t'}(o) = \sum_{k=1}^{K}p_k\cdot\mathcal{N}_k(o_x-\mu_x, \sigma_x;o_y - \mu_y, \sigma_y;\rho),\] حيث يشير \(P^j_{t'}(o)\) إلى احتمال وجود العامل في \(o\in \mathbb{R}^{2}\) في الوقت \(t'\). يمكن استنتاج تنبؤات المسار لجميع العوامل \(\hat{\mathbf{X}}_{t+1:t+T_\text{f}}\) من نقاط المركز لمكونات الغاوسية المقابلة.

تجميع التنبؤات

بالإضافة إلى مشاركة ميزات الرؤية الموسعة بين المركبات المتصلة والمؤتمتة، نقترح أيضًا نقل فرضيات التنبؤ التي تولدها كل مركبة متصلة ومؤتمتة إلى الأخرى. تعتمد كل مركبة متصلة ومؤتمتة آلية تجميع لدمج التنبؤات التي تتلقاها من الآخرين مع تنبؤاتها الخاصة. الفكرة الأساسية هي أن التنبؤات لعامل معين المستمدة من مركبات متصلة ومؤتمتة مختلفة قد تكون لها مستويات موثوقية مختلفة. على سبيل المثال، قد تولد المركبة المتصلة والمؤتمتة الأقرب إلى العامل المتوقع تنبؤات أفضل من الآخرين. وبالتالي، قد تكمل التنبؤات من مركبات متصلة ومؤتمتة مختلفة بعضها البعض، مما يؤدي إلى تنبؤ نهائي أفضل.

على وجه التحديد، في سيناريو يتضمن \(N_\text{CAV}\) مركبات متصلة ومؤتمتة و \(N_o\) عوامل متوقعة، يتم تمثيل مكونات التنبؤ للعامل \(j\) بواسطة المركبة المتصلة والمؤتمتة \(i\) في الوقت \(t\) كما يلي \(\mathbf{Z}_{j, t+1:t+T_f}^i)\). يتم تمثيل الخريطة المحلية وميزات الرؤية الموسعة للمركبة المتصلة والمؤتمتة \(i\) على التوالي بـ \(\mathbf{M}^i_{t}\) و \(\mathbf{H}^i_t\). نقوم بتجميع مكونات النموذج الغاوسي المختلط للمسارات المتوقعة، وميزات الرؤية الموسعة، ومعلومات الخريطة لجميع المركبات المتصلة والمؤتمتة. بالنسبة للمركبة المتصلة والمؤتمتة \(i\)، تبدأ عملية التجميع بدمج نموذجها الغاوسي المختلط، وميزات الخريطة، والرؤية الموسعة: \[\mathbf{E}_{j, t}^i = [\text{MLP}(f(\mathbf{Z}_{j, t+1:t+T_f}^i)), \text{MLP}(f(\mathbf{M}_t^i)), \text{MLP}(f(\mathbf{H}_t^i))],\] عند استلام مكونات النموذج الغاوسي المختلط من المركبات المتصلة والمؤتمتة الأخرى \(k\) (\(1 \leq k \leq N_\text{CAV}, k \neq i\))، يتم دمج نفس ميزات الخريطة والرؤية الموسعة من الأنانية مرة أخرى: \[\mathbf{E}_{j, t-1}^k = [\text{MLP}(f(\mathbf{Z}_{j, t:t+T_f-1}^k)), \text{MLP}(f(\mathbf{M}_t^i)), \text{MLP}(f(\mathbf{H}_t^i))],\] يلي ذلك انتباه ذاتي متعدد الرؤوس لدمج الميزات عبر جميع المركبات المتصلة والمؤتمتة، \[\mathbf{G}^{i}_{j, t} = \text{MHA}([\mathbf{E}_{j, t}^i,..., \mathbf{E}_{j, t-1}^{k}]), 1 \leq k \leq N_\text{CAV}, k \neq i\] حيث \(\text{MHA}\) هو الانتباه الذاتي متعدد الرؤوس، \(f\) هي عملية التسطيح، و \(\mathbf{G}^{i}_{j, t}\) هي الميزة المجمعة للعامل \(j\) من وجهة نظر المركبة المتصلة والمؤتمتة \(i\). يتم تأخير مكونات النموذج الغاوسي المختلط من المركبات المتصلة والمؤتمتة الأخرى بإطار واحد. وأخيرًا، يتم استخدام شبكتين عصبيتين متعددتي الطبقات لاشتقاق المعلمات الغاوسية المجمعة بواسطة \[\mathcal{N}^i_{j, 1:K, t+1:t+T_\text{f}}(\mu_x, \sigma_x; \mu_y, \sigma_y; \rho) = \ \text{MLP}(\mathbf{G}^{i}_{j, t}),\] \[p^j_{j, 1:K,t+1:t+T_f} = \ \text{MLP}(\mathbf{G}^{i}_{j, t}),\] والتي ستستخدم لأخذ عينات من فرضيات التنبؤ النهائية.

وظائف الخسارة

كشف الأجسام التعاوني. نعتمد نفس وظيفة الخسارة كما في (xu2022cobevt). بشكل خاص، يتضمن إطار عملنا طبقتين تلافيفيتين لرأس الكشف ويستخدم خسارة \(L1\) الناعمة لتحديد موقع مربع الحدود \(\mathcal{L}_\text{det\_loc}\) وخسارة التركيز للتصنيف \(\mathcal{L}_\text{det\_cls}\)، كما هو موضح في (Lin_Goyal_Girshick_He_Dollar_2017). وظيفة الخسارة الكاملة هي \[\label{eq:perception_loss} \mathcal{L_{\text{det}}}=(\beta_\text{loc}\mathcal{L}_{\text{det\_loc}}+\beta_\text{cls}\mathcal{L}_{\text{det\_cls}}) / N_p,\] حيث يشير \(N_p\) إلى عدد الحالات الإيجابية، \(\beta_\text{loc}=2.0\)، و\(\beta_\text{cls}=1.0\).

تنبؤ الحركة. يتم تدريب نموذج التنبؤ لدينا بمصطلحين للخسارة. يتم استخدام خسارة الانحدار \(L1\) لتحسين النواتج في المعادلة . نستخدم أيضًا خسارة الاحتمال السلبي المنطقي استنادًا إلى المعادلة  لتعزيز دقة التنبؤ بالمسارات الفعلية. نأخذ المتوسط الموزون لهذين المصطلحين كخسارة إجمالية، والتي تكتب كالتالي \[\label{eq:prediction_loss} \mathcal{L_{\text{pred}}}=\omega_\text{loc}\mathcal{L}_{\text{pred\_loc}}+\omega_\text{cls}\mathcal{L}_{\text{pred\_cls}}.\] اتباعًا لـ(varadarajan2021multipath++)، نطبق تقنية التعيين الصعب للتحسين من خلال اختيار زوج استعلام الحركة الأقرب إلى نقطة نهاية مسار الحقيقة الأرضية (GT) كمكون غاوسي إيجابي، يتم تحديده بواسطة المسافة بين كل نقطة نية ونقطة نهاية GT. يتم تطبيق خسارة الانحدار الغاوسي في كل طبقة مفكك، وتجمع الخسارة الإجمالية خسارة الانحدار المساعد مع خسائر الانحدار الغاوسي بأوزان متساوية.

تجميع التنبؤات. تنتج وحدة تجميع التنبؤات لدينا نواتج بنفس التنسيق كما في وحدة التنبؤ بالحركة، ونطبق نفس وظيفة الخسارة كما في المعادلة .

التجارب

مجموعة البيانات

نستخدم مجموعة بيانات (opv2v) للتحقق من صحة نهجنا. تحتوي هذه المجموعة على 73 سيناريو مروري بمدة تقريبية 25 ثانية مع عدة مركبات ذاتية التحكم. يمكن أن يظهر من اثنتين إلى سبع مركبات ذاتية التحكم بشكل متزامن، وهي مجهزة بمستشعر ليدار وأربع كاميرات من مناظر مختلفة. باتباع (xu2022cobevt)، نستخدم منطقة محيطة بأبعاد \(\SI{100}{m} \times \SI{100}{m}\) بدقة خريطة للتقييم. تحتوي مجموعة البيانات على 6764، 1981، و 2719 إطارًا للتدريب، التحقق، والاختبار، على التوالي.

مقاييس التقييم

الكشف التعاوني عن الأجسام. نستخدم مقاييس التقييم القياسية كما في (opv2v, DBLP:conf/icra/XuCXXLM23)، بما في ذلك الدقة المتوسطة (AP)، والاستدعاء المتوسط (AR)، ومعدل F1 عند عتبات IoU التي تبلغ 0.3، 0.5 و 0.7 على التوالي.

التتبع. نستخدم مقاييس التقييم القياسية كما في (DBLP:conf/iros/WengWHK20)، بما في ذلك دقة تتبع الأجسام المتعددة (MOTA)، الدقة المتوسطة لتتبع الأجسام المتعددة (AMOTA)، الدقة المتوسطة لتتبع الأجسام المتعددة (AMOTP)، الدقة المتوسطة المقيّسة لتتبع الأجسام المتعددة (sAMOTA)، المسارات المتتبعة بشكل أساسي (MT)، والمسارات المفقودة بشكل أساسي (ML).

تنبؤ الحركة. نتنبأ بمسارات العوامل لـ 5.0 ثوانٍ مستقبلية استنادًا إلى 1.0 ثانية من الملاحظات التاريخية. نستخدم مقاييس التقييم القياسية كما في (shi2023motion)، بما في ذلك minADE\(_6\) و minFDE\(_6\).

تفاصيل التنفيذ

كشف الأجسام التعاوني. يفترض نموذج CoBEVT (xu2022cobevt) عدم وجود تأخير في التواصل بين المركبات ذاتية القيادة، وهو ما قد لا يكون واقعيًا بسبب قيود الأجهزة أو الاتصالات اللاسلكية. لمعالجة هذا القيد، يسمح نموذجنا بتأخير يصل إلى 100 مللي ثانية (أي، إطار واحد) في استقبال الرسائل (أي، ميزات BEV) من المركبات الأخرى. بالإضافة إلى ذلك، تم ضغط ميزات BEV لدينا 256 مرة مقارنة بتلك الموجودة في CoBEVT. بدلاً من اختيار مركبة واحدة كمركبة أساسية في سيناريوهات المرور OPV2V الأصلية كما في (xu2022cobevt)، نحن نزيد من عينات البيانات التدريبية من خلال معاملة كل من المركبات في المشهد كمركبة أساسية. نقوم بتدريب نموذجنا باستخدام محسن AdamW (loshchilov2018decoupled) مع جدول معدل التعلم يبدأ من \(1\times 10^{-3}\) وينخفض كل 10 فترات.

التتبع. في إعداداتنا، نحدد \(F_\text{min}=3\) و \(\text{Age}_\text{min}=2\) في وحدة ذاكرة الولادة/الموت. وحدة ربط البيانات تستخدم عتبة \(\text{IoU}_{\text{min}}=0.01\) للمركبات، ويتم تعيين \(\text{Dist}_{\text{max}}\) إلى 10. يمكن العثور على مزيد من التفاصيل في (DBLP:conf/iros/WengWHK20).

تنبؤ الحركة. نستخدم 6 طبقات مشفر لترميز السياق ببعد ميزة مخفية يبلغ 256. يستخدم المفكك 6 طبقات و 64 زوج استعلام حركة، يتم تحديدها بواسطة تجميع \(k\)-means على مجموعة التدريب. نقوم بالتدريب المسبق لنموذج التنبؤ باستخدام محسن AdamW (loshchilov2018decoupled) بمعدل تعلم يبلغ \(1\times 10^{-4}\) وحجم دفعة يبلغ 80 على مدى 30 فترة. يمكن العثور على مزيد من التفاصيل في (shi2023motion).

تجميع التنبؤات. نستخدم ثلاث شبكات MLP لترميز معلمات GMM وميزات الخريطة وميزات BEV على التوالي. ثم يتم استخدام مشفر تحويلي بـ 8 رؤوس و 5 طبقات لتجميع الميزات، يليه شبكتان MLP لفك تشفير النواتج إلى المسار النهائي لـ GMM والدرجات، والتي تتبع نفس التنسيق كمخرجات وحدة التنبؤ. نقوم بتدريب وحدة التجميع بمعدل تعلم يبلغ \(1\times 10^{-4}\) ونقوم بتنقيح وحدة التنبؤ بمعدل تعلم منخفض يبلغ \(1\times 10^{-6}\). معدلات التعلم تتناقص بنفس الطريقة كما في نموذج التنبؤ. نقوم بتدريب النموذج لمدة 30 فترة بحجم دفعة يبلغ 8.

النتائج الكمية والتحليلية

الكشف التعاوني عن الأجسام. [det] في الجدول [tab:opv2vlidar]، نوضح تأثيرات التعاون بين المركبات المتعددة، تأخير الاتصال، ونسبة ضغط ميزات الرؤية العلوية على أداء الكشف عن الأجسام. تظهر المقارنات بين عدم التعاون والإعدادات الأخرى التحسين الذي تحققه اتصالات المركبات المتصلة بالشبكة. لمحاكاة القيود الواقعية، نقدم تأخير اتصال يبلغ \(\SI{100}{ms}\)، وهو أقصر بكثير من أوقات رد الفعل النموذجية للبشر تجاه المؤثرات البصرية، ولكنه واقعي ضمن قدرات الاتصال اللاسلكي الحالية. نلاحظ أن الأداء ينخفض قليلاً عند عتبة IOU تبلغ 0.7 ويظل مماثلاً في الإعدادات الأخرى، والذي يمكن أن يُعزى إلى عدم التزامن الزمني للبيانات المشتركة. بالإضافة إلى ذلك، فإن نسبة الضغط 256 تؤدي فقط إلى تدهور طفيف في أداء النظام لكنها تقلل بشكل كبير من متطلبات النطاق الترددي، مما يظهر الكفاءة في نقل البيانات عند مشاركة ميزات الرؤية العلوية من مركبة متصلة بالشبكة إلى أخرى. استنادًا إلى هذه النتائج، نعتمد نسبة ضغط تبلغ 256x لميزات الرؤية العلوية ونتقبل تأخير اتصال يبلغ \(\SI{100}{ms}\) بين المركبات المتصلة بالشبكة، مما يوازن بين أداء النموذج وقيود الأجهزة (أي النطاق الترددي، التأخير).

التتبع. نعرض تحسين أداء التتبع الذي يمكن تحقيقه بواسطة التعاون بين المركبات المتعددة في الجدول [tab:tracker]. مكّن الاتصال من مركبة إلى مركبة دمج المعلومات عبر المركبات المتصلة بالشبكة المختلفة، مما يزيد بشكل كبير من عدد الكشوف الصحيحة للأجسام ويقلل من حالات الكشف الخاطئ والسلبيات الكاذبة (أي الأجسام المفقودة). التحسن في الكشف عن الأجسام هو سبب رئيسي لتحسين أداء نظام التتبع. علاوة على ذلك، على الرغم من ضغط ميزات الرؤية العلوية بشكل كبير، لا نلاحظ أي تأثير سلبي على أداء التتبع، مما يعني أن التتبع يظل قويًا حتى تحت ضغط الميزات الكبير.

التنبؤ التعاوني بالحركة. نقدم سلسلة من الدراسات الكمية والتحليلية حول التنبؤ التعاوني بالحركة. تظهر النتائج التفصيلية في الجدول [tab:motion_prediction]. إعداد الإدراك التعاوني فقط لا يشمل وحدة تجميع التنبؤات لدينا، والمركبات المتصلة بالشبكة تشارك فقط ميزات الرؤية العلوية المضغوطة في مرحلة الإدراك. يظهر الجدول [tab:motion_prediction] أن الإدراك التعاوني يعزز أداء التنبؤ بفارق كبير ويصبح التحسن أكبر مع زيادة أفق التنبؤ. في 5 ثوانٍ، حقق نموذجنا تقليصًا بنسبة 12.3%/17.2% في minADE\(_6\) مقارنة بإعدادات الإدراك التعاوني فقط وعدم التعاون، على التوالي. السبب هو أن الإدراك التعاوني يحسن دقة الكشف وبالتالي جودة المسارات التاريخية التي تستخدمها وحدة التنبؤ. علاوة على ذلك، تسمح وحدة تجميع التنبؤات للمركبات المتصلة بالشبكة باستغلال التنبؤات من الآخرين لتعويض تنبؤاتهم جماعيًا في المواقف الصعبة والغامضة.

النتائج النوعية

نقدم تصورات لمسارات المركبات المتوقعة في سيناريوهين مختلفين لتوضيح فعالية التنبؤ التعاوني. يظهر السيناريو الأول الذي يشمل مركبتين ذاتيتي التحكم أن التنبؤ التعاوني يقلل بشكل كبير من عدد المركبات غير ذاتية التحكم التي يتم تجاهلها، مما يبرز القدرة المعززة على الاستشعار التي توفرها التعاونات، مما يسمح لكل مركبة ذاتية التحكم بتوسيع نطاق إدراكها واكتشاف المركبات التي قد تُغفل في غير ذلك. يعرض السيناريو الثاني تحسن دقة التنبؤ التعاوني. في هذه الحالة، تتماشى المسارات المتوقعة بواسطة التنبؤ التعاوني بشكل أوثق مع الحقيقة الفعلية بفضل تبادل المعلومات بين المركبات ذاتية التحكم.

الخلاصة

في هذه الورقة، نقدم إطار عمل تنبؤي تعاوني للحركة هو الأول من نوعه والذي يعزز القدرات التعاونية للمركبات المتصلة والآلية، معالجًا الحاجة الحاسمة لاتخاذ قرارات آمنة وموثوقة في البيئات الديناميكية. من خلال دمج الإدراك التعاوني مع التنبؤ بالمسار، تمثل أعمالنا جهدًا رائدًا في مجال المركبات المتصلة والآلية، مما يمكّن المركبات المتصلة والآلية من مشاركة ودمج البيانات من سحب نقاط LiDAR لتحسين كشف الأجسام وتتبعها والتنبؤ بحركتها. على وجه التحديد، تشمل مساهماتنا أنبوب تنبؤ تعاوني مقاوم للتأخير، تحليلًا لعرض النطاق الترددي للاتصالات، وآلية تجميع تعاونية للتنبؤ بالحركة، والتي تعزز أداء المركبات المتصلة والآلية وتضع معيارًا للأبحاث المستقبلية. لا يوفر أنبوبنا نهجًا شاملاً من البداية إلى النهاية بسبب عدم قابلية المتتبع للتفاضل. ستركز الأعمال المستقبلية على تطوير أنبوب قابل للتفاضل بالكامل مع هياكل أكثر تقدمًا لنظام تعاوني سلس. سنقوم أيضًا بالتحقيق في دمج المستشعرات متعددة الوسائط مع المركبات المتصلة والآلية المتباينة لتحسين المرونة.