AccidentBlip2: كشف الحوادث باستخدام Multi-View MotionBlip2

Yihua Shao*, Hongyi Cai*, Wenxin Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Yang Yang\(^{1}, Member, IEEE\), Zhen Lei\(^{3}, Fellow, IEEE\)

مُلَخَّص

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات مميزة في العديد من مجالات التفكير متعدد الوسائط. لذلك، نستفيد من قدرة التفكير لدى هذه النماذج في وصف البيئة وفهم المشهد في بيئات النقل المعقدة. في هذه الورقة، نقترح AccidentBlip2، وهو نموذج لغة كبير متعدد الوسائط يمكنه التنبؤ في الوقت الفعلي بإمكانية وقوع حادث. يتضمن نهجنا استخراج الخصائص بناءً على المشهد الزمني لصور العرض المحيطة ذات الستة اتجاهات والاستدلال الزمني باستخدام إطار العمل الزمني blip عبر محول الرؤية. ثم ندخل الترميز الزمني الناتج في MLLMs للاستدلال وتحديد ما إذا كان سيقع حادث أم لا. ونظرًا لأن AccidentBlip2 لا يعتمد على صور BEV أو LiDAR، يمكن تقليل عدد معلمات الاستدلال وتكلفة استدلال MLLMs بشكل كبير، كما لا يتطلب تكاليف تدريب كبيرة أثناء التدريب. يتفوق AccidentBlip2 على الحلول الحالية في مجموعة بيانات DeepAccident ويمكن أن يوفر أيضًا حلاً مرجعيًا للتنبؤ بحوادث القيادة الذاتية من البداية إلى النهاية. سيتم إصدار الكود على: https://github.com/YihuaJerry/AccidentBlip2.git

مُقَدِّمَة

تعد النماذج اللغوية الكبيرة متعددة الوسائط القادرة على اكتشاف وتحديد وقوع الحوادث بدقة ذات أهمية كبيرة لمجال السلامة في القيادة الذاتية. هناك بعض الأعمال السابقة للأشخاص في كشف سلوك المركبة. عادةً ما يتم قيادة المركبة وفقًا لمحيطها ولقواعد المرور. بالإضافة إلى ذلك، في أنظمة المرور المعقدة، يمكن للمركبات التوقف أو تغيير المسارات أو حتى الرجوع للخلف. لذلك نحن نأخذ في الاعتبار كل هذه الظواهر في محيط المركبة. وعلى الرغم من أن هذه الظواهر جميعها مشمولة في سياق استشعار بيئة المركبة، إلا أن التعقيد الكامن في نظام المرور يؤدي إلى صعوبات في نمذجة استشعار الطريق. ولهذا غالبًا ما تؤدي طرق الإدراك العصبي التقليدية إلى أحكام سلبية.

ومع ذلك، فإن الطرق المخصصة لكشف حالات الحوادث البصرية البحتة للمشاهد المعقدة لا تزال ناقصة. لكن قدرة النماذج اللغوية الكبيرة متعددة الوسائط على فهم المشاهد المعقدة تجعلها تبرز في البيئات المعقدة لمهام القيادة الذاتية. الأعمال التمثيلية الحالية تستخدم عادة نماذج بايغرام متعددة الوسائط لكشف المركبات والأشخاص وما إلى ذلك في البيئة، مما يعزز الاعتمادية في القيادة الذاتية. ومع ذلك، في سيناريوهات المرور المعقدة، تحدث الحوادث بشكل متكرر، لذا يمكن للنموذج اللغوي الكبير متعدد الوسائط داخل المركبة استخدام قدرته على فهم السيناريو لتحديد معلومات الحوادث المحيطة بالمركبة ذاتية القيادة ومساعدة مدير المرور على معرفة ما إذا كان هناك أي خطر أو تصادم في البيئة المحيطة.

في هذه الورقة، نقترح (AccidentBlip2)، نموذجًا لغويًا كبيرًا متعدد الوسائط للحكم على الحوادث في سيناريوهات السلاسل الزمنية. نهدف إلى تعزيز التطبيق العملي للنماذج الكبيرة متعددة الوسائط في سيناريوهات المرور المعقدة. باستخدام النماذج الكبيرة متعددة الوسائط، قمنا بتنفيذ إطار عمل لتجميع صور الكاميرا ذات الستة اتجاهات في إدخال مؤقت متعدد الوسائط مع محولات الرؤية. بعد ذلك، يمكن استخدام الرموز الزمنية التي يولدها محول الرؤية لتدريب المحول الزمني. في التطبيق العملي، يتم نقل رمز الصور الزمني من المحول الزمني إلى مشفر الرؤية للنماذج اللغوية الكبيرة متعددة الوسائط، حيث يتم استخدام قوة التفكير للنماذج اللغوية الكبيرة متعددة الوسائط للتنبؤ وتحديد ما إذا كان قد وقع حادث. يمكن للنماذج اللغوية الكبيرة متعددة الوسائط أيضًا التفاعل مع السائق من خلال اللغة لاستشعار البيئة على الطريق بدقة أكبر واكتشاف أي مخاطر في الطريق.

بالإضافة إلى تحليل إدراك المشهد المحيط لمركبة واحدة، قمنا أيضًا بتطوير نظام إدراك تعاوني لعدة مركبات من البداية إلى النهاية لتعويض بعض النقاط العمياء والنواقص في إدراك المركبة الواحدة. لقد مددنا تجارب البيئة للمركبة الواحدة إلى سيناريوهات القيادة من البداية إلى النهاية، واختبرنا دقة الحكم على الحوادث والإدراك بالإضافة إلى الترابط بين الذات والمركبات المتعددة، على التوالي. بشكل عام، إليكم مساهماتنا الرئيسية:

الأعمال ذات الصلة

نموذج اللغة الكبير متعدد الوسائط

مع ظهور GPT4، بدأ عدد كبير من نماذج اللغة الكبيرة في استكشاف القدرات متعددة الوسائط. تُستخدم هذه النماذج لمعلومات متعددة الوسائط لتحسين نموذج اللغة وتعزيز قدرة النماذج الكبيرة على الاندماج والفهم في وسائط مختلفة. من بينها، تقود النماذج الكبيرة متعددة الوسائط البصرية-اللفظية، بقيادة GPT-4V وLlava-v1.5، إلى تطوير نماذج لغوية كبيرة متعددة الوسائط تنطبق على سيناريوهات مختلفة. بالإضافة إلى ذلك، تم تحسين نماذج مثل owlViT وQwen-VL، وهي نماذج لغوية كبيرة متعددة الوسائط لكشف الأهداف، لمشاهد محددة من خلال الجمع بين مجموعات بيانات محددة، مما يتيح لها إنجاز مهام بصرية محددة بأوامر موجهة من المستخدم. بالنسبة للمعلومات متعددة الوسائط الزمنية، قدم الباحثون أيضًا Video-Llava وVideo-Llava، والتي تدمج قدرات معالجة الصور والفيديوهات الزمنية في نموذج لغوي كبير. هناك أيضًا باحثون يعملون حاليًا على تحسين البيانات من وسائط الصوت لنماذج اللغة الكبيرة، مثل Qwen-Audio، مما يسهل تطوير نماذج لغوية كبيرة لوسائط الصوت. هذه الاندماجات المتقاطعة للوسائط في نماذج اللغة الكبيرة، التي تسهلها نماذج اللغة الكبيرة في سيناريوهات مختلفة، توفر حلولاً عالية الجودة لمهام متنوعة في العالم المفتوح.

نماذج اللغة الكبيرة للقيادة الآلية

مؤخرًا، مع التطور السريع لنماذج القيادة الذاتية، بدأت نماذج اللغة الكبيرة تظهر تدريجيًا في مجال القيادة الذكية والتليماتيكس. شهد عام 2023 ظهور uniad، الذي يطبق نماذج اللغة الكبيرة بشكل كامل في مجال القيادة الذاتية لأول مرة، حيث يدمج uniad الشخصيات الثلاث المهمة للقيادة الذاتية: الإدراك، واتخاذ القرار، والتخطيط في هندسة شبكية موحدة، مما يقلل بشكل فعال من فقدان المعلومات بين الوحدات المستقلة المختلفة. كما طور الباحثون نموذج لغة كبير متعدد الوسائط يمكنه التركيز على نية السائق يسمى CAVG. يتكون CAVG من خمسة مشفرات متخصصة: مشفر نصي، مشفر عاطفي، مشفر بصري، مشفر سياقي، ومشفر عبر الوسائط. تسمح هذه المشفرات، بالاشتراك مع مفككاتها المقابلة، لنموذج اللغة الكبير بالتعامل مع وسائط مختلفة من مهام القيادة الذاتية. في مهمة الإدراك، يستخدم DRIVEGPT4 YOLOv8 لكشف الأهداف الشائعة مثل السيارات في كل إطار من الفيديو وترسل الإحداثيات الحدودية الناتجة إلى ChatGPT كمعلومات لغوية. ومع ذلك، بما أن DriveGPT4 يقوم فقط بمهام الوعي بالبيئة لمركبة واحدة، فلا يمكن نشره عمليًا لمهام من طرف إلى طرف مع ربط متعدد المركبات.

حكم الحوادث

يعد حكم الحوادث المرورية من أكثر المجالات بحثًا في مجال سلامة القيادة الذاتية، حيث قام العديد من الباحثين بأعمال كثيرة في هذا المجال. استنادًا إلى الطرق التقليدية للكشف، استخدم الباحثون الرؤية الأمامية للمركبة بالتزامن مع شبكة عصبية للتنبؤ الزمني، مثل شبكة الذاكرة طويلة الأمد أو الشبكة العصبية المتكررة، لتحذير السائقين من وقوع حادث (c10). ومع ذلك، فإن هذه الطريقة لا تستطيع إلا أن تستشعر حالة المركبة المحيطة بالدراجة، ولا تستطيع الإحساس بالخطر في بيئة المرور المعقدة. تقل احتمالية التنبؤ الصحيح بالحوادث إذا ما واجهت أحوال جوية معقدة. مع التطور السريع لنماذج اللغة الكبيرة، كان هناك باحثون يستخدمون نماذج اللغة الكبيرة في إدراك الحوادث، مثل نموذج الحوادث العملاق. ومع ذلك، نظرًا لأن مجموعة البيانات الخاصة به مسترجعة مباشرة من خلال نماذج اللغة الكبيرة، فإنه لا يستطيع التفكير في إدراك البيئات الجديدة كليًا في الحالات المعقدة.

المنهجية

Blip2 غير قادر على معالجة مدخلات الصور ذات 6 اتجاهات بشكل مباشر، ولا يمكنه استخدام استدلال الصور ذات 6 اتجاهات الزمنية بشكل مباشر. في هذا القسم، نستخدم مجموعة بيانات المحاكاة وتحويل الرؤية من محاكي (c11) لتعزيز قدرة Blip2 على معالجة الصور الزمنية ذات 6 اتجاهات. وبالتالي، نأمل أن يكون Blip2 المدرب قادرًا على التفكير في الصور الزمنية ذات 6 اتجاهات التي يمكن استخدامها للاستدلال. من الجدير بالذكر أن إطار عملنا يمكن توسيعه ليشمل سيناريوهات محاكاة القيادة الذاتية من طرف إلى طرف لعدة مركبات.

مدخلات متعددة الاتجاهات والاستدلال الزمني

نقدم إطارًا إدراكيًا يستفيد من نماذج اللغة الكبيرة متعددة الوسائط، ويتألف من مكونين رئيسيين: معالجة الصور متعددة الاتجاهات والاستدلال الزمني. في مرحلة معالجة الاتجاهات المتعددة، نستخدم ViT-14g للتعامل مع الاتجاهات المتعددة واستخراج الميزات الصورية ذات الصلة. تلتقط هذه الميزات معلومات بصرية مهمة من وجهات نظر مختلفة. في مرحلة الاستدلال الزمني، نستخدم الاستعلامات كحاملات للمعلومات الزمنية للنقل الأمامي. تحتوي هذه الاستعلامات على إشارات سياقية وزمنية تسهل الفهم والاستدلال عبر الزمن. من خلال دمج هاتين المرحلتين، يمكن لإطارنا الإدراك والاستدلال الشامل بطريقة متعددة الوسائط.

يستخدم مشفرنا البصري ViT-14g من EVA-CLIP(c13). يقرأ محول الرؤية أولاً الصور متعددة الاتجاهات التي توفرها الكاميرا ويستخرج الميزات بشكل منفصل بعد تغيير حجم كل صورة. نستخدم محول الرؤية المدرب مسبقًا كعمود فقري لاستخراج الميزات \(f_t\) للاتجاهات المتعددة لإطارات \(t\)، وندخل ميزات كل إطار متعدد الاتجاهات في الطبقة الخطية لـ Qformer للقيام بالاستدلال. قبل إدخال ميزات الاتجاهات المتعددة لإطار \(t\) في Qformer، سيقوم محول الرؤية أولاً بنشر ميزات كل صورة في بعد واحد، ثم يجمع ميزات الصور الست، ويدخل الميزات المجمعة \(f_t\) في انتباه متقاطع لـ Qformer. في الوقت نفسه، يتم إدخال الاستعلام القابل للتعلم \(Q_t\) في طبقة الانتباه الذاتي لـ Qformer فقط، ويتم إخراج الاستعلام الجديد من خلال طبقة التغذية الأمامية.

اعتمادًا على نوع البيانات في القيادة الذاتية، نحتاج إلى اقتراح إطار يمكنه التعامل مع الصور الزمنية. نقترح الانتباه الذاتي الزمني، الذي يدخل معلومات الصور متعددة الاتجاهات لكل إطار من خلال الاستعلام الزمني \(Q_n\)، يدخل \(Q_n\) في Qformer المقابل، ويحصل على الاستعلام \(Q_{n+1}\) المقابل لإدخال الإطار التالي. باستخدام مزايا آلية الانتباه في Qformer، يتفاعل مع الميزات المستخرجة من آخر إخراج لـ Qformer، كما هو موضح في [fig:pic2]. تظهر ميزات الاتجاهات المتعددة لكل إطار \(f_t\) في الانتباه مع الاستعلام الزمني \(Q_n\)، كما هو مكتوب في [eq1], \[Attn(Q_{n-1}, K_{Car}, V_{Car} )=Softmax(\frac{Q_{n}\cdot K_{Car}^{T}}{\sqrt{d_{k} } } ) V \label{eq1}\]

حيث \(Q_{n-1} \in \mathbb{R} ^ {N_Q \times D}\) يشير إلى ميزة الاستعلام من الطابع الزمني الأخير، والتي تؤدي إلى توليد إخراج الحالة الحالية \(Q_n\). بعد ذلك، من أجل تقديم وجهة النظر الصورية الحالية، يجمع الحالة الحالية \(Q_n\) ميزات الصورة من ViT-g، المشار إليها بـ \(f_t\). يمكن وصف آلية الانتباه المتقاطع كما يلي

\[Q=Q_nW^Q \hspace{1em} K=V=f_tW^K\]

\[CrossAttn(Q_n, f_t) = Softmax\left ( \frac {QK^T}{\sqrt {d_2}}\right ) V\]

الاستشعار المتكامل من طرف إلى طرف لعدة مركبات

لضمان إدراك موثوق لبيئة المركبة، قد لا يكون الاعتماد فقط على مركبة واحدة كافيًا بسبب وجود مناطق عمياء في الإدراك البصري. لمواجهة هذا التحدي، قمنا بتنفيذ نظام إدراك يعتمد فقط على الرؤية للتفاعل بين عدة مركبات. في أنظمة المرور المعقدة، تم تصميم الشبكة العصبية الخاصة بمركبتنا ليس فقط لتقييم الحوادث المحتملة التي تشمل المركبة الذاتية ولكن أيضًا لتقييم مخاطر الحوادث التي تشمل مركبات أخرى. وقد تم تحقيق ذلك من خلال طريقة التدريب المشترك لعدة مركبات. ونتيجة لذلك، نجحنا في تدريب وكيل واعٍ بالحوادث لعدة مركبات باستخدام بيانات من مجموعة بيانات DeepAccident.

في نظامنا لعدة مركبات، نستخدم نموذج ViT-14g المدرب مسبقًا على كل مركبة، المشار إليها بـ \(Car_n\)، لاستخراج الميزات \(f\) من صور العرض المتعدد للإطار الحالي للمركبة الذاتية. ثم يتم إدخال هذه الميزات في وحدة MotionBlip2 المصممة خصيصًا. بالإضافة إلى ذلك، بالنسبة للاستعلامات التي تم إنشاؤها بواسطة AccidentBlip2، نقوم بدمجها مع استعلامات المركبات المتعددة وإدخالها في Motion Qformer في الخطوة الزمنية التالية. أخيرًا، نحول هذا الاستعلام عالي الأبعاد إلى موتر أحادي البعد لاستخدامه كمدخلات للشبكة العصبية متعددة الطبقات (Multi-Layer Perceptron)، كما هو موضح في المعادلة [eq4]. \[\mathbf{X_i} = \text{MLP}(\text{concat}(Q_1, Q_2, Q_3, Q_4, ... \text{dim}=0)) \label{eq4}\]

ندخل الرمز الناتج من الشبكة العصبية متعددة الطبقات في الإطار \(i\) إلى التضمين، ويخضع الرمز المضمن \(X_i\) للانحدار الذاتي، ومن خلاله نحدد ما إذا كان هناك حادث بين أنظمة المركبات المتعددة. كل استعلام \(Q_n\) يشير إلى وجهة نظر واحدة من مركبة واحدة \(Car_n\) في نظام المركبات المتعددة، متصلة ببعضها البعض، مما يؤدي إلى تجميع 24 وجهة نظر لتنسيق الميزات.

التجربة

في هذا القسم، نقوم بتقييم نظامنا على مجموعة بيانات المحاكاة DeepAccident. نختبره بشكل منفصل لإدراك المركبة الفردية مقابل إدراك المركبات المتعددة. بشكل أكثر تحديدًا، سنركز على شرح النقاط التالية:

بيانات التدريب

للتدريب والتقييم، اعتمدنا مجموعة بيانات مفتوحة المصدر (c2)، مستفيدين من معلوماتها البصرية الكاملة عن المركبات والبنى التحتية. في مجموعة بيانات (c2)، تتكون من مجموعات من السيناريوهات التي تحاكي تلك الاصطدامات المحتملة في العالم الحقيقي، مرفقة بأربع مركبات، بنية تحتية واحدة وتوضيحات سحابة نقاط الرؤية العلوية. ومع ذلك، على عكس تلك التقنيات متعددة الوسائط، يعتمد (AccidentBlip2) على أساليب حصرية للرؤية، وبالتالي يشمل فقط الصور البصرية المأخوذة من الأجسام.

كما اقترحته (c2)، تتكون من 12 نوعًا من سيناريوهات الحوادث التي تحدث عند التقاطعات المنظمة وغير المنظمة. تحتوي مجموعة البيانات على 57 ألف إطار موضح V2X، مقسمة بنسبة 0.7، 0.15 و 0.15 لمجموعات التدريب، التحقق والاختبار على التوالي. يمكن أن يتم تدريبنا على جهاز بأربع وحدات معالجة رسومات من نوع A6000، والذي يتطلب أقل من 24 ساعة للنتيجة.

المعايير الأساسية

المعيار الأساسي لدينا هو نموذج اللغة الكبير للفيديو الشائع (نموذج اللغة الكبير للفيديو). يُرى استخدام نموذج اللغة الكبير للفيديو غالبًا عند التعامل مع مهام الفيديو. نقوم أيضًا بمقارنته مع نموذج اللغة الكبير للفيديو-فيكونا، وهو نسخة محسنة من نموذج اللغة الكبير للفيديو. بالإضافة إلى عائلة نموذج اللغة الكبير للفيديو من نماذج اللغة الكبيرة للفيديو، استخدمنا أيضًا نموذج اللغة الكبير للفيديو-لافا، ونموذج الاستدلال الكبير للغة الفيديو للمحاذاة قبل الإسقاط، كمقارنة. النماذج الكبيرة للغة الفيديو المحسنة بصريًا مثل لافا وGPT-4V لا تتسع بسهولة لمدخلات البيانات الزمنية، وليست أفضل من نموذج اللغة الكبير للفيديو، لذا لم يتم تضمينها في المقارنة.

تفاصيل التنفيذ

يتكون نموذجنا المقترح من مشفر بصري ViT-14g، ويستخدم Motion Qformer لاستخراج ودمج الميزات من النصوص والصور. مع مراعاة التجربة المثلى للتنبؤ بالحوادث، نقوم بتدريب نموذج AccidentBlip2 بحجم صورة \(224 \times 224\).

في إعداداتنا، يتم تجميد معلمات نموذجنا للنموذج البصري ViT-14g ونموذج اللغة OPT-2.7B(c14)، والتي تم تهيئتها بأوزان مدربة مسبقًا، مماثلة لـ Blip-2(c21). يهدف Motion Qformer، بما أنه يتعاون مع ميزات Qformer، إلى دمج عدة وجهات نظر مع المركبات الجماعية معًا، يتم تحميله وتدريبه مع المهام التي تدعم كل من التنبؤ ومخرجات نموذج اللغة. يتم تمرير مدخلات الصورة من خلال طبقة ViT إلى Motion Qformer من أجل التقاط الميزات الديناميكية الزمنية داخل إطارات مختلفة.

أثناء التدريب، اخترنا تسخين معدل التعلم للفترات الثلاث الأولى، بالاقتران مع محسن Adam[1] بـ \(\beta_1\) = 0.9 و\(\beta_2\) = 0.999. تم تدريب نموذج AccidentBlip2 لمدة 8 فترات، باستخدام تحليل معدل التعلم الجيبي كمجدول لمعدل التعلم حتى \(1e-5\). فترة التدريب هي 6 وحجم الدفعة هو 8، تختلف من مهمة إلى أخرى وتشمل أعدادًا مختلفة من المركبات. من حيث السيناريوهات المتعددة، مع أخذ عينات من الطابع الزمني 0 إلى T(الطابع الزمني النهائي)، شكل المدخلات هو \(X_S \in \mathbb{R} ^ {T \times N_V \times V_C \times C \times H \times W}\)، حيث \(T\) يدل على طول الزمن، \(N_V\) يمثل عدد المركبات، \(V_C\) يدل على 6 وجهات نظر منفصلة للمركبة، تشمل الكاميرات الأمامية، الأمامية اليسرى، الأمامية اليمنى، الخلفية، الخلفية اليسرى والخلفية اليمنى، و\(H\) و\(W\) ترمزان لحجم صورة الإدخال. يتفاعل Motion Qformer بشكل تكراري مع مخرجات الاستعلام \(Q_{T-1} \in \mathbb{R} ^ {N_V \times N_Q \times D}\)، التي تنبثق من وجهات النظر في الطابع الزمني الأخير. يأخذ ويخرج الميزات متعددة الاتجاهات الزمنية بشكل متكرر حتى يصل إلى نهايته، ثم تكون وحدة LLM مسؤولة عن جمع مخرج الاستعلام النهائي \(Q_T\) كمجمع تضمين صورة شاملة. يتم حساب خسارة التدريب \(Loss(p_t)\)، الموضحة في المعادلة التالية [eq2]، بناءً على Focal Loss، حيث \(p_t\) يدل على احتمال الفئة الصحيحة، \(\alpha\) يستخدم لموازنة أوزان العينات الإيجابية والسلبية و\(\gamma\) يتحكم في معدل العينات المكتشفة.

نظرًا للتخفيف من فئات الخلل حيث يتنبأ نموذجنا بالحوادث، يتم ضبط \(\alpha\) على 0.25، بينما تظل \(\gamma\) عند قيمتها الافتراضية 2.0، مما يساعد على تدريب النموذج للتركيز بشكل أكبر على العينات المصنفة بشكل خاطئ.

التقييم

يقدم الجدول [Table 1] نتائج أداء مدخلات تكوينات مختلفة لنموذجنا. من خلال تصميم نماذج تكوين مختلفة لإظهار أداء النموذج، قمنا بتقييم AccidentBlip2 في سيناريو سيارة واحدة، وسيناريو عدة سيارات، بما في ذلك السيارة الذاتية، والسيارات الأخرى والسيارات خلفها، بالإضافة إلى سيناريو الرؤية الكاملة من خلال إدخال رؤية البنية التحتية. وبفضل الاستفادة من ستة مستشعرات كاميرا مثبتة عبر أربع سيارات، يلتقط نموذج Motion Qformer بفعالية الميزات الزمنية لعدة سيارات.

هذا يؤدي إلى تحسين الدقة بنسبة 2% مقارنة بسيناريو السيارة الواحدة. علاوة على ذلك، يمكن ملاحظة زيادة واضحة بنسبة 6.6% مع وجود عدة وجهات نظر، مما يظهر أن النموذج يأخذ بعين الاعتبار نظرة عامة على الحوادث بفعالية.

يتفوق نموذجنا المقترح على النماذج الأساسية في كل من تكوينات السيارة الواحدة والسيارات المتعددة. مقارنة بنماذج اللغة الكبيرة للفيديو هذه، المعروضة في الجدول [Table 2]، يحقق AccidentBlip2 نسبة 66.5% بمدخلات سيارة واحدة فقط. بالمقارنة مع V2XFormer، المقترح مع ثلاثة إعدادات اندماج وكيل V2X مختلفة، يمكن ملاحظة زيادة كبيرة في نموذجنا، بتحسين حوالي 3% في الدقة.

تم تصميم نهجنا لمعالجة تحدي تحولات التدرج أثناء التدريب، والتي يمكن أن تؤدي إلى انفجار التدرج في العصور الأولى. للتخفيف من هذه المشكلة، نستخدم جدولًا زمنيًا للتسخين يقوم بتعديلات طفيفة على معدل التعلم ضمن نطاق ضئيل. هذا يساعد على استقرار عملية التدريب. يعمل نموذجنا متعدد السيارات على أربع وحدات معالجة رسومات منفصلة، مما يتيح لنا جمع نتائج الاستعلام من كل Motion Qformer. بالإضافة إلى ذلك، أجرينا تجارب لاستكشاف تأثير الوزن الأولي لـ Qformer، مقارنة بالأوزان المدربة مسبقًا من Blip2 مع التهيئة الافتراضية. كشفت النتائج عن انخفاض في الأداء العام لنموذج اللغة الخاص بنا عند تقييمه على مجموعة بيانات DeepAccident. للتغلب على ذلك، نستخدم الأوزان المدربة مسبقًا من Blip2 لتهيئة AccidentBlip2، مما يحسن فعالية النموذج في مهام كشف الحوادث.

الاستنتاجات

في هذه الورقة البحثية، نقترح إطار عمل لكشف الحوادث يعتمد على نموذج Motion Qformer ويسمى AccidentBlip2، والذي يعتمد فقط على مدخلات الرؤية لتحليل معلومات الطريق. يقدم هذا الإطار آلية الانتباه الزمني في Blip2 من خلال استبدال آليات الانتباه الذاتي. يستخدم الاستعلامات كحاملات للميزات الزمنية، مشفرًا المعلومات من كل إطار في الانتباه الزمني للإطار التالي. يتيح ذلك الاستدلال التلقائي باستخدام MLP لتحديد ما إذا كان قد وقع حادث ولتقديم وصف للبيئة المحيطة.

عند مقارنة دقة كشف الحوادث مع نماذج اللغة الكبيرة الأخرى المعتمدة على الفيديو، يبرز AccidentBlip2 بدقة مثيرة للإعجاب بلغت 66.5%، متجاوزًا أداء جميع النماذج الأساسية. يسلط ذلك الضوء على فعالية إطار عملنا في أنظمة النقل متعددة المركبات المعقدة. على وجه التحديد، يحقق نظامنا المكون من أربع مركبات دقة بلغت 72.2% في كشف الحوادث البيئية، مما يشير إلى تحسن كبير مقارنة بدقة كشف حوادث المركبة الواحدة. علاوة على ذلك، يظهر AccidentBlip2 مزايا واضحة في التحقق من الحوادث مقارنة بنماذج اللغة الكبيرة الأخرى المعتمدة فقط على الفيديو المستخدمة في أنظمة المركبات المتعددة. تؤكد هذه النتائج فعالية نهجنا وإمكاناته لتعزيز قدرات كشف الحوادث في سيناريوهات المرور المعقدة.