مُلَخَّص

أظهرت النماذج اللغويّة الكبيرة مُتعدِّدة الوسائط (MLLMs) قدراتٍ مميّزة في العديد من مهام الفهم مُتعدِّد الوسائط. لذلك، نستفيد هنا من قدرة هذه النماذج على توصيف البيئة وفهم المشاهد في بيئات النقل المعقّدة. في هذه الورقة، نقترح AccidentBlip2، نموذجًا لغويًّا كبيرًا مُتعدِّد الوسائط قادرًا على التنبّؤ في الوقت الحقيقي باحتماليّة وقوع حادث. يتضمّن نهجُنا استخراج السمات اعتمادًا على التسلسل الزمني لصور الإحاطة المكوّنة من ستّة اتجاهات، ثم إجراء الاستدلال الزمني باستخدام إطار BLIP‑2 عبر مُحوِّل الرؤية. بعد ذلك، نُدخِل التمثيل الزمني الناتج إلى نماذج اللغة الكبيرة مُتعدِّدة الوسائط للاستدلال وتحديد ما إذا كان من المحتمل وقوع حادث. ونظرًا لأن AccidentBlip2 لا يعتمد على صور BEV أو بيانات LiDAR، فإن عدد المعلمات اللازمة للاستدلال وتكلفة المعالجة ينخفضان بشكلٍ كبير، كما لا يتطلّب موارد تدريب عالية. يتفوّق AccidentBlip2 على الحلول الحاليّة في مجموعة بيانات DeepAccident، ويمكن أن يشكّل أيضًا معيارًا مرجعيًّا للتنبّؤ بحوادث القيادة الذاتيّة من الطرف إلى الطرف. سيُصدر الكود على: https://github.com/YihuaJerry/AccidentBlip2.git

مُقَدِّمَة

تُعدّ النماذجُ اللغويّة الكبيرة مُتعدِّدة الوسائط القادرة على اكتشاف الحوادث وتحديدها بدقّة ذات أهميّة بالغة لمجال السلامة في القيادة الذاتيّة. أجرى عددٌ من الباحثين أعمالًا سابقة في كشف سلوك المركبات. عادةً ما تتصرّف المركبات وفقًا للمحيط المروري وقواعد المرور، حيث قد تتوقّف أو تُغيِّر مساراتها أو حتى تتراجع إلى الخلف في أنظمة المرور المعقّدة. نأخذ هذه الظواهر جميعًا بعين الاعتبار عند نمذجة إدراك بيئة المركبة. ومع ذلك، فإن التعقيد الشديد لنظام المرور يُفضي إلى صعوبات في نمذجة الإدراك، ما يجعل طرق الإدراك التقليديّة تعتمد في كثيرٍ من الأحيان على استنتاجات خاطئة.

مع ذلك، ما تزال الطرائق القائمة على الرؤية فقط لكشف الحوادث في المشاهد المعقّدة محدودة. تتفوّق النماذج اللغويّة الكبيرة مُتعدِّدة الوسائط في فهم المشاهد المعقّدة، ما يجعلها ملائمة تمامًا لمهام القيادة الذاتيّة في البيئات المعقّدة. تعتمد الأعمال الحاليّة عادةً على نماذج مُتعدِّدة الوسائط لكشف المركبات والمشاة وغيرها في البيئة، ممّا يُعزّز الاعتماديّة في القيادة الذاتيّة. غير أنّه في سيناريوهات المرور المعقّدة، تحدث الحوادث بشكلٍ متكرّر؛ لذا يمكن لوكيل MLLM المثبّت داخل المركبة أن يستخدم قدرته على فهم السياق لتحديد معلومات الحوادث المحيطة وتقديم تنبيهات مبكّرة لتعزيز السلامة.

في هذه الورقة، نقترح AccidentBlip2، نموذجًا لغويًّا كبيرًا مُتعدِّد الوسائط مُخصّصًا للاستدلال على الحوادث في سياق السلاسل الزمنيّة. نهدف من خلاله إلى تعزيز التطبيق العملي لهذه النماذج في بيئات المرور المعقّدة. باعتمادنا على MLLMs، أنشأنا إطارًا لتجميع مدخلات صور الكاميرا ذات الاتّجاهات الستّة ضمن إدخال زمني مُتعدِّد الوسائط، ثم يستخرج مُحوِّل الرؤية الرموزَ الزمنيّة الخاصّة بكل إطار. تُنقَل هذه الرموز بعد ذلك إلى مُشفِّر الرؤية المدمج ضمن MLLM، حيث تُستثمر قدرات التفكير مُتعدِّد الوسائط للتنبّؤ بما إذا كان قد وقع حادث. كما يمكن للنموذج التفاعلُ مع السائق عبر واجهة لغويّة لاستشعار بيئة الطريق بشكلٍ أدقّ وتنبيه السائق لأيّ مخاطر محتملة.

إلى جانب تحليل المشهد المحيط لمركبةٍ واحدة، طوّرنا نظامًا تعاونيًّا لإدراك بيئة عدّة مركبات من الطرف إلى الطرف، لتعويض النقاط العمياء والنواقص في إدراك المركبة الوحيدة. مدّدنا اختبارات بيئة المركبة الواحدة إلى سيناريوهات القيادة الشاملة من الطرف إلى الطرف، وقسنا دقّة التنبّؤ بالحوادث وقدرة النظام على الربط بين الذات ومركباتٍ متعدّدة. عمومًا، تبرز مساهماتُنا الرئيسيّة في النقاط التالية:

نقترح وكيلًا جديدًا للاستدلال على حوادث المرور الرؤيويّة، يُعنى بالتنبّؤ بالحوادث المحتملة وتنبيه السائقين في بيئات القيادة المعقّدة.
نقدّم إطارًا للتنبّؤ بالحوادث من الطرف إلى الطرف قائمًا على النماذج اللغويّة الكبيرة مُتعدِّدة الوسائط، يُمكّن هذه النماذج من تحديد وقوع حادث أو وجود خطر في أو حول نظام مركباتٍ متعدّدة بالاستناد إلى معلومات المناظير لكل مركبة.

الأعمال ذات الصلة

نموذج اللغة الكبير مُتعدِّد الوسائط

مع ظهور GPT‑4، بدأت العديد من النماذج اللغويّة الكبيرة في استكشاف قدرات المعالجة مُتعدِّدة الوسائط. تستفيد هذه النماذج من المعلومات البصريّة واللفظيّة معًا لتعزيز قدراتها في الفهم والاندماج بين وسائط مختلفة. على سبيل المثال، قاد كلٌّ من GPT‑4V وLLaVA‑v1.5 تطويرَ نماذج لغويّة كبيرة بصريّة‑لفظيّة مُتعدِّدة الوسائط تناسب سيناريوهات متنوّعة. علاوةً على ذلك، تمّ تحسين نماذج مثل OWL‑ViT وQwen‑VL—المتخصّصة في كشف الأهداف—لمعالجة مشاهد معيّنة عبر دمج مجموعات بيانات موجهة، ما يُمكّنها من تنفيذ مهام بصريّة محدّدة بأوامر المستخدم. وفيما يتعلّق بالبيانات الزمنيّة، قدّم الباحثون أيضًا Video‑LLaVA وغيرها من النماذج التي تجمع بين معالجة الصور والفيديو في نموذجٍ لغوي كبير. وهناك أيضًا جهود لإدماج الوسائط الصوتيّة مثل Qwen‑Audio، ما يمهّد الطريق لتطوير نماذج لغويّة كبيرة سمعيّة مُتعدِّدة الوسائط. تُشكّل هذه التكاملات المتقاطعة للوسائط في النماذج اللغويّة الكبيرة حلولًا عالية الجودة لمهام متنوّعة في العالم الحقيقي.

نماذج اللغة الكبيرة للقيادة الآليّة

مؤخّرًا ومع التطوّر السريع في تقنيات القيادة الذاتيّة، بدأ ظهور تطبيقات النماذج اللغويّة الكبيرة في مجالات القيادة الذكيّة والتليماتيكس. في عام 2023، ظهر نموذج UniAD الذي يُعدّ أوّل تطبيقٍ شامل للنماذج اللغويّة الكبيرة في القيادة الذاتيّة، إذ يدمج ثلاثة مكوّنات أساسيّة: الإدراك، واتّخاذ القرار، والتخطيط ضمن بنية شبكة واحدة، ما يُقلّل فقدان المعلومات بين الوحدات المنفصلة. كما طُرح نموذج مُتعدِّد الوسائط يُسمّى CAVG، يركّز على نيّة السائق، ويتكوّن من خمسة مُشفِّرات متخصّصة: نصّي، عاطفي، بصري، سياقي وعبر الوسائط، مع مفكِّكاتها، لتمكين النموذج من التعامل مع وسائط وأبعاد مختلفة لمهام القيادة الذاتيّة. في مهام الإدراك، يستخدم DriveGPT4 خوارزمية YOLOv8 لاكتشاف الأهداف الشائعة مثل المركبات في كلّ إطار فيديو، ثم يمرّر الإحداثيات إلى ChatGPT كمعلوماتٍ لغويّة. ومع ذلك، نظرًا لأن DriveGPT4 يقتصر على وعيٍ بيئي لمركبةٍ واحدة، فإنه غير مناسب للتطبيقات من الطرف إلى الطرف في بيئات المركبات المتعدّدة.

الاستدلال على الحوادث

يُعدّ التنبّؤ بالحوادث المروريّة من أكثر مجالات البحث نشاطًا في سلامة القيادة الذاتيّة. اعتمد العديد من الباحثين على أساليب رؤية تقليديّة ومستشعرات أماميّة للمركبة مُقترنة بشبكات عصبيّة زمنيّة—مثل LSTM أو RNN—لتحذير السائقين من احتماليّة وقوع حادث (c10). ومع ذلك، تقتصر هذه الطرائق على استشعار سلوك المركبات القريبة فقط، وتفشل في تقدير المخاطر ضمن بيئات المرور المعقّدة، خصوصًا في ظروف الطقس القاسية. مع ظهور النماذج اللغويّة الكبيرة، حاول بعض الباحثين استخدامها في إدراك الحوادث، مثل “النموذج العملاق للحوادث”، ولكن نظرًا لاعتماد تلك النماذج على مجموعات بيانات مُعَدّة مسبقًا، فإنها لا تمتلك قدرةً كافية على تعميم التفكير في بيئاتٍ جديدة تمامًا تحت ظروفٍ معقّدة.

المنهجيّة

لا يستطيع BLIP‑2 معالجة مدخلات الصور المكوّنة من ستّة اتجاهات مباشرةً، ولا يمتلك القدرة على استدلال السلاسل الزمنيّة المستخلصة من هذه المدخلات. في هذا القسم، نستخدم بيانات المحاكاة وتقنيات الإسقاط/تحويل الرؤية من المحاكي (c11) لتعزيز قدرة BLIP‑2 على معالجة الصور الزمنيّة مُتعدِّدة الاتجاهات. نأمل من خلال ذلك أن يصبح BLIP‑2 المدرَّب قادرًا على التفكير في التسلسلات الزمنيّة المكوّنة من ستّة اتجاهات للاستدلال. تجدر الإشارة إلى أنّ إطارنا قابلٌ للتوسعة ليشمل سيناريوهات محاكاة القيادة الذاتيّة الطرفية لمركباتٍ متعدّدة.

مدخلات مُتعدِّدة الاتجاهات والاستدلال الزمني

نقدّم إطارًا إدراكيًّا يستفيد من النماذج اللغويّة الكبيرة مُتعدِّدة الوسائط، ويتكوّن من مكوّنين أساسيّين: استخراج السمات من مدخلات الصور مُتعدِّدة الاتجاهات والاستدلال الزمني. في المرحلة الأولى، نستخدم ViT‑g/14 للتعامل مع ستّة اتجاهات واستخراج الميزات البصريّة ذات الصلة من كلّ منظور. في المرحلة الثانية، نعتمد على استعلاماتٍ تحمل معلوماتٍ سياقيّة وزمنيّة مرتبطة بالتسلسل الزمني للإطارات. من خلال دمج هاتين المرحلتين، يُتيح إطارُنا القدرةَ على الإدراك والاستدلال الشامل مُتعدِّد الوسائط على امتداد الزمن.

يعتمد مُشفِّرُنا البصري على ViT‑g/14 المأخوذ من EVA‑CLIP (c13). يقرأ مُحوِّل الرؤية أوّلًا صور الاتّجاهات الستّ المُلتقطة من الكاميرات، ويُغيِّر حجم كلٍّ منها لاستخراج الميزات بشكلٍ منفصل. نستخدم مُحوِّل الرؤية المدرَّب مسبقًا كعمودٍ فقري لاستخراج مجموعة الميزات \(f_t\) للاتجاهات الستّ عند كل إطارٍ زمني \(t\)، ثم نُدخِل هذه الميزات إلى الطبقة الخطيّة في Q‑Former لإجراء عملية الاستدلال. قبل ذلك، يقوم مُحوِّل الرؤية بتسطيح ميزات كلّ صورة على بعدٍ واحد، ثم يدمج ميزات الاتّجاهات الستّ ليُشكّل التمثيل الزمني \(f_t\) الذي يُدخَل في آلية الانتباه المتقاطع (Cross‑Attention) في Q‑Former. في الوقت نفسه، يُدخَل الاستعلامُ القابل للتعلّم \(Q_t\) إلى طبقة الانتباه الذاتي في Q‑Former، ثم يُمرَّر الخرجُ الجديد عبر طبقة التغذية الأماميّة.

نتيجةً لخصوصيّة بيانات القيادة الذاتيّة الزمنيّة، نقترح آلية الانتباه الذاتي الزمني (Temporal Self‑Attention)، حيث يلتقط الاستعلامُ الزمني \(Q_{n}\) معلوماتِ الصور مُتعدِّدة الاتجاهات لكلّ إطار، ثم يُدخَل في Q‑Former المقابل للحصول على الاستعلام التالي \(Q_{n+1}\) لإدخال الإطار التالي. بفضل آلية الانتباه في Q‑Former، يتفاعل الاستعلامُ الجديد مع الميزات المستخرجة من آخر مخرجات Q‑Former، كما هو مُبيَّن في [fig:pic2]. وتُعرض عملية الانتباه المتقاطع بين ميزات الاتّجاهات المتعدّدة لكلّ إطار \(f_t\) والاستعلام الزمني \(Q_n\) في المعادلة الآتية:

\[ \mathrm{Attn}\!\left(Q_{n},\, K_{\mathrm{Car}},\, V_{\mathrm{Car}}\right) = \mathrm{Softmax}\!\left( \frac{Q_{n}\, K_{\mathrm{Car}}^{T}}{\sqrt{d_{k}}} \right) V_{\mathrm{Car}} \]

حيث \(Q_{n-1} \in \mathbb{R}^{N_Q \times D}\) يُشير إلى ميزة الاستعلام من الطابع الزمني السابق، والتي تؤدّي (بعد التحديث الزمني) إلى توليد إخراج الحالة الحاليّة \(Q_n\). بعد ذلك، ومن أجل تقديم منظور الصورة الحالي، يجمعُ الاستعلامُ الحالي \(Q_n\) ميزات الصورة من ViT‑g/14، المشار إليها بـ \(f_t\). ويمكن وصف آلية الانتباه المتقاطع كما يلي:

\[ Q = Q_n\, W^{Q} \quad\;\; K = f_t\, W^{K} \quad\;\; V = f_t\, W^{V} \]

\[ \mathrm{CrossAttn}(Q_n, f_t) \;=\; \mathrm{Softmax}\!\left( \frac{Q\, K^{T}}{\sqrt{d_{k}}} \right) V \]

الاستشعار المتكامل من طرفٍ إلى طرف لعدّة مركبات

لتعزيز موثوقيّة إدراك بيئة المركبة، قد لا يكفي الاعتمادُ على مركبةٍ واحدة بسبب وجود مناطق عمياء. ولمواجهة ذلك، طوّرنا نظام إدراك بصري تعاوني يربط بين عدّة مركبات. وفي ظل بيئات المرور المعقّدة، صمّمنا شبكةً عصبيّة تُقيِّم ليس فقط الحوادث المحتملة التي تنطوي على المركبة الذاتيّة، بل أيضًا مخاطر الاصطدام فيما بينها. وقد حققنا ذلك عبر تدريبٍ مشترك مُتعدِّد المركبات، ما مكّننا من بناء وكيلٍ مُدرِك للحوادث يجمع البيانات من عدّة مركبات باستخدام مجموعة بيانات DeepAccident.

في نظام المركبات المتعدّدة، اعتمدنا على النسخة المدرَّبة مسبقًا من ViT‑g/14 لكلّ مركبة \(Car_n\) لاستخراج الميزات \(f\) من صور الإطار الحالي مُتعدِّد المناظير. تُغذّى هذه الميزات بعد ذلك إلى كتلة MotionBlip2 المخصّصة. وبإضافة الاستعلامات الناتجة من AccidentBlip2، نجمعها مع استعلامات باقي المركبات وندخلها إلى Motion Q‑Former في الخطوة الزمنيّة التالية. وأخيرًا، نحوِّل هذا الاستعلام مُتعدِّد الأبعاد إلى متّجه أحاديّ البُعد ليكون مدخلًا لشبكة الإدراك مُتعدِّدة الطبقات (MLP)، كما توضحه المعادلة الآتية:

\[ \mathbf{X_i} = \mathrm{MLP}\!\left(\mathrm{concat}(Q_1, Q_2, Q_3, Q_4, \ldots, \mathrm{dim}=0)\right) \]

يُدخَل المتّجه الناتج \(X_i\) للإطار \(i\) في طبقة التضمين، ثم يُجرى عليه انحدارٌ ذاتي لتحديد احتمال وقوع حادث بين المركبات. كلّ استعلام \(Q_n\) يُمثّل منظورًا واحدًا لمركبة \(Car_n\) ضمن النظام، ما يؤدّي إلى دمج 24 منظورًا في تنسيق الميزات النهائي.

التجربة

في هذا القسم، نقيم نظامنا على مجموعة بيانات المحاكاة DeepAccident. نختبره بشكلٍ منفصل لإدراك المركبة الفرديّة مقابل إدراك المركبات المتعدّدة. وبشكلٍ أكثر تحديدًا، نُركّز على الإجابة عن السؤالين التاليين:

هل يمكن لـ AccidentBlip2 تحديد الحوادث في أنظمة المرور المعقّدة بكفاءة أعلى من الحلول الأخرى المعتمدة على الرؤية في سياق السلاسل الزمنيّة؟
هل يستطيع AccidentBlip2 استشعار الحوادث المحيطة بدقّة أكبر عند استخدام نظام مركباتٍ متعدّدة من الطرف إلى الطرف مقارنةً بإدراك المركبة الواحدة؟

بيانات التدريب

للتدريب والتقييم، اعتمدنا مجموعة البيانات مفتوحة المصدر (c2) التي توفّر معلومات بصريّة شاملة عن المركبات والبُنى التحتيّة. تحتوي هذه المجموعة على سيناريوهات تُحاكي الاصطدامات المحتملة في العالم الحقيقي، مع وجود أربع مركبات وبنية تحتيّة واحدة، بالإضافة إلى بيانات سحابة نقاط من منظور علوي. وعلى عكس تقنيات مُتعدِّدة الوسائط الأخرى، يقتصر AccidentBlip2 على أساليب الرؤية حصريًّا، فيستخدم فقط الصور البصريّة المُلتقطة من الكاميرات المثبّتة على المركبات.

وفقًا لوصف مجموعة البيانات (c2)، تتألف من 12 نوعًا من سيناريوهات الحوادث عند التقاطعات المنظّمة وغير المنظّمة. تضمّ المجموعة نحو 57 ألف إطار V2X موسوم، مُوزّعة بنسبة 0.7 للتدريب، و0.15 للتحقّق، و0.15 للاختبار. يلزم جهازٌ مُزوّد بأربع وحدات معالجة رسوميّات من طراز A6000، وتستغرق عملية التدريب أقلّ من 24 ساعة.

المعايير الأساسيّة

نستخدم كنماذج أساسيّة عدّة نماذج شائعة للغات الفيديو الكبيرة. أوّلها النموذج اللغوي الكبير للفيديو (Video‑LLM)، الذي يُعتَمَد غالبًا في مهام معالجة الفيديو. كما نقارنه بنسخةٍ مُحسّنة منه تُسمّى Video‑Vicuna. بالإضافة إلى ذلك، شملنا أيضًا مقارنةً مع نموذج Video‑LAVA ونموذج الاستدلال الكبير للغة الفيديو قبل الإسقاط (Pre‑Projection Inference). نُلاحظ أن النماذج المُحسَّنة للرؤية مثل LLaVA وGPT‑4V تُواجه صعوبةً في التعامل مع مدخلات زمنيّة كبيرة، وليس أداؤها أفضل من النموذج اللغوي الكبير للفيديو، لذا لم تُضمّن في المقارنات النهائيّة.

تفاصيل التنفيذ

يتألّف نموذجُنا المُقترَح من مُشفِّر بصري ViT‑g/14 بالإضافة إلى وحدة Motion Q‑Former لاستخراج ودمج الميزات من الصور والنصوص. ولضمان أفضل دقّة في التنبّؤ بالحوادث، نُدرِّب AccidentBlip2 على صورٍ بحجم \(224 \times 224\).

في إعداداتنا، نجمد معلمات ViT‑g/14 والنموذج اللغوي OPT‑2.7B (c14)، حيث أُهيئت بأوزان مُدرَّبة مسبقًا مماثلة لـ BLIP‑2 (c21). تهدف وحدة Motion Q‑Former، بالتعاون مع Q‑Former، إلى دمج وجهات النظر المتعدّدة ضمن نظام المركبات التعاوني، وهي تُحمَّل وتُدرَّب على مهام التنبّؤ والمخرجات اللغويّة معًا. تمرُّر مدخلاتُ الصور عبر طبقة ViT التي تُمكّن Motion Q‑Former من التقاط الميزات الديناميكيّة عبر الإطارات الزمنيّة المختلفة.

خلال التدريب، اعتمدنا فترة تسخين لمُعدّل التعلّم للثلاث خطوات الأولى، مع استخدام مُحسّن Adam بـ \(\beta_1=0.9\) و\(\beta_2=0.999\). درّبنا AccidentBlip2 على مدى 8 حِقَب، مُستخدمين جدولةً جيبيّة لمُعدّل التعلّم يصل فيها الحد الأدنى إلى \(1e^{-5}\). تمتد فترة التدريب على 6 مراحل بحجم دفعةٍ قدرُه 8، يختلف عدد المركبات فيها باختلاف المهمة. وبالنسبة للمدخلات مُتعدِّدة السيناريوهات، حيث تُؤخَذ عيّنات من الإطارات الزمنيّة من 0 إلى \(T\)، يكون شكلُها: \(X_S \in \mathbb{R}^{T \times N_V \times V_C \times C \times H \times W}\)، حيث يشير \(T\) إلى طول السلسلة الزمنيّة، و\(N_V\) إلى عدد المركبات، و\(V_C\) إلى ستّ مناظير منفصلة (أمامي، أمامي يسار، أمامي يمين، خلفي، خلفي يسار، خلفي يمين)، و\(H\) و\(W\) إلى أبعاد الصورة. يتفاعل Motion Q‑Former تِكراريًّا مع مخرجات الاستعلام \(Q_{T-1} \in \mathbb{R}^{N_V \times N_Q \times D}\) من آخر خطوة زمنيّة، ما يُمكّن من التقاط الميزات مُتعدِّدة الاتجاهات عبر الزمن حتى الوصول إلى \(Q_T\)، ويقوم النموذجُ اللغوي بعد ذلك بجمعه كمُجمّع للتضمين الشامل. يعتمد حساب دالة الخسارة \(\mathrm{Loss}(p_t)\) على Focal Loss، حيث يُرمز \(p_t\) إلى احتمال الفئة الصحيحة، وتُستخدم \(\alpha\) لموازنة أوزان العيّنات الإيجابيّة والسلبيّة، بينما تتحكّم \(\gamma\) في معدل العيّنات التي يتم التركيز عليها، كما في المعادلة الآتية:

\[ \mathrm{Loss}(p_t) = -\,\alpha\,\bigl(1 - p_t\bigr)^{\gamma}\,\log(p_t) \]

ونظرًا لتوزّع فئات الحوادث غير المتكافئ، ضبطنا \(\alpha\) على 0.25، وتركنا \(\gamma\) عند القيمة الافتراضيّة 2.0، لتعزيز تركيز النموذج على العيّنات الصعبة أو المشكوك في تصنيفها.

التقييم

يقدّم الجدول [Table 1] نتائج أداء تكوينات مختلفة لنموذجنا. ومن خلال تصميم إصداراتٍ متباينة، نقيم AccidentBlip2 في سيناريو مركبة واحدة وسيناريو مركبات متعدّدة، بما في ذلك المركبة الذاتيّة، والمركبات الأخرى، والرؤية من البنية التحتيّة. وبالاستفادة من ستّ كاميرات مُثبّتة عبر أربع مركبات، تمكّن Motion Q‑Former من التقاط الميزات الزمنيّة لعدّة مركبات بفعاليّة.

أدّى ذلك إلى تحسين الدقّة بنسبة 2% مقارنةً بسيناريو المركبة الواحدة. علاوةً على ذلك، لوحظت زيادة واضحة بنسبة 6.6% عند استخدام عدّة مناظير، ما يؤكّد قدرة النموذج على الاستدلال الشامل للحوادث.

يتفوّق نموذجُنا المُقترح على النماذج الأساسيّة في كلا التكوينين. مقارنةً بالنماذج اللغويّة الكبيرة للفيديو الموضّحة في الجدول [Table 2]، يحقّق AccidentBlip2 دقّة 66.5% عند مدخلات مركبةٍ واحدة. وبالمقارنة مع إعدادات V2XFormer الثلاثة، يُظهر نموذجُنا زيادة تقارب 3% في الدقّة.

عالجنا تحدّي انفجار التدرّج أثناء التدريب باستخدام فترة تسخين لمُعدّل التعلّم، ما زاد من استقرار العملية. يعمل نموذجُنا مُتعدِّد المركبات على أربع وحدات معالجة رسوميّات، ما يُتيح جمع استعلامات Motion Q‑Former من كلّ مركبة. كما استكشفنا تأثير الوزن الأوّلي لـ Q‑Former، فتبيّن أن التهيئة بأوزان BLIP‑2 المدرَّبة مسبقًا تُحسّن الأداء على مجموعة بيانات DeepAccident.

الاستنتاجات

في هذه الورقة، قدّمنا إطارَ عملٍ لكشف الحوادث قائمًا على Motion Q‑Former أطلقنا عليه AccidentBlip2، ويعتمد حصريًّا على مدخلات الرؤية لتحليل معلومات الطرق. يُدخِل هذا الإطار آلية الانتباه الزمني ضمن BLIP‑2 عبر تعزيز آلية الانتباه الذاتي التقليديّة، حيث تُستخدم الاستعلامات كحاملاتٍ للسمات الزمنيّة، لتُشفّر المعلومات من كلّ إطار ثم تُضمّن في إطارٍ لاحق. ويُتيح هذا التصميم إمكانيّة الاستدلال التلقائي باستخدام شبكة MLP لتحديد وقوع الحوادث وتقديم توصيفٍ دقيق للبيئة المحيطة.

وعند مقارنة دقّة كشف الحوادث مع نماذج اللغة الكبيرة الأخرى المعتمدة على الفيديو، يبرز AccidentBlip2 بدقّةٍ لافتة بلغت 66.5%، مُتجاوزًا أداء جميع النماذج الأساسيّة. ويُسلّط ذلك الضوء على فعاليّة إطار عملِنا في أنظمة النقل مُتعدِّدة المركبات المعقّدة. وعلى وجه التحديد، يحقّق نظامُنا المُكوَّن من أربع مركبات دقّة بلغت 72.2% في كشف الحوادث البيئيّة، ما يُشير إلى تحسّنٍ كبير مقارنةً بدقّة كشف حوادث المركبة الواحدة. علاوةً على ذلك، يُظهر AccidentBlip2 مزايا واضحة في التحقّق من الحوادث مقارنةً بالنماذج اللغويّة الكبيرة الأخرى المعتمدة فقط على الفيديو في أنظمة المركبات المتعدّدة، ما يؤكّد إمكانات نهجِنا في تعزيز كشف الحوادث في سيناريوهات المرور المعقّدة.

لمزيد من التفاصيل والتجارب المكرّرة، يُرجى متابعة المستودع الرسمي للمشروع: github.com/YihuaJerry/AccidentBlip2