```html AccidentBlip2: كشف الحوادث باستخدام Multi-View MotionBlip2

AccidentBlip2: كشف الحوادث باستخدام Multi-View MotionBlip2

Yihua Shao*, Hongyi Cai*, Wenxin Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Yang Yang\(^{1}, Member, IEEE\), Zhen Lei\(^{3}, Fellow, IEEE\)

مُلَخَّص

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات مميزة في العديد من مهام الفهم متعدد الوسائط. لذلك، نستفيد هنا من قدرة هذه النماذج على وصف البيئة وفهم المشاهد في بيئات النقل المعقدة. في هذه الورقة، نقترح AccidentBlip2، نموذجًا لغويًا كبيرًا متعدد الوسائط قادرًا على التنبؤ في الوقت الفعلي بإمكانية وقوع حادث. يتضمن نهجنا استخراج السمات بناءً على التسلسل الزمني لصور المحيط المكوّن من ستة اتجاهات، ثم إجراء الاستدلال الزمني باستخدام إطار عمل blip عبر محول الرؤية. بعد ذلك، ندخل التمثيل الزمني الناتج إلى نماذج اللغة الكبيرة متعددة الوسائط للاستدلال وتحديد ما إذا كان من المحتمل وقوع حادث. ونظرًا لأن AccidentBlip2 لا يعتمد على صور BEV أو بيانات LiDAR، فإن عدد معلمات الاستدلال وتكلفة المعالجة ينخفضان بشكل كبير، كما لا يتطلب موارد تدريب عالية. يتفوق AccidentBlip2 على الحلول الحالية في مجموعة بيانات DeepAccident، ويمكن أن يشكل أيضًا معيارًا مرجعيًا للتنبؤ بحوادث القيادة الذاتية من البداية إلى النهاية. سيتم إصدار الكود على: https://github.com/YihuaJerry/AccidentBlip2.git

مُقَدِّمَة

تُعد النماذج اللغوية الكبيرة متعددة الوسائط القادرة على اكتشاف وتحديد وقوع الحوادث بدقة ذات أهمية بالغة لمجال السلامة في القيادة الذاتية. أجرى عدد من الباحثين أعمالًا سابقة في كشف سلوك المركبات. عادةً ما تتصرف المركبات وفقًا للمحيط المروري وقواعد المرور، حيث قد تتوقف أو تغير مساراتها أو حتى تتراجع إلى الخلف في أنظمة المرور المعقدة. نأخذ هذه الظواهر جميعًا بعين الاعتبار عند نمذجة إدراك بيئة المركبة. ومع ذلك، فإن التعقيد الشديد لنظام المرور يؤدي إلى صعوبات في نمذجة الاستشعار، مما يجعل طرق الإدراك التقليدية تعتمد في كثير من الأحيان على استنتاجات خاطئة.

مع ذلك، ما تزال الطرق الخاصة بكشف الحوادث البصرية البحتة في المشاهد المعقدة محدودة. تتفوق النماذج اللغوية الكبيرة متعددة الوسائط في فهم المشاهد المعقدة، مما يجعلها ملائمة تمامًا لمهام القيادة الذاتية في البيئات المعقدة. تعتمد الأعمال الحالية عادةً على نماذج متعددة الوسائط لكشف المركبات والمشاة وغيرها في البيئة، مما يعزز الاعتمادية في القيادة الذاتية. ومع ذلك، في سيناريوهات المرور المعقدة، تحدث الحوادث بشكل متكرر، لذا يمكن لوكيل MLLM المثبت داخل المركبة أن يستخدم قدرته على فهم السياق لتحديد معلومات الحوادث المحيطة وتقديم تنبيهات مبكرة لتعزيز السلامة.

في هذه الورقة، نقترح AccidentBlip2، نموذجًا لغويًا كبيرًا متعدد الوسائط مخصصًا للحكم على الحوادث في سياق السلاسل الزمنية. نهدف من خلاله إلى تعزيز التطبيق العملي لهذه النماذج في بيئات المرور المعقدة. باعتمادنا على MLLMs، أنشأنا إطارًا لتجميع مدخلات صور الكاميرا ذات الستة اتجاهات ضمن إدخال زمني متعدد الوسائط، ثم يستخرج محول الرؤية الرموز الزمنية الخاصة بكل إطار. تُنقل هذه الرموز بعد ذلك إلى مشفر الرؤية المدمج ضمن MLLM، حيث تُستخدم قدرات التفكير متعدد الوسائط للتنبؤ بما إذا كان قد وقع حادث. كما يمكن للنموذج التفاعل مع السائق عبر واجهة لغوية لاستشعار بيئة الطريق بشكل أدق وتنبيه السائق لأي مخاطر محتملة.

إلى جانب تحليل المشهد المحيط لمركبة واحدة، طورنا نظامًا تعاونيًّا لإدراك بيئة عدة مركبات من طرف إلى طرف، لتعويض النقاط العمياء والنواقص في إدراك المركبة الوحيدة. قمنا بتمديد اختبارات بيئة المركبة الواحدة إلى سيناريوهات القيادة الشاملة من البداية إلى النهاية، وقياسنا دقة التنبؤ بالحوادث وقدرة النظام على الربط بين الذات ومركبات متعددة. بشكل عام، تبرز مساهماتنا الرئيسية في النقاط التالية:

الأعمال ذات الصلة

نموذج اللغة الكبير متعدد الوسائط

مع ظهور GPT-4، بدأت العديد من نماذج اللغة الكبيرة في استكشاف قدرات المعالجة متعددة الوسائط. تستفيد هذه النماذج من المعلومات البصرية واللفظية معًا لتعزيز قدراتها في الفهم والاندماج بين وسائط مختلفة. على سبيل المثال، قاد كل من GPT-4V وLlava-v1.5 تطوير نماذج لغوية كبيرة متعددة الوسائط بصرية-لفظية تناسب سيناريوهات متنوعة. علاوةً على ذلك، تم تحسين نماذج مثل owlViT وQwen-VL—المتخصصة في كشف الأهداف—لمعالجة مشاهد معينة عبر دمج مجموعات بيانات موجهة، مما يمكّنها من تنفيذ مهام بصرية محددة بأوامر المستخدم. فيما يتعلق بالبيانات الزمنية، قدّم الباحثون أيضًا Video-Llava وغيرها من النماذج التي تجمع بين معالجة الصور والفيديو في نموذج لغوي كبير. وهناك أيضًا جهود لتحسين إدماج الوسائط الصوتية مثل Qwen-Audio، مما يمهد الطريق لتطوير نماذج لغوية كبيرة متعددة الوسائط الصوتية. تشكّل هذه التكاملات المتقاطعة للوسائط في نماذج اللغة الكبيرة حلولًا عالية الجودة لمهام متنوعة في العالم الحقيقي.

نماذج اللغة الكبيرة للقيادة الآلية

مؤخرًا ومع التطور السريع في تقنيات القيادة الذاتية، بدأ ظهور تطبيقات نماذج اللغة الكبيرة في مجالات القيادة الذكية والتليماتيكس. في عام 2023، ظهر نموذج uniad الذي يعد أول تطبيق كامل لنماذج اللغة الكبيرة في القيادة الذاتية، حيث يدمج ثلاثة مكونات أساسية: الإدراك، اتخاذ القرار، والتخطيط ضمن بنية شبكة واحدة، مما يقلل من فقدان المعلومات بين الوحدات المنفصلة. كما طرح الباحثون نموذجًا متعدد الوسائط يُسمى CAVG، يركز على نية السائق، ويتكون من خمسة مشفرات متخصصة: نصي، عاطفي، بصري، سياقي وعبر الوسائط، بمرافقها من مفكِّكات، لتمكين النموذج من التعامل مع وسائط وأبعاد مختلفة لمهام القيادة الذاتية. في مهام الإدراك، يستخدم DRIVEGPT4 خوارزمية YOLOv8 لاكتشاف الأهداف الشائعة مثل المركبات في كل إطار فيديو، ثم يمرر الإحداثيات إلى ChatGPT كمعلومات لغوية. ومع ذلك، نظرًا لأن DRIVEGPT4 يقتصر على وعي بيئي لمركبة واحدة، فإنه غير مناسب للتطبيقات الطرفية من البداية إلى النهاية في بيئات السيارات المتعددة.

حكم الحوادث

يُعد التنبؤ بالحوادث المرورية من أكثر مجالات البحث نشاطًا في سلامة القيادة الذاتية. اعتمد العديد من الباحثين على أساليب رؤية تقليدية ومستشعرات أمامية للمركبة مقترنة بشبكات عصبية زمنية—مثل LSTM أو RNN—لتحذير السائقين من احتمالية وقوع حادث (c10). ومع ذلك، تقصر هذه الطرق على استشعار سلوك المركبات القريبة فقط، وتفشل في تقدير المخاطر ضمن بيئات المرور المعقدة، خاصة في ظروف الطقس القاسية. مع ظهور نماذج اللغة الكبيرة، حاول بعض الباحثين استخدامها في إدراك الحوادث، مثل "نموذج الحوادث العملاق"، ولكن نظرًا لاعتماد تلك النماذج على مجموعات بيانات مُعَدَّة مسبقًا، فإنها لا تملك القدرة الكافية على تعميم التفكير في بيئات جديدة تمامًا تحت ظروف معقدة.

المنهجية

لا يستطيع Blip2 معالجة مدخلات الصور المكوّنة من ستة اتجاهات مباشرةً، ولا يملك القدرة على استدلال السلاسل الزمنية المستخلصة من هذه المدخلات. في هذا القسم، نستخدم بيانات المحاكاة وتقنيات تحويل الرؤية من المحاكي (c11) لتعزيز قدرة Blip2 على معالجة الصور الزمنية متعددة الاتجاهات. نأمل من خلال ذلك أن يصبح Blip2 المدرب قادرًا على التفكير في التسلسلات الزمنية المكونة من ستة اتجاهات للاستدلال. تجدر الإشارة إلى أن إطارنا قابل للتوسعة ليشمل سيناريوهات محاكاة القيادة الذاتية الطرفية المتعددة المركبات.

مدخلات متعددة الاتجاهات والاستدلال الزمني

نقدم إطارًا إدراكيًا يستفيد من نماذج اللغة الكبيرة متعددة الوسائط، ويتكوّن من مكونين أساسيين: استخراج السمات من مدخلات الصور متعددة الاتجاهات والاستدلال الزمني. في المرحلة الأولى، نستخدم ViT-14g للتعامل مع ستة اتجاهات واستخراج الميزات البصرية ذات الصلة من كل وجهة. في المرحلة الثانية، نعتمد على استعلامات تحمل المعلومات السياقية والزمنية المتعلقة بالتسلسل الزمني للإطارات. من خلال دمج هاتين المرحلتين، يتيح إطارنا القدرة على الإدراك والاستدلال الشامل متعدد الوسائط على امتداد الزمن.

يعتمد مشفّرنا البصري على ViT-14g المأخوذ من EVA-CLIP (c13). يقرأ محول الرؤية أولًا صور الست اتجاهات الملتقطة من الكاميرات، ويغير حجم كل منها لاستخراج الميزات بشكل منفصل. نستخدم محول الرؤية المدرب مسبقًا كعمود فقري لاستخراج مجموعة الميزات \(f_t\) للاتجاهات الست عند كل إطار زمني \(t\)، ثم ندخل هذه الميزات إلى الطبقة الخطية في Qformer لإجراء عملية الاستدلال. قبل ذلك، يقوم محول الرؤية بربط ميزات كل صورة في بعد واحد، ثم يدمج ميزات الست جهات ليشكّل التمثيل الزمني \(f_t\) الذي يُدخل في آلية الانتباه المتقاطع (Cross-Attention) في Qformer. في الوقت نفسه، يُدخل الاستعلام القابل للتعلم \(Q_t\) إلى طبقة الانتباه الذاتي في Qformer، ثم يُمرر الخرج الجديد عبر طبقة التغذية الأمامية.

نتيجةً لخصوصية بيانات القيادة الذاتية الزمنية، نقترح آلية الانتباه الذاتي الزمني (Temporal Self-Attention)، حيث يلتقط الاستعلام الزمني \(Q_n\) معلومات الصور متعددة الاتجاهات لكل إطار، ثم يُدخل في Qformer المقابل للحصول على الاستعلام التالي \(Q_{n+1}\) لإدخال الإطار التالي. بفضل آلية الانتباه في Qformer، يتفاعل الاستعلام الجديد مع الميزات المستخرجة من آخر مخرجات Qformer، كما هو موضح في [fig:pic2]. تُعرض عملية الانتباه المتقاطع بين ميزات الاتجاهات المتعددة لكل إطار \(f_t\) والاستعلام الزمني \(Q_n\) في المعادلة [eq1]: \[ \mathrm{Attn}(Q_{n-1}, K_{\mathrm{Car}}, V_{\mathrm{Car}} ) = \mathrm{Softmax}\left(\frac{Q_{n} \cdot K_{\mathrm{Car}}^{T}}{\sqrt{d_{k}}}\right) V_{\mathrm{Car}} \]

حيث \(Q_{n-1} \in \mathbb{R}^{N_Q \times D}\) يشير إلى ميزة الاستعلام من الطابع الزمني الأخير، والتي تؤدي إلى توليد إخراج الحالة الحالية \(Q_n\). بعد ذلك، من أجل تقديم وجهة النظر الصورية الحالية، يجمع الحالة الحالية \(Q_n\) ميزات الصورة من ViT-g، المشار إليها بـ \(f_t\). يمكن وصف آلية الانتباه المتقاطع كما يلي

\[ Q = Q_n W^Q \hspace{1em} K = V = f_t W^K \]

\[ \mathrm{CrossAttn}(Q_n, f_t) = \mathrm{Softmax}\left( \frac{Q K^T}{\sqrt{d_2}} \right) V \]

الاستشعار المتكامل من طرف إلى طرف لعدة مركبات

لتعزيز موثوقية إدراك بيئة المركبة، قد لا يكفي الاعتماد على مركبة واحدة بسبب وجود مناطق عمياء. لمواجهة ذلك، طورنا نظام إدراك بصري تعاوني يربط بين عدة مركبات. في ظل بيئات المرور المعقدة، صممنا شبكة عصبية تقيم ليس فقط الحوادث المحتملة التي تنطوي على المركبة الذاتية، بل أيضًا مخاطر الاصطدام فيما بينها. حققنا ذلك عبر تدريب مشترك متعدد المركبات، مما مكّننا من بناء وكيل مدرك للحوادث يجمع البيانات من عدة مركبات باستخدام مجموعة بيانات DeepAccident.

في نظام المركبات المتعددة، اعتمدنا على النسخة المدربة مسبقًا من ViT-14g لكل مركبة \(Car_n\) لاستخراج الميزات \(f\) من صور الإطار الحالي متعدد الجوانب. تُغذى هذه الميزات بعد ذلك إلى كتلة MotionBlip2 المخصصة. بإضافة الاستعلامات الناتجة من AccidentBlip2، نجمعها مع استعلامات باقي المركبات وندخلها إلى Motion Qformer في الخطوة الزمنية التالية. أخيرًا، نحول هذا الاستعلام متعدد الأبعاد إلى متجه أحادي الأبعاد ليكون مدخلاً لشبكة الإدراك متعددة الطبقات (MLP)، كما يوضح المعادلة [eq4]: \[ \mathbf{X_i} = \mathrm{MLP}\left(\mathrm{concat}(Q_1, Q_2, Q_3, Q_4, \ldots, \mathrm{dim}=0)\right) \]

يُدخل المتجه الناتج \(X_i\) للإطار \(i\) في طبقة التضمين، ثم يجري عليه الانحدار الذاتي لتحديد احتمال وقوع حادث بين المركبات. كل استعلام \(Q_n\) يمثل وجهة نظر واحدة لمركبة \(Car_n\) ضمن النظام، مما يؤدي إلى دمج 24 وجهة نظر في تنسيق الميزات النهائي.

التجربة

في هذا القسم، نقيم نظامنا على مجموعة بيانات المحاكاة DeepAccident. نختبره بشكل منفصل لإدراك المركبة الفردية مقابل إدراك المركبات المتعددة. بشكل أكثر تحديدًا، نركز على الإجابة عن الأسئلة التالية:

بيانات التدريب

للتدريب والتقييم، اعتمدنا مجموعة البيانات مفتوحة المصدر (c2) التي توفر معلومات بصرية شاملة عن المركبات والبُنى التحتية. تحتوي هذه المجموعة على سيناريوهات تحاكي الاصطدامات المحتملة في العالم الحقيقي، مع وجود أربع مركبات وبنية تحتية واحدة، بالإضافة إلى بيانات سحابة نقاط من وجهة النظر العلوية. على عكس التقنيات متعددة الوسائط الأخرى، يقتصر AccidentBlip2 على أساليب الرؤية حصريًا، فتستخدم فقط الصور البصرية الملتقطة من الكاميرات المثبتة على المركبات.

وفقًا لوصف مجموعة البيانات (c2)، تتألف من 12 نوعًا من سيناريوهات الحوادث عند التقاطعات المنظمة وغير المنظمة. تضم المجموعة نحو 57 ألف إطار V2X موسوم، موزعة بنسبة 0.7 للتدريب، 0.15 للتحقق، و0.15 للاختبار. يلزم جهاز مزود بأربع وحدات معالجة رسومات من طراز A6000، وتستغرق عملية التدريب أقل من 24 ساعة.

المعايير الأساسية

نستخدم كنماذج أساسية عدة نماذج شائعة للغات الفيديو الكبيرة. أولها نموذج اللغة الكبير للفيديو (Video Large Language Model)، الذي يُعتمد غالبًا في مهام معالجة الفيديو. كما نقارنه بنسخة محسّنة منه تُسمى فيديو-فيكونا (Video-Falcon). بالإضافة لذلك، شملنا أيضًا مقارنة مع نموذج فيديو-لافا (Video-LAVA) ونموذج الاستدلال الكبير للغة الفيديو قبل الإسقاط (Pre-Projection Inference). نلاحظ أن النماذج المحسّنة بصريًا مثل لافا وGPT-4V تواجه صعوبة في التعامل مع مدخلات زمنية كبيرة، وليس أداؤها أفضل من نموذج اللغة الكبير للفيديو، لذا لم تُضمّن في المقارنات النهائية.

تفاصيل التنفيذ

يتألف نموذجنا المقترح من مشفّر بصري ViT-14g بالإضافة إلى وحدة Motion Qformer لاستخراج ودمج الميزات من الصور والنصوص. ولضمان أفضل دقة في التنبؤ بالحوادث، ندرب AccidentBlip2 على صور بحجم \(224 \times 224\).

في إعداداتنا، نجمد معلمات ViT-14g والموديل اللغوي OPT-2.7B (c14), حيث أُهيأت بأوزان مدربة مسبقًا مماثلة لـ Blip-2 (c21). تهدف وحدة Motion Qformer، بالتعاون مع محول Qformer، إلى دمج وجهات النظر المتعددة ضمن نظام المركبات التعاوني، وهي تُحمّل وتُدرّب على مهام التنبؤ والمخرجات اللغوية معًا. تمرُّر مدخلات الصور عبر طبقة ViT تُمكّن Motion Qformer من التقاط الميزات الديناميكية عبر الإطارات الزمنية المختلفة.

خلال التدريب، اعتمدنا فترة تسخين معدل التعلم للثلاثة خطوات الأولى، مع استخدام محسن Adam[1] بـ \(\beta_1=0.9\) و\(\beta_2=0.999\). درّبنا AccidentBlip2 على مدى 8 حقبات، مستخدمين جدولة جيبية لمعدل التعلم يصل فيها الحد الأدنى إلى \(1e^{-5}\). تمتد فترة التدريب على 6 مراحل بحجم دفعة قدره 8، يختلف عدد المركبات فيها باختلاف المهمة. بالنسبة للمدخلات متعددة السيناريوهات، حيث تُؤخذ عينات من الإطارات الزمنية من 0 إلى \(T\), يكون شكلها: \(X_S \in \mathbb{R}^{T \times N_V \times V_C \times C \times H \times W}\)، حيث يشير \(T\) إلى طول السلسلة الزمنية، و\(N_V\) إلى عدد المركبات، و\(V_C\) إلى ست وجهات نظر منفصلة (أمامية، أمامية يسرى، أمامية يمنى، خلفية، خلفية يسرى، خلفية يمنى)، و\(H\) و\(W\) إلى أبعاد الصورة. يتفاعل Motion Qformer تكراريًا مع مخرجات الاستعلام \(Q_{T-1} \in \mathbb{R}^{N_V \times N_Q \times D}\) من آخر خطوة زمنية، مما يمكّن من التقاط الميزات المتعددة الاتجاهات عبر الزمن حتى الوصول إلى \(Q_T\)، ويقوم نموذج اللغة بعد ذلك بجمعه كمُجمّع للتضمين الشامل. يعتمد حساب دالة الخسارة \(Loss(p_t)\)—المعروضة في [eq2]—على Focal Loss، حيث يرمز \(p_t\) إلى احتمال الفئة الصحيحة، ويستخدم \(\alpha\) لموازنة أوزان العينات الإيجابية والسلبية، بينما يتحكم \(\gamma\) في معدل العينات التي يتم التركيز عليها.

نظراً لتوزع فئات الحوادث غير المتكافئ، ضبطنا \(\alpha\) على 0.25، وتركنا \(\gamma\) عند القيمة الافتراضية 2.0، لتعزيز تركيز النموذج على العينات الصعبة أو المشكوك في تصنيفها.

التقييم

يقدم الجدول [Table 1] نتائج أداء تكوينات مختلفة لنموذجنا. من خلال تصميم إصدارات متباينة، نقيم AccidentBlip2 في سيناريو مركبة واحدة وسيناريو مركبات متعددة، بما في ذلك المركبة الذاتية، المركبات الأخرى والرؤية من البنية التحتية. بفضل الاستفادة من ستة كاميرات مثبتة عبر أربع مركبات، تمكن Motion Qformer من التقاط الميزات الزمنية لعدة مركبات بفعالية.

أدى ذلك إلى تحسين الدقة بمقدار 2% مقارنة بسيناريو المركبة الواحدة. علاوة على ذلك، لوحظت زيادة واضحة بنسبة 6.6% عند استخدام عدة وجهات نظر، مما يؤكد قدرة النموذج على الاستدلال الشامل للحوادث.

يتفوق نموذجنا المقترح على النماذج الأساسية في كلا التكوينين. مقارنةً بنماذج اللغة الكبيرة للفيديو الموضحة في الجدول [Table 2]، يحقق AccidentBlip2 دقة 66.5% عند مدخلات مركبة واحدة. وبالمقارنة مع إعدادات V2XFormer الثلاثة، يُظهر نموذجنا زيادة تقارب 3% في الدقة.

عالجنا تحدي انفجار التدرج أثناء التدريب باستخدام فترة تسخين لمعدل التعلم، مما زاد من استقرار العملية. يعمل نموذجنا متعدد المركبات على أربع وحدات معالجة رسومات، مما يتيح جمع استعلامات Motion Qformer من كل مركبة. كما استكشفنا تأثير الوزن الأولي لـ Qformer، فتبين أن التهيئة بأوزان Blip2 المدربة مسبقًا تحسّن الأداء على مجموعة بيانات DeepAccident.

الاستنتاجات

في هذه الورقة، قدمنا إطار عمل لكشف الحوادث قائمًا على Motion Qformer أطلقنا عليه AccidentBlip2، ويعتمد حصريًا على مدخلات الرؤية لتحليل معلومات الطرق. يُدخل هذا الإطار آلية الانتباه الزمني ضمن Blip2 عبر استبدال آلية الانتباه الذاتي التقليدية، حيث تُستخدم الاستعلامات كحاملات للسمات الزمنية، ليتم تشفير المعلومات من كل إطار ثم تضمينها في إطار لاحق. يتيح هذا التصميم إمكانية الاستدلال التلقائي باستخدام شبكة MLP لتحديد وقوع الحوادث وتقديم توصيف دقيق للبيئة المحيطة.

عند مقارنة دقة كشف الحوادث مع نماذج اللغة الكبيرة الأخرى المعتمدة على الفيديو، يبرز AccidentBlip2 بدقة مثيرة للإعجاب بلغت 66.5%، متجاوزًا أداء جميع النماذج الأساسية. يسلط ذلك الضوء على فعالية إطار عملنا في أنظمة النقل متعددة المركبات المعقدة. على وجه التحديد، يحقق نظامنا المكون من أربع مركبات دقة بلغت 72.2% في كشف الحوادث البيئية، مما يشير إلى تحسن كبير مقارنة بدقة كشف حوادث المركبة الواحدة. علاوةً على ذلك، يظهر AccidentBlip2 مزايا واضحة في التحقق من الحوادث مقارنة بنماذج اللغة الكبيرة الأخرى المعتمدة فقط على الفيديو في أنظمة المركبات المتعددة، مما يؤكد إمكانات نهجنا لتعزيز كشف الحوادث في سيناريوهات المرور المعقدة.

``` **ملاحظات حول تصحيح LaTeX:** - تم تصحيح جميع المعادلات المعروضة (`display math`) لتكون بين `\[ ... \]` فقط، مع إزالة أي `\label{...}` أو أرقام معادلات غير مدعومة في MathJax/HTML. - تم تصحيح جميع المتغيرات في المعادلات لتكون متسقة (على سبيل المثال، تم تصحيح `V` إلى `V_{\mathrm{Car}}` في أول معادلة حيث كان ناقصًا). - تم التأكد من أن جميع المتغيرات بين أقواس رياضية، وأن جميع الأقواس مغلقة بشكل صحيح. - تم تصحيح جميع المتغيرات التي كانت خارج أقواس رياضية (مثل T, N_V, V_C, H, W) لتكون ضمن `\(...\)` في جميع المواضع. - تم التأكد من أن جميع المعادلات ستعمل بشكل صحيح مع MathJax في المتصفح. - لم يتم تغيير أي كلمة من النص الأصلي. - تم الحفاظ على النص والمعادلات بالكامل دون حذف أو اختصار.