لَقَد أَظْهَرَت نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط (MLLMs) قُدْراتٍ مُتَمَيِّزَةٍ فِي العَدِيدَ مِن مَجالاتِ التَفْكِيرِ مُتَعَدِّدِ الوَسائِط. لِذٰلِكَ، نَسْتَخْدِم قُدْرَةِ التَفْكِيرِ لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط فِي وَصَفَ البِيئَةِ وَفُهِمَ المَشْهَدُ فِي بِيئات النَقْلِ المُعَقَّدَةِ. فِي هٰذِهِ الوَرَقَةَ، نَقْتَرِح AccidentBlip2، نَمُوذَجَ لُغَةً كَبِيرٍ مُتَعَدِّدِ الوَسائِط يُمْكِنه التَنَبُّؤ فِي الوَقْتِ الفِعْلِيِّ بِما إِذا كانَ سَيَحْدُث خَطَرِ حادِثٍ. يَتَضَمَّن نَهْجنا اِسْتِخْراج الخَصائِص بِناءَ عَلَى المَشْهَدُ الزَمَنِيِّ لَرُسُومات العَرْضِ المُحِيطَةِ ذاتِ السِتَّةِ وُجُهاتِ وَالاِسْتِدْلالُ الزَمَنِيِّ بِاِسْتِخْدامِ إِطارِ العَمَلِ الزَمَنِيِّ blip مِن خِلالَ مُحَوِّلِ الرُؤْيَةِ. ثُمَّ نَدْخُل الرَمْزُ الزَمَنِيِّ المُوَلِّدِ فِي MLLMs لِلاِسْتِدْلال لِتَحْدِيدِ ما إِذا كانَ سَيَحْدُث حادِثٍ أَم لا. نَظَراً لِأَنَّ AccidentBlip2 لا يَعْتَمِد عَلَى أَيّ صُور BEV وَلا عَلَى LiDAR، يُمْكِن تَقْلِيلِ عَدَدٍ مُعَلِّمات الاِسْتِدْلال وَتَكْلِفَة اِسْتِدْلال MLLMs بِشَكْلٍ كَبِيرٍ، وَلا يَتَكَبَّد أَيْضاً تَكالِيفِ تَدْرِيبِ كَبِيرَةٍ أَثْناءَ التَدْرِيبِ. يَتَفَوَّق AccidentBlip2 عَلَى الحُلُولِ الحالِيَّةِ فِي مَجْمُوعَةِ بَياناتٍ DeepAccident وَيُمْكِن أَنَّ يُوَفِّر أَيْضاً حَلّاً مَرْجِعِيّا لِلتَنَبُّؤ بِحَوادِث القِيادَةِ الآلِيَّةِ مِن البِدايَةِ إِلَى النِهايَةِ. سَيَتِمّ إِصْدارِ الكود عَلَى: https://github.com/YihuaJerry/AccidentBlip2.git
النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط الَّتِي يُمْكِنها اِكْتِشافِ وَتَحْدِيدِ وُقُوعِ الحَوادِثِ بِدِقَّةٍ مُهِمَّةً لَمَجال السَلامَةِ فِي القِيادَةِ الذاتِيَّةِ. هُناكَ بِعَضِّ السَوابِقِ لِلأَشْخاصِ لِلكَشْفِ عَن سُلُوكِ المَرْكَبَةِ. عادَةً ما يَتِمّ قِيادَةِ المَرْكَبَةِ وِفْقاً لَمُحِيطها وَوِفْقاً لِقَواعِدِ المُرُورِ. بِالإِضافَةِ إِلَى ذٰلِكَ، فِي أَنْظِمَةِ المُرُورِ المُعَقَّدَةِ، يُمْكِن لِلمَرْكَبات التَوَقُّفِ أَو تَغْيِيرٍ المَساراتِ أَو حَتَّى الرُجُوعِ إِلَى الخَلْفِ. لِذٰلِكَ نَحْنُ نَشْمَل كُلِّ هٰذِهِ الظَواهِرِ فِي مُحِيطِ المَرْكَبَةِ. عَلَى الرَغْمِ مِن أَنَّ هٰذِهِ الظَواهِرِ مَشْمُوله جَمِيعُها فِي سِياقِ اِسْتِشْعار بِيئَةُ المَرْكَبَةِ، إِلّا أَنَّ التَعْقِيدِ الكامِن فِي نِظامِ المُرُورِ سَيُؤَدِّي إِلَى صُعُوباتٍ فِي نمذجه اِسْتِشْعار الطَرِيقِ. لِذٰلِكَ، غالِباً ما تُؤَدِّي اِسْتِخْدامِ طُرُقٍ الإِدْراك العَصَبِيِّ التَقْلِيدِيَّةِ إِلَى أَحْكامِ سَلْبِيَّةٍ.
وَمَعَ ذٰلِكَ، فَإِنَّ الطُرُقِ المُخَصَّصَةِ لِكَشْفِ حالاتِ الحَوادِثِ البَصَرِيَّةِ البحته لِلمُشاهِدِ المُعَقَّدَةِ لا تَزال ناقِصَةٌ. لٰكِنَّ قُدْرَةِ النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط عَلَى فَهُم المَشاهِدِ المُعَقَّدَةِ تَجْعَلها تُبْرِز فِي البِيئات المُعَقَّدَةِ لَمَهامّ القِيادَةِ الذاتِيَّةِ. الأَعْمالِ التَمْثِيلِيَّةِ الحالِيَّةِ تُسْتَخْدَم عادَةً نَماذِجَ البايغرام مُتَعَدِّدَةِ الوَسائِط لِلكَشْفِ عَن المَرْكَباتِ وَالأَشْخاصِ وَما إِلَى ذٰلِكَ فِي البِيئَةِ، مِمّا يُعَزِّز الاعتماديه فِي القِيادَةِ الذاتِيَّةِ. وَمَعَ ذٰلِكَ، فِي سِينارِيُوهاتٍ المُرُورِ المُعَقَّدَةِ، تَحَدَّثَ الحَوادِثِ بِشَكْلٍ مُتَكَرِّرٍ، لُذّاً يُمْكِن لِلنَمُوذَج اللُغَوِيُّ الكَبِيرِ مُتَعَدِّدِ الوَسائِط داخِلَ المَرْكَبَةِ اِسْتِخْدامِ قُدْرَتِهِ عَلَى فَهُم السِينارِيو لِتَحْدِيدِ مَعْلُوماتٍ الحَوادِثِ المُحِيطَةِ بِالمَرْكَبَة ذاتِيَّةٍ القِيادَةِ وَمُساعَدَةِ مُدِيرُ المُرُورِ عَلَى مَعْرِفَةُ ما إِذا كانَ هُناكَ أَيّ خَطَرِ أَو تَصادُمُ فِي البِيئَةِ المُحِيطَةِ.
فِي هٰذِهِ الوَرَقَةَ، نَقْتَرِح (AccidentBlip2)، نَمُوذَجَ لُغَوِيٌّ كَبِيرٍ مُتَعَدِّدِ الوَسائِط لِلحُكْمِ عَلَى الحَوادِثِ لَسِينارِيُوهات السِلْسِلَة الزَمَنِيَّةِ. نَهْدِف إِلَى تَقَدَّمَ التَطْبِيقِ العَمَلِيِّ لِلنَماذِج الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط فِي سِينارِيُوهاتٍ المُرُورِ المُعَقَّدَةِ. بِاِسْتِخْدامِ النَماذِجِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، قُمْنا بِتَنْفِيذِ إِطارِ عَمَلٍ لِتَجْمِيعِ صُور الكامِيرا ذاتِ ال6 وُجُهاتِ فِي إِدْخالُ مُؤَقَّتٌ مُتَعَدِّدِ الوَسائِط مَعَ مُحَوِّلات الرُؤْيَةِ. بُعْدَ ذٰلِكَ، يُمْكِن اِسْتِخْدامِ الرُمُوزَ الزَمَنِيَّةِ الَّتِي يُوَلِّدها مُحَوِّلِ الرُؤْيَةِ لِتَدْرِيبِ المُحَوِّلُ الزَمَنِيِّ. فِي المُمارِسَةِ العَمَلِيَّةِ، يَتِمّ نَقْلِ رَمْزُ الصُوَرِ الزَمَنِيَّةِ مِن المُحَوِّلُ الزَمَنِيِّ إِلَى مِشْفَر الرُؤْيَةِ لِلنَماذِج اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، حَيْثُ يَتِمّ اِسْتِخْدامِ قُوَّةٍ التَفْكِيرِ لِلنَماذِج اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط لِلتَنَبُّؤ وَتَحْدِيدِ ما إِذا كانَ قَد وَقَعَ حادِثٍ. يُمْكِن لِلنَماذِج اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط أَيْضاً التَفاعُل مَعَ السائِقُ مِن خِلالَ اللُغَةِ لَاِسْتِشْعار البِيئَةِ عَلَى الطَرِيقِ بِدِقَّةٍ أَكْبَرَ وَاِكْتِشافِ أَيّ مَخاطِرِ فِي الطَرِيقِ.
بِالإِضافَةِ إِلَى تَحْلِيلِ الإِدْراك لِلمَشْهَدِ المُحِيطِ لَمَرْكَبَة واحِدَةٍ، قُمْنا أَيْضاً بِتَطْوِيرِ نِظامِ إِدْراكٌ سِينارِيو تَعاوُنِي مُتَعَدِّدِ المَرْكَباتِ مِن البِدايَةِ إِلَى النِهايَةِ لِتَعْوِيضِ بِعَضِّ النِقاطِ العَمْياء وَالنَواقِص فِي إِدْراكٌ المَرْكَبَةِ الواحِدَةِ. لَقَد مَدَدْنا تَجارِبِ البِيئَةِ لِلمَرْكَبَةِ الواحِدَةِ إِلَى سِينارِيُوهاتٍ القِيادَةِ مِن البِدايَةِ إِلَى النِهايَةِ، وَاِخْتَبَرَنا دِقَّةٍ الحُكْمِ عَلَى الحَوادِثِ وَالإِدْراك بِالإِضافَةِ إِلَى الاِرْتِباطِ بَيِّنَ الذاتِ وَالمَرْكَبات المُتَعَدِّدَةِ، عَلَى التَوالِي. بِشَكْلٍ عامَ، إِلَيكُم مُساهَماتنا الرَئِيسِيَّةِ:
نَقْتَرِح وَكِيلا جَدِيداً لِلحُكْمِ عَلَى حَوادِثُ المُرُورِ البَصَرِيَّةِ، وَالَّذِي يُعالَج التَنَبُّؤ بِحَوادِث مُحَدَّدَةٍ وَيُنَبِّه السائِقِينَ إِلَى إِمْكانِيَّةَ وُقُوعِ حادِثٍ فِي بِيئات القِيادَةِ المُعَقَّدَةِ.
نُقَدِّم إِطارا لِلتَنَبُّؤ بِالحَوادِث مِن البِدايَةِ إِلَى النِهايَةِ بِناءَ عَلَى النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، مِمّا يُمْكِن النَماذِجِ الكَبِيرَةِ مِن تَحْدِيدِ ما إِذا كانَ قَد وَقَعَ حادِثٍ أَو هُناكَ خَطَرِ حادِثٍ فِي أَو حَوْلَ نِظامِ المَرْكَباتِ المُتَعَدِّدَةِ بِناءَ عَلَى مَعْلُوماتٍ المَرْكَبَةِ الجانِبِيَّةِ.
مَعَ ظُهُورِ GPT4، بَدَأَ عَدَدٍ كَبِيرٍ مِن نَماذِجَ اللُغَةِ الكَبِيرَةِ فِي اِسْتِكْشافٍ القُدْراتِ مُتَعَدِّدَةِ الوَسائِط. تُسْتَخْدَم هٰذِهِ النَماذِجِ مَعْلُوماتٍ مُتَعَدِّدَةِ الوَسائِط لِتَحْسِينِ نَمُوذَجَ اللُغَةِ لِتَعْزِيزِ قُدْرَةِ النَماذِجِ الكَبِيرَةِ عَلَى الاِنْدِماجِ وَإِلْفهم فِي وَسائِطَ مُخْتَلِفَةٍ. مِن بَيِّنَها، تَقُود النَماذِجِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط البَصَرِيَّةِ-اللَفْظِيَّة، بِقِيادَةِ GPT-4V وَ Llava-v1.5، إِلَى تَطْوِيرِ نَماذِجَ لُغَوِيّه كَبِيرَةٍ مُتَعَدِّدَةِ الوَسائِط تَنْطَبِق عَلَى سِينارِيُوهاتٍ مُخْتَلِفَةٍ. بِالإِضافَةِ إِلَى ذٰلِكَ، تَمَّ تَحْسِينِ نَماذِجَ مِثْلَ owlViT وَ Qwen-VL، وَهِيَ نَماذِجَ لُغَوِيّه كَبِيرَةٍ مُتَعَدِّدَةِ الوَسائِط لِلكَشْفِ عَن الأَهْدافِ، لَمَشاهِد مُحَدَّدَةٍ مِن خِلالَ الجَمْع بَيِّنَ مَجْمُوعاتٍ بَياناتٍ مُحَدَّدَةٍ، مِمّا يُتِيح لَها إِنْجازِ مَهامِّ بَصَرِيّه مُحَدَّدَةٍ بِأَوامِر مُوَجَّهَةٍ مِن المُسْتَخْدِمُ. لِلمَعْلُوماتِ مُتَعَدِّدَةِ الوَسائِط الزَمَنِيَّةِ، قَدَّمَ الباحِثُونَ أَيْضاً Video-Llava وَ Video-Llava، وَالَّتِي تُدْمِج قُدْراتٍ مُعالَجَةِ الصُوَرِ وَالفِيدْيُوهات الزَمَنِيَّةِ فِي نَمُوذَجَ لُغَوِيٌّ كَبِيرٍ. هُناكَ أَيْضاً باحِثُونَ يَقُومُونَ حالِيّاً بِتَحْسِين البَياناتِ مِن وَسائِطَ الصَوْتِ لَنَماذِج اللُغَةِ الكَبِيرَةِ، مِثْلَ Qwen-Audio، مِمّا يُسَهِّل تَطْوِيرِ نَماذِجَ لُغَوِيّه كَبِيرَةٍ لَوَسائِط الصَوْتِ. هٰذِهِ الاِنْدِماجات المُتَقاطِعَة لِلوَسائِط فِي نَماذِجَ اللُغَةِ الكَبِيرَةِ، الَّتِي يُسَهِّلها نَماذِجَ اللُغَةِ الكَبِيرَةِ فِي سِينارِيُوهاتٍ مُخْتَلِفَةٍ، تُوَفِّر حُلُولاً ذاتِ جُودَة لَمَهامّ مُخْتَلِفَةٍ فِي العالَمِ المَفْتُوحِ.
مُؤَخَّراً، مَعَ التَطَوُّرِ السَرِيعِ لَنَماذِج القِيادَةِ الذاتِيَّةِ، بَدَأَت نَماذِجَ اللُغَةِ الكَبِيرَةِ تُظْهِر تَدْرِيجِيّاً فِي مَجالِ القِيادَةِ الذَكِيَّةِ وتليماتيكس. سَيَشْهَد عامَ 2023 ظُهُورِ uniad، الَّذِي يُطْبَق نَماذِجَ اللُغَةِ الكَبِيرَةِ بِشَكْلٍ كامِلٍ فِي مَجالِ القِيادَةِ الذاتِيَّةِ لِلمَرَّةِ الأُولَى، حَيْثُ يُدْمَج uniad الشَخْصِيّاتِ الثَلاثَةِ المُهِمَّةِ لِلقِيادَةِ الذاتِيَّةِ: الإِدْراك، وَاِتِّخاذِ القَرارِ، وَالتَخْطِيطِ فِي هَنْدَسَةُ شَبَكِيّه مُوَحَّدَةٍ، مِمّا يُقَلِّل بِشَكْلٍ فَعّالٌ مِن فُقْدانِ المَعْلُوماتِ بَيِّنَ الوَحَداتِ المُسْتَقِلَّةِ المُخْتَلِفَةِ. كَما طَوْرِ الباحِثُونَ نَمُوذَجَ لُغَةً كَبِيرٍ مُتَعَدِّدِ الوَسائِط يُمْكِنه التَرْكِيزِ عَلَى نِيَّةِ السائِقُ يُسَمَّى CAVG. يَتَكَوَّن CAVG مِن خَمْسَةِ مشفرات مُتَخَصِّصَةٍ: مِشْفَر نَصَّيَّ، مِشْفَر عاطِفِيّ، مِشْفَر بَصَرِيّ، مِشْفَر سِياقِي، وَمِشْفَر عَبْرَ الوَسائِط. تَسْمَح هٰذِهِ المشفرات، بِالاِشْتِراكِ مَعَ مفككاتها المُقابَلَةِ، لَنَمُوذَج اللُغَةِ الكَبِيرِ بِالتَعامُلِ مَعَ وَسائِطَ مُخْتَلِفَةٍ مِن مَهامِّ القِيادَةِ الذاتِيَّةِ. فِي مُهِمَّةً الإِدْراك، يَسْتَخْدِم DRIVEGPT4 YOLOv8 لِلكَشْفِ عَن الأَهْدافِ الشائِعَةُ مِثْلَ السَيّاراتِ فِي كُلِّ إِطارِ مِن الفِيدْيُو وَيُرْسَل الإِحْداثِيّات الحُدُودِيَّةِ المُحَصِّلَةُ إِلَى ChatGPT كَمَعْلُومات لُغَوِيّه. وَمَعَ ذٰلِكَ، بِما أَنَّ DriveGPT4 يَقُوم فَقَط بِمَهامّ الوَعْيِ بِالبِيئَةِ لَمَرْكَبَة واحِدَةٍ، فَلا يُمْكِن نَشَرَهُ عَمَلِيّاً لَمَهامّ مِن طَرَفٍ إِلَى طَرَفٍ مَعَ رَبْطُ مُتَعَدِّدِ المَرْكَباتِ.
تَعُد حُكْمِ الحَوادِثِ المُرُورِيَّة مِن أَكْثَرَ المَجالاتِ بَحْثاً فِي مَجالِ سَلامَة القِيادَةِ الذاتِيَّةِ، حَيْثُ قامَ العَدِيدَ مِن الباحِثِينَ بِأَعْمالٍ كَثِيرَةٍ فِي هٰذا المَجالِ. اِسْتِناداً إِلَى الطُرُقِ التَقْلِيدِيَّةِ لِلكَشْفِ، اِسْتَخْدَمَ الباحِثُونَ الرُؤْيَةِ الأَمامِيَّةِ لِلمَرْكَبَةِ بِالتَزامُنِ مَعَ شَبَكَةِ عَصَبِيَّةُ لِلتَنَبُّؤ الزَمَنِيِّ، مِثْلَ شَبَكَةِ الذاكِرَةِ طَوِيلَةٍ الأَمَدِ أَو الشَبَكَةِ العَصَبِيَّةِ المُتَكَرِّرَةِ، لَتَحْذِير السائِقِينَ مِن وُقُوعِ حادِثٍ (c10). وَمَعَ ذٰلِكَ، فَإِنَّ هٰذِهِ الطَرِيقَةِ لا تَسْتَطِيع إِلّا أَنَّ تَحَسّ بِحالَةٍ المَرْكَبَةِ المُحِيطَةِ بِالدَرّاجَة، وَلا تَسْتَطِيع الإِحْساسِ بِالخَطَرِ فِي بِيئَةُ المُرُورِ المُعَقَّدَةِ. تُقِلّ اِحْتِمالَيْهِ التَنَبُّؤ الصَحِيحِ بِالحَوادِث إِذا ما واجَهَت أَحْوال جَوِّيَّةٍ مُعَقَّدَةٌ. مَعَ التَطَوُّرِ السَرِيعِ لَنَماذِج اللُغَةِ الكَبِيرَةِ، كانَ هُناكَ باحِثُونَ يَسْتَخْدِمُونَ نَماذِجَ اللُغَةِ الكَبِيرَةِ فِي إِدْراكٌ الحَوادِثِ، مِثْلَ نَمُوذَجَ الحَوادِثِ العِمْلاقِ. وَمَعَ ذٰلِكَ، نَظَراً لِأَنَّ مَجْمُوعَةِ البَياناتِ الخاصَّةِ بِهِ مسترجعه مُباشَرَةً مِن خِلالَ نَماذِجَ اللُغَةِ الكَبِيرَةِ، فَإِنَّهُ لا يَسْتَطِيع التَفْكِيرِ فِي إِدْراكٌ البِيئات الجَدِيدَةِ كُلِّيّاً فِي الحالاتِ المُعَقَّدَةِ.
Blip2 غَيْرِ قادِرٌ عَلَى مُعالَجَةِ مدخلات الصُوَرِ ذاتِ ال 6-وُجُهاتِ بِشَكْلٍ مُباشِرٍ، وَلا يُمْكِنه اِسْتِخْدامِ اِسْتِدْلال الصُوَرِ ذاتِ ال 6-وُجُهاتِ الزَمَنِيَّةِ بِشَكْلٍ مُباشِرٍ. فِي هٰذا القِسْمِ، نَسْتَخْدِم مَجْمُوعَةِ بَياناتٍ المُحاكاة وَتَحْوِيلِ الرُؤْيَةِ مِن محاكي (c11) لِتَعْزِيزِ قُدْرَةِ Blip2 عَلَى حَلٍّ الصُوَرِ الزَمَنِيَّةِ ذاتِ ال 6-وُجُهاتِ. وَبِالتالِي، نَأْمَل أَنَّ يَكُون Blip2 المُدَرِّبِ قادِراً عَلَى التَفْكِيرِ فِي الصُوَرِ الزَمَنِيَّةِ ذاتِ ال 6-وُجُهاتِ الَّتِي يُمْكِن اِسْتِخْدامُها لِلاِسْتِدْلال. مِن الجَدِيرِ بِالذَكَر أَنَّ إِطارِ عَمَلِنا يُمْكِن تَوْسِيعه لِيَشْمَل سِينارِيُوهاتٍ مُحاكاةَ القِيادَةِ الذاتِيَّةِ مِن طَرَفٍ إِلَى طَرَفٍ لِعِدَةِ مَرْكَباتِ.
نُقَدِّم إِطارا ادراكيا يَسْتَفِيد مِن نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، وَيَتَأَلَّف مِن مُكَوِّنَيْنِ رَئِيسِيَّيْنِ: مُعالَجَةِ الصُوَرِ مُتَعَدِّدَةِ الوُجُهات وَالاِسْتِدْلالُ الزَمَنِيِّ. فِي مَرْحَلَةِ مُعالَجَةِ الوُجُهات المُتَعَدِّدَةِ، نَسْتَخْدِم ViT-14g لِلتَعامُلِ مَعَ الوُجُهات المُتَعَدِّدَةِ وَاِسْتِخْراج المِيزاتِ الصُوَرِيَّة ذاتِ الصِلَةِ. تَلْتَقِط هٰذِهِ المِيزاتِ مَعْلُوماتٍ بَصَرِيّه مُهِمَّةً مِن وُجُهاتِ نَظَرِ مُخْتَلِفَةٍ. فِي مَرْحَلَةِ الاِسْتِدْلال الزَمَنِيِّ، نَسْتَخْدِم الاِسْتِعْلامات كَحامِلات لِلمَعْلُوماتِ الزَمَنِيَّةِ لِلنَقْلِ الأَمامِيّ. تَحْتَوِي هٰذِهِ الاِسْتِعْلامات عَلَى إِشاراتٍ سياقيه وَزَمَنِيَّةٌ تُسَهِّل الفَهْمِ وَالاِسْتِدْلالُ عَبْرَ الزَمَنِ. مِن خِلالَ دَمْجِ هاتَيْنِ المَرْحَلَتَيْنِ، يُمْكِن إِطارنا مِن الإِدْراك وَالاِسْتِدْلالُ الشامِلِ بِطَرِيقَةٍ مُتَعَدِّدَةِ الوَسائِط.
يَسْتَخْدِم مِشْفَرنا البَصْرِيّ ViT-14g مِن EVA-CLIP(c13). يَقْرَأ مُحَوِّلِ الرُؤْيَةِ أَوَّلاً الصُوَرِ مُتَعَدِّدَةِ الوُجُهات الَّتِي يُوَفِّرها الكامِيرا وَيَسْتَخْرِج المِيزاتِ بِشَكْلٍ مُنْفَصِل بُعْدَ تَغْيِيرٍ حَجْمِ كُلِّ صُورَةِ. نَسْتَخْدِم مُحَوِّلِ الرُؤْيَةِ المُدَرِّبِ مُسْبَقاً كَعَمُود فَقُرَى لَاِسْتِخْراج المِيزاتِ \(f_t\) لِلوُجُهات المُتَعَدِّدَةِ لَإِطارات \(t\)، وَنَدْخُل مِيزاتِ كُلِّ إِطارِ مُتَعَدِّدِ الوُجُهات فِي الطَبَقَةِ الخَطِيَّة لِ Qformer لِلقِيامِ بِالاِسْتِدْلال. قِبَلَ إِدْخالُ مِيزاتِ الوُجُهات المُتَعَدِّدَةِ لَإِطار \(t\) فِي Qformer، سَيَقُوم مُحَوِّلِ الرُؤْيَةِ أَوَّلاً بِنَشْرِ مِيزاتِ كُلِّ صُورَةِ فِي بُعْدَ واحِدٍ، ثُمَّ يَخِيط مِيزاتِ الصُوَرِ السِتِّ، وَيُدْخِل المِيزاتِ المخيطه \(f_t\) فِي اِنْتِباهَ مُتَقاطِع لِ Qformer. فِي الوَقْتِ نَفْسِهِ، يَتِمّ إِدْخالُ الاِسْتِعْلام القابِل لِلتَعَلُّمِ \(Q_t\) فِي طَبَقَةٌ الاِنْتِباهِ الذاتِيِّ لِ Qformer فَقَط، وَيَتِمّ إِخْراجِ الاِسْتِعْلام الجَدِيدِ مِن خِلالَ طَبَقَةٌ التَغْذِيَةِ الأَمامِيَّةِ.
اِعْتِماداً عَلَى نَوْعٍ البَياناتِ فِي القِيادَةِ الذاتِيَّةِ، نَحْتاج إِلَى اِقْتِراحِ إِطارِ يُمْكِنه التَعامُلِ مَعَ الصُوَرِ الزَمَنِيَّةِ. نَقْتَرِح الاِنْتِباهِ الذاتِيِّ الزَمَنِيِّ، الَّذِي يَدْخُل مَعْلُوماتٍ الصُوَرِ مُتَعَدِّدَةِ الوُجُهات لِكُلِّ إِطارِ مِن خِلالَ الاِسْتِعْلام الزَمَنِيِّ \(Q_n\)، يَدْخُل \(Q_n\) فِي Qformer المُقابِلِ، وَيَحْصُل عَلَى الاِسْتِعْلام \(Q_{n+1}\) المُقابِلِ لِإِدْخالِ الإِطارِ التالِي. بِاِسْتِخْدامِ مَزايا آلِيَّةِ الاِنْتِباهِ فِي Qformer، يَتَفاعَل مَعَ المِيزاتِ المُسْتَخْرَجَة مِن آخَرِ إِخْراجِ لِ Qformer، كَما هُوَ مُوَضِّح فِي [fig:pic2]. تُظْهِر مِيزاتِ الوُجُهات المُتَعَدِّدَةِ لِكُلِّ إِطارِ \(f_t\) فِي الاِنْتِباهِ مَعَ الاِسْتِعْلام الزَمَنِيِّ \(Q_n\)، مَكْتُوبه فِي [eq1], \[Attn(Q_{n-1}, K_{Car}, V_{Car} )=Softmax(\frac{Q_{n}\cdot K_{Car}^{T}}{\sqrt{d_{k} } } ) V \label{eq1}\]
حَيْثُ \(Q_{n-1} \in \mathbb{R} ^ {N_Q \times D}\) يُشِير إِلَى مِيزَةً الاِسْتِعْلام مِن الطابِعِ الزَمَنِيِّ الأَخِيرِ، وَالَّتِي تُؤَدِّي إِلَى تَوْلِيدِ إِخْراجِ الحالَةِ الحالِيَّةِ \(Q_n\). بُعْدَ ذٰلِكَ، مِن أَجْلِ تَقْدِيمِ وِجْهَةِ النَظَرِ الصُوَرِيَّة الحالِيَّةِ. يَجْمَع الحالَةِ الحالِيَّةِ \(Q_n\) مِيزاتِ الصُورَةِ مِن ViT-g، المُشارِ إِلَيها ك \(f_t\). يُمْكِن وَصَفَ آلِيَّةِ الاِنْتِباهِ المُتَقاطِعَة كَما يَلِي
\[Q=Q_nW^Q \hspace{1em} K=V=f_tW^K\]
\[CrossAttn(Q_n, f_t) = Softmax\left ( \frac {QK^T}{\sqrt {d_2}}\right ) V\]
لِضَمانِ إِدْراكٌ مَوْثُوقٌ لِبِيئَةٍ المَرْكَبَةِ، يُمْكِن أَنَّ يَكُون الاِعْتِمادِ فَقَط عَلَى مُرَكَّبَةٌ واحِدَةٍ نَهْجاً غَيْرِ كافٍ بِسَبَبِ وُجُودِ مَناطِقِ عَمْياءَ فِي الإِدْراك البَصْرِيّ. لِمُواجَهَةِ هٰذا التَحَدِّي، قُمْنا بِتَنْفِيذِ نِظامِ إِدْراكٌ يَعْتَمِد فَقَط عَلَى الرُؤْيَةِ لِلتَفاعُلِ بَيِّنَ عِدَّةٍ مَرْكَباتِ. فِي أَنْظِمَةِ المُرُورِ المُعَقَّدَةِ، تَمَّ تَصْمِيمِ شَبَكَةِ الأَعْصاب الخاصَّةِ بِمَرْكَبَتنا لَيِسَ فَقَط لَتَقْيِيم الحَوادِثِ المُحْتَمَلَةِ الَّتِي تَشْمَل المَرْكَبَةِ الذاتِيَّةِ وَلٰكِن أَيْضاً لَتَقْيِيم مَخاطِرِ الحَوادِثِ الَّتِي تَشْمَل مَرْكَباتِ أُخْرَى. وَقَد تَمَّ تَحْقِيقِ ذٰلِكَ مِن خِلالَ طَرِيقَةِ التَدْرِيبِ المُشْتَرَكِ لِعِدَةِ مَرْكَباتِ. وَنَتِيجَةَ لِذٰلِكَ، نَجَحْنا فِي تَدْرِيبِ وَكِيلُ وَأَعِي بِالحَوادِث لِعِدَةِ مَرْكَباتِ بِاِسْتِخْدامِ بَياناتٍ مِن مَجْمُوعَةِ بَياناتٍ DeepAccident.
فِي نِظامِنا لِعِدَةِ مَرْكَباتِ، نَسْتَخْدِم نَمُوذَجَ ViT-14g المُدَرِّبِ مُسْبَقاً عَلَى كُلِّ مُرَكَّبَةٌ، المُشارِ إِلَيها ب \(Car_n\)، لَاِسْتِخْراج المِيزاتِ \(f\) مِن صُور العَرْضِ المُتَعَدِّدِ لِلإِطار الحالِيَّ لِلمَرْكَبَةِ الذاتِيَّةِ. ثُمَّ يَتِمّ إِدْخالُ هٰذِهِ المِيزاتِ فِي وَحْدَةِ MotionBlip2 المُصَمِّمَة خَصِيصاً. بِالإِضافَةِ إِلَى ذٰلِكَ، بِالنِسْبَةِ لِلاِسْتِعْلامات الَّتِي تَمَّ إِنْشاؤها بِواسِطَةِ AccidentBlip2، نَقُوم بِدَمْجها مَعَ اِسْتِعْلامات المَرْكَباتِ المُتَعَدِّدَةِ وَإِدْخالها فِي Motion Qformer فِي الخَطْوَةِ الزَمَنِيَّةِ التالِيَةِ. أَخِيراً، نَحُول هٰذا الاِسْتِعْلام ذُو الأَبْعاد العالِيَةِ إِلَى تنسور أُحادِيٍّ البُعْدِ لَاِسْتِخْدامه كمدخلات لِلشَبَكَةِ العَصَبِيَّةِ مُتَعَدِّدَةِ الطَبَقاتِ (Multi-Layer Perceptron)، كَما هُوَ مُوَضِّح فِي المُعادَلَةَ [eq4]. \[\mathbf{X_i} = \text{MLP}(\text{concat}(Q_1, Q_2, Q_3, Q_4, ... \text{dim}=0)) \label{eq4}\]
نَدْخُل الرَمْزُ المُخْرِجُ مِن الشَبَكَةِ العَصَبِيَّةِ مُتَعَدِّدَةِ الطَبَقاتِ فِي الإِطارِ \(i\) إِلَى التَضْمِين، وَيَخْضَع الرَمْزُ المُضَمَّن \(X_i\) لِلاِنْحِدار الذاتِيِّ، وَمِن خِلالَهُ نُحَدِّد ما إِذا كانَ هُناكَ حادِثٍ بَيِّنَ أَنْظِمَةِ المَرْكَباتِ المُتَعَدِّدَةِ. كُلِّ اِسْتِعْلام \(Q_n\) يُشِير إِلَى وِجْهَةِ نَظَرِ واحِدَةٍ مِن مُرَكَّبَةٌ واحِدَةٍ \(Car_n\) فِي نِظامِ المَرْكَباتِ المُتَعَدِّدَةِ، مُتَّصِل بِبَعْضه البَعْضُ، مِمّا يُؤَدِّي إِلَى تَجْمِيعِ 24 وِجْهَةِ نَظَرِ لِتَنْسِيقِ المِيزاتِ.
فِي هٰذا القِسْمِ، نَقُوم بِتَقْيِيم نِظامِنا عَلَى مَجْمُوعَةِ بَياناتٍ المُحاكاة DeepAccident. نَخْتَبِره بِشَكْلٍ مُنْفَصِل لَإِدْراك المَرْكَبَةِ الفَرْدِيَّةِ مُقابِلَ إِدْراكٌ المَرْكَباتِ المُتَعَدِّدَةِ. بِشَكْلٍ أَكْثَرَ دِقَّةٍ، سَنُرَكِّز عَلَى شَرْحِ النِقاطِ التالِيَةِ:
هَل يُمْكِن لِ AccidentBlip2 تَحْدِيدِ الحَوادِثِ فِي أَنْظِمَةِ المُرُورِ المُعَقَّدَةِ بِكَفاءَة أَكْبَرَ مِن الحُلُولِ الأُخْرَى الَّتِي تَعْتَمِد فَقَط عَلَى الرُؤْيَةِ فِي أَنْظِمَةِ السَلاسِل الزَمَنِيَّةِ؟
هَل يُمْكِن لِ AccidentBlip2 الإِحْساسِ بِالحَوادِث الَّتِي تَحَدَّثَ حَوْلَهُ بِدِقَّةٍ أَكْبَرَ مِن نِظامِ المَرْكَبَةِ الفَرْدِيَّةِ فِي نِظامِ نِهايَةِ إِلَى نِهايَةِ لِلمَرْكَبات المُتَعَدِّدَةِ؟
لِلتَدْرِيبِ وَالتَقْيِيم، اِعْتَمَدْنا مَجْمُوعَةِ بَياناتٍ مَفْتُوحَةً المَصْدَرُ، (c2)، مُسْتَفِيدَيْنِ مِن مَعْلُوماتها البَصَرِيَّةِ الكامِلَةِ عَن المَرْكَباتِ وَالبُنَى التَحْتِيَّةِ. فِي مَجْمُوعَةِ بَياناتٍ (c2)، تَتَكَوَّن مِن مَجْمُوعاتٍ مِن السِينارِيُوهات الَّتِي تُحاكِي تِلْكَ الاِصْطِدامات المُحْتَمَلَةِ فِي العالَمِ الحَقِيقِيِّ، مُرْفَقَهُ بِأَرْبَع مَرْكَباتِ، بِنْيَةَ تَحْتِيَّةٍ واحِدَةٍ وَتَوْضِيحات سَحابه نِقاطٍ الرُؤْيَةِ العَلَوِيَّة. وَمَعَ ذٰلِكَ، عَلَى عَكْسَ تِلْكَ التَقْنِيّاتِ مُتَعَدِّدَةِ الوَسائِط، يَعْتَمِد (AccidentBlip2) عَلَى أَسالِيبِ حَصْرِيَّةِ لِلرُؤْيَةِ، وَبِالتالِي يَشْمَل فَقَط الصُوَرِ البَصَرِيَّةِ المَأْخُوذَةِ مِن الأَجْسام.
كَما اِقْتَرَحَتْهُ (c2)، تَتَكَوَّن مِن 12 نَوْعاً مِن سِينارِيُوهاتٍ الحَوادِثِ الَّتِي تَحَدَّثَ عِنْدَ التَقاطُعات المُنَظَّمَةِ وَغَيْرِ المُنَظَّمَةِ. تَحْتَوِي مَجْمُوعَةِ البَياناتِ عَلَى 57 أَلْفِ إِطارِ مُوَضِّح V2X، مُقَسَّمَةً بِنِسْبَةِ 0.7، 0.15 وَ 0.15 لَمَجْمُوعات التَدْرِيبِ، التَحَقُّقِ وَالاِخْتِبار عَلَى التَوالِي. يُمْكِن أَنَّ يَتِمّ تَدْرِيبنا فِي جِهازِ بِأَرْبَع وَحَداتٍ مُعالَجَةِ رُسُومات مِن نَوْعٍ A6000، وَالَّذِي يَتَطَلَّب أَقَلَّ مِن 24 ساعَةً لِلنَتِيجَة.
المِعْيار الأَساسِيُّ لَدَينا هُوَ نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو الشائِعُ (نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو). يَرِي اِسْتِخْدامِ نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو غالِباً عِنْدَ التَعامُلِ مَعَ مَهامِّ الفِيدْيُو. نَقُوم أَيْضاً بِمُقارَنَته مَعَ نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو-فَيَكُونا، وَهُوَ نُسْخَةً مُحَسِّنه مِن نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو. بِالإِضافَةِ إِلَى عائِلَةِ نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو مِن نَماذِجَ اللُغَةِ الكَبِيرَةِ لِلفِيدْيُو، اُسْتُخْدِمْنا أَيْضاً نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو-لَلافا، نَمُوذَجَ الاِسْتِدْلال الكَبِيرِ لِلُغَةِ الفِيدْيُو لِلمُحاذاة قِبَلَ الإِسْقاط، كَمُقارَنَة. النَماذِجِ الكَبِيرَةِ لِلُغَةِ الفِيدْيُو المُحَسِّنَة بَصَرِيّا مِثْلَ لَلافا وجي بِي تِي-٤ف لا تَتَّسِع بِسُهُولَةٍ لمدخلات البَياناتِ الزَمَنِيَّةِ، وَهِيَ لَيِسَت أَفْضَلَ مِن نَمُوذَجَ اللُغَةِ الكَبِيرِ لِلفِيدْيُو، لُذّاً لَم يَتِمّ تَضُمِّينَها فِي المُقارَنَةِ.
يَتَكَوَّن نَمُوذَجنا المُقْتَرَحِ مِن مِشْفَر بَصَرِيّ ViT-14g، وَيَسْتَخْدِم Motion Qformer لَاِسْتِخْراج وَدَمْج المِيزاتِ مِن النُصُوصِ وَالصُوَرِ. مَعَ مُراعاةِ التَجْرِبَةِ المُثْلَى لِلتَنَبُّؤ بِالحَوادِث، نَقُوم بِتَدْرِيبِ نَمُوذَجَ AccidentBlip2 بِحَجْمِ صُورَةِ \(224 \times 224\).
فِي أَعْدادنا، يَتِمّ تَجْمِيدَ مُعَلِّمات نَمُوذَجنا لِلنَمُوذَج البَصْرِيّ ViT-14g وَنَمُوذَجٌ اللُغَةِ OPT-2.7B(c14)، وَالَّتِي تَمَّ تَهْيِئَتها باوزان مُدَرَّبَةٍ مُسْبَقاً، مُماثِلَةٍ لِ Blip-2(c21). يَهْدِف Motion Qformer، بِما أَنَّهُ يَتَعاوَن مَعَ مِيزاتِ Qformer، إِلَى دَمْجِ عِدَّةٍ وُجُهاتِ نَظَرِ مَعَ المَرْكَباتِ الجَماعِيَّةِ مَعاً، يَتِمّ تَحْمِيلَهُ وَتَدْرِيبه مَعَ المَهامّ الَّتِي تَدْعَم كُلِّ مِن التَنَبُّؤ وَمُخْرِجات نَمُوذَجَ اللُغَةِ. يَتِمّ تَمْرِيرَ مدخلات الصُورَةِ مِن خِلالَ طَبَقَةٌ ViT إِلَى Motion Qformer مِن أَجْلِ اِلْتِقاطِ المِيزاتِ الدِينامِيكِيَّة الزَمَنِيَّةِ داخِلَ إِطارات مُخْتَلِفَةٍ.
أَثْناءَ التَدْرِيبِ، اِخْتَرْنا تَسْخَِينَ مُعَدَّلِ التَعَلُّمِ لِلفَتَرات الثَلاثِ الأُولَى، بِالاِقْتِران مَعَ مُحْسِن Adam[1] ب \(\beta_1\) = 0.9 وَ \(\beta_2\) = 0.999. تَمَّ تَدْرِيبِ نَمُوذَجَ AccidentBlip2 لِمُدَّةِ 8 فَتَراتِ، بِاِسْتِخْدامِ تَحْلِل مُعَدَّلِ التَعَلُّمِ الجَيْبِيّ كَمَجْدُول لَمُعَدَّل التَعَلُّمِ حَتَّى \(1e-5\). فَتْرَةٍ التَدْرِيبِ هِيَ 6 وَحَجْمُ الدُفْعَةِ هُوَ 8، تَخْتَلِف مِن مُهِمَّةً إِلَى أُخْرَى تَشْمَل أَعْدادِ مُخْتَلِفَةٍ مِن المَرْكَباتِ. مِن حَيْثُ السِينارِيُوهات المُتَعَدِّدَةِ، مَعَ أَخَذَ عَيِّناتٍ مِن الطابِعِ الزَمَنِيِّ 0 إِلَى T(الطابِعِ الزَمَنِيِّ النِهائِيِّ)، شَكْلٍ المدخلات هُوَ \(X_S \in \mathbb{R} ^ {T \times N_V \times V_C \times C \times H \times W}\)، حَيْثُ \(T\) يَدُلّ عَلَى طُولِ الزَمَنِ، \(N_V\) يُمَثِّل عَدَدٍ المَرْكَباتِ، \(V_C\) يَدُلّ عَلَى 6 وُجُهاتِ نَظَرِ مُنْفَصِلَةٍ لِلمَرْكَبَةِ، تَشْمَل الكامِيراتِ الأَمامِيَّةِ، الأَمامِيَّةِ اليُسْرَى، الأَمامِيَّةِ اليُمْنَى، الخَلْفِيَّةِ، الخَلْفِيَّةِ اليُسْرَى وَالخَلْفِيَّة اليُمْنَى، وَ \(H\) وَ \(W\) تَقِفانِ لِحَجْمِ صُورَةِ الإِدْخال. يَتَفاعَل Motion Qformer بِشَكْلٍ تَكْرارِي مَعَ مُخْرِجات الاِسْتِعْلام \(Q_{T-1} \in \mathbb{R} ^ {N_V \times N_Q \times D}\)، الَّتِي تَنْبَثِق مِن وُجُهاتِ النَظَرِ فِي الطابِعِ الزَمَنِيِّ الأَخِيرِ. يَأْخُذ وَيَخْرُج المِيزاتِ مُتَعَدِّدَةِ الوُجُهات الزَمَنِيَّةِ بِشَكْلٍ مُتَكَرِّرٍ حَتَّى يَصِل إِلَى نِهايَتِهِ، ثُمَّ يَكُون وَحْدَةِ LLM مَسْؤُولَةٌ عَن جَمْعِ مَخْرَجٍ الاِسْتِعْلام النِهائِيِّ \(Q_T\) مَجْمَعا تَضْمِينِ صُورَةِ شامِلَةٍ. يَتِمّ حِسابِ خَسارَةِ التَدْرِيبِ \(Loss(p_t)\)، المُوَضِّحَة فِي المُعادَلَةَ التالِيَةِ [eq2]، بِناءَ عَلَى Focal Loss، حَيْثُ \(p_t\) يَدُلّ عَلَى اِحْتِمالِ الفِئَةِ الصَحِيحَةِ، \(\alpha\) يَسْتَخْدِم لِمُوازَنَةِ اوزان العَيْنات الإِيجابِيَّةِ وَالسَلْبِيَّة وَ \(\gamma\) يَتَحَكَّم فِي مُعَدَّلِ العَيْنات المُكْتَشِفَةِ.
نَظَراً لِلتَخْفِيفِ مِن فِئاتِ الخَلَلِ حَيْثُ يَتَنَبَّأ نَمُوذَجنا بِالحَوادِث، يَتِمّ ضَبْطِ \(\alpha\) عَلَى 0.25، بَيْنَما يَظَلّ \(\gamma\) عِنْدَ قِيمَتُهُ الاِفْتِراضِيَّةِ 2.0، مِمّا يُساعِد عَلَى تَدْرِيبِ النَمُوذَجِ لِلتَرْكِيز بِشَكْلٍ أَكْبَرَ عَلَى العَيْنات المُصَنَّفَةُ بِشَكْلٍ خاطِئٍ.
تَقَدَّمَ الجَدْوَلُ [Table 1] نَتائِجِ أَداءِ مدخلات تَكْوِينات مُخْتَلِفَةٍ لِنَمُوذَجِنا. مِن خِلالَ تَصْمِيمِ نَماذِجَ تَكْوِينِ مُخْتَلِفَةٍ لِإِظْهارِ أَداءِ النَمُوذَجِ، قُمْنا بِتَقْيِيم AccidentBlip2 فِي سِينارِيو سَيّارَةٍ واحِدَةٍ، وَسِينارِيو عِدَّةٍ سَيّاراتٍ، بِما فِي ذٰلِكَ السَيّارَةِ الذاتِيَّةِ، وَالسَيّاراتِ الأُخْرَى وَالسَيّاراتِ خَلَّفَها، بِالإِضافَةِ إِلَى سِينارِيو الرُؤْيَةِ الكامِلَةِ مِن خِلالَ إِدْخالُ رُؤْيَةٍ البُنْيَةِ التَحْتِيَّةِ. وَبِفَضْلِ الاِسْتِفادَةِ مِن سِتَّةِ مستشعرات كامِيرا مُثَبِّته عَبْرَ أَرْبَع سَيّاراتٍ، يَلْتَقِط نَمُوذَجَ Motion Qformer بِفَعّالِيَّةٍ المِيزاتِ الزَمَنِيَّةِ لِعِدَةِ سَيّاراتٍ.
هٰذا يُؤَدِّي إِلَى تَحْسِينِ الدِقَّةِ بِنِسْبَةِ 2% مُقارَنَةً بِسِينارِيو السَيّارَةِ الواحِدَةِ. عِلاوَةً عَلَى ذٰلِكَ، يُمْكِن مُلاحَظَةُ زِيادَةِ واضِحَةٍ بِنِسْبَةِ 6.6% مَعَ ظُهُورِ عِدَّةٍ وُجُهاتِ نَظَرِ، مِمّا يُظْهِر أَنَّ النَمُوذَجِ يَأْخُذ بِعَيْنِ الاِعْتِبارِ نَظْرَةٌ عامَّةٍ عَلَى الحَوادِثِ بِفَعّالِيَّةٍ.
يَتَفَوَّق نَمُوذَجنا المُقْتَرَحِ عَلَى النَماذِجِ الأَساسِيَّةِ فِي كُلِّ مِن تَكْوِينات السَيّارَةِ الواحِدَةِ وَالسَيّاراتِ المُتَعَدِّدَةِ. مُقارَنَةً بِنَماذِج اللُغَةِ الكَبِيرَةِ لِلفِيدْيُو هٰذِهِ، المَعْرُوضَةِ فِي الجَدْوَلُ [Table 2]، يُحَقِّق AccidentBlip2 نِسْبَةَ 66.5% بمدخلات سَيّارَةٍ واحِدَةٍ فَقَط. بِالمُقارَنَةِ مَعَ V2XFormer، المُقْتَرَحِ مَعَ ثَلاثَةِ إِعْدادات اِنْدِماجَ وَكِيلُ V2X مُخْتَلِفَةٍ، يُمْكِن مُلاحَظَةُ زِيادَةِ كَبِيرَةٍ فِي نَمُوذَجنا، بِتَحْسِين حِوالِي 3% فِي الدِقَّةِ.
تَمَّ تَصْمِيمِ نَهْجنا لِمُعالَجَةِ تَحَدِّي تَحَوُّلاتٍ التَدَرُّج أَثْناءَ التَدْرِيبِ، وَالَّتِي يُمْكِن أَنَّ تُؤَدِّي إِلَى اِنْفِجارٍ التَدَرُّج فِي العُصُورِ الأُولَى. لِلتَخْفِيفِ مِن هٰذِهِ المُشْكِلَةِ، نَسْتَخْدِم جَدْوَلا زَمَنِيّا للتسخين يَقُوم بِتَعْدِيلات طَفِيفَةٍ عَلَى مُعَدَّلِ التَعَلُّمِ ضِمْنَ نِطاقِ ضَئِيلٍ. هٰذا يُساعِد عَلَى اِسْتِقْرارِ عَمَلِيَّةِ التَدْرِيبِ. يَعْمَل نَمُوذَجنا مُتَعَدِّدِ السَيّاراتِ عَلَى أَرْبَع وَحَداتٍ مُعالَجَةِ رُسُومات مُنْفَصِلَةٍ، مِمّا يُتِيح لَنا جَمْعِ نَتائِجِ الاِسْتِعْلام مِن كُلِّ Motion Qformer. بِالإِضافَةِ إِلَى ذٰلِكَ، أَجْرَيْنا تَجارِبِ لِاِسْتِكْشافِ تَأْثِيرِ الوَزْنِ الأُولَى لِ Qformer، مُقارَنَةً بالاوزان المُدَرِّبَة مُسْبَقاً مِن Blip2 مَعَ التَهْيِئَة الاِفْتِراضِيَّةِ. كَشَفَت النَتائِجِ عَن اِنْخِفاضِ فِي الأَداءِ العامِّ لَنَمُوذَج اللُغَةِ الخاصِّ بِنا عِنْدَ تَقْيِيمه عَلَى مَجْمُوعَةِ بَياناتٍ DeepAccident. لِلتَغَلُّبِ عَلَى هٰذا، نَسْتَخْدِم الاوزان المُدَرِّبَة مُسْبَقاً مِن Blip2 لَتَهْيِئَة AccidentBlip2، مِمّا يُحَسِّن فَعّالِيَّةِ النَمُوذَجِ فِي مَهامِّ الكَشْفِ عَن الحَوادِثِ.
فِي هٰذِهِ الوَرَقَةَ البَحْثِيَّة، نَقْتَرِح إِطارِ عَمَلٍ لِكَشْفِ الحَوادِثِ يَعْتَمِد عَلَى نَمُوذَجَ Motion Qformer وَيُسَمَّى AccidentBlip2، وَالَّذِي يَعْتَمِد فَقَط عَلَى مدخلات الرُؤْيَةِ لِتَحْلِيلِ مَعْلُوماتٍ الطَرِيقِ. يُقَدِّم هٰذا الإِطارِ العَمَلِ الاِنْتِباهِ الزَمَنِيِّ فِي Blip2 مِن خِلالَ اِسْتِبْدالِ أَلَياتِ الاِنْتِباهِ الذاتِيِّ. يَسْتَخْدِم الاِسْتِعْلامات كَحامِلات لِلمِيزات الزَمَنِيَّةِ، مِشْفَرا المَعْلُوماتِ مِن كُلِّ إِطارِ فِي الاِنْتِباهِ الزَمَنِيِّ لِلإِطار التالِي. يُتِيح ذٰلِكَ الاِسْتِدْلال التِلْقائِيّ بِاِسْتِخْدامِ MLP لِتَحْدِيدِ ما إِذا كانَ قَد وَقَعَ حادِثٍ وَلِتَقْدِيم وَصَفَ لِلبِيئَةِ المُحِيطَةِ.
عِنْدَ مُقارَنَةً دِقَّةٍ كَشَفَ الحَوادِثِ مَعَ نَماذِجَ اللُغَةِ الكَبِيرَةِ الأُخْرَى المُعْتَمَدَةِ عَلَى الفِيدْيُو، يَبْرُز AccidentBlip2 بِدِقَّةٍ مُثِيرَةٍ لِلإِعْجاب بَلَغَت 66.5%، مُتَجاوِزا أَداءِ جَمِيعِ النَماذِجِ الأَساسِيَّةِ. يُسَلِّط ذٰلِكَ الضَوْء عَلَى فَعّالِيَّةِ إِطارِ عَمَلِنا فِي أَنْظِمَةِ النَقْلِ المُتَعَدِّدَةِ المَرْكَباتِ المُعَقَّدَةِ. عَلَى وَجْهِ التَحْدِيدِ، يُحَقِّق نِظامِنا المُكَوَّنِ مِن أَرْبَع مَرْكَباتِ دِقَّةٍ بَلَغَت 72.2% فِي كَشَفَ الحَوادِثِ البِيئِيَّةِ، مِمّا يُشِير إِلَى تَحَسُّنِ كَبِيرٍ مُقارَنَةً بِدِقَّةٍ كَشَفَ حَوادِثُ المَرْكَبَةِ الواحِدَةِ. عِلاوَةً عَلَى ذٰلِكَ، يُظْهِر AccidentBlip2 مَزايا واضِحَةٍ فِي التَحَقُّقِ مِن الحَوادِثِ مُقارَنَةً بِنَماذِج اللُغَةِ الكَبِيرَةِ الأُخْرَى المُعْتَمَدَةِ فَقَط عَلَى الفِيدْيُو المُسْتَخْدَمَةِ فِي أَنْظِمَةِ المَرْكَباتِ المُتَعَدِّدَةِ. تُؤَكِّد هٰذِهِ النَتائِجِ فَعّالِيَّةِ نَهْجنا وَإِمْكاناته لِتَعْزِيزِ قُدْراتٍ كَشَفَ الحَوادِثِ فِي سِينارِيُوهاتٍ المُرُورِ المُعَقَّدَةِ.