فِي الترميز التخميني لَنَماذِج اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط

Mukul Gagrani

Raghavv Goel

Wonseok Jeon

Junyoung Park

Mingu Lee

Christopher Lott

مُلَخَّصُ

الاِسْتِدْلال بِاِسْتِخْدامِ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط (MLLMs) بَطِيء بِسَبَبِ العَمُودِ الفَقْرِيِّ لَنَمُوذَج اللُغَةِ الكَبِيرِ الَّذِي يُعانِي مِن عُنْقِ الزُجاجَةِ فِي عَرَضَ النِطاقِ التَرَدُّدِيِّ لِلذاكِرَة وَيُولَد الرُمُوزَ بِشَكْلٍ تِلْقائِيّ تَصاعُدِي. فِي هٰذِهِ الوَرَقَةَ، نَسْتَكْشِف تَطْبِيقِ الترميز التخميني لِتَعْزِيزِ كَفاءَةِ الاِسْتِدْلال لَنَماذِج MLLMs، وَتَحْدِيداً نَمُوذَجَ LLaVA 7B. نُظْهِر أَنَّ نَمُوذَجَ اللُغَةِ فَقَط يُمْكِن أَنَّ يَكُون نَمُوذَجاً أَوَّلِيّا جَيِّداً للترميز التخميني مَعَ LLaVA 7B، مُتَجاوِزا الحاجَةِ لَرُمُوز الصُوَرِ وَمُكَوِّناتِ المُعالَجَةِ المُرْتَبِطَةِ بِها مِن النَمُوذَجِ الأُولَى. تُظْهِر تَجارِبنا عَبْرَ ثَلاثِ مَهامِّ مُخْتَلِفَةٍ أَنَّ الترميز التخميني يُمْكِن أَنَّ يُحَقِّق تَسْرِيعُ مَحْدُودٍ بِالذاكِرَةِ يَصِل إِلَى 2.37\(\times\) بِاِسْتِخْدامِ نَمُوذَجَ لُغَةً بِمَعامِل 115M قُمْنا بِتَدْرِيبه مِن الصِفْرِ. بِالإِضافَةِ إِلَى ذٰلِكَ، نُقَدِّم نَمُوذَجَ LLaVA أُولَى مُدْمَج يَتَضَمَّن مُحَوِّلِ صُور، وَالَّذِي يُظْهِر مَكاسِبَ أَداءِ طَفِيفَةٍ فِي وَصَفَ الصُوَرِ مَعَ الحِفاظِ عَلَى نَتائِجِ مُقارَنَةً فِي المَهامّ الأُخْرَى.

مُقَدِّمَةِ

أَصْبَحَت نَماذِجَ اللُغَةِ الكَبِيرَةِ (Large Language Models) شائِعَةٍ الاِسْتِخْدامِ فِي مُخْتَلِفِ المَجالاتِ بِفَضْلِ أَدائِها المُثِيرِ لِلإِعْجاب. وَمَعَ ذٰلِكَ، تَقْتَصِر نَماذِجَ اللُغَةِ الكَبِيرَةِ عَلَى اِسْتِقْبالِ اِسْتِفْسارات نَصَّيْهِ فَقَط، بَيْنَما تَأْتِي البَياناتِ فِي العالَمِ الحَقِيقِيِّ عَلَى شَكْلٍ وَسائِطَ مُتَعَدِّدَةِ تَشْمَل البَياناتِ البَصَرِيَّةِ. تُوَفِّر نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط (MLLMs) (awadalla2023openflamingo, liu2024visual, tsimpoukelli2021multimodal, zhu2023minigpt) لَنَماذِج اللُغَةِ الكَبِيرَةِ قُدْراتٍ فَهُم الصُوَرِ، وَتُعَزِّز دَمْجِ الرُمُوزَ البَصَرِيَّةِ والنصيه تَفاعُلِ النَمُوذَجِ مَعَ المُسْتَخْدَمِينَ، مِمّا يُؤَدِّي إِلَى اِسْتِجابات أَكْثَرَ أَفادَهُ. تَتَكَوَّن نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط مِن مِشْفَر صُور لِمُعالَجَةِ مَعْلُوماتٍ الصُورَةِ وَمُحَوِّل يَحُول ترميزات الصُوَرِ إِلَى فَضاءِ تَضْمِينِ نَمُوذَجَ اللُغَةِ. بِالإِضافَةِ إِلَى ذٰلِكَ، تَمْتَلِك نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط عَمُودا فَقْرِيّا عَلَى شَكْلٍ نَمُوذَجَ لُغَةً كَبِيرٍ وَبِالتالِي تَرِث التَوْلِيد التِلْقائِيّ العَكْسِيّ وَعُنْق الزُجاجَةِ فِي عَرَضَ النِطاقِ التَرَدُّدِيِّ لِلذاكِرَة الَّذِي يُؤَدِّي إِلَى بُطْءِ الاِسْتِدْلال (shazeer2019fast).

تَمَّ اِقْتِراحِ الترميز التخميني (speculative decoding) (leviathan2023fast, chen2023accelerating, sun2023spectr, miao2023specinfer, jeon2024recursive) كَحَلٍّ لِتَسْرِيعِ اِسْتِدْلال نَماذِجَ اللُغَةِ الكَبِيرَةِ دُونِ فُقْدانِ فِي الدِقَّةِ، حَيْثُ يَتَنَبَّأ نَمُوذَجَ مُسَوَّدَة أَصْغَرِ بِعِدَةِ رُمُوزِ مُسْتَقْبَلِيَّةٍ يَتِمّ التَحَقُّقِ مِنها فِي اِسْتِدْعاءَ واحِدٍ لَنَمُوذَج اللُغَةِ الكَبِيرِ. نَظَراً لِأَنَّ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط لَها عَمُود فَقُرَى عَلَى شَكْلٍ نَمُوذَجَ لُغَةً كَبِيرٍ، يُمْكِن اِسْتِخْدامِ الترميز التخميني لِجَعْلِ الاِسْتِدْلال مَعَ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط أَكْثَرَ كَفاءَةِ. لَقَد دَرْسَ العَدِيدَ مِن الأَعْمالِ الحَدِيثَةِ تَطْبِيقِ الترميز التخميني وَمُتَغَيِّراته (kim2023big, fu2023lookahead, medusa, santilli2023accelerating, sun2023spectr, jeon2024recursive) لَنَماذِج اللُغَةِ الكَبِيرَةِ، وَلٰكِن لا تُوجَد أَعْمالٍ سابِقَةٍ فِي سِياقِ نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط حَسَبَ عَلَّمَنا.

فِي هٰذِهِ الوَرَقَةَ، نُطَبِّق الترميز التخميني عَلَى نَمُوذَجَ LLaVA 7B (مَعَ نَمُوذَجَ LLaMA 7B كَعَمُود فَقُرَى لَنَمُوذَج اللُغَةِ) لِجَعْلِ الاِسْتِدْلال أَكْثَرَ كَفاءَةِ. نَظَراً لِعَدَمِ تُوَفِّر نَماذِجَ عامَّةٍ مِن عائِلاتِ LLaVA وLLaMA أَصْغَرِ مِن 7B مُعامَلاتِ، نَقُوم بِتَدْرِيبِ نَمُوذَجَ لُغَةً بِحَجْمِ 115M مِن الصِفْرِ للترميز التخميني. نُظْهِر أَنَّ نَمُوذَجَ اللُغَةِ الَّذِي لا يَأْخُذ فِي الاِعْتِبارِ الرُمُوزَ الصُوَرِيَّة (وَبِالتالِي لا يَتَطَلَّب مِشْفَر الصُوَرِ وَالمُحَوِّل) يُمْكِن أَنَّ يَكُون نَمُوذَجاً مُسَوَّدَة جَيِّداً لِ LLaVA 7B. نُجْرِي تَجارِبِ عَلَى ثَلاثِ مَهامِّ مُخْتَلِفَةٍ تَشْمَل الأَسْئِلَةِ وَالأَجْوِبَة عَلَى الصُوَرِ فِي مَجْمُوعَةِ بَياناتٍ LLaVA Instruct 150K (liu2024visual)، وَوَضْعِ العَناوِينُ عَلَى صُور مِن مَجْمُوعَةِ بَياناتٍ Coco (lin2014microsoft) وَمَجْمُوعَةِ بَياناتٍ ScienceQA (lu2022learn)، بِاِسْتِخْدامِ مُرَشَّحِينَ لَنَمُوذَج المُسَوَّدَة قَد مَرُّوا بِمَراحِل مُخْتَلِفَةٍ مِن التَدْرِيبِ وَالتَحْسِينِ الدَقِيقِ. تُظْهِر نَتائِجنا أَنَّنا يُمْكِن أَنَّ نُحَقِّق تَسْرِيعا مُقَيَّدا بِالذاكِرَةِ يَصِل إِلَى 2.37\(\times\) بِاِسْتِخْدامِ نَمُوذَجَ اللُغَةِ فَقَط كَنَمُوذَج مُسَوَّدَة. نَقُوم أَيْضاً بِإِنْشاءِ نَمُوذَجَ مُسَوَّدَة LLaVA صَغِيرٍ يَتَكَوَّن مِن مُحَوِّلِ صُورَةِ إِلَى جانِبِ نَمُوذَجَ اللُغَةِ المُدَرِّبِ لَدَينا وَنُظْهَر أَنَّهُ يُحَسِّن الأَداءِ قَلِيلاً فِي مُهِمَّةً وَضْعِ العَناوِينُ عَلَى COCO وَمُهِمَّةً ScienceQA بَيْنَما يُؤَدِّي بِشَكْلٍ مُماثِلٍ لَنَماذِج المُسَوَّدَة الَّتِي تَعْتَمِد عَلَى اللُغَةِ فَقَط فِي المَهامّ الأُخْرَى.

الطَرِيقَةِ

الخَلْفِيَّةِ

التَفْكِيك التخميني

يَتَضَمَّن التَفْكِيك التخميني (Speculative Decoding) (chen2023accelerating, leviathan2023fast) اِسْتِخْدامِ نَمُوذَجَ مُسَوَّدَة أَصْغَرِ لَتَوْلِيد عِدَّةٍ رُمُوزِ يَتِمّ التَحَقُّقِ مِنها بِالتَوازِي بِواسِطَةِ النَمُوذَجِ اللُغَوِيُّ الكَبِيرِ المُسْتَهْدَفِ. بِناءَ عَلَى سِياقِ الإِدْخال \(X_{1:n}:=[X_{1}, \dots, X_{n}]\)، يُولَد النَمُوذَجِ المُسَوَّدَة تَسَلْسُلا مِن الرُمُوزَ \(\hat{X}_{n+1:n+L}\) بِطَرِيقَةٍ تِلْقائِيَّةً الاِسْتِجابَةُ، \(\hat{X}_{n+j} \sim p(\cdot | X_{1:n}, \hat{X}_{n+1:n+j-1})\). ثُمَّ يَتِمّ التَحَقُّقِ مِن الرُمُوزَ المُسَوَّدَة عَبْرَ اِسْتِدْعاءَ واحِدٍ لِلنَمُوذَج اللُغَوِيُّ الكَبِيرِ المُسْتَهْدَفِ (\(q\)) بِاِسْتِخْدامِ مَعايِيرِ أَخَذَ العَيْنات بِالرَفْضِ الَّتِي تَضَمَّنَ نَفْسِ تَوْزِيعِ الرُمُوزَ الناتِجِ كَما هُوَ الحالِ فِي النَمُوذَجِ اللُغَوِيُّ الكَبِيرِ المُسْتَهْدَفِ. عَلَى وَجْهِ التَحْدِيدِ، يَتِمّ قُبُولِ الرَمْزُ \(\hat{X}_{n+j}\) بِالاِحْتِمالِيَّة \[\begin{aligned} \min\left\{1, \frac{q(\hat{X}_{j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}. \end{aligned}\] إِذا تَمَّ رَفَضَ رَمْزُ مُسَوَّدَة \(\hat{X}_{n+j}\)، يَتِمّ أَخَذَ عَيِّنَةً جَدِيدَةٍ مِن التَوْزِيعِ المُتَبَقِّي المعرف ب \(p_{res}(x)=\max(0, q(x) - p(x) )\).

نَماذِجَ اللُغَةِ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط

يَتَكَوَّن نَمُوذَجَ اللُغَةِ الكَبِيرِ مُتَعَدِّدِ الوَسائِط المُعْتَمَدُ عَلَى الصُوَرِ مِن 1) مِشْفَر الرُؤْيَةِ لتشفير الصُورَةِ المدخله، 2) مُحَوِّلِ لِتَحْوِيلِ تشفيرات الصُوَرِ إِلَى تَضْمِينات نَمُوذَجَ اللُغَةِ، وَ 3) عَمُود فَقُرَى لَنَمُوذَج اللُغَةِ. نِصْفِ إِطارِ عَمَلٍ نَمُوذَجَ LLaVA بِمَزِيدٍ مِن التَفْصِيل كَما يَلِي؛ بِالنَظَرِ إِلَى صُورَةِ مَدْخَله \(I\) وَاِسْتِعْلام نَصَّيَّ \(Q\)، يَتِمّ تَحْوِيلِ الصُورَةِ \(I\) إِلَى تَسَلْسُلُ \(H_1, H_2, \ldots, H_m\) مِن \(m\) تشفيرات صُورَةِ، وَيَتِمّ تَحْوِيلِ الاِسْتِعْلام النصي إِلَى تَسَلْسُلُ مِن تَضْمِينات الرُمُوزَ \(X_1, X_2, \ldots X_n\). يَتِمّ تَحْوِيلِ تشفيرات الصُورَةِ إِلَى تَضْمِينات الصُورَةِ، \(V_i = g_\theta(H_i)\)، عَبْرَ مُحَوِّلِ \(g_\theta\) (وَهُوَ عِبارَةٌ عَن شَبَكَةِ مُتَعَدِّدَةِ الطَبَقاتِ صَغِيرَةٌ). يَتِمّ ذٰلِكَ لِتَحْوِيلِ التشفيرات \(H_i\) إِلَى فَضاءِ تَضْمِينِ نَمُوذَجَ اللُغَةِ. ثُمَّ يَتِمّ تَوْلِيدِ الرُمُوزَ بِواسِطَةِ نَمُوذَجَ اللُغَةِ بِناءَ عَلَى تَضْمِينات الصُورَةِ وَتَضْمِينات الرُمُوزَ كَما يَلِي: \[X_{n+1} \sim q(\cdot | V_{1:m}, X_{1:n})\]

تَحْلِيلِ SPD لَنَماذِج MLLM

لِتَحْقِيقِ مَكاسِبَ أَعْلَى مَعَ الترميز التخميني، نَحْتاج إِلَى نَمُوذَجَ مُسَوَّدَة أَصْغَرِ بِكَثِيرٍ مِن ومتوافق جَيِّداً مَعَ نَمُوذَجنا الهَدَفَ (LLaVA-7B). الخِيارِ الأَكْثَرَ شُيُوعاً لَنَماذِج المُسَوَّدات فِي الأَعْمالِ السابِقَةِ عَلَى نَماذِجَ اللُغَةِ الكَبِيرَةِ هُوَ اِسْتِخْدامِ نَمُوذَجَ مُدَرِّبُ مُسْبَقاً صَغِيرٍ مِن نَفْسِ عائِلَةِ النَماذِجِ كَنَمُوذَج الهَدَفَ أَو تَدْرِيبِ نَمُوذَجَ أَصْغَرِ يَمْتَلِك نَفْسِ هَنْدَسَةُ النَمُوذَجِ الهَدَفَ (miao2023specinfer). نَظَراً لِعَدَمِ تُوَفِّر نَمُوذَجَ أَصْغَرِ عَلَنِيّا فِي عائِلَةِ LLaVA، نَحْتاج إِلَى تَدْرِيبِ نَمُوذَجَ مُسَوَّدَة مِن الصِفْرِ. الخِيارِ الطَبِيعِيِّ لِهَنْدَسَةٍ نَمُوذَجَ المُسَوَّدَة هُوَ اِتِّباعِ هَنْدَسَةُ LLaVA حَيْثُ يَتَكَوَّن نَمُوذَجَ المُسَوَّدَة مِن مُحَوِّلِ وَعَمُود فَقُرَى لَنَمُوذَج اللُغَةِ بِعَدَدٍ أَقَلَّ مِن المُعَلِّماتُ مِن LLaVA 7B. فِي نَهْجنا، نَسْتَخْدِم كُلّاً مِن، 1) نَمُوذَجَ مُسَوَّدَة LLaVA أَصْغَرِ الَّذِي يَتَكَوَّن مِن مُحَوِّلِ صُورَةِ أَصْغَرِ وَنَمُوذَجٌ لُغَةً مُسَوَّدَة، وَ2) نَمُوذَجَ المُسَوَّدَة الخاصِّ بِاللُغَةِ فَقَط الَّذِي يُولَد رُمُوزِ المُسَوَّدَة بِالاِعْتِمادِ فَقَط عَلَى رُمُوزِ النَصِّ المَدْخَلِ. بِالنَظَرِ إِلَى صُورَةِ مَدْخَله مَعَ تَضْمِينات الصُورَةِ \(V_{1:m}\)، تَضْمِينات الرُمُوزَ \(X_{1:n}\) يُولَد نَمُوذَجَ المُسَوَّدَة رُمُوزِ المُسَوَّدَة \(\hat{X}_{n+1:n+L}\) حَيْثُ يَتِمّ تَوْلِيدِ رَمْزُ المُسَوَّدَة \[\begin{aligned} \hat{X}_{n+j} \sim p (\cdot | X_{1:n}, \hat{X}_{n+1:n+j-1}) \end{aligned}\] بِالاِعْتِمادِ فَقَط عَلَى رُمُوزِ النَصِّ. يَتَحَقَّق نَمُوذَجَ LLaVA الهَدَفَ مِن رُمُوزِ المُسَوَّدَة بِحِساب التَوْزِيعِ الهَدَفَ الَّذِي يَعْتَمِد عَلَى تَضْمِينات الصُورَةِ \(V_{1:m}\) وَتَضْمِينات رُمُوزِ النَصِّ \(X_{1:n}\)، أَيّ يَتِمّ قُبُولِ رَمْزُ المُسَوَّدَة \(\hat{X}_{n+j}\) بِالاِحْتِمال \[\begin{aligned} \min\left\{1, \frac{q(\hat{X}_{n+j}|V_{1:m}, X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}.\end{aligned}\] اِسْتِخْدامِ نَمُوذَجَ المُسَوَّدَة الخاصِّ بِاللُغَةِ فَقَط أَكْثَرَ كَفاءَةِ مِن نَمُوذَجَ المُسَوَّدَة بِهَنْدَسَةٍ LLaVA لِأَنَّ 1) لا يَحْتاج إِلَى مُحَوِّلِ إِضافِيٍّ حَيْثُ لا يَعْتَمِد عَلَى تَضْمِينات الصُورَةِ لَتَوْلِيد رُمُوزِ المُسَوَّدَة، وَ2) لا يَتَطَلَّب تَدْرِيبِ المُحَوِّلُ.

التَجارِبِ

نَقُوم بِتَشْغِيلِ التَجارِبِ عَلَى ثَلاثِ مَهامِّ تَعْلِيماتٍ بَصَرِيّه بِاِسْتِخْدامِ SPD مَعَ نَمُوذَجَ LLaVA-7B (liu2023improved) كَنَمُوذَجنا المُسْتَهْدَفِ الَّذِي يَسْتَخْدِم نَمُوذَجَ LLaMA-7B كَعَمُود فَقُرَى لَنَمُوذَج اللُغَةِ. نَسْتَخْدِم نَماذِجَ مُسَوَّدَة خَضَعَت لَمَراحِل مُخْتَلِفَةٍ مِن التَدْرِيبِ بِحَجْمِ ثابِتٌ لَجُزْء اللُغَةِ مِن كُلِّ نَمُوذَجَ مُسَوَّدَة يَبْلُغ \(115M\).

مُرَشَّحُو نَمُوذَجَ المُسَوَّدَة.

نَقُوم بِتَدْرِيبِ نَمُوذَجَ مُسَوَّدَة بِحَجْمِ \(115M\) يَتْبَع هَيْكَلِيَّةِ LLaMA-2. نَتْبَع خَطِّ أَنابِيبِ التَدْرِيبِ (goel2024direct) لِتَدْرِيبِ نَمُوذَجَ مُسَوَّدَة مِن الصِفْرِ وَصَقْل النَمُوذَجِ المُسَوَّدَة عَلَى مَجْمُوعاتٍ بَياناتٍ صَقْل التَعْلِيماتِ بِاِسْتِخْدامِ خَسارَةِ TVD++ (goel2024direct). نَقُوم أَيْضاً بِصَقْل نَمُوذَجنا المُسَوَّدَة عَلَى مَجْمُوعَةِ فَرْعِيَّةٍ مِن مَجْمُوعَةِ بَياناتٍ LLaVA Instruct 150K (liu2024visual). بِالنِسْبَةِ لَتَجارِبنا، نَعْتَبِر النَماذِجِ المُسَوَّدَة التالِيَةِ بُعْدَ كُلِّ مَرْحَلَةِ مِن التَدْرِيبِ وَالصَقْل: 1) LLaMA الأَساسِيُّ، نَمُوذَجَ LLaMA مسود بُعْدَ التَدْرِيبِ المُسْبَقِ بِاِسْتِخْدامِ خَسارَةِ التَنَبُّؤ بِالرَمْز التالِي عَلَى \(600B\) رُمُوزِ إِنْجلِيزِيّه، 2) LLaMA الدَرْدَشَة، نَمُوذَجَ LLaMA مسود مَصْقُول لِلتَعْلِيمات يَتْبَع (goel2024direct) مَعَ تَهْيِئَةِ مِن نَمُوذَجَ LLaMA الأَساسِيُّ المسود، وَ 3) LLaVA المَصْقُول (ft-llava)، نَمُوذَجَ LLaVA مسود مَصْقُول حَيْثُ تَمَّ تَهْيِئَةِ مُحَوِّلِ الصُوَرِ بِاِسْتِخْدامِ التَقْسِيم الفَرْعِيِّ (samragh2023weight) لَمُحَوِّل صُور LLaVA-7B وَتَمَّ تَهْيِئَةِ نَمُوذَجَ اللُغَةِ مِن نَمُوذَجَ LLaMA الدَرْدَشَة المسود (ثُمَّ تَمَّ صَقْل النَمُوذَجِ عَلَى مَجْمُوعَةِ بَياناتٍ LLaVA). نَشْمَل أَيْضاً نَمُوذَجَ مسود آخَرِ 4) LLaVA المَصْقُول نصيا (ft-llava-text)، الَّذِي يَسْتَخْدِم بِبَساطَة جُزْء نَمُوذَجَ اللُغَةِ مِن 3). لاحَظَ أَنَّ نَمُوذَجَ LLaVA المَصْقُول فَقَط يَسْتَخْدِم مَعْلُوماتٍ الصُورَةِ بَيْنَما جَمِيعِ النَماذِجِ المُسَوَّدَة الأُخْرَى تَسْتَهْلِك فَقَط جُزْء النَصِّ مِن المُطالَبَةِ الادخاليه؛ عِنْدَما يَسْتَخْدِم النَمُوذَجِ المسود مَعْلُوماتٍ الصُورَةِ، يَتِمّ مُشارَكَةِ مِشْفَر الرُؤْيَةِ (المَبْنِيَّ عَلَى CLIP (radford2021learning)) مَعَ النَمُوذَجِ المُسْتَهْدَفِ لِتَجَنُّبِ إِعادَةِ حِسابِ تَضْمِينات الصُورَةِ. يَتِمّ إِعْطاءِ التَفاصِيلِ المُعَلِّماتُ فِي المُلْحَقِ [app:model_config]

مَهامِّ التَقْيِيم.

نُرَكِّز عَلَى تَوْلِيدِ النَصِّ المَفْتُوحِ وَالإِجابَة عَلَى الأَسْئِلَةِ المُتَعَدِّدَةِ الخِياراتِ مَعَ التَفْكِيرِ لِتَشْجِيعِ عَدَدٍ أَكْبَرَ مِن تَوْلِيدِ الرُمُوزَ، وَهُوَ مُفِيدٌ عِنْدَ اِسْتِخْدامِ SPD. مِن أَجْلِ ذٰلِكَ، نَقُوم بِالتَقْيِيم عَلَى 1) مَجْمُوعَةِ بَياناتٍ LLaVA Instruct 150K (liu2024visual), 2) مُهِمَّةً التَعْلِيقَ التوضيحي لِلصُوَرِ عَلَى الصُوَرِ مِن مَجْمُوعَةِ بَياناتٍ COCO (lin2014microsoft), وَ 3) الأَسْئِلَةِ العِلْمِيَّةِ (SQA) مَعَ التَفْكِيرِ بِسِلْسِلَةِ الأَفْكارَ (CoT) (lu2022learn). يَتِمّ وَصَفَ إِعْدادات مُطالَباتِ النِظامِ لِجَمِيعِ المَهامّ فِي المُلْحَقِ [app:sys_prompts]

المَقايِيسِ.

يَتِمّ تَقْيِيمِ فَعّالِيَّةِ SPD بِالمَقايِيس التالِيَةِ؛ 1) كَفاءَةِ الكُتْلَةِ (\(\tau\))، مُتَوَسِّطُ عَدَدٍ الرُمُوزَ المُوَلِّدَة لِكُلِّ كُتْلَةِ (أَو تَشْغِيلِ النَمُوذَجِ المُسْتَهْدَفِ)، لَكُتَله بِحَجْمِ \(\gamma\) وَإِدْخال \(x\)، يُمْكِن أَنَّ يَكُون الحَدِّ الأَقْصَى لِقِيمَةِ \(\tau(x)\) هُوَ \(\gamma + 1\)، حَجْمِ الكُتْلَةِ (\(\gamma\)) يَعْرِف أَيْضاً بِاِسْمِ طُولِ المُسَوَّدَة (DL) فِي بِعَضِّ الأَعْمالِ؛ 2) تَسْرِيعُ مَحْدُودٍ بِالذاكِرَةِ (MBSU)، التَسْرِيع الاِفْتِراضِيّ الَّذِي يَتِمّ تَحْقِيقِهِ بِواسِطَةِ SPD لَكَفاءَة كُتْلَةِ مُعَيَّنَةٍ \(\tau(x)\) وَتَأْخِيرٍ نِسْبِيٍّ \(c\) معرف كَنِسْبَة بَيِّنَ عَدَدٍ المُعَلِّماتُ مِن النَمُوذَجِ المسود إِلَى النَمُوذَجِ المُسْتَهْدَفِ، أَيّ، \(\mathrm{MBSU}(x)=\frac{c\tau(x)}{c\gamma + 1}\)؛ 3) مُعَدَّلِ الرُمُوزَ، إِجْمالِيِّ عَدَدٍ الرُمُوزَ المُوَلِّدَة مَقْسُوما عَلَى الوَقْتِ الإِجْمالِيِّ لِلتَوْلِيد، مِمّا يُعْطِي تَقْدِيراً لِلرُمُوز المُوَلِّدَة لِكُلِّ ثانِيَةً. نَقِيس هٰذِهِ المَقايِيسِ فِي مَهامِّ مُخْتَلِفَةٍ بِاِسْتِخْدامِ حَجْمِ كُتْلَةِ مُخْتَلِفِ \(\gamma\) فِي \(\{3, 5\}\)

فَكِّ التشفير.

نَسْتَخْدِم فَكِّ التشفير الجَشَع لِجَمِيعِ التَجارِبِ بِحَيْثُ يَكُون تَوْلِيدِ SPD مطابقا لَتَوْلِيد النَمُوذَجِ المُسْتَهْدَفِ التِلْقائِيّ التراكمي. نَتْرُكه كَعَمَل مُسْتَقْبَلِيٍّ لَأَسَتْكَ Explore sampling-based decoding (varying temperature, varying top-\(p\), top-\(k\)) فِي سِياقِ SPD لِ MLLMs.

النَتائِجِ.

نَتائِجنا تُظْهِر أَنَّ اِسْتِخْدامِ SPD مَعَ نَمُوذَجَ الهَدَفَ LLaVA 7B يُعْطِي تَسْرِيعا كَبِيراً فِي تَوْلِيدِ الناتِجِ، وَنُؤَكِّد أَنَّهُ عِنْدَ اِسْتِخْدامِ نَمُوذَجَ مُسَوَّدَة بِدُونِ أَيّ مَعْلُوماتٍ صُورَةِ، يُمْكِن لِ SPD أَنَّ يُقَدِّم تَسْرِيعا تَنافُسِيّا مُقارَنَةً بِنَمُوذَجٍ مُسَوَّدَة يَسْتَخْدِم مَعْلُوماتٍ الصُورَةِ.

مِن الشَكْلِ [fig:result] (الرُسُومات العَلَوِيَّة وَالوَسَطِيّ)، نُلاحِظ أَنَّ اِسْتِخْدامِ SPD يُعْطِي مَكاسِبَ تَزِيد عَن 2\(\times\) مِن حَيْثُ كَفاءَةِ الكُتْلَةِ وMBSU. يُظْهِر اِتِّجاهِ الأَداءِ عِنْدَ زِيادَةِ حَجْمِ الكُتْلَةِ مِن 3 إِلَى 5 لِكُلِّ مُهِمَّةً بِشَكْلٍ مُماثِلٍ بِاِسْتِثْناءِ مُهِمَّةً SQA حَيْثُ يُؤَدِّي نَمُوذَجَ المُسَوَّدَة base-llama بِشَكْلٍ أَفْضَلَ مِن نَماذِجَ المُسَوَّدَة الأُخْرَى لِلنُصُوص فَقَط لِحَجْمِ الكُتْلَةِ =5. بِالنِسْبَةِ لِمُهِمَّةِ تَقْيِيمِ LLaVA عَلَى كُلّاً حَجْمِي الكُتْلَةِ (3 أَو 5)، يُؤَدِّي نَمُوذَجَ المُسَوَّدَة ft-llava-text بِشَكْلٍ أَفْضَلَ يَلِيه عَن كَثَبٍ ft-llava. بِالنِسْبَةِ لِمُهِمَّةِ تَعْلِيقَ COCO، يُؤَدِّي ft-llava بِشَكْلٍ أَفْضَلَ، يَلِيه ft-llava-text لَكَلَآ حَجْمِي الكُتْلَةِ. أَخِيراً، بِالنِسْبَةِ لِمُهِمَّةِ SQA، لِحَجْمِ الكُتْلَةِ =3، يُؤَدِّي نَمُوذَجَ المُسَوَّدَة ft-llava بِشَكْلٍ أَفْضَلَ يَلِيه ft-llava-text بَيْنَما لِحَجْمِ الكُتْلَةِ =5، يُؤَدِّي نَمُوذَجَ المُسَوَّدَة ft-llava بِشَكْلٍ أَفْضَلَ يَلِيه base-llama. بِالإِضافَةِ إِلَى ذٰلِكَ، تُظْهِر جَمِيعِ نَماذِجَ المُسَوَّدَة لَدَينا مُعَدَّلِ توكنات مُحْسِن مُقارَنَةً بِالتَوْلِيد التِلْقائِيّ العَكْسِيّ فِي الشَكْلِ [fig:result] (الأَسْفَلِ) مَعَ تَقْدِيمِ حَجْمِ الكُتْلَةِ 3 مُعَدَّلِ توكنات أَفْضَلَ مِن حَجْمِ الكُتْلَةِ 5، وَبِالتالِي، يُولَد SPD توكنات أَكْثَرَ فِي الثانِيَةِ مِن الترميز التِلْقائِيّ العَكْسِيّ. يَتَوافَق مُعَدَّلِ التوكنات المَعْرُوضِ مَعَ نِسْبَةَ مُعَدَّلِ التوكنات لِ SPD بِاِسْتِخْدامِ نَمُوذَجَ مُسَوَّدَة مُعَيَّنٍ إِلَى مُعَدَّلِ التوكنات لِلتَوْلِيد التِلْقائِيّ العَكْسِيّ بِاِسْتِخْدامِ نَمُوذَجَ الهَدَفَ.

نُقَدِّم أَيْضاً نَتائِجِ نَوْعِيَّةً عَلَى مُهِمَّةً التَعْلِيقَ عَلَى COCO لِإِظْهارِ التوكنات المَقْبُولَةِ خِلالَ عَمَلِيَّةِ التَوْلِيد عِنْدَ اِسْتِخْدامِ نَمُوذَجَ المُسَوَّدَة fine-tune-LLaVA-text حَيْثُ لا تُسْتَخْدَم مَعْلُوماتٍ الصُورَةِ بِواسِطَةِ نَمُوذَجَ المُسَوَّدَة فِي الشَكْلِ [fig:qualitative_example]. اِسْتِناداً إِلَى الأَجْيالِ المُخْرِجَةُ فِي الشَكْلِ، حَيْثُ تَكُون التوكنات بِاللَوْن الأَزْرَق وَمَسْطَرَة هِيَ التوكنات المَقْبُولَةِ، نُلاحِظ أَنَّ نَمُوذَجَ المُسَوَّدَة يُمْكِنه التَنَبُّؤ بِالكَلِماتِ الشائِعَةُ وَالاِقْتِراحاتُ، إِلَى جانِبِ إِنْصاف الكَلِماتُ. عَلَى سَبِيلِ المِثالِ، يُمْكِن لَنَمُوذَج المُسَوَّدَة التَنَبُّؤ ب “tables” بِناءَ عَلَى “vege”. بِشَكْلٍ مُماثِلٍ فِي المِثالِ الثانِي، بِالنَظَرِ إِلَى السِياقِ وَأَلْتَوكُنَّ الإِضافِيّ “app”، كانَ نَمُوذَجَ المُسَوَّدَة قادِراً عَلَى التَنَبُّؤ ب “liances”. نَعْتَقِد بِشَكْلٍ عامَ أَنَّ تَوْلِيدِ النُصُوصِ المَفْتُوحَةِ يَحْتَوِي عَلَى العَدِيدَ مِن التوكنات الَّتِي تَتَأَلَّف مِن كَلِماتٌ شائِعَةٍ، اِقْتِراحاتٍ، وَإِكْمالات كَلِماتٌ لا تَتَطَلَّب مَعْرِفَةُ بتوكنات الصُورَةِ، وَبِالتالِي، حَتَّى نَمُوذَجَ المُسَوَّدَة بِدُونِ اِسْتِخْدامِ مَعْلُوماتٍ الصُورَةِ يُقَدِّم أَداءِ تَنافُسِيّا. عِلاوَةً عَلَى ذٰلِكَ، يُمْكِن لَنَمُوذَج المُسَوَّدَة أَيْضاً التَنَبُّؤ بِتَكْرار بِعَضِّ التوكنات بِمُجَرَّدِ تَوْلِيدها. عَلَى سَبِيلِ المِثالِ، فِي الصُورَةِ الثانِيَةِ يُمْكِن التَنَبُّؤ بِكَلِمَةٍ “counter” وَ “bowls” عِدَّةٍ مَرّاتٍ بِمُجَرَّدِ تَوْلِيدها بِواسِطَةِ نَمُوذَجَ الهَدَفَ. أَخِيراً، يَتِمّ تَرَكَ إِجْراءِ تَدْرِيبِ أَكْثَرَ صَرامَةٍ عَلَى نَمُوذَجَ لُغَةً مُتَعَدِّدِ الوَسائِط صَغِيرٍ كَعَمَلنا المُسْتَقْبَلِيِّ.

اِسْتِناداً إِلَى نَوْعٍ الرُمُوزَ المَقْبُولَةِ خِلالَ SPD، اِفْتَرَضَنا أَنَّهُ مِن المُمْكِنِ أَلّا يَسْتَخْدِم نَمُوذَجَ LLaVA المَبْدَئِيِّ مَعْلُوماتٍ مِن رُمُوزِ الرُؤْيَةِ (وَبِالتالِي لا يُحَسِّن كَفاءَةِ الكُتْلَةِ)، وَالَّذِي يُمْكِن تَفْسِيرُهُ عَلَى أَنَّ رُمُوزِ الرُؤْيَةِ لا يَتِمّ ترميزها بِشَكْلٍ صَحِيحٌ بِواسِطَةِ مُحَوِّلِ الصُوَرِ المَبْدَئِيِّ. لِهٰذا السَبَبِ، قُمْنا بِتَجْرِبَةِ SPD مَعَ نَماذِجَ مَبْدَئِيَّةٍ لا تُسْتَخْدَم رُمُوزِ الصُوَرِ لِمُراقَبَةِ ما إِذا كانَ مُحَوِّلِ الصُوَرِ المُدَرِّبِ خِلالَ تَحْسِينِ LLaVA المَبْدَئِيِّ يُساعِد فِي تَحْسِينِ كَفاءَةِ الكُتْلَةِ (أَو MBSU) أَم لا. مِن الشَكْلِ fig:avg_token_all وَالشَكْل fig:mbsu_all نُلاحِظ أَنَّ نَمُوذَجَ LLaVA المُحْسِن لِلنُصُوص وَنَمُوذَجٌ LLaVA المُحْسِن يُؤَدَّيانِ بِشَكْلٍ مُماثِلٍ، وَبِالتالِي يُدَعِّمانِ فَرْضِيَّتنا تَجْرِيبِيّا.

عِلاوَةً عَلَى ذٰلِكَ، أَضَفْنا المَزِيدِ مِن نَماذِجَ المُسَوَّدات الَّتِي تَعْتَمِد عَلَى النُصُوصِ فَقَط لِمُراقَبَةِ ما إِذا كانَ هُناكَ أَيّ تَسْرِيعُ عِنْدَ اِسْتِخْدامِ مَعْلُوماتٍ النُصُوصِ فَقَط. لَمُفاجَآتنا مِن الشَكْلِ fig:mbsu_all حَتَّى اِسْتِخْدامِ نَماذِجَ LLaMA الأَساسِيَّةِ وَنَماذِجِ دَرْدَشَة LLaMA يُعْطِي تَسْرِيعا يَزِيد عَن 2 مَرّاتٍ فِي المُتَوَسِّطِ.

أَداءِ SPD مَعَ نَمُوذَجَ المُسَوَّدَة القائِمِ عَلَى اللُغَةِ فَقَط قَرِيبٍ نِسْبِيّاً مِن نَمُوذَجَ LLaVA وَحَتَّى يَتَفَوَّق عَلَى نَمُوذَجَ LLaVA لِ ScienceQA. اِسْتِناداً إِلَى هٰذا، قُمْنا بِتَحْلِيلِ اِتِّجاهِ قُبُولِ النَماذِجِ المُخْتَلِفَةِ (مُتَوَسِّطُ القُبُولِ لِأَوَّلِ K تكرارات مُقابِلَ مُتَوَسِّطُ القُبُولِ لِآخَرِ K تكرارات) وَالاِهْتِمامِ المُعْطَى لَرُمُوز الصُورَةِ بِواسِطَةِ نَمُوذَجَ LLaVA الهَدَفَ (أَنْظُر المُلْحَقِ).

الأَعْمالِ ذاتِ الصِلَةِ

الخُلاصَةِ

فِي هٰذِهِ الوَرَقَةَ، نُقَدِّم الجُهْدِ الأَوَّلِ نَحْوَ اِسْتِخْدامِ الترميز التخميني لِتَسْرِيعِ الاِسْتِدْلال عِنْدَ اِسْتِخْدامِ النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط، وَخُصُوصاً لَمَجال الصُوَرِ وَالنُصُوصَ. نُظْهِر أَنَّ اِسْتِخْدامِ نَمُوذَجَ المُسَوَّدَة النصيه فَقَط يُحَقِّق أَداءِ تَنافُسِيّا مُقارَنَةً بِاِسْتِخْدامِ نَمُوذَجَ مُسَوَّدَة يَسْتَفِيد مِن مِيزاتِ الصُورَةِ. نَقُوم بِإِجْراءِ تَجارِبِ مُتَنَوِّعَةٍ عَلَى مَهامِّ مُخْتَلِفَةٍ لِلإِجابَة عَلَى الأَسْئِلَةِ البَصَرِيَّةِ مَعَ التَرْكِيزِ عَلَى تَوْلِيدِ عَدَدٍ أَعْلَى مِن الرُمُوزَ الناتِجَةِ: تَوْلِيدِ نَصَّ مَفْتُوحٍ النِهايَةِ وَتَوْلِيدِ نَصَّ مَعَ التَفْكِيرِ بِاِسْتِخْدامِ نَماذِجَ مُسَوَّدَة مُخْتَلِفَةٍ (نَصَّ فَقَط وَنَصَّ-صُورَةِ). لَقَد حَقَّقْنا تَسْرِيعا كَبِيراً يَصِل إِلَى \(2.37\times\) لَنَمُوذَج المُسَوَّدَة النصيه فَقَط وَتَسْرِيعا أَفْضَلَ بِشَكْلٍ طَفِيفٍ لَنَمُوذَج المُسَوَّدَة النَصِّ-صُورَةِ، مِمّا يُظْهِر تَجْرِيبِيّا إِمْكانِيَّةَ اِسْتِخْدامِ الترميز التخميني لِلنَماذِج اللُغَوِيَّةُ الكَبِيرَةِ مُتَعَدِّدَةِ الوَسائِط.

تَفْتَح أَعْمالنا عِدَّةٍ مَساراتٍ مُسْتَقْبَلِيَّةٍ بِفَضْلِ الإِطارِ العامِّ المُقَدَّمُ. يُمْكِن تَوْسِيعِ عَمَلِنا لِيَشْمَل نَماذِجَ أُخْرَى مُسْتَهْدَفَةٌ مِثْلَ (li2023blip)، (zhu2023minigpt) وَ(awadalla2023openflamingo)، وَوَسائِط أُخْرَى مِثْلَ الصَوْتِ (chu2023qwen) الَّتِي تُعانِي أَيْضاً مِن القُيُودِ بِسَبَبِ التَوْلِيد التِلْقائِيّ التراجعي. عِلاوَةً عَلَى ذٰلِكَ، يُمْكِن اِسْتِخْدامِ التَقَدُّمِ الأَخِيرِ فِي خوارزميه الترميز التخميني للترميز القائِمِ عَلَى الشَجَرَة أَيْضاً بِاِتِّباعِ (sun2023spectr)، (miao2023specinfer)، (medusa)، (jeon2024recursive) لِزِيادَةِ سُرْعَةٍ التَوْلِيد أَكْثَرَ.

المُلْحَقِ

تَكْوِينات النَمُوذَجِ

يَسْتَخْدِم نَمُوذَجَ LLaVA-7B: (i) مِشْفَر الرُؤْيَةِ، (ii) مُحَوِّلِ/مَشْرُوعِ الصُورَةِ المَبْنِيَّ عَلَى الشَبَكَةِ العَصَبِيَّةِ مُتَعَدِّدَةِ الطَبَقاتِ، وَ (iii) نَمُوذَجَ اللُغَةِ LLaMA 7B. المِشْفَر البَصْرِيّ هُوَ CLIP ViT-L/14 مَعَ تَفاصِيلَ مَوْجُودَةٌ فِي (radford2021learning)، وَمُحَوِّل الصُورَةِ المَبْنِيَّ عَلَى الشَبَكَةِ العَصَبِيَّةِ مُتَعَدِّدَةِ الطَبَقاتِ يَحْتَوِي عَلَى طَبَقَتَيْنِ خَطِيَّتَيْنِ بِالأَحْجام التالِيَةِ: \(1024\times4096\) وَ \(4096\times 4096\). بِالنِسْبَةِ لِلسِينارِيو الَّذِي يَحْتَوِي فِيهِ النَمُوذَجِ المَبْدَئِيِّ أَيْضاً عَلَى مُحَوِّلِ لِلصُوَرِ، فَإِنَّ الأَحْجام هِيَ \(1024 \times 1024\) وَ \(1024 \times 1024\).

تُسْتَخْدَم التَكْوِيناتِ التالِيَةِ لَجُزْء نَمُوذَجَ اللُغَةِ الهَدَفَ وَالمُسَوَّدَة الَّذِي يَتْبَع هَنْدَسَةُ LLaMA:

تَكْوِينات النَمُوذَجِ المُسَوَّدَة وَالهَدَفُ
الهَدَفَ (7B) المُسَوَّدَة (115M)
الطَبَقاتِ 32 4
رُؤُوسِ الاِنْتِباهِ 32 8
البُعْدِ الوَسِيطِ 11,008 2,816
البُعْدِ الخَفِيّ 2,048 1,024
التَنْشِيط SiLU SiLU

[tab:model_config]

مُطالَباتِ النِظامِ

نَسْتَخْدِم مُطالَباتِ النِظامِ التالِيَةِ لِلمُهِمَّةِ المُحَدَّدَةِ. يَسْتَخْدِم الرَمْزُ الخاصِّ بِالصُورَة لَتَضْمِين بَياناتٍ الصُورَةِ (\(<\)image\(>\))

تَقْيِيمِ LLaVA. نَتْبَع أُسْلُوبِ المُطالَبَةِ المُعْطَى فِي (liu2024visual)، حَيْثُ يَحْتَوِي LLaVA عَلَى عِدَّةٍ أَسْئِلَةٍ وَأَجْوِبَة نُقَسِّمها إِلَى عَيِّناتٍ مُخْتَلِفَةٍ.

\(<\)s\(>\) دَرْدَشَة بَيِّنَ مُسْتَخْدَمٌ فُضُولِي وَمُساعِدُ ذَكاءَ اِصْطِناعِيٍّ. يُقَدِّم المُساعِدُ إِجابات مُفِيدَةٌ وَمُفَصَّلَةً وَمُهَذَّبه عَلَى أَسْئِلَةٍ المُسْتَخْدِمُ. المُسْتَخْدِمُ: \(<\)image\(>\) \(\\\)السُؤالُ \(Q_{1}\) المُساعِدُ: الرَدِّ \(R_{1}\). المُسْتَخْدِمُ: السُؤالُ \(Q_{2}\) \(\dots\).

وَصَفَ COCO. بِما أَنَّ مَجْمُوعَةِ بَياناتٍ COCO لا تَحْتَوِي عَلَى أَيّ مُطالَباتِ بِالأَسْئِلَة، قُمْنا بِمَطالِبه النَمُوذَجِ بِمَطالِبه مُشابِهَةٍ لِما سَبَقَ.

\(<\)s\(>\) دَرْدَشَة بَيِّنَ مُسْتَخْدَمٌ فُضُولِي وَمُساعِدُ ذَكاءَ اِصْطِناعِيٍّ. يُقَدِّم المُساعِدُ إِجابات مُفِيدَةٌ وَمُفَصَّلَةً وَمُهَذَّبه عَلَى أَسْئِلَةٍ المُسْتَخْدِمُ. المُسْتَخْدِمُ: \(<\)image\(>\) \(\\\)قَدَّمَ وَصَفا مُفَصَّلاً لِلصُورَةِ المُعْطاة المُساعِدُ:

أَسْئِلَةٍ العُلُومِ. نَتْبَع أُسْلُوبِ المُطالَبَةِ المُقَدَّمُ فِي (lu2022learn) مَعَ مِثالٌ واحِدٍ فِي السِياقِ لِلسُؤال، الخِياراتِ، الإِجابَةَ وَالتَعْلِيل لَتَمْكِين التَفْكِيرِ المُتَسَلْسِل (CoT). بِالإِضافَةِ إِلَى ذٰلِكَ، نَعْتَبِر فَقَط العَيْنات الاِخْتِبارِيَّةُ الَّتِي لَها صُورَةِ مُرْتَبِطَةً.

\[\begin{aligned} & \text{السُؤالُ: السُؤالُ :} I_{i}^{ques} \\ & \text{الخِياراتِ: (0) الخِيارِ : } I_{i1}^{opt} \text{ (1) الخِيارِ : } I_{i2}^{opt} \text{ (2) الخِيارِ : } I_{i3}^{opt} \\ & \text{السِياقِ: السِياقِ : } I_{i}^{cont} \\ & \text{الإِجابَةَ: الإِجابَةَ هِيَ } I_{i}^{ans} \text{. لِأَنَّ: مُحاضَرَةٍ} I_{i}^{lect} \text{ التَفْسِيرَ : } I_{i}^{exp} \\ \\ & <image> \\ & \text{السُؤالُ: السُؤالُ :} I_{test}^{ques} \\ & \text{الخِياراتِ: (0) الخِيارِ : } I_{test,1}^{opt} \text{ (1) الخِيارِ : } I_{test,2}^{opt} \text{ (2) الخِيارِ : } I_{test,3}^{opt} \\ & \text{السِياقِ: السِياقِ : } I_{test}^{cont} \\ & \text{الإِجابَةَ: الإِجابَةَ هِيَ} \end{aligned}\]

حَيْثُ يُشِير الرَمْزُ الفَرْعِيِّ \(i\) إِلَى مِثالٌ فِي السِياقِ.

فِي وَرَقَةً SQA، يَتِمّ تَوْفِيرِ حَقْلِ السِياقِ مِن خِلالَ إِنْشاءِ تَسْمِيَةِ توضيحيه لِلصُورَةِ المُرْتَبِطَةِ بِاِسْتِخْدامِ نَمُوذَجَ تَسْمِيَةِ الصُوَرِ، وَمَعَ ذٰلِكَ، كانَت هٰذِهِ التَسْمِيات غالِباً بَسِيطَةً وَلَم تُوَفِّر وَصَفا مُفَصَّلاً لِلصُورَةِ الَّذِي يُلْزِم لِلإِجابَة عَلَى السُؤالُ. لِهٰذا السَبَبِ، يَتِمّ مِلْءِ حَقْلِ السِياقِ بِحَقْل “التَلْمِيح” المُقَدَّمُ فِي مَجْمُوعَةِ بَياناتٍ SQA. بِالنِسْبَةِ لِلعَيِّنَة فِي السِياقِ، نَخْتار عَيِّنَةً بِدُونِ صُورَةِ مُرْتَبِطَةً حَيْثُ لا يُمْكِن لِهَدَفِ LLaVA 7B اِسْتِهْلاكِ صُور مُتَعَدِّدَةِ. نَتْرُكها كَعَمَل مُسْتَقْبَلِيٍّ لِتَجْرِبَةِ SPD مَعَ أَكْثَرَ مِن مِثالٌ واحِدٍ فِي السِياقِ.

دَرَجَةِ الاِنْتِباهِ لَرُمُوز الصُورَةِ