في الترميز التخميني لنماذج اللغة الكبيرة متعددة الوسائط

Mukul Gagrani

Raghavv Goel

Wonseok Jeon

Junyoung Park

Mingu Lee

Christopher Lott

مُلخَّص

الاستدلال باستخدام نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بطيء بسبب العمود الفقري لنموذج اللغة الكبير الذي يعاني من عنق الزجاجة في عرض النطاق الترددي للذاكرة ويولد الرموز بشكل تلقائي تصاعدي. في هذه الورقة، نستكشف تطبيق الترميز التخميني لتعزيز كفاءة الاستدلال لنماذج MLLMs، وتحديداً نموذج LLaVA 7B. نظهر أن نموذج اللغة فقط يمكن أن يكون نموذجاً أولياً جيداً للترميز التخميني مع LLaVA 7B، متجاوزاً الحاجة لرموز الصور ومكونات المعالجة المرتبطة بها من النموذج الأولي. تظهر تجاربنا عبر ثلاث مهام مختلفة أن الترميز التخميني يمكن أن يحقق تسريعاً محدوداً بالذاكرة يصل إلى 2.37\(\times\) باستخدام نموذج لغة بعدد معاملات 115M قمنا بتدريبه من الصفر. بالإضافة إلى ذلك، نقدم نموذج LLaVA أولي مدمج يتضمن محول صور، والذي يظهر مكاسب أداء طفيفة في وصف الصور مع الحفاظ على نتائج مماثلة في المهام الأخرى.

مقدمة

أصبحت نماذج اللغة الكبيرة (Large Language Models) شائعة الاستخدام في مختلف المجالات بفضل أدائها المميز. ومع ذلك، تقتصر نماذج اللغة الكبيرة على استقبال استفسارات نصية فقط، بينما تأتي البيانات في العالم الحقيقي على شكل وسائط متعددة تشمل البيانات البصرية. توفر نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) (awadalla2023openflamingo, liu2024visual, tsimpoukelli2021multimodal, zhu2023minigpt) لنماذج اللغة الكبيرة قدرات فهم الصور، وتعزز دمج الرموز البصرية والنصية لتفاعل النموذج مع المستخدمين، مما يؤدي إلى استجابات أكثر فائدة. تتكون نماذج اللغة الكبيرة متعددة الوسائط من مشفر صور لمعالجة معلومات الصورة ومحول يحول ترميزات الصور إلى فضاء تضمين نموذج اللغة. بالإضافة إلى ذلك، تمتلك نماذج اللغة الكبيرة متعددة الوسائط عموداً فقرياً على شكل نموذج لغة كبير وبالتالي ترث التوليد التلقائي العكسي وعنق الزجاجة في عرض النطاق الترددي للذاكرة الذي يؤدي إلى بطء الاستدلال (shazeer2019fast).

تم اقتراح الترميز التخميني (speculative decoding) (leviathan2023fast, chen2023accelerating, sun2023spectr, miao2023specinfer, jeon2024recursive) كحل لتسريع استدلال نماذج اللغة الكبيرة دون فقدان في الدقة، حيث يتنبأ نموذج مسودة أصغر بعدة رموز مستقبلية يتم التحقق منها في استدعاء واحد لنموذج اللغة الكبير. نظراً لأن نماذج اللغة الكبيرة متعددة الوسائط لها عمود فقري على شكل نموذج لغة كبير، يمكن استخدام الترميز التخميني لجعل الاستدلال مع نماذج اللغة الكبيرة متعددة الوسائط أكثر كفاءة. لقد درست العديد من الأعمال الحديثة تطبيق الترميز التخميني ومتغيراته (kim2023big, fu2023lookahead, medusa, santilli2023accelerating, sun2023spectr, jeon2024recursive) لنماذج اللغة الكبيرة، ولكن لا توجد أعمال سابقة في سياق نماذج اللغة الكبيرة متعددة الوسائط حسب علمنا.

في هذه الورقة، نطبق الترميز التخميني على نموذج LLaVA 7B (مع نموذج LLaMA 7B كعمود فقري لنموذج اللغة) لجعل الاستدلال أكثر كفاءة. نظراً لعدم توفر نماذج عامة من عائلتي LLaVA وLLaMA أصغر من 7B معاملات، نقوم بتدريب نموذج لغة بحجم 115M من الصفر للترميز التخميني. نظهر أن نموذج اللغة الذي لا يأخذ في الاعتبار الرموز الصورية (وبالتالي لا يتطلب مشفر الصور والمحول) يمكن أن يكون نموذج مسودة جيداً لـ LLaVA 7B. نجري تجارب على ثلاث مهام مختلفة تشمل الأسئلة والأجوبة على الصور في مجموعة بيانات LLaVA Instruct 150K (liu2024visual)، ووضع العناوين على صور من مجموعة بيانات Coco (lin2014microsoft) ومجموعة بيانات ScienceQA (lu2022learn)، باستخدام مرشحين لنموذج المسودة قد مروا بمراحل مختلفة من التدريب والتحسين الدقيق. تظهر نتائجنا أننا يمكن أن نحقق تسريعاً مقيداً بالذاكرة يصل إلى 2.37\(\times\) باستخدام نموذج اللغة فقط كنموذج مسودة. نقوم أيضاً بإنشاء نموذج مسودة LLaVA صغير يتكون من محول صورة إلى جانب نموذج اللغة المدرب لدينا ونظهر أنه يحسن الأداء قليلاً في مهمة وضع العناوين على COCO ومهمة ScienceQA بينما يؤدي بشكل مماثل لنماذج المسودة التي تعتمد على اللغة فقط في المهام الأخرى.

الطريقة

الخلفية

التفكيك التخميني

يتضمن التفكيك التخميني (Speculative Decoding) (chen2023accelerating, leviathan2023fast) استخدام نموذج مسودة أصغر لتوليد عدة رموز يتم التحقق منها بالتوازي بواسطة النموذج اللغوي الكبير المستهدف. بناءً على سياق الإدخال \(X_{1:n}:=[X_{1}, \dots, X_{n}]\)، يولد النموذج المسودة تسلسلاً من الرموز \(\hat{X}_{n+1:n+L}\) بطريقة تلقائية للاستجابة، \(\hat{X}_{n+j} \sim p(\cdot | X_{1:n}, \hat{X}_{n+1:n+j-1})\). ثم يتم التحقق من الرموز المسودة عبر استدعاء واحد للنموذج اللغوي الكبير المستهدف (\(q\)) باستخدام معايير أخذ العينات بالرفض التي تضمن نفس توزيع الرموز الناتجة كما هو الحال في النموذج اللغوي الكبير المستهدف. على وجه التحديد، يتم قبول الرمز \(\hat{X}_{n+j}\) بالاحتمالية \[\begin{aligned} \min\left\{1, \frac{q(\hat{X}_{j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}. \end{aligned}\] إذا تم رفض رمز مسودة \(\hat{X}_{n+j}\)، يتم أخذ عينة جديدة من التوزيع المتبقي المعرف بـ \(p_{res}(x)=\max(0, q(x) - p(x) )\).

نماذج اللغة الكبيرة متعددة الوسائط

يتكون نموذج اللغة الكبير متعدد الوسائط المعتمد على الصور من 1) مشفر الرؤية لتشفير الصورة المدخلة، 2) محول لتحويل تشفيرات الصور إلى تضمينات نموذج اللغة، و 3) عمود فقري لنموذج اللغة. نصف إطار عمل نموذج LLaVA بمزيد من التفصيل كما يلي؛ بالنظر إلى صورة مدخلة \(I\) واستعلام نصي \(Q\)، يتم تحويل الصورة \(I\) إلى تسلسل \(H_1, H_2, \ldots, H_m\) من \(m\) تشفيرات صورة، ويتم تحويل الاستعلام النصي إلى تسلسل من تضمينات الرموز \(X_1, X_2, \ldots X_n\). يتم تحويل تشفيرات الصورة إلى تضمينات الصورة، \(V_i = g_\theta(H_i)\)، عبر محول \(g_\theta\) (وهو عبارة عن شبكة متعددة الطبقات صغيرة). يتم ذلك لتحويل التشفيرات \(H_i\) إلى فضاء تضمين نموذج اللغة. ثم يتم توليد الرموز بواسطة نموذج اللغة بناءً على تضمينات الصورة وتضمينات الرموز كما يلي: \[X_{n+1} \sim q(\cdot | V_{1:m}, X_{1:n})\]

تحليل SPD لنماذج MLLM

لتحقيق مكاسب أعلى مع الترميز التخميني، نحتاج إلى نموذج مسودة أصغر بكثير ومتوافق جيداً مع نموذجنا الهدف (LLaVA-7B). الخيار الأكثر شيوعاً لنماذج المسودات في الأعمال السابقة على نماذج اللغة الكبيرة هو استخدام نموذج مدرب مسبقاً صغير من نفس عائلة النماذج كنموذج الهدف أو تدريب نموذج أصغر يمتلك نفس هندسة النموذج الهدف (miao2023specinfer). نظراً لعدم توفر نموذج أصغر علنياً في عائلة LLaVA، نحتاج إلى تدريب نموذج مسودة من الصفر. الخيار الطبيعي لهندسة نموذج المسودة هو اتباع هندسة LLaVA حيث يتكون نموذج المسودة من محول وعمود فقري لنموذج اللغة بعدد أقل من المعاملات من LLaVA 7B. في نهجنا، نستخدم كلاً من، 1) نموذج مسودة LLaVA أصغر الذي يتكون من محول صورة أصغر ونموذج لغة مسودة، و2) نموذج المسودة الخاص باللغة فقط الذي يولد رموز المسودة بالاعتماد فقط على رموز النص المدخل. بالنظر إلى صورة مدخلة مع تضمينات الصورة \(V_{1:m}\)، وتضمينات الرموز \(X_{1:n}\) يولد نموذج المسودة رموز المسودة \(\hat{X}_{n+1:n+L}\) حيث يتم توليد رمز المسودة \[\begin{aligned} \hat{X}_{n+j} \sim p (\cdot | X_{1:n}, \hat{X}_{n+1:n+j-1}) \end{aligned}\] بالاعتماد فقط على رموز النص. يتحقق نموذج LLaVA الهدف من رموز المسودة بحساب التوزيع الهدف الذي يعتمد على تضمينات الصورة \(V_{1:m}\) وتضمينات رموز النص \(X_{1:n}\)، أي يتم قبول رمز المسودة \(\hat{X}_{n+j}\) بالاحتمال \[\begin{aligned} \min\left\{1, \frac{q(\hat{X}_{n+j}|V_{1:m}, X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}.\end{aligned}\] استخدام نموذج المسودة الخاص باللغة فقط أكثر كفاءة من نموذج المسودة بهندسة LLaVA لأن 1) لا يحتاج إلى محول إضافي حيث لا يعتمد على تضمينات الصورة لتوليد رموز المسودة، و2) لا يتطلب تدريب المحول.

التجارب

نقوم بتشغيل التجارب على ثلاث مهام تعليمية بصرية باستخدام SPD مع نموذج LLaVA-7B (liu2023improved) كنموذجنا المستهدف الذي يستخدم نموذج LLaMA-7B كعمود فقري لنموذج اللغة. نستخدم نماذج مسودة خضعت لمراحل مختلفة من التدريب بحجم ثابت لجزء اللغة من كل نموذج مسودة يبلغ \(115M\).

مرشحو نموذج المسودة.

نقوم بتدريب نموذج مسودة بحجم \(115M\) يتبع هيكلية LLaMA-2. نتبع خط أنابيب التدريب (goel2024direct) لتدريب نموذج مسودة من الصفر وصقل النموذج المسودة على مجموعات بيانات صقل التعليمات باستخدام خسارة TVD++ (goel2024direct). نقوم أيضاً بصقل نموذجنا المسودة على مجموعة فرعية من مجموعة بيانات LLaVA Instruct 150K (liu2024visual). بالنسبة لتجاربنا، نعتبر النماذج المسودة التالية بعد كل مرحلة من التدريب والصقل: 1) LLaMA الأساسي، نموذج LLaMA مسودة بعد التدريب المسبق باستخدام خسارة التنبؤ بالرمز التالي على \(600B\) رمز إنجليزي، 2) LLaMA الدردشة، نموذج LLaMA مسودة مصقول للتعليمات يتبع (goel2024direct) مع تهيئة من نموذج LLaMA الأساسي المسودة، و 3) LLaVA المصقول (ft-llava)، نموذج LLaVA مسودة مصقول حيث تم تهيئة محول الصور باستخدام التقسيم الفرعي (samragh2023weight) لمحول صور LLaVA-7B وتم تهيئة نموذج اللغة من نموذج LLaMA الدردشة المسودة (ثم تم صقل النموذج على مجموعة بيانات LLaVA). نشمل أيضاً نموذج مسودة آخر 4) LLaVA المصقول نصياً (ft-llava-text)، الذي يستخدم ببساطة جزء نموذج اللغة من 3). لاحظ أن نموذج LLaVA المصقول فقط يستخدم معلومات الصورة بينما جميع النماذج المسودة الأخرى تستهلك فقط جزء النص من المطالبة الإدخالية؛ عندما يستخدم النموذج المسودة معلومات الصورة، يتم مشاركة مشفر الرؤية (المبني على CLIP (radford2021learning)) مع النموذج المستهدف لتجنب إعادة حساب تضمينات الصورة. يتم إعطاء تفاصيل المعلمات في الملحق [app:model_config]

مهام التقييم.

نركز على توليد النص المفتوح والإجابة على الأسئلة متعددة الخيارات مع التفكير لتشجيع عدد أكبر من توليد الرموز، وهو مفيد عند استخدام SPD. من أجل ذلك، نقوم بالتقييم على 1) مجموعة بيانات LLaVA Instruct 150K (liu2024visual), 2) مهمة التعليق التوضيحي للصور على الصور من مجموعة بيانات COCO (lin2014microsoft), و 3) الأسئلة العلمية (SQA) مع التفكير بسلسلة الأفكار (CoT) (lu2022learn). يتم وصف إعدادات مطالبات النظام لجميع المهام في الملحق [app:sys_prompts]

المقاييس.

يتم تقييم فعالية SPD بالمقاييس التالية؛ 1) كفاءة الكتلة (\(\tau\))، متوسط عدد الرموز المولدة لكل كتلة (أو تشغيل النموذج المستهدف)، لكتلة بحجم \(\gamma\) وإدخال \(x\)، يمكن أن يكون الحد الأقصى لقيمة \(\tau(x)\) هو \(\gamma + 1\)، حجم الكتلة (\(\gamma\)) يعرف أيضاً باسم طول المسودة (DL) في بعض الأعمال؛ 2) تسريع محدود بالذاكرة (MBSU)، التسريع الافتراضي الذي يتم تحقيقه بواسطة SPD لكفاءة كتلة معينة \(\tau(x)\) وتأخير نسبي \(c\) معرف كنسبة بين عدد المعاملات من النموذج المسودة إلى النموذج المستهدف، أي، \(\mathrm{MBSU}(x)=\frac{c\tau(x)}{c\gamma + 1}\)؛ 3) معدل الرموز، إجمالي عدد الرموز المولدة مقسوماً على الوقت الإجمالي للتوليد، مما يعطي تقديراً للرموز المولدة لكل ثانية. نقيس هذه المقاييس في مهام مختلفة باستخدام حجم كتلة مختلف \(\gamma\) في \(\{3, 5\}\)

فك التشفير.

نستخدم فك التشفير الجشع لجميع التجارب بحيث يكون توليد SPD مطابقاً لتوليد النموذج المستهدف التلقائي التراكمي. نتركه كعمل مستقبلي لاستكشاف فك التشفير القائم على العينات (تغيير درجة الحرارة، تغيير top-\(p\)، top-\(k\)) في سياق SPD لـ MLLMs.

النتائج.

نتائجنا تظهر أن استخدام SPD مع نموذج الهدف LLaVA 7B يعطي تسريعاً كبيراً في توليد الناتج، ونؤكد أنه عند استخدام نموذج مسودة بدون أي معلومات صورة، يمكن لـ SPD أن يقدم تسريعاً تنافسياً مقارنة بنموذج مسودة يستخدم معلومات الصورة.

من الشكل [fig:result] (الرسومات العلوية والوسطى)، نلاحظ أن استخدام SPD يعطي مكاسب تزيد عن 2\(\times\) من حيث كفاءة الكتلة وMBSU. يظهر اتجاه الأداء عند زيادة حجم الكتلة من 3 إلى 5 لكل مهمة بشكل مماثل باستثناء مهمة SQA حيث يؤدي نموذج المسودة base-llama بشكل أفضل من نماذج المسودة الأخرى للنصوص فقط لحجم الكتلة =5. بالنسبة لمهمة تقييم LLaVA على كلا حجمي الكتلة (3 أو 5)، يؤدي نموذج المسودة ft-llava-text بشكل أفضل يليه عن كثب ft-llava. بالنسبة لمهمة تعليق COCO، يؤدي ft-llava بشكل أفضل، يليه ft-llava-text لكلا حجمي الكتلة. أخيراً، بالنسبة لمهمة SQA، لحجم الكتلة =3، يؤدي نموذج المسودة ft-llava بشكل أفضل يليه ft-llava-text بينما لحجم الكتلة =5، يؤدي نموذج المسودة ft-llava بشكل أفضل يليه base-llama. بالإضافة إلى ذلك، تظهر جميع نماذج المسودة لدينا معدل توكنات محسناً مقارنة بالتوليد التلقائي العكسي في الشكل [fig:result] (الأسفل) مع تقديم حجم الكتلة 3 معدل توكنات أفضل من حجم الكتلة 5، وبالتالي، يولد SPD توكنات أكثر في الثانية من الترميز التلقائي العكسي. يتوافق معدل التوكنات المعروض مع نسبة معدل التوكنات لـ SPD باستخدام نموذج مسودة معين إلى معدل التوكنات للتوليد التلقائي العكسي باستخدام نموذج الهدف.

نقدم أيضاً نتائج نوعية على مهمة التعليق على COCO لإظهار التوكنات المقبولة خلال عملية التوليد عند استخدام نموذج المسودة fine-tune-LLaVA-text حيث لا تُستخدم معلومات الصورة بواسطة نموذج المسودة في الشكل [fig:qualitative_example]. استناداً إلى الأجيال الخارجة في الشكل، حيث تكون التوكنات باللون الأزرق وتحتها خط هي التوكنات المقبولة، نلاحظ أن نموذج المسودة يمكنه التنبؤ بالكلمات الشائعة والاقتراحات، إلى جانب إنصاف الكلمات. على سبيل المثال، يمكن لنموذج المسودة التنبؤ بـ “tables” بناءً على “vege”. وبالمثل في المثال الثاني، بالنظر إلى السياق والتوكن الإضافي “app”، كان نموذج المسودة قادراً على التنبؤ بـ “liances”. نعتقد بشكل عام أن توليد النصوص المفتوحة يحتوي على العديد من التوكنات التي تتألف من كلمات شائعة، واقتراحات، وإكمالات كلمات لا تتطلب معرفة بتوكنات الصورة، وبالتالي، حتى نموذج المسودة بدون استخدام معلومات الصورة يقدم أداءً تنافسياً. علاوة على ذلك، يمكن لنموذج المسودة أيضاً التنبؤ بتكرار بعض التوكنات بمجرد توليدها. على سبيل المثال، في الصورة الثانية يمكن التنبؤ بكلمة “counter” و “bowls” عدة مرات بمجرد توليدها بواسطة نموذج الهدف. أخيراً، يتم ترك إجراء تدريب أكثر صرامة على نموذج لغة متعدد الوسائط صغير كعملنا المستقبلي.

استناداً إلى نوع الرموز المقبولة خلال SPD، افترضنا أنه من الممكن ألا يستخدم نموذج LLaVA المبدئي معلومات من رموز الرؤية (وبالتالي لا يحسن كفاءة الكتلة)، والذي يمكن تفسيره بأن رموز الرؤية لا يتم ترميزها بشكل صحيح بواسطة محول الصور المبدئي. لهذا السبب، قمنا بتجربة SPD مع نماذج مبدئية لا تستخدم رموز الصور لمراقبة ما إذا كان محول الصور المدرب خلال تحسين LLaVA المبدئي يساعد في تحسين كفاءة الكتلة (أو MBSU) أم لا. من الشكل fig:avg_token_all والشكل fig:mbsu_all نلاحظ أن نموذج LLaVA المحسن للنصوص ونموذج LLaVA المحسن يؤديان بشكل مماثل، وبالتالي يدعمان فرضيتنا تجريبياً.

علاوة على ذلك، أضفنا المزيد من نماذج المسودات التي تعتمد على النصوص فقط لمراقبة ما إذا كان هناك أي تسريع عند استخدام معلومات النصوص فقط. لمفاجأتنا من الشكل fig:mbsu_all حتى استخدام نماذج LLaMA الأساسية ونماذج دردشة LLaMA يعطي تسريعاً يزيد عن 2 مرات في المتوسط.

أداء SPD مع نموذج المسودة القائم على اللغة فقط قريب نسبياً من نموذج LLaVA وحتى يتفوق على نموذج LLaVA لـ ScienceQA. استناداً إلى هذا، قمنا بتحليل اتجاه قبول النماذج المختلفة (متوسط القبول لأول K تكرار مقابل متوسط القبول لآخر K تكرار) والاهتمام المعطى لرموز الصورة بواسطة نموذج LLaVA الهدف (انظر الملحق).

الأعمال ذات الصلة

الخلاصة

في هذه الورقة، نقدم الجهد الأول نحو استخدام الترميز التخميني لتسريع الاستدلال عند استخدام النماذج اللغوية الكبيرة متعددة الوسائط، وخصوصاً لمجال الصور والنصوص. نظهر أن استخدام نموذج المسودة النصي فقط يحقق أداءً تنافسياً مقارنة باستخدام نموذج مسودة يستفيد من ميزات الصورة. نقوم بإجراء تجارب متنوعة على مهام مختلفة للإجابة على الأسئلة البصرية مع التركيز على توليد عدد أعلى من الرموز الناتجة: توليد نص مفتوح النهاية وتوليد نص مع التفكير باستخدام نماذج مسودة مختلفة (نص فقط ونص-صورة). لقد حققنا تسريعاً كبيراً يصل إلى \(2.37\times\) لنموذج المسودة النصي فقط وتسريعاً أفضل بشكل طفيف لنموذج المسودة النص-صورة، مما يظهر تجريبياً إمكانية استخدام الترميز التخميني للنماذج اللغوية الكبيرة متعددة الوسائط.

تفتح أعمالنا عدة مسارات مستقبلية بفضل الإطار العام المقدم. يمكن توسيع عملنا ليشمل نماذج أخرى مستهدفة مثل (li2023blip)، (zhu2023minigpt) و(awadalla2023openflamingo)، ووسائط أخرى مثل الصوت (chu2023qwen) التي تعاني أيضاً من القيود بسبب التوليد التلقائي التراجعي. علاوة على ذلك، يمكن استخدام التقدم الأخير في خوارزميات الترميز التخميني للترميز القائم على الشجرة أيضاً باتباع (sun2023spectr)، (miao2023specinfer)، (medusa)، (jeon2024recursive) لزيادة سرعة التوليد أكثر.

الملحق

تكوينات النموذج

يستخدم نموذج LLaVA-7B: (i) مشفر الرؤية، (ii) محول/مشروع الصورة المبني على الشبكة العصبية متعددة الطبقات، و (iii) نموذج اللغة LLaMA 7B. المشفر البصري هو CLIP ViT-L/14 مع تفاصيل موجودة في (radford2021learning)، ومحول الصورة المبني على الشبكة العصبية متعددة الطبقات يحتوي على طبقتين خطيتين بالأحجام التالية: \(1024\times4096\) و \(4096\times 4096\). بالنسبة للسيناريو الذي يحتوي فيه النموذج المبدئي أيضاً على محول للصور، فإن الأحجام هي \(1024 \times 1024\) و \(1024 \times 1024\).

تستخدم التكوينات التالية لجزء نموذج اللغة الهدف والمسودة الذي يتبع هندسة LLaMA:

تكوينات النموذج المسودة والهدف
	الهدف (7B)	المسودة (115M)
الطبقات	32	4
رؤوس الانتباه	32	8
البعد الوسيط	11,008	2,816
البعد الخفي	2,048	1,024
التنشيط	SiLU	SiLU

[tab:model_config]

مطالبات النظام

نستخدم مطالبات النظام التالية للمهمة المحددة. يستخدم الرمز الخاص بالصورة لتضمين بيانات الصورة (\(<\)image\(>\))

تقييم LLaVA. نتبع أسلوب المطالبة المعطى في (liu2024visual)، حيث يحتوي LLaVA على عدة أسئلة وأجوبة نقسمها إلى عينات مختلفة.

\(<\)s\(>\) دردشة بين مستخدم فضولي ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة ومفصلة ومهذبة على أسئلة المستخدم. المستخدم: \(<\)image\(>\) \(\\\)السؤال \(Q_{1}\) المساعد: الرد \(R_{1}\). المستخدم: السؤال \(Q_{2}\) \(\dots\).

وصف COCO. بما أن مجموعة بيانات COCO لا تحتوي على أي مطالبات بالأسئلة، قمنا بمطالبة النموذج بمطالبة مشابهة لما سبق.

\(<\)s\(>\) دردشة بين مستخدم فضولي ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة ومفصلة ومهذبة على أسئلة المستخدم. المستخدم: \(<\)image\(>\) \(\\\)قدم وصفاً مفصلاً للصورة المعطاة المساعد:

أسئلة العلوم. نتبع أسلوب المطالبة المقدم في (lu2022learn) مع مثال واحد في السياق للسؤال، الخيارات، الإجابة والتعليل لتمكين التفكير المتسلسل (CoT). بالإضافة إلى ذلك، نعتبر فقط العينات الاختبارية التي لها صورة مرتبطة.

\[\begin{aligned} & \text{السؤال: } I_{i}^{ques} \\ & \text{الخيارات: (0) خيار: } I_{i1}^{opt} \text{ (1) خيار: } I_{i2}^{opt} \text{ (2) خيار: } I_{i3}^{opt} \\ & \text{السياق: } I_{i}^{cont} \\ & \text{الإجابة: الإجابة هي } I_{i}^{ans} \text{. لأن: محاضرة } I_{i}^{lect} \text{ التفسير: } I_{i}^{exp} \\ \\ & <image> \\ & \text{السؤال: } I_{test}^{ques} \\ & \text{الخيارات: (0) خيار: } I_{test,1}^{opt} \text{ (1) خيار: } I_{test,2}^{opt} \text{ (2) خيار: } I_{test,3}^{opt} \\ & \text{السياق: } I_{test}^{cont} \\ & \text{الإجابة: الإجابة هي} \end{aligned}\]

حيث يشير الرمز الفرعي \(i\) إلى مثال في السياق.

في ورقة SQA، يتم توفير حقل السياق من خلال إنشاء تسمية توضيحية للصورة المرتبطة باستخدام نموذج تسمية الصور، ومع ذلك، كانت هذه التسميات غالباً بسيطة ولم توفر وصفاً مفصلاً للصورة الذي يلزم للإجابة على السؤال. لهذا السبب، يتم ملء حقل السياق بحقل “التلميح” المقدم في مجموعة بيانات SQA. بالنسبة للعينة في السياق، نختار عينة بدون صورة مرتبطة حيث لا يمكن لهدف LLaVA 7B استهلاك صور متعددة. نتركها كعمل مستقبلي لتجربة SPD مع أكثر من مثال واحد في السياق.