مُلخَّص

الاستدلال باستخدام نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بطيء، إذ يعاني العمود الفقري اللغوي من عنق زجاجة في عرض النطاق الترددي للذاكرة ويولِّد الرموز بأسلوب ذَاتيّ الانحدار. في هذه الورقة، نستكشف تطبيق الترميز التخميني (Speculative Decoding، ويُختصر SPD) لتعزيز كفاءة الاستدلال في نماذج MLLMs، مع التركيز على نموذج LLaVA-7B. نُظهر أنّ نموذجًا لغويًا نصّيًا فقط يصلح كنموذج مسودّة فعّال للترميز التخميني مع LLaVA-7B، مستغنيًا عن رموز الصورة ومكوّنات معالجتها. تُبيّن تجاربنا عبر ثلاث مهام مختلفة أنّ الترميز التخميني يمكن أن يحقق تسريعًا محدودًا بالذاكرة يصل إلى 2.37\(\times\) عند استخدام نموذج لغوي بعدد معاملات 115M قمنا بتدريبه من الصفر. بالإضافة إلى ذلك، نقدّم نموذج مسودّة من نوع LLaVA مدمجًا يتضمّن مُسقِّط الصور، ويُظهر مكاسب طفيفة في توصيف الصور مع الحفاظ على نتائج مماثلة في المهام الأخرى.

مقدمة

أصبحت نماذج اللغة الكبيرة (Large Language Models) شائعة الاستخدام بفضل أدائها المميّز. ومع ذلك، تُقيَّد هذه النماذج غالبًا بمدخلات نصّية فحسب، في حين أنّ بيانات العالم الحقيقي متعدّدة الوسائط وتضمّ معلومات بصريّة. توفّر نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) (awadalla2023openflamingo, liu2024visual, tsimpoukelli2021multimodal, zhu2023minigpt) قدرات لفهم الصور عبر دمج الرموز البصريّة والنصّية لتفاعل أكثر فائدة مع المستخدمين. تتكوّن هذه النماذج من مُشفِّر صور لمعالجة معلومات الصورة، ومُسقِّط يحوّل ترميزات الصورة إلى فضاء تضمين نموذج اللغة، إضافةً إلى العمود الفقري اللغوي الذي يرث منه التوليد الذاتيّ الانحدار وعنق الزجاجة في عرض النطاق الترددي للذاكرة، ممّا يُبطِّئ الاستدلال (shazeer2019fast).

اقتُرح الترميز التخميني (speculative decoding) (leviathan2023fast, chen2023accelerating, sun2023spectr, miao2023specinfer, jeon2024recursive) بوصفه وسيلة لتسريع الاستدلال في نماذج اللغة الكبيرة دون التضحية بالدقة؛ إذ يتنبّأ نموذجٌ مسودّة أصغر بعدّة رموز مستقبلية تُتحقَّق في استدعاءٍ واحد للنموذج الهدف الكبير. وبما أنّ نماذج اللغة الكبيرة متعددة الوسائط تعتمد على نموذج لغوي كبير كعمود فقري، يمكن تطبيق الترميز التخميني لجعل استدلالها أكثر كفاءة. تناولت أعمالٌ حديثة استخدام الترميز التخميني ومتغيّراته (kim2023big, fu2023lookahead, medusa, santilli2023accelerating, sun2023spectr, jeon2024recursive) لنماذج اللغة الكبيرة، لكن لا نعلم بدراساتٍ سابقة في سياق نماذج اللغة الكبيرة متعددة الوسائط.

في هذه الورقة، نُطبّق الترميز التخميني على نموذج LLaVA-7B (المعتمد على LLaMA-7B كعمود فقري لغوي) لتسريع الاستدلال. ونظرًا لغياب نماذج أصغر مُعلَنة من عائلتَي LLaVA وLLaMA دون 7B مُعامِلًا، درّبنا نموذجًا لغويًا من الصفر بحجم 115M لاستخدامه كنموذج مسودّة. نُظهر أنّ نموذجًا لغويًا لا يأخذ رموز الصورة في الحسبان (وبالتالي لا يحتاج إلى مُشفِّر الصور أو المُسقِّط) يمكن أن يكون نموذج مسودّة جيّدًا لـLLaVA-7B. أجرينا تجارب على ثلاث مهام تشمل أسئلة وأجوبة على صور من مجموعة LLaVA Instruct 150K (liu2024visual)، وتوليد أوصاف لصور من مجموعة COCO (lin2014microsoft)، ومجموعة ScienceQA (lu2022learn)، باستخدام نماذج مسودّة خضعت لمستويات مختلفة من التدريب والضبط الدقيق. تُظهر نتائجنا إمكان تحقيق تسريعٍ محدود بالذاكرة يصل إلى 2.37\(\times\) باستخدام نموذجٍ لغويّ فقط كنموذج مسودّة. كما أنشأنا نموذج مسودّة مدمجًا من نوع LLaVA يضمّ مُسقِّط صور إلى جانب النموذج اللغوي المدرَّب، وقد أظهر تحسّنًا طفيفًا في مهمّتَي توصيف COCO وScienceQA مع أداءٍ مماثل في بقيّة المهام.

الطريقة

الخلفية

الترميز التخميني

يتضمّن الترميز التخميني (Speculative Decoding) (chen2023accelerating, leviathan2023fast) استخدام نموذج مسودّة أصغر لتوليد عدّة رموز تُتحقَّق بالتوازي بواسطة النموذج اللغوي الكبير الهدف. بالاعتماد على سياق الإدخال \(X_{1:n}:=[X_{1}, \dots, X_{n}]\)، يُولِّد نموذج المسودّة تسلسلًا من الرموز \(\hat{X}_{n+1:n+L}\) بأسلوب ذَاتيّ الانحدار: \(\hat{X}_{n+j} \sim p(\cdot \mid X_{1:n}, \hat{X}_{n+1:n+j-1})\). ثم تُتحقَّق هذه الرموز في استدعاءٍ واحد للنموذج الهدف (\(q\)) باستخدام آلية أخذ العينات بالرفض لضمان مطابقة التوزيع الأصلي. على وجه التحديد، يُقبَل الرمز \(\hat{X}_{n+j}\) بالاحتمالية \[ \min\left\{1, \frac{q(\hat{X}_{n+j}\mid X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}\mid X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}. \] إذا رُفِض رمزُ المسودّة \(\hat{X}_{n+j}\)، تُؤخَذ عيّنة جديدة من التوزيع المتبقّي \(p_{\mathrm{res}}(x)=\max(0, q(x) - p(x))\).

نماذج اللغة الكبيرة متعددة الوسائط

يتكوّن نموذج اللغة الكبير متعدد الوسائط المعتمد على الصور من: 1) مُشفِّر رؤية لتضمين الصورة المدخلة، 2) مُسقِّط لتحويل ترميزات الصورة إلى تضمينات نموذج اللغة، و3) العمود الفقري لنموذج اللغة. نصف إطار عمل LLaVA بالتفصيل؛ فبالنظر إلى صورة مُدخلة \(I\) واستعلام نصّي \(Q\)، تُحوَّل الصورة إلى تسلسل من الترميزات \(H_1, H_2, \ldots, H_m\)، ويُحوَّل الاستعلام النصّي إلى تسلسلٍ من تضمينات الرموز \(X_1, X_2, \ldots, X_n\). ثم يُحوِّل المُسقِّط \(g_\theta\) هذا التسلسل إلى تضميناتٍ صوريّة \(V_i = g_\theta(H_i)\) في فضاء نموذج اللغة. أخيرًا، يُولِّد نموذج اللغة الرموز التالية بالاعتماد على تضمينات الصورة والنص كما في: \[ X_{n+1} \sim q(\cdot \mid V_{1:m}, X_{1:n}) \]

تحليل الترميز التخميني (SPD) لنماذج MLLM

لتحقيق مكاسب كبيرة بالترميز التخميني، نحتاج إلى نموذج مسودّة أصغر بكثير ومتوافق جيّدًا مع نموذجنا الهدف (LLaVA-7B). الخيار الشائع في الأدبيات هو استخدام نموذج مسودّة مدرَّب مسبقًا من العائلة نفسها، أو تدريب نموذج أصغر بالبنية عينها للهدف (miao2023specinfer). وبما أنّه لا يتوافر علنًا نموذجٌ أصغر من عائلة LLaVA، درّبنا نموذج مسودّة من الصفر. اخترنا بُنيتين بديلتين تُحاكيان هيكل LLaVA: 1) مسودّة مكوّنة من مُسقِّط صور أصغر مع نموذج اللغة للمسودّة، أو 2) مسودّة نصّية فقط تُولِّد الرموز اعتمادًا على النص وحده. بالاعتماد على تضمينات الصورة \(V_{1:m}\) وتضمينات النص \(X_{1:n}\)، يُولِّد نموذج المسودّة تسلسل الرموز \(\hat{X}_{n+1:n+L}\) حيث \[ \hat{X}_{n+j} \sim p(\cdot \mid X_{1:n}, \hat{X}_{n+1:n+j-1}). \] يتحقّق نموذج الهدف LLaVA من هذه الرموز اعتمادًا على تضمينات الصورة والنص باحتمالية \[ \min\left\{1, \frac{q(\hat{X}_{n+j}\mid V_{1:m}, X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}\mid X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}. \] تُعدّ المسودّة النصّية فقط أكثر كفاءةً لأنّها: 1) لا تحتاج إلى مُسقِّط إضافي لاستيعاب تضمينات الصورة، و2) لا تتطلّب تدريب ذلك المُسقِّط.

التجارب

نجري التجارب على ثلاث مهام للتوجيه البصري باستخدام SPD مع نموذج LLaVA-7B (liu2023improved) الهدف، المعتمد على LLaMA-7B كنموذجٍ لغوي. جميع نماذج المسودّة تمتلك حجمًا ثابتًا لجزئها اللغوي قدره \(115\mathrm{M}\).

نماذج المسودّة المرشّحة:

درّبنا نموذج مسودّة بحجم \(115\mathrm{M}\) وفق هيكلية LLaMA-2 من الصفر، ثمّ أجرينا ضبطًا دقيقًا للمسودّة على بيانات التعليمات بخسارة TVD++ (goel2024direct) وعلى مجموعة فرعية من LLaVA Instruct 150K (liu2024visual). ندرس المراحل التالية:

LLaMA الأساسي: نموذج LLaMA مُدرَّب مُسبقًا على \(600\mathrm{B}\) رمز إنجليزي.
LLaMA للدردشة: ضبطٌ دقيق موجَّه بالتعليمات انطلاقًا من نموذج LLaMA الأساسي (goel2024direct).
LLaVA المضبوط (ft-llava): ضبطٌ دقيق كامل مع تهيئة مُسقِّط الصور من LLaVA-7B باستخدام تقنية تقسيم الأوزان (samragh2023weight)، وجزء لغوي مُهيَّأ من LLaMA للدردشة.
LLaVA (نصي فقط) مضبوط (ft-llava-text): يستخدم الجزء اللغوي فقط من نموذج ft-llava.

عندما تعتمدُ المسودّة على الصورة، نُشرك مُشفِّر الرؤية (CLIP ViT-L/14) مع النموذج الهدف لتجنّب إعادة حساب التضمينات. تفاصيل الإعدادات في الملحق [app:model_config].

مهام التقييم:

نركّز على توليد نصّ مفتوح النهايات والإجابة متعدّدة الخيارات مع التفكير المتسلسل (CoT) لزيادة أطوال التوليد. نقوم بالتقييم على: 1) LLaVA Instruct 150K (liu2024visual)، 2) توصيف COCO (lin2014microsoft)، و3) ScienceQA مع CoT (lu2022learn). إعدادات المطالبات في الملحق [app:sys_prompts].

المقاييس:

نقيس فاعلية SPD عبر: 1) كفاءة الكُتلة (\(\tau\)): متوسّط عدد الرموز المقبولة لكل استدعاء للنموذج الهدف عند طول مسودّة \(\gamma\). 2) التسريع المحدود بالذاكرة (MBSU): \(\mathrm{MBSU}(x)=\frac{c\,\tau(x)}{c\,\gamma+1}\) حيث \(c\) نسبة تكلفة معاملات نموذج المسودّة إلى النموذج الهدف. 3) معدّل الرموز: إجمالي عدد الرموز المُولَّدة مقسومًا على زمن التوليد (رمز/ثانية). نجري القياسات عند \(\gamma\in\{3,5\}\).

فكّ الترميز:

نستخدم فكّ الترميز الجشِع في جميع التجارب، بحيث يُطابق التوليدُ التوليدَ الذاتيّ الانحدار للنموذج الهدف. نترك استكشاف فكّ الترميز القائم على العيّنة (تغيير درجة الحرارة، top-\(p\)، top-\(k\)) عملًا مستقبليًا.

النتائج:

تُظهر نتائجنا أنّ SPD مع نموذج الهدف LLaVA-7B يوفّر تسريعًا ملحوظًا في التوليد. وعند استخدام مسودّة نصّية فقط، يقدّم SPD تسريعًا تنافسيًا مقارنةً بمسودّةٍ تستفيد من معلومات الصورة.

من الشكل [fig:result] (الأعلى والوسط)، نرى أنّ SPD يحقّق مكاسب تتجاوز 2\(\times\) من حيث كفاءة الكُتلة وMBSU. يميل الأداء إلى الارتفاع عند زيادة طول المسودّة من 3 إلى 5 في جميع المهام، باستثناء SQA حيث يتفوّق نموذج المسودّة base-llama عند \(\gamma=5\). في تقييم LLaVA، يتصدّر ft-llava-text ثم ft-llava لكلا الطولين. في COCO، يتصدّر ft-llava ثم ft-llava-text. في SQA، عند \(\gamma=3\) يتفوّق ft-llava ثم ft-llava-text، وعند \(\gamma=5\) يتفوّق ft-llava ثم base-llama. كما حسّنت جميع نماذج المسودّة معدّل الرموز مقارنةً بالتوليد الذاتيّ الانحدار الخالص، وكان \(\gamma=3\) أفضل من \(\gamma=5\) من حيث الرموز في الثانية.

نعرض أيضًا نتائج نوعيّة لتوليد تعليقات COCO باستخدام المسودّة ft-llava-text في الشكل [fig:qualitative_example]، حيث تُبرز الرموز المقبولة باللون الأزرق مع تسطير. نرى أنّ المسودّة تتنبّأ بكلمات شائعة وإكمالاتٍ دون معلوماتٍ بصريّة؛ مثلًا تتنبّأ بـ “tables” انطلاقًا من “vege”، وفي المثال الثاني من “app” تتنبّأ بـ “liances”. عمومًا، يحتوي التوليد المفتوح على العديد من الرموز الشائعة والإكمالات التي لا تتطلّب تضمينات بصريّة، لذا يُقدّم نموذج المسودّة النصّي أداءً تنافسيًا. ويمكنه أيضًا تكرار الرموز بعد توليدها — مثل “counter” و“bowls” في المثال الثاني. نترك ضبطًا أدقّ لنموذجٍ صغيرٍ متعدد الوسائط عملًا مستقبليًا.

استنادًا إلى نوع الرموز المقبولة، افترضنا أنّ نموذج LLaVA الأوّلي قد لا يستخدم معلومات الرؤية بالكامل (أي لا يُحسِّن كفاءة الكُتلة)، ربّما لأن مُسقِّط الصور الأوّلي لا يُرمِّز الرموز الصوريّة على نحوٍ كافٍ. لذلك جرّبنا SPD مع مسودّات أوليّة لا تستخدم رموز الصورة لرصد أثر المُسقِّط المدرَّب في تحسين كفاءة الكُتلة أو MBSU. ومن الشكل fig:avg_token_all وfig:mbsu_all نرى أن LLaVA (نصي فقط) مضبوط والنسخة الكاملة يقدّمان أداءً متقاربًا، ما يدعم فرضيّتنا تجريبيًا.

أضفنا أيضًا مسودّاتٍ نصّية أخرى لرصد التسريع باستخدام النص فقط. ولدهشتنا، أظهرت نماذج LLaMA الأساسية ونسخة الدردشة تسريعًا يزيد عن 2 مرّات في المتوسّط (fig:mbsu_all).

أداء SPD مع مسودّة نصّية قريب نسبيًا من مسودّة LLaVA، ويتفوّق أحيانًا في ScienceQA. وبناءً على ذلك، حلّلنا متوسّط قبول الرموز عبر النماذج المختلفة ودرجة الانتباه المُخصَّصة لرموز الصورة في النموذج الهدف LLaVA (انظر الملحق).

الأعمال ذات الصلة

الخلاصة

قدّمنا في هذه الورقة خطوةً أولى نحو استخدام الترميز التخميني لتسريع الاستدلال في نماذج اللغة الكبيرة متعددة الوسائط، مع التركيز على الصور والنصوص. وأظهرنا أنّ مسودّة نصّية فقط تُحقّق أداءً تنافسيًا مقارنةً بمسودّةٍ تستفيد من ميزات الصورة. أجرينا تجارب على مهام توليد نصّ مفتوح ومهام تفكيرٍ متسلسل باستخدام مسودّاتٍ نصّية ونص–صورة، وحقّقنا تسريعًا يصل إلى \(2.37\times\) للمسودّة النصّية وتسريعًا أعلى قليلًا للمسودّة النص–صورة، ما يُظهر تجريبيًا فعّالية الترميز التخميني في MLLMs.

يفتح عملُنا مساراتٍ مستقبليّة متعدّدة ضمن الإطار المُقدَّم. يمكن توسيعه ليشمل نماذج أخرى مثل (li2023blip)، (zhu2023minigpt)، (awadalla2023openflamingo)، وكذلك وسائط أخرى كالصوت (chu2023qwen) التي تعاني القيود نفسها للتوليد الذاتيّ الانحدار. علاوةً على ذلك، يمكن تبنّي أساليب ترميزٍ تخميني قائمة على الشجرة (sun2023spectr, miao2023specinfer, medusa, jeon2024recursive) لزيادة سرعة التوليد أكثر.

الملحق

تكوينات النموذج

يستخدم نموذج LLaVA-7B: (i) مُشفِّر الرؤية، (ii) مُسقِّط/مُحوِّل الصور المبني على شبكة عصبية متعددة الطبقات، و(iii) نموذج اللغة LLaMA-7B. المُشفِّر البصري هو CLIP ViT-L/14 مع تفاصيل في (radford2021learning)، ومُسقِّط الصور يحتوي على طبقتين خطّيتين بأبعاد \(1024\times4096\) و\(4096\times4096\). أمّا في سيناريو المسودّات مع مُسقِّط صور، فتكون الأبعاد \(1024\times1024\) و\(1024\times1024\).

تكوينات الجزء اللغوي في النموذج الهدف والمسودّة (كِلاهما من عائلة LLaMA) كما يلي:

تكوينات النموذج: المسودّة والهدف
	الهدف (7B)	المسودّة (115M)
الطبقات	32	4
رؤوس الانتباه	32	8
البعد الوسيط	11,008	2,816
البعد الخفي	2,048	1,024
دالّة التنشيط	SiLU	SiLU

[tab:model_config]

مطالبات النظام

نستخدم المطالبات التالية لكلّ مهمّة. يُستخدم الرمز \(<\)image\(>\) لتمثيل بيانات الصورة.

تقييم LLaVA. نتبع منهجيّة (liu2024visual)، حيث يعرض المساعد أسئلةً وإجاباتٍ متعدّدة.

\(<\)s\(>\) دردشة بين مستخدمٍ فضولي ومساعد ذكاء اصطناعي. يقدّم المساعد إجاباتٍ مفصّلة ومهذّبة. المستخدم: \(<\)image\(>\) \\ السؤال \(Q_{1}\) المساعد: \(R_{1}\). المستخدم: السؤال \(Q_{2}\) …

توصيف COCO. بما أنّ COCO لا يتضمّن أسئلة، استخدمنا مطلبًا شبيهًا بالسابق:

\(<\)s\(>\) دردشة بين مستخدمٍ فضولي ومساعد ذكاء اصطناعي. يقدّم المساعد إجاباتٍ مفيدة ومفصّلة. المستخدم: \(<\)image\(>\) \\ قدّم توصيفًا مفصّلًا للصورة المساعد:

أسئلة العلوم. نتبع (lu2022learn) مع مثالٍ واحد للسؤال والخيارات والإجابة والتعليل لتمكين التفكير المتسلسل. نستخدم عينات الاختبار المرتبطة بصورة.

\[ \begin{aligned} & \text{السؤال: } I_{i}^{ques} \\ & \text{الخيارات: (0) } I_{i1}^{opt} \,(1)\, I_{i2}^{opt} \,(2)\, I_{i3}^{opt} \\ & \text{السياق: } I_{i}^{cont} \\ & \text{الإجابة: } I_{i}^{ans} \text{، لأن: } I_{i}^{lect} \text{. التفسير: } I_{i}^{exp} \\ & \langle\text{image}\rangle \\ & \text{السؤال: } I_{test}^{ques} \\ & \text{الخيارات: (0) } I_{test,1}^{opt} \,(1)\, I_{test,2}^{opt} \,(2)\, I_{test,3}^{opt} \\ & \text{السياق: } I_{test}^{cont} \\ & \text{الإجابة:} \end{aligned} \]

يشير \(i\) إلى العيّنة داخل السياق. في SQA، وُفِّر حقل السياق عبر تسمية صور مولَّدة تلقائيًا، لكنها كانت بسيطة؛ لذا استخدمنا حقل “التلميح” من البيانات. مثال السياق لا يتضمّن صورةً متعدّدة لتجنّب تعقيد الاستهداف. نترك SPD مع أكثر من مثالٍ في السياق عملًا مستقبليًا.

في الترميز التخميني لنماذج اللغة الكبيرة متعددة الوسائط