في الترميز التخميني لنماذج اللغة الكبيرة متعددة الوسائط

Mukul Gagrani

Raghavv Goel

Wonseok Jeon

Junyoung Park

Mingu Lee

Christopher Lott

مُلخَّص

الاستدلال باستخدام نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بطيء؛ ذلك بسبب أن عمودها الفقري – نموذج اللغة الكبير – يعاني من عنق زجاجة في عرض النطاق الترددي للذاكرة، ويولد الرموز بشكل تلقائي تراكمي. في هذه الورقة، نستكشف تطبيق الترميز التخميني لتعزيز كفاءة الاستدلال في نماذج MLLMs، وبشكلٍ خاص نموذج LLaVA 7B. نُظهر أن نموذج اللغة النصي وحده يمكن أن يكون نموذجًا مسودًا مناسبًا للترميز التخميني مع LLaVA 7B، متجاوزًا الحاجة إلى رموز الصور ومكونات المعالجة المرتبطة بها. تبين تجاربنا عبر ثلاث مهام مختلفة أن الترميز التخميني يمكن أن يحقق تسريعًا محدودًا في استهلاك الذاكرة يصل إلى 2.37\(\times\) عند استخدام نموذج لغوي بحجم 115M معامل قمنا بتدريبه من الصفر. بالإضافة إلى ذلك، نقدم نموذجًا مسودًا مدمجًا من LLaVA يتضمّن محول الصور، والذي يظهر مكاسب أداء طفيفة في وصف الصور مع الحفاظ على نتائجٍ مماثلة في المهام الأخرى.

مقدمة

أصبحت نماذج اللغة الكبيرة (Large Language Models) واسعة الانتشار في مختلف المجالات بفضل أدائها المميز. ومع ذلك، فهي تقتصر على استقبال استفسارات نصية فقط، بينما تأتي البيانات في العالم الحقيقي على شكل وسائط متعددة تشمل معلومات بصرية. توفر نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) (awadalla2023openflamingo, liu2024visual, tsimpoukelli2021multimodal, zhu2023minigpt) قدرات فهم الصور عبر دمج الرموز البصرية والنصية لتحقيق تفاعل أكثر فائدة مع المستخدمين. تتكون هذه النماذج من مشفّر رؤية لمعالجة معلومات الصورة، ومحور لتحويل ترميزات الصور إلى فضاء تضمين نموذج اللغة، بالإضافة إلى عمودها الفقري الذي يرث منه توليد الرموز تلقائيًا تراكميًا ويعاني من عنق زجاجة في عرض النطاق الترددي للذاكرة، مما يؤدي إلى بطء الاستدلال (shazeer2019fast).

اقترح فك الترميز التخميني (speculative decoding) (leviathan2023fast, chen2023accelerating, sun2023spectr, miao2023specinfer, jeon2024recursive) كحل لتسريع عملية الاستدلال في نماذج اللغة الكبيرة دون التضحية بالدقة، حيث يتنبأ نموذج مسودة أصغر بعدة رموز مستقبلية يتم التحقق منها في استدعاء واحد للنموذج الكبير. ونظرًا إلى أن نماذج اللغة الكبيرة متعددة الوسائط تعتمد في عمودها الفقري على نموذج لغة كبير، يمكن تطبيق الترميز التخميني لجعل استدلالها أكثر كفاءة. تناولت العديد من الأعمال الحديثة استخدام الترميز التخميني ومتغيراته (kim2023big, fu2023lookahead, medusa, santilli2023accelerating, sun2023spectr, jeon2024recursive) لنماذج اللغة الكبيرة، لكن لا توجد دراسات سابقة في سياق النماذج متعددة الوسائط حسب علمنا.

في هذه الورقة، نطبق الترميز التخميني على نموذج LLaVA 7B (الذي يستخدم LLaMA 7B كعمود فقري للغة) لجعل الاستدلال أكثر كفاءة. ونظرًا لغياب نماذج أصغر متاحة علنًا من عائلتي LLaVA وLLaMA بأقل من 7 مليارات معامِلات، قمنا بتدريب نموذج لغوي من الصفر بحجم 115M معامل لاستخدامه كنموذج مسودة. نُظهر أن نموذجًا لغويًا يتجاهل رموز الصور (وبالتالي لا يحتاج إلى مشفّر الرؤية والمحور) يمكن أن يكون نموذج مسودة جيدًا لـLLaVA 7B. أجرينا تجارب على ثلاث مهام تشمل أسئلة وأجوبة على صور في مجموعة بيانات LLaVA Instruct 150K (liu2024visual)، ووضع العناوين على صور من مجموعة بيانات COCO (lin2014microsoft) ومجموعة بيانات ScienceQA (lu2022learn) باستخدام نماذج مسودة بمستويات تدريب وصقل متفاوتة. تظهر نتائجنا أننا نستطيع تحقيق تسريع محدود في استهلاك الذاكرة يصل إلى 2.37× باستخدام نموذج لغوي فقط كنموذج مسودة. كما أنشأنا نموذجًا مسودًا مدمجًا من LLaVA يضم محول الرؤية إلى جانب نموذج اللغة المدرب، وأظهر تحسينًا طفيفًا في مهمة التعليق على COCO ومهمة ScienceQA مع أداء مماثل في بقية المهام.

الطريقة

الخلفية

الترميز التخميني

يتضمن الترميز التخميني (Speculative Decoding) (chen2023accelerating, leviathan2023fast) استخدام نموذج مسودة أصغر لتوليد عدة رموز يتم التحقق منها بالتوازي من قبل النموذج اللغوي الكبير المستهدف. بناءً على سياق الإدخال \(X_{1:n}:=[X_{1}, \dots, X_{n}]\)، يولد نموذج المسودة تسلسلًا من الرموز \(\hat{X}_{n+1:n+L}\) بطريقة تلقائية تراكميًا، \(\hat{X}_{n+j}\sim p(\cdot\mid X_{1:n},\hat{X}_{n+1:n+j-1})\). ثم يتم التحقق من هذه الرموز في استدعاء واحد للنموذج الكبير (\(q\)) باستخدام آلية أخذ العينات بالرفض لضمان مطابقة التوزيع الأصلي. على وجه التحديد، يُقبل الرمز \(\hat{X}_{n+j}\) بالاحتمالية \[\min\left\{1, \frac{q(\hat{X}_{n+j}\mid X_{1:n},\hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}\mid X_{1:n},\hat{X}_{n+1:n+j-1})}\right\}.\] إذا رُفض رمز المسودة \(\hat{X}_{n+j}\)، يُؤخذ عينة جديدة من التوزيع المتبقي \(p_{res}(x)=\max(0,q(x)-p(x))\).

نماذج اللغة الكبيرة متعددة الوسائط

يتكون نموذج اللغة الكبير متعدد الوسائط المعتمد على الصور من 1) مشفّر رؤية لتشفير الصورة المدخلة، 2) محول لتحويل ترميزات الصور إلى تضمينات نموذج اللغة، و3) العمود الفقري لنموذج اللغة. نصف إطار عمل LLaVA بالتفصيل؛ بالنظر إلى صورة مدخلة \(I\) واستعلام نصي \(Q\)، تُحوَّل الصورة إلى تسلسل \(H_1,H_2,\ldots,H_m\) من الترميزات، ويُحوَّل النص إلى تسلسل من تضمينات الرموز \(X_1,X_2,\ldots,X_n\). ثم يحوّل المحول \(g_\theta\) هذا التسلسل إلى تضمينات صورة \(V_i=g_\theta(H_i)\) في فضاء نموذج اللغة. أخيرًا، يولّد نموذج اللغة الرموز التالية بناءً على تضمينات الصورة والنص كما في: \[X_{n+1}\sim q(\cdot\mid V_{1:m},X_{1:n})\]

تحليل SPD لنماذج MLLM

لتحقيق مكاسب أكبر مع الترميز التخميني، نحتاج إلى نموذج مسودة أصغر كثيرًا ومتوافق جيدًا مع نموذجنا الهدف LLaVA-7B. الخيار الشائع في الأدبيات هو استخدام نموذج مسودة مُدرَّب مسبقًا من نفس العائلة أو تدريب نموذج أصغر بنفس بنية الهدف (miao2023specinfer). ونظرًا إلى عدم توفر نموذج أصغر علنًا في عائلة LLaVA، دربنا نموذج مسودة من الصفر. اخترنا بنية مشابهة لهيكل LLaVA بحيث يكون نموذج المسودة إمّا: 1) محول رؤية أصغر مع نموذج لغة مسودة، أو 2) نموذج مسودة نصي فقط يولّد الرموز استنادًا إلى النص. بالنظر إلى تضمينات الصورة \(V_{1:m}\) وتضمينات النص \(X_{1:n}\)، يولّد نموذج المسودة تسلسل الرموز \(\hat{X}_{n+1:n+L}\) حيث \[\hat{X}_{n+j}\sim p(\cdot\mid X_{1:n},\hat{X}_{n+1:n+j-1}).\] يتحقق نموذج الهدف LLaVA من هذه الرموز اعتمادًا على تضمينات الصورة والنص باحتمالية \[\min\left\{1,\frac{q(\hat{X}_{n+j}\mid V_{1:m},X_{1:n},\hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}\mid X_{1:n},\hat{X}_{n+1:n+j-1})}\right\}.\] يُعد نموذج المسودة النصي فقط أكثر كفاءة لأنه 1) لا يحتاج إلى محول إضافي لتضمينات الصورة، و2) لا يتطلب تدريب المحول.

التجارب

نقوم بتشغيل التجارب على ثلاث مهام إرشاد بصري باستخدام SPD مع النموذج الهدف LLaVA-7B (liu2023improved) الذي يعتمد على LLaMA-7B. تمتلك جميع نماذج المسودة حجمًا ثابتًا للغة يبلغ 115M معامل.

مرشحو نماذج المسودة:

دربنا نموذج مسودة بحجم 115M وفق هيكلية LLaMA-2 من الصفر، ثم صقلناه على بيانات تعليمات بالخسارة TVD++ (goel2024direct) ومجموعة فرعية من LLaVA Instruct 150K (liu2024visual). نعتبر المراحل التالية:

  1. نموذج LLaMA الأساسي: بعد التدريب المسبق على 600B رمز إنجليزي.
  2. نموذج دردشة LLaMA: صقل تعليمي لنموذج LLaMA الأساسي (goel2024direct).
  3. LLaVA المصقول (ft-llava): صقل كامل مع تهيئة محول الرؤية من LLaVA-7B باستخدام تقنية التقسيم الفرعي (samragh2023weight) ونموذج اللغة من دردشة LLaMA.
  4. LLaVA نصيًا مصقول (ft-llava-text): يستخدم جزء نموذج اللغة فقط من ft-llava.

عندما يعتمد نموذج المسودة على الصورة، يُشارك مشفّر الرؤية (CLIP ViT-L/14) مع الهدف لتجنب إعادة حساب التضمينات. تفاصيل المعلمات في الملحق [app:model_config].

مهام التقييم:

نركّز على توليد نص مفتوح نهائي والإجابة متعددة الخيارات مع التفكير المتسلسل (CoT) لتعزيز طول التوليد. نقيّم على: 1) مجموعة بيانات LLaVA Instruct 150K (liu2024visual), 2) وصف COCO (lin2014microsoft), و3) ScienceQA مع CoT (lu2022learn). إعدادات المطالبات في الملحق [app:sys_prompts].

المقاييس:

نقيس فعالية SPD عبر: 1) كفاءة الكتلة (\(\tau\)): متوسط عدد الرموز المولدة لكل استدعاء للنموذج الهدف لحجم كتلة \(\gamma\). 2) التسريع المحدود بالذاكرة (MBSU): \(\mathrm{MBSU}(x)=\frac{c\,\tau(x)}{c\,\gamma+1}\) حيث \(c\) نسبة معامِلات نموذج المسودة إلى الهدف. 3) معدل الرموز: إجمالي عدد الرموز المولدة مقسومًا على زمن التوليد. نجري القياسات بحجم كتلة \(\gamma\in\{3,5\}\).

فك الترمیز:

نستخدم التفكيك الجشع لكل التجارب، بحيث يكون التوليد مطابقًا للتوليد التلقائي التراكمي للنموذج الهدف. نترك استكشاف طرق تفكيك قائمة على العينات (تغيير درجة الحرارة، top-\(p\), top-\(k\)) كعمل مستقبلي.

النتائج:

تُظهر نتائجنا أن SPD مع نموذج الهدف LLaVA 7B يمنح تسريعًا كبيرًا في التوليد. وعند استخدام نموذج مسودة نصي فقط، يقدم SPD تسريعًا تنافسيًا مقارنةً بنموذج مسودة يستفيد من معلومات الصورة.

من الشكل [fig:result] (العلوي والوسطي)، نرى أن SPD يحقق مكاسب تزيد على 2\(\times\) من حيث كفاءة الكتلة وMBSU. يتجه الأداء للارتفاع عند زيادة حجم الكتلة من 3 إلى 5 في جميع المهام، باستثناء SQA حيث يتفوّق نموذج المسودة base-llama عند 5. في تقييم LLaVA، يتصدّر ft-llava-text ثم ft-llava لكلا الحجمين. في COCO، يتصدّر ft-llava ثم ft-llava-text. في SQA، عند 3 يتفوّق ft-llava ثم ft-llava-text، وعند 5 يتفوّق ft-llava ثم base-llama. كما حسّنت جميع نماذج المسودة معدل الرموز مقارنة بالتوليد التلقائي التراكمي—ويُعد حجم الكتلة 3 أفضل من 5—مما رفع عدد الرموز في الثانية.

نعرض أيضًا نتائج نوعية لتوليد تعليقات COCO باستخدام نموذج المسودة ft-llava-text في الشكل [fig:qualitative_example]، حيث التوكنات باللون الأزرق والمسطرة مقبولة. نرى أن نموذج المسودة يتنبأ بالكلمات الشائعة والإكمالات دون معلومات الصورة؛ على سبيل المثال، يتنبأ بـ"tables" من "vege"، وفي المثال الثاني من "app" يتنبأ بـ"liances". عمومًا، تحتوي النصوص المفتوحة على العديد من التوكنات الشائعة والإكمالات التي لا تتطلب تضمينات بصرية، لذا يقدم نموذج المسودة النصي أداءً تنافسيًا. يمكنه أيضًا تكرار التوكنات بعد توليدها—مثل "counter" و"bowls" في المثال الثاني. أخيرًا، نترك صقلًا أكثر صرامة لنموذج متعدد الوسائط صغير كعمل مستقبلي.

بناءً على نوع الرموز المقبولة، افترضنا أن نموذج LLaVA الأولي قد لا يستخدم معلومات الرؤية بالكامل (أي لا يحسن كفاءة الكتلة)، ربما لأن محول الرؤية الأولي لم يرمِّز الرموز بشكل كامل. لذلك جرّبنا SPD مع نماذج أولية لا تستخدم رموز الصور، لمراقبة تأثير المحول المتدرج في تحسين الكتلة أو MBSU. من الشكل fig:avg_token_all وfig:mbsu_all نرى أن LLaVA المصقول نصيًا والنسخة الكاملة يقدمان أداءً متقاربًا، مما يدعم فرضيتنا تجريبيًا.

أضفنا أيضًا نماذج مسودة نصية أخرى لمراقبة التسريع باستخدام النص فقط. ولدهشتنا، أظهر حتى نموذجَي LLaMA الأساسي ودردشة LLaMA تسريعًا يزيد عن 2 مرات في المتوسط (fig:mbsu_all).

أداء SPD مع نموذج مسودة نصي قريب نسبيًا من نموذج LLaVA، ويتفوق أحيانًا في ScienceQA. بناءً على ذلك، حلّلنا متوسط قبول التوكنات في النماذج المختلفة ودرجة الاهتمام المُخصصة لرموز الصورة في هدف LLaVA (انظر الملحق).

الأعمال ذات الصلة

الخلاصة

في هذه الورقة، نقدّم الجهد الأول نحو استخدام الترميز التخميني لتسريع الاستدلال في نماذج اللغة الكبيرة متعددة الوسائط، مع التركيز على الصور والنصوص. نُظهر أن نموذج مسودة نصي فقط يحقق أداءً تنافسيًا مقارنةً بنموذج مسودة يستفيد من ميزات الصورة. أجرينا تجارب على مهام توليد نص مفتوح ونموذج توليد مع تفكير متسلسل باستخدام نماذج مسودة نصية ونص–صورة، وحققنا تسريعًا يصل إلى \(2.37\times\) للنموذج النصي وحده وتسريعًا أفضل قليلًا للنموذج نص–صورة، مما يُظهر تجريبيًا فعالية الترميز التخميني في MLLMs.

يفتح عملنا آفاقًا مستقبلية متعددة ضمن الإطار العام المقدم. يمكن توسيعه ليشمل نماذج أخرى مثل (li2023blip)، (zhu2023minigpt)، (awadalla2023openflamingo)، وكذلك وسائط أخرى كال صوت (chu2023qwen) التي تعاني من نفس قيود التوليد التلقائي التراكمي. علاوة على ذلك، يمكن تبني أساليب ترميز تخميني قائمة على الشجرة (sun2023spectr, miao2023specinfer, medusa, jeon2024recursive) لزيادة سرعة التوليد أكثر.

الملحق

تكوينات النموذج

يستخدم نموذج LLaVA-7B: (i) مشفّر رؤية، (ii) محول/مشروع الصور المبني على شبكة عصبية متعددة الطبقات، و(iii) نموذج اللغة LLaMA 7B. المشفّر البصري هو CLIP ViT-L/14 مع تفاصيل في (radford2021learning)، ومحولات الصور تحتوي على طبقتين خطيتين بأبعاد \(1024\times4096\) و\(4096\times4096\). أما في سيناريو النماذج الأولية مع محول الصور، فتكون الأبعاد \(1024\times1024\) و\(1024\times1024\).

تكوينات جزء نموذج اللغة الهدف والمسودة (LLaMA) كما يلي:

تكوينات النموذج المسودة والهدف
الهدف (7B) المسودة (115M)
الطبقات 32 4
رؤوس الانتباه 32 8
البعد الوسيط 11,008 2,816
البعد الخفي 2,048 1,024
التنشيط SiLU SiLU

[tab:model_config]

مطالبات النظام

نستخدم المطالبات التالية لكل مهمة. يُستخدم الرمز \(<\)image\(>\) لتمثيل بيانات الصورة.

تقييم LLaVA. نتبع منهجية (liu2024visual)، حيث يعرض المساعد أسئلة وأجوبة متعددة.

\(<\)s\(>\) دردشة بين مستخدم فضولي ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفصلة ومهذبة. المستخدم: \(<\)image\(>\) \\\\ السؤال \(Q_{1}\) المساعد: \(R_{1}\). المستخدم: السؤال \(Q_{2}\)

وصف COCO. بما أن COCO لا يتضمّن أسئلة، استخدمنا مطلَبًا مشابهًا:

\(<\)s\(>\) دردشة بين مستخدم فضولي ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة ومفصلة. المستخدم: \(<\)image\(>\) \\\\ قدّم وصفًا مفصلاً للصورة المساعدة:

أسئلة العلوم. نتبع (lu2022learn) مع مثال واحد للسؤال، الخيارات، الإجابة والتعليل للسماح بالتفكير المتسلسل. نستخدم عينات الاختبار المرتبطة بصورة.

\[\begin{aligned} & \text{السؤال: } I_{i}^{ques} \\ & \text{الخيارات: (0) } I_{i1}^{opt} \,(1)\,I_{i2}^{opt}\,(2)\,I_{i3}^{opt} \\ & \text{السياق: } I_{i}^{cont} \\ & \text{الإجابة: } I_{i}^{ans} \text{، لأن: } I_{i}^{lect} \text{. التفسير: } I_{i}^{exp} \\ & \\ & \text{السؤال: } I_{test}^{ques} \\ & \text{الخيارات: (0) } I_{test,1}^{opt}\,(1)\,I_{test,2}^{opt}\,(2)\,I_{test,3}^{opt} \\ & \text{السياق: } I_{test}^{cont} \\ & \text{الإجابة:} \end{aligned}\]

يشير \(i\) إلى العينة داخل السياق. في SQA، وُفِّر حقل السياق عبر تسمية الصور المولدة تلقائيًا، غير أنها كانت بسيطة. لذا استخدمنا حقل “التلميح” من البيانات. مثال السياق لا يتضمّن صورة متعددة لتجنب تعقيد الاستهداف. نترك SPD مع أكثر من مثال في السياق كعمل مستقبلي.

درجة الانتباه لرموز الصورة