```html في الترميز التخميني لنماذج اللغة الكبيرة متعددة الوسائط

في الترميز التخميني لنماذج اللغة الكبيرة متعددة الوسائط

Mukul Gagrani

Raghavv Goel

Wonseok Jeon

Junyoung Park

Mingu Lee

Christopher Lott

مُلخَّص

الاستدلال باستخدام نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بطيء؛ ذلك بسبب أن العمود الفقري لنموذج اللغة الكبير يعاني من عنق الزجاجة في عرض النطاق الترددي للذاكرة ويولد الرموز بشكل تلقائي تصاعدي. في هذه الورقة، نستكشف تطبيق الترميز التخميني لتعزيز كفاءة الاستدلال في نماذج MLLMs، وبشكلٍ خاص نموذج LLaVA 7B. نُظهر أن نموذج اللغة فقط يمكن أن يكون نموذجًا مسودياً جيدًا للترميز التخميني مع LLaVA 7B، متجاوزًا الحاجة إلى رموز الصور ومكونات المعالجة المرتبطة بها. تبين تجاربنا عبر ثلاث مهام مختلفة أن الترميز التخميني يمكن أن يحقق تسريعًا محدودًا بالذاكرة يصل إلى 2.37\(\times\) عند استخدام نموذج لغة بعدد معاملات 115M قمنا بتدريبه من الصفر. بالإضافة إلى ذلك، نقدم نموذج مسودة LLaVA مدمجًا يتضمّن محول صور، والذي يظهر مكاسب أداء طفيفة في وصف الصور مع الحفاظ على نتائج مشابهة في المهام الأخرى.

مقدمة

أصبحت نماذج اللغة الكبيرة (Large Language Models) شائعة الاستخدام في مختلف المجالات بفضل أدائها المميز. ومع ذلك، تقتصر هذه النماذج على استقبال استفسارات نصية فقط، بينما تأتي البيانات في العالم الحقيقي على شكل وسائط متعددة تشمل المعلومات البصرية. توفر نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) (awadalla2023openflamingo, liu2024visual, tsimpoukelli2021multimodal, zhu2023minigpt) قدرات فهم الصور، عبر دمج الرموز البصرية والنصية لتفاعل أكثر فائدة مع المستخدمين. تتكون هذه النماذج من مشفّر صور لمعالجة معلومات الصورة، ومحول يحول ترميزات الصور إلى فضاء تضمين نموذج اللغة، إضافة إلى العمود الفقري الخاص بنموذج اللغة والذي يرث منه التوليد التلقائي العكسي وعنق الزجاجة في عرض النطاق الترددي للذاكرة، مما يؤدي إلى بطء الاستدلال (shazeer2019fast).

اقترح الترميز التخميني (speculative decoding) (leviathan2023fast, chen2023accelerating, sun2023spectr, miao2023specinfer, jeon2024recursive) كحل لتسريع عملية الاستدلال في نماذج اللغة الكبيرة دون التضحية بالدقة، حيث يتنبأ نموذج مسودة أصغر بعدة رموز مستقبلية يتم التحقق منها في استدعاء واحد لنموذج اللغة الكبير. ونظرًا لأن نماذج اللغة الكبيرة متعددة الوسائط تعتمد على نموذج لغة كبير في عمودها الفقري، يمكن تطبيق الترميز التخميني لجعل استدلالها أكثر كفاءة. تناولت العديد من الأعمال الحديثة استخدام الترميز التخميني ومتغيراته (kim2023big, fu2023lookahead, medusa, santilli2023accelerating, sun2023spectr, jeon2024recursive) لنماذج اللغة الكبيرة، لكن لا توجد دراسات سابقة في سياق نماذج اللغة الكبيرة متعددة الوسائط حسب علمنا.

في هذه الورقة، نطبق الترميز التخميني على نموذج LLaVA 7B (الذي يستخدم LLaMA 7B كعمود فقري للغة) لجعل الاستدلال أكثر كفاءة. نظرًا لغياب نماذج أصغر علنًا من عائلتي LLaVA وLLaMA تحت 7B معاملات، قمنا بتدريب نموذج لغة من الصفر بحجم 115M لاستخدامه كنموذج مسودة. نُظهر أن نموذج اللغة الذي لا يأخذ في الاعتبار رموز الصور (وبالتالي لا يتطلب مشفّر الصور والمحور) يمكن أن يكون نموذج مسودة جيدًا لـLLaVA 7B. أجرينا تجارب على ثلاث مهام تشمل أسئلة وأجوبة على صور في مجموعة بيانات LLaVA Instruct 150K (liu2024visual)، ووضع العناوين على صور من مجموعة بيانات COCO (lin2014microsoft) ومجموعة بيانات ScienceQA (lu2022learn)، بمختلف نماذج المسودة بعد مراحل تدريب وصقل متفاوتة. تظهر نتائجنا أننا نستطيع تحقيق تسريع محدود بالذاكرة يصل إلى 2.37× باستخدام نموذج اللغة فقط كنموذج مسودة. كما أنشأنا نموذج مسودة LLaVA مدمجًا يضم محول صور إلى جانب نموذج اللغة المدرب، وأظهر تحسينًا طفيفًا في مهمة التعليق على COCO ومهمة ScienceQA مع أداء مماثل لباقي المهام.

الطريقة

الخلفية

الترميز التخميني

يتضمن الترميز التخميني (Speculative Decoding) (chen2023accelerating, leviathan2023fast) استخدام نموذج مسودة أصغر لتوليد عدة رموز يتم التحقق منها بالتوازي من قبل النموذج اللغوي الكبير المستهدف. بناءً على سياق الإدخال \(X_{1:n}:=[X_{1}, \dots, X_{n}]\)، يولد نموذج المسودة تسلسلًا من الرموز \(\hat{X}_{n+1:n+L}\) بطريقة تلقائية تراكميًا، \(\hat{X}_{n+j} \sim p(\cdot | X_{1:n}, \hat{X}_{n+1:n+j-1})\). ثم يتم التحقق من هذه الرموز في استدعاء واحد للنموذج اللغوي الكبير المستهدف (\(q\)) باستخدام آلية أخذ العينات بالرفض لضمان مطابقة التوزيع الأصلي. على وجه التحديد، يُقبَل الرمز \(\hat{X}_{n+j}\) بالاحتمالية \[ \min\left\{1, \frac{q(\hat{X}_{j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}. \] إذا رُفِض رمز مسودة \(\hat{X}_{n+j}\)، يتم أخذ عينة جديدة من التوزيع المتبقي \(p_{res}(x)=\max(0, q(x) - p(x))\).

نماذج اللغة الكبيرة متعددة الوسائط

يتكون نموذج اللغة الكبير متعدد الوسائط المعتمد على الصور من 1) مشفّر الرؤية لتشفير الصورة المدخلة، 2) محول لتحويل ترميزات الصور إلى تضمينات نموذج اللغة، و3) العمود الفقري لنموذج اللغة. نصف إطار عمل نموذج LLaVA بالتفصيل؛ بالنظر إلى صورة مدخلة \(I\) واستعلام نصي \(Q\)، تُحوَّل الصورة إلى تسلسل \(H_1, H_2, \ldots, H_m\) من الترميزات، ويُحوَّل الاستعلام النصي إلى تسلسل من تضمينات الرموز \(X_1, X_2, \ldots, X_n\). ثم يحوّل المحول \(g_\theta\) هذا التسلسل إلى تضمينات صورة \(V_i = g_\theta(H_i)\) في فضاء نموذج اللغة. أخيرًا، يولد نموذج اللغة الرموز التالية بناءً على تضمينات الصورة والنص كما في: \[ X_{n+1} \sim q(\cdot | V_{1:m}, X_{1:n}) \]

تحليل SPD لنماذج MLLM

لتحقيق مكاسب أكبر مع الترميز التخميني، نحتاج إلى نموذج مسودة أصغر كثيرًا ومتوافق جيدًا مع نموذجنا الهدف (LLaVA-7B). الخيار الشائع في الأدبيات هو استخدام نموذج مسودة مدرب مسبقًا من نفس العائلة أو تدريب نموذج أصغر بنفس بنية الهدف (miao2023specinfer). وبما أنه لا يتوفر نموذج أصغر علنًا في عائلة LLaVA، دربنا نموذج مسودة من الصفر. اخترنا بنية مشابهة لهيكل LLaVA، بحيث يتمثل نموذج المسودة في 1) محول صورة أصغر مع نموذج اللغة المسودة، أو 2) نموذج مسودة نصي فقط يُولّد الرموز استنادًا إلى النص فقط. بالنظر إلى تضمينات الصورة \(V_{1:m}\) وتضمينات النص \(X_{1:n}\)، يولّد نموذج المسودة تسلسل الرموز \(\hat{X}_{n+1:n+L}\) حيث \[ \hat{X}_{n+j} \sim p(\cdot | X_{1:n}, \hat{X}_{n+1:n+j-1}). \] يتحقق نموذج الهدف LLaVA من هذه الرموز اعتمادًا على تضمينات الصورة والنص باحتمالية \[ \min\left\{1, \frac{q(\hat{X}_{n+j}|V_{1:m}, X_{1:n}, \hat{X}_{n+1:n+j-1})}{p(\hat{X}_{n+j}|X_{1:n}, \hat{X}_{n+1:n+j-1})}\right\}. \] يُعد نموذج المسودة النصي فقط أكثر كفاءة لأنه 1) لا يحتاج إلى محول إضافي لاستيعاب تضمينات الصورة، و2) لا يتطلب تدريب المحول.

التجارب

نقوم بتشغيل التجارب على ثلاث مهام إرشاد بصري باستخدام SPD مع نموذج LLaVA-7B (liu2023improved) المستهدف، الذي يعتمد على LLaMA-7B كنموذج لغة. جميع نماذج المسودة تمتلك حجمًا ثابتًا لجزء اللغة يبلغ \(115M\).

مرشحو نماذج المسودة:

دربنا نموذج مسودة بحجم \(115M\) وفق هيكلية LLaMA-2 من الصفر، ثم صقلنا نموذج المسودة على بيانات تعليمات بخسارة TVD++ (goel2024direct) ومجموعة فرعية من LLaVA Instruct 150K (liu2024visual). نعتبر المراحل التالية:

  1. LLaMA الأساسي: نموذج LLaMA قبل النشر المسبق على \(600B\) رمز إنجليزي.
  2. LLaMA للدردشة: صقل تعليمات من نموذج LLaMA الأساسي (goel2024direct).
  3. LLaVA المصقول (ft-llava): صقل كامِل مع تهيئة محول الصور من LLaVA-7B باستخدام تقنية التقسيم الفرعي (samragh2023weight) ونموذج اللغة من LLaMA للدردشة.
  4. LLaVA نصيًا مصقول (ft-llava-text): يستخدم جزء نموذج اللغة فقط من نموذج ft-llava.

عندما يعتمد نموذج المسودة على الصورة، يُشارك مشفّر الرؤية (CLIP ViT-L/14) مع الهدف لتجنب إعادة حساب التضمينات. تفاصيل المعلمات في الملحق [app:model_config].

مهام التقييم:

نركّز على توليد النص المفتوح النِهائي والإجابة متعددة الخيارات مع التفكير المتسلسل (CoT)، لتعزيز طول التوليد. نقيّم على: 1) مجموعة بيانات LLaVA Instruct 150K (liu2024visual), 2) وصف COCO (lin2014microsoft), و3) ScienceQA مع CoT (lu2022learn). إعدادات المطالبات في الملحق [app:sys_prompts].

المقاييس:

نقيس فعالية SPD عبر: 1) كفاءة الكتلة (\(\tau\)): متوسط عدد الرموز المولدة لكل تشغيل للنموذج الهدف لحجم كتلة \(\gamma\). 2) التسريع المحدود بالذاكرة (MBSU): \(\mathrm{MBSU}(x)=\frac{c\,\tau(x)}{c\,\gamma+1}\) حيث \(c\) نسبة معاملات نموذج المسودة إلى الهدف. 3) معدل الرموز: إجمالي عدد الرموز المولدة مقسومًا على زمن التوليد، لقياس الرموز في الثانية. نجري القياسات بحجم كتلة \(\gamma\in\{3,5\}\).

فك التشفير:

نستخدم فك التشفير الجشع لجميع التجارب، بحيث يكون التوليد مطابقًا للتوليد التلقائي التراكمي للنموذج الهدف. نترك استكشاف فك التشفير القائم على العينات (تغيير درجة الحرارة، top-\(p\), top-\(k\)) كعمل مستقبلي.

النتائج:

تُظهر نتائجنا أن SPD مع نموذج الهدف LLaVA 7B يمنح تسريعًا كبيرًا في التوليد. وعند استخدام نموذج مسودة نصي فقط، يقدم SPD تسريعًا تنافسيًا مقابل نموذج مسودة يستفيد من معلومات الصورة.

من الشكل [fig:result] (العلوي والوسطي)، نرى أن SPD يحقّق مكاسب تزيد على 2\(\times\) من حيث كفاءة الكتلة وMBSU. يتجه الأداء للارتفاع عند زيادة حجم الكتلة من 3 إلى 5 في جميع المهام، باستثناء SQA حيث يتفوّق نموذج المسودة base-llama على غيره عند =5. في تقييم LLaVA، يتصدر ft-llava-text ثم ft-llava لكلا الحجمين. في COCO، يتصدر ft-llava ثم ft-llava-text. في SQA، عند =3 يتفوّق ft-llava ثم ft-llava-text، وعند =5 يتفوّق ft-llava ثم base-llama. كما تحسّن جميع نماذج المسودة معدل الرموز مقارنة بالتوليد التلقائي التراكمي—ويكون حجم الكتلة 3 أفضل من 5—مما يرفع عدد الرموز في الثانية.

نعرض أيضًا نتائج نوعية لتوليد تعليقات COCO باستخدام نموذج المسودة ft-llava-text في الشكل [fig:qualitative_example]، حيث التوكنات باللون الأزرق والمسطرة مقبولة. نرى أن نموذج المسودة يتنبأ بالكلمات الشائعة والإكمالات دون معلومات الصورة؛ على سبيل المثال، يتنبأ بـ“tables” من “vege”، وفي المثال الثاني من “app” يتنبأ بـ“liances”. عمومًا، تحتوي النصوص المفتوحة على العديد من التوكنات الشائعة والإكمالات التي لا تتطلب تضمينات بصرية، لذا يقدم نموذج المسودة النصي أداءً تنافسيًا. يمكنه أيضًا تكرار التوكنات بعد توليدها—مثل “counter” و“bowls” في المثال الثاني. أخيرًا، نترك صقلًا أكثر صرامة لنموذج متعددة الوسائط صغير كعمل مستقبلي.

بناءً على نوع الرموز المقبولة، افترضنا أن نموذج LLaVA الأولي قد لا يستخدم معلومات الرؤية بالكامل (أي لا يحسن كفاءة الكتلة)، ربما لأن محول الصور الأولي لم يرمّز الرموز بشكل كامل. لذلك جرّبنا SPD مع نماذج أولية لا تستخدم رموز الصور، لمراقبة تأثير المحول المتدرّب في تحسين الكتلة أو MBSU. من الشكل fig:avg_token_all وfig:mbsu_all نرى أن LLaVA المصقول نصيًا والنسخة الكاملة يقدمان أداءً متقاربًا، مما يدعم فرضيتنا تجريبيًا.

أضفنا أيضًا نماذج مسودة نصية أخرى لمراقبة التسريع باستخدام النص فقط. ولدهشتنا، أظهر حتى نماذج LLaMA الأساسية ودردشة LLaMA تسريعًا يزيد عن 2 مرات في المتوسط (fig:mbsu_all).

أداء SPD مع نموذج مسودة نصي قريب نسبيًا من نموذج LLaVA، ويتفوق أحيانًا في ScienceQA. بناءً على ذلك، حلّلنا متوسط قبول التوكنات في النماذج المختلفة ودرجة الاهتمام المُخصصة لرموز الصورة في هدف LLaVA (انظر الملحق).

الأعمال ذات الصلة

الخلاصة

في هذه الورقة، نقدم الجهد الأول نحو استخدام الترميز التخميني لتسريع الاستدلال في نماذج اللغة الكبيرة متعددة الوسائط، مع التركيز على الصور والنصوص. نُظهر أن نموذج مسودة نصي فقط يحقق أداءً تنافسيًا مقارنةً بنموذج مسودة يستفيد من ميزات الصورة. أجرينا تجارب على مهام توليد نص مفتوح ونموذج توليد مع تفكير متسلسل باستخدام نماذج مسودة نصية ونص–صورة، وحققنا تسريعًا يصل إلى \(2.37\times\) للنموذج النصي وحده وتسريعًا أفضل قليلًا للنموذج النص–صورة، مما يُظهر تجريبيًا فعالية الترميز التخميني في MLLMs.

يفتح عملنا مسارات مستقبلية متعددة ضمن الإطار العام المقدم. يمكن توسيعه ليشمل نماذج أخرى مثل (li2023blip)، (zhu2023minigpt)، (awadalla2023openflamingo)، وكذلك وسائط أخرى كالصوت (chu2023qwen) التي تعاني من نفس قيود التوليد التلقائي التراكمي. علاوة على ذلك، يمكن تبني أساليب ترميز تخميني قائمة على الشجرة (sun2023spectr, miao2023specinfer, medusa, jeon2024recursive) لزيادة سرعة التوليد أكثر.

الملحق

تكوينات النموذج

يستخدم نموذج LLaVA-7B: (i) مشفّر الرؤية، (ii) محول/مشروع الصورة المبني على الشبكة العصبية متعددة الطبقات، و (iii) نموذج اللغة LLaMA 7B. المشفّر البصري هو CLIP ViT-L/14 مع تفاصيل في (radford2021learning)، ومحولات الصورة تحتوي على طبقتين خطيتين بأبعاد \(1024\times4096\) و\(4096\times4096\). أما في سيناريو النماذج المبدئية مع محول صور، فالأبعاد تكون \(1024\times1024\) و\(1024\times1024\).

تكوينات جزء نموذج اللغة الهدف والمسودة (LLaMA) كما يلي:

تكوينات النموذج المسودة والهدف
الهدف (7B) المسودة (115M)
الطبقات 32 4
رؤوس الانتباه 32 8
البعد الوسيط 11,008 2,816
البعد الخفي 2,048 1,024
التنشيط SiLU SiLU

[tab:model_config]

مطالبات النظام

نستخدم المطالبات التالية لكل مهمة. يُستخدم الرمز \(<\)image\(>\) لتمثيل بيانات الصورة.

تقييم LLaVA. نتبع منهجية (liu2024visual)، حيث يعرض المساعد أسئلة وأجوبة متعددة.

\(<\)s\(>\) دردشة بين مستخدم فضولي ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفصلة ومهذبة. المستخدم: \(<\)image\(>\) \\ السؤال \(Q_{1}\) المساعد: \(R_{1}\). المستخدم: السؤال \(Q_{2}\)

وصف COCO. بما أن COCO لا يتضمّن أسئلة، استخدمنا مطلَبًا يشبه السابق:

\(<\)s\(>\) دردشة بين مستخدم فضولي ومساعد ذكاء اصطناعي. يقدم المساعد إجابات مفيدة ومفصلة. المستخدم: \(<\)image\(>\) \\ قدّم وصفًا مفصلاً للصورة المساعدة:

أسئلة العلوم. نتبع (lu2022learn) مع مثال واحد للسؤال، الخيارات، الإجابة والتعليل للسماح بالتفكير المتسلسل. نستخدم عينات الاختبار المرتبطة بصورة.

\[ \begin{aligned} & \text{السؤال: } I_{i}^{ques} \\ & \text{الخيارات: (0) } I_{i1}^{opt} \,(1)\,I_{i2}^{opt}\,(2)\,I_{i3}^{opt} \\ & \text{السياق: } I_{i}^{cont} \\ & \text{الإجابة: } I_{i}^{ans} \text{، لأن: } I_{i}^{lect} \text{. التفسير: } I_{i}^{exp} \\ & \langle\text{image}\rangle \\ & \text{السؤال: } I_{test}^{ques} \\ & \text{الخيارات: (0) } I_{test,1}^{opt}\,(1)\,I_{test,2}^{opt}\,(2)\,I_{test,3}^{opt} \\ & \text{السياق: } I_{test}^{cont} \\ & \text{الإجابة:} \end{aligned} \]

يشير \(i\) للعينة داخل السياق. في SQA، وُفِّر حقل السياق عبر تسمية الصور المولدة تلقائيًا، غير أنها كانت بسيطة. لذا استخدمنا حقل “التلميح” من البيانات. مثال السياق لا يتضمّن صورة متعددة لتجنب تعقيد الاستهداف. نترك SPD مع أكثر من مثال في السياق كعمل مستقبلي.

درجة الانتباه لرموز الصورة

``` **ملاحظات حول التصحيح:** - تم التأكد من أن جميع معادلات LaTeX محاطة بشكل صحيح بـ `\[` ... `\]` أو `\(` ... `\)`، ولا توجد معادلات غير مغلقة أو ناقصة. - تم تصحيح `` في معادلة ScienceQA إلى `\langle\text{image}\rangle` حتى لا يسبب خطأ في LaTeX. - تم التأكد من أن جميع المعادلات المتعددة الأسطر تستخدم `aligned` داخل `\[ ... \]`. - تم التأكد من أن جميع الرموز الخاصة (مثل `\times`) مكتوبة بشكل صحيح داخل LaTeX. - لم يتم تغيير أي نص أو محتوى خارج التصحيح اللازم للمعادلات. - لا توجد أخطاء LaTeX متبقية في النص.