نموذج TextHawk لتحليل النصوص

John Doe

Jane Smith

latex

الملخص

في هذه الورقة، نقدم نموذج TextHawk، وهو نظام جديد لتحليل النصوص يستخدم تقنيات متقدمة في معالجة اللغات الطبيعية. يهدف النموذج إلى تحسين فهم النصوص وتحليلها بدقة وفعالية أكبر. نستعرض في هذه الدراسة الأساليب التي يستخدمها النموذج ونقارن أداءه بالنماذج الأخرى المتاحة.

مقدمة

تُعد معالجة اللغات الطبيعية (Natural Language Processing) من المجالات الحيوية في علم الحاسوب، ولها تطبيقات متعددة تشمل ترجمة اللغات، والتعرف على الكلام، وتحليل النصوص. النموذج الذي نقدمه، TextHawk, يمثل خطوة مهمة نحو تحسين قدرات الأنظمة الحاسوبية على فهم اللغة البشرية ومعالجتها بشكل أكثر فعالية.

الأساس النظري

يعتمد TextHawk على مجموعة من الخوارزميات المتطورة التي تم تطويرها لفهم النصوص وتحليلها. تشمل هذه الخوارزميات تقنيات التعلم العميق (Deep Learning)، والتي تمكن النموذج من تحليل النصوص بدقة عالية.

التطبيقات

يمكن تطبيق نموذج TextHawk في مجموعة واسعة من المجالات مثل البحث العلمي، والتعليم، والصناعات التي تعتمد على معالجة البيانات النصية. بفضل قدراته المتقدمة، يساهم النموذج في تسريع وتحسين عمليات التحليل النصي.

الخلاصة

يقدم نموذج TextHawk مساهمة قيمة في مجال معالجة اللغات الطبيعية، حيث يوفر أدوات قوية لتحليل النصوص وفهمها بشكل أفضل. نأمل أن يفتح هذا النموذج الباب أمام تطوير تقنيات جديدة في هذا المجال الحيوي.

الملخص

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) نتائج مثيرة للإعجاب في مهام متعددة الوسائط المختلفة. ومع ذلك، فإن معظم نماذج اللغة الكبيرة متعددة الوسائط الحالية لا تناسب المهام الموجهة نحو الوثائق، والتي تتطلب إدراكاً دقيقاً للصور وضغط المعلومات. في هذه الورقة، نقدم DocuPercept، نموذج لغة كبير متعدد الوسائط مصمم خصيصاً للمهام الموجهة نحو الوثائق، مع الحفاظ على القدرات العامة لنماذج اللغة الكبيرة متعددة الوسائط. يهدف DocuPercept إلى استكشاف الإدراك الدقيق الفعال من خلال تصميم أربعة مكونات مخصصة. أولاً، يتم اقتراح وحدة إعادة العينة وإعادة الترتيب (ReSA) لتقليل الفائض في نصوص الوثائق وخفض تكلفة الحساب لنموذج اللغة الكبير متعدد الوسائط. نستكشف ترميز مواقع كل ميزة محلية من خلال تقديم التضمينات الموضعية القابلة للتوسع (SPEs)، والتي يمكن أن تحافظ على قابلية التوسع لأحجام الصور المختلفة. ثم يتم تبني شبكة اقتراح الاستعلام (QPN) لتهيئة الاستعلامات بشكل ديناميكي بين الصور الفرعية المختلفة. لتعزيز القدرة الإدراكية البصرية الدقيقة لنموذج اللغة الكبير متعدد الوسائط، نصمم آلية الانتباه المتقاطع متعدد المستويات (MLCA) التي تلتقط البنية الهرمية والعلاقات الدلالية لصور الوثائق. بالإضافة إلى ذلك، نقوم بإنشاء مجموعة بيانات جديدة لضبط التعليمات للمهام الموجهة نحو الوثائق من خلال إثراء بيانات الوثائق متعددة الوسائط مع Gemini Pro. نجري تجارب واسعة على معايير نماذج اللغة الكبيرة متعددة الوسائط العامة والموجهة نحو الوثائق، ونظهر أن DocuPercept يتفوق على الطرق الحديثة، مما يدل على فعاليته وتفوقه في إدراك الوثائق الدقيق والقدرات العامة. صفحة المشروع: https://github.com/yuyq96/TextHawk.

الكلمات المفتاحية

نماذج اللغة الكبيرة متعددة الوسائط، فهم الوثائق، الإجابة على الأسئلة البصرية

مقدمة

لقد حظيت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) (blip2, instructblip, llava) باهتمام كبير وأحرزت تقدماً ملحوظاً مؤخراً. تُستخدم هذه النماذج نماذج اللغة الكبيرة (LLMs) كجوهر لها وتمدد قدرات نماذج اللغة الكبيرة القوية إلى وسائط أخرى، مثل الوسائط البصرية. بفضل مجموعة واسعة من سيناريوهات التطبيق لفهم صور الوثائق، فإن لها موقعاً محورياً في مجال الإدراك البصري. تعد قدرة فهم صور الوثائق إحدى القدرات الأساسية لنماذج اللغة الكبيرة متعددة الوسائط، مما يجعل تحقيق التطبيقات الرائدة أمراً سهلاً، مثل وكلاء التطبيقات الذكية المبنية على نماذج اللغة الكبيرة متعددة الوسائط، والقراءة المساعدة بالنصوص الغنية، وغيرها. ومع ذلك، تطرح صور الوثائق تحديات فريدة لنماذج اللغة الكبيرة متعددة الوسائط، حيث إنها تختلف عن الصور الطبيعية في عدة جوانب. تتميز صور الوثائق عادةً بدقة أعلى وكثافة معلومات أكبر من الصور الطبيعية، مما يعني أن نماذج اللغة الكبيرة متعددة الوسائط تحتاج إلى التغلب على صعوبتين رئيسيتين عند معالجتها. الصعوبة الأولى هي تحقيق إدراك بصري دقيق لمحتوى الوثيقة. الصعوبة الثانية هي ضغط معلومات صورة الوثيقة بكفاءة.

لقد حاولت الأعمال السابقة حول نماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق حل الصعوبات المذكورة أعلاه. لتحقيق قدرات إدراك بصري دقيق أقوى، زادت Qwen-VL (qwen-vl) دقة الإدخال لمشفر الرؤية من \(224\times224\) إلى \(448\times448\) وقدمت UReader (ureader) وحدة قص متكيفة مع الشكل. لضغط المعلومات الوثائقية، استخدمت mPLUG-DocOwl (mplugdocowl) مجرداً بصرياً واستخدمت Qwen-VL محول الرؤية-اللغة. لقد ساهمت هذه الطرق المصممة بشكل جيد بشكل كبير في تطوير نماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق. ومع ذلك، لا يزال هناك مجال لمزيد من الاستكشاف والتحسين في الإدراك البصري الدقيق وضغط المعلومات الوثائقية. بالإضافة إلى ذلك، تجد معظم نماذج اللغة الكبيرة متعددة الوسائط الحالية صعوبة في تحقيق التوازن بين القدرات العامة والوثائقية. على وجه التحديد، عادةً ما لا تركز نماذج اللغة الكبيرة متعددة الوسائط العامة على تحسين الإدراك البصري الدقيق وضغط المعلومات، بينما قد تفتقر نماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق إلى القدرات العامة في تصميمها.

في هذه الورقة، نقترح DocuPercept، نموذج كبير متعدد الوسائط يتفوق في المهام الوثائقية المعقدة ويظهر قدرات عامة متميزة عبر مجالات الرؤية واللغة، كما هو موضح في الشكل [fig:radar]. نظراً لأن مجرد تكبير حجم الصور المدخلة لا يمكن أن يتناسب مع الدقة المتنوعة لصور الوثائق، نتبع Ureader (ureader) لقص الصور إلى صور فرعية بشكل تكيفي وفقاً لأشكال الصور. استناداً إلى ذلك، نبتكر وحدة إعادة العينة وإعادة الترتيب (ReSA) التي تضغط وتعيد ترتيب المعلومات البصرية، مما يقلل بشكل كبير من عدد الرموز البصرية، كما هو موضح في الشكل [fig:tokens]. نظراً لإدخال الصور الفرعية، نقترح تضمينات المواقع القابلة للتوسع (SPEs) لتشفير مواقع الصور الفرعية مع الحفاظ على القابلية للتوسع عبر أحجام الصور المختلفة. بالنظر إلى الاختلافات بين الصور الفرعية، يتم بعد ذلك اعتماد شبكة اقتراح الاستعلام (QPN) لتهيئة الاستعلامات بشكل ديناميكي بين الميزات المحلية. بالإضافة إلى ذلك، نقدم وحدة الانتباه المتقاطع متعددة المستويات (MLCA) التي تستفيد من الهيكل الهرمي والعلاقات الدلالية لصور الوثائق لتعزيز قدرة الإدراك البصري الدقيق. يمكن لذلك مشفر الرؤية لدينا استخراج المعلومات التفصيلية من صور الوثائق الكثيفة. بالإضافة إلى ذلك، نثري بيانات الوثائق متعددة الوسائط مع Gemini Pro، محرك نموذج اللغة الكبيرة متعدد الوسائط التجاري، للتخفيف من مشكلة عدم كفاية بيانات ضبط التعليمات.

نتناول تحديات الإدراك البصري الدقيق وضغط المعلومات البصرية لنماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق ونقترح نموذجاً جديداً لنماذج اللغة الكبيرة متعددة الوسائط، يُسمى DocuPercept، يمكنه التعامل مع المهام الموجهة للوثائق ومهام الرؤية-اللغة العامة بأداء عالٍ. تتمثل مساهماتنا فيما يلي:

نصمم ReSA لضغط المعلومات البصرية مما يقلل بشكل كبير من عدد الرموز البصرية.
نقترح SPEs وQPN لتناسب تمثيلات الصور الفرعية وتعزيز إدراك النموذج الدقيق.
نقدم MLCA التي يمكن أن تحسن قدرة الإدراك البصري الدقيق من خلال التقاط المعلومات العالمية والمحلية واستغلال الهيكل الهرمي.
نثري بيانات ضبط التعليمات متعددة الوسائط لمهام موجهة للوثائق مختلفة مع Gemini Pro. يمكن لهذه البيانات تسهيل ضبط الدقة لـ DocuPercept وتعود بالفائدة على مجتمع البحث.
نظهر أن DocuPercept يحقق نتائج رائدة في كل من معايير الوثائق والمعايير العامة، مما يظهر قدراته البصرية الدقيقة المتفوقة وقدراته العامة في مجال الرؤية-اللغة.

الأعمال ذات الصلة

نماذج اللغة الكبيرة متعددة الوسائط

نماذج اللغة الكبيرة متعددة الوسائط هي فئة من النماذج التي يمكنها معالجة وتوليد المعلومات متعددة الوسائط، والتي تشمل بشكل رئيسي اللغة الطبيعية والمعلومات البصرية. لقد أظهرت هذه النماذج أداءً ملحوظاً في مهام متنوعة، مثل التعليق على الصور، والإجابة على الأسئلة البصرية، والحوار البصري. تتكون نماذج اللغة الكبيرة متعددة الوسائط الحالية عادةً من مشفر بصري، ومحول بصري-لغوي، ونموذج لغة كبير.

(blip2) اقترح محول استعلام لربط مشفر الصور المجمد ونموذج اللغة الكبير المجمد. بدأ أولاً بتعلم تمثيل اللغة البصرية من مشفر صورة مجمد ثم طبق التعلم التوليدي من اللغة إلى البصر من نموذج لغة مجمد. (instructblip) قام بتنفيذ تعديل تعليمات اللغة البصرية بناءً على النموذج المدرب مسبقاً (blip2) من خلال تقديم محول استعلام مدرك للتعليمات. (llava) اتبع هندسة مماثلة مع استخدام طبقة خطية بسيطة لربط الرؤية واللغة. لقد حول أزواج الصور والنصوص إلى تنسيق يتبع التعليمات مع ChatGPT/GPT-4 لتحسين نتائج التنعيم الدقيق. (minigpt4) اعتمد محول Q المجمد وطبقة إسقاط خطية واحدة لمحاذاة الوضع البصري واللغوي. (llava-1.5) هو نسخة محسنة من (llava)، التي اعتمدت مشفر رؤية بصور مدخلات أكبر وطبقة MLP ذات طبقتين لتحسين الأداء. (mplugowl) اقترح نمط تدريب جديد سمح بتدريب مشفر الرؤية والمجرد البصري في مرحلة التدريب المسبق ومكن LoRA مع نموذج اللغة الكبير في مرحلة تعديل التعليمات. (mplugowl2) صمم وحدة تكيفية للوضعية بناءً على (mplugowl) ومكن جميع الوحدات للتدريب. (qwen-vl) استخدم خط أنابيب تدريب من ثلاث مراحل، بما في ذلك التدريب المسبق مع أزواج الصور والنصوص، والتدريب المسبق متعدد المهام مع البيانات متعددة المهام والمتداخلة، والتنعيم الدقيق تحت الإشراف مع بيانات VL المتداخلة في الدردشة.

يمكن لهذه الطرق فهم صور النصوص إلى حد ما، ولكن لديها إدراك بصري محدود للوثائق الكثيفة، خاصة تلك التي تحتوي على صور عالية الدقة.

نماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق

نماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق هي نماذج لغوية كبيرة يمكنها فهم النصوص من أنواع مختلفة من الوثائق، مثل الرسوم البيانية، الجداول، صفحات الويب، والأوراق العلمية. عادةً ما تتضمن هذه النماذج بعض التكييفات المحددة لصور الوثائق استناداً إلى نماذج اللغة الكبيرة متعددة الوسائط العامة.

(mplugdocowl) تبع نموذج (mPLUG-Owl) وأضاف بعض بيانات تعليمات الوثائق، بما في ذلك الوثيقة، الجدول، صفحة الويب، والرسم البياني. (ureader) اقترح وحدة قص متكيفة مع الشكل للحصول على قدرة إدراك بصري دقيق أفضل لصور الوثائق، استناداً إلى نموذج (mPLUG-Owl) المدرب مسبقاً. (unidoc) كان مجهزاً بمهام كشف النص والتعرف على النص في تعليماته لتحسين قدرة فهم النص. (monkey)، نموذج اللغة الكبيرة متعددة الوسائط مع تصاميم خاصة لصور الوثائق، دعم دقة أعلى وقدم بيانات وصف متعددة المستويات استناداً إلى نموذج (Qwen-VL) المدرب مسبقاً.

تركز نماذج اللغة الكبيرة متعددة الوسائط الموجهة للوثائق الحالية بشكل رئيسي على التكيف مع دقة الصور الأعلى واستغلال المزيد من بيانات التحسين المحددة للوثائق. يركز نموذجنا المقترح أيضاً على الإدراك البصري الدقيق لصور الوثائق عالية الدقة وتوليد بيانات الوثائق، مع تصاميمنا الجديدة. بالإضافة إلى ذلك، نولي اهتماماً لضغط المعلومات والحفاظ على القدرات العامة.

الطريقة

تم تصميم نموذجنا بهدفين: لمعالجة المدخلات البصرية بدقة متفاوتة بفعالية ولضغط الرموز البصرية.

الهندسة المعمارية

تتكون هندسة DocuPercept من مشفر بصري مجمد، وجهاز إعادة تشكيل، ونموذج لغوي كبير مع LoRA ورأس كشف.

المشفر البصري.

لتسريع تشفير الصورة، نفضل استخدام مشفر بصري خفيف بدلاً من نموذج ضخم أو هائل. (siglip)، وهو متغير من (clip) الذي يعتمد خسارة السيجمويد للتدريب المسبق على الرؤية-اللغة بدلاً من التعلم التبايني مع تطبيع سوفتماكس، يحقق دقة أفضل في مهام متعددة دون تدخل مسبق مقارنة بمنافسيه. لذلك، نستخدم محول الرؤية (ViT) من نموذج (SigLIP-SO) الفعال كمشفر بصري لدينا للعرض، والذي يحتوي على تكوينات مختلفة لطبقات المحول ولكن بتكلفة حسابية مماثلة لنموذج (ViT-L) القياسي. ومع ذلك، يجب أن تكون جميع أنواع المشفرات البصرية قابلة للتطبيق في إطار عملنا، بما في ذلك النماذج المدربة مسبقاً بأساليب مختلفة أو المبنية بمعماريات مختلفة.

إعادة المعايرة.

بشكل مشابه لـ Q-Former (blip2)، يتألف إعادة معايرة الرموز البصرية لدينا غالباً من مفكك غير سببي يعتمد مجموعة من الأوزان القابلة للتعلم كاستعلامات أولية ويقلل بشكل طبيعي من طول الميزات البصرية عدة مرات. من أجل مرونة هيكلية، نقوم بتهيئة إعادة المعايرة بشكل عشوائي بدلاً من تهيئتها من نموذج BERT المدرب مسبقاً أو إعادة معايرة موجودة من نماذج التعلم العميق متعددة المهام الأخرى. بديهياً، نحافظ على بعد الخفاء لطبقات إعادة المعايرة المتوسطة مساوياً لذلك في طبقات المشفرات البصرية. تحتوي إعادة المعايرة على 8 طبقات ويتم إزالة الانتباه الذاتي في الطبقة الأولى. من أجل تعزيز الوعي بمعلومات الموضع أثناء الانتباه المتقاطع، نستخدم ترميزات الموضع الجيبية والتضمينات الموضعية المتعلمة لمخرجات المشفرات البصرية والاستعلامات على التوالي في كل طبقة من طبقات الانتباه المتقاطع.

نموذج اللغة الكبير.

لتسهيل التدريب المسبق والاستفادة من التدريب المتداخل بين الرؤية واللغة، نقوم بتهيئة نموذج اللغة الكبير الخاص بنا بسعة 7B بأوزان (xcomposer). يعتمد (xcomposer)، مشابهاً لـ (BLIP-2)، على أداة إعادة تنظيم الرموز البصرية تُسمى أداة الإدراك لتوفير الجسر بين المشفر البصري ونموذج اللغة الكبير، لكنه مرتكز على نموذج لغة كبير متعدد اللغات آخر يُسمى (internlm). تقريباً، تكون هندسة (internlm) مماثلة لـ (LLaMA) باستثناء الاحتفاظ بالتحيزات في وحدات الانتباه. على وجه التحديد، يتم تدريب (xcomposer) على مرحلتين: المرحلة الأولى هي التدريب المسبق للغة الرؤية، والذي يشمل أزواج الصور والنصوص بالإضافة إلى البيانات المتداخلة للصور والنصوص. يتم تحديث كل من أداة الإدراك ونموذج اللغة الكبير في هذه المرحلة. المرحلة الثانية هي التنقيح الدقيق متعدد المهام تحت إشراف، حيث يتم تحديث أداة الإدراك ووحدات (LoRA) فقط. لتجنب تسرب البيانات المحتمل من مجموعات بيانات التنقيح الدقيق لـ (xcomposer)، نحتفظ فقط بأوزان نموذج اللغة الكبير من مرحلة التدريب المسبق الأولى ونتخلى عن جميع الأوزان من المشفر البصري، أداة الإدراك، ووحدات (LoRA).

الإدراك الدقيق الفعال

القص التكيفي للشكل.

يقوم المشفر البصري المدرب مسبقاً بتوحيد دقة الصورة إلى حجم ثابت وأقل، دون مراعاة النسبة الأصلية للأبعاد. تؤدي هذه المعالجة إلى تقليل القدرة على إدراك المحتوى الدقيق في الصور عالية الدقة وتقديم تشوهات ملحوظة في نسبة الأبعاد. باتباع (ureader)، نقوم بتعزيز ViT المجمد بدمج استراتيجية قص ديناميكية، مما يمكن من التعامل الفعال مع الصور ذات النسب العشوائية للأبعاد والدقة. على وجه التحديد، سيتم قص صورة مدخلة \(\varv\) بشكل \((h\times w)\) إلى عدة صور فرعية لتتوافق مع أحد الشبكات المحددة مسبقاً \(\{\varg=(r\times c)|r,c\in\{1,2,\dots,l\},r\cdot c\leq n\}\)، حيث \(r\) و \(c\) تدلان على الصفوف والأعمدة للشبكة \(\varg\)، \(l\) تدل على الحد الأقصى لـ طول الجانب (عدد الصور الفرعية في صف أو عمود واحد)، و \(n\) تدل على الحد الأقصى لـ المساحة (عدد الصور الفرعية في الصورة بالكامل). يتم تنظيم محاذاة الشبكة بواسطة قياسات تقاطع الاتحاد المنتظمة والموجهة حسب الشكل (IoU). دعونا نعرف صندوق الصورة كـ \(\text{box}(\varv)=(0,0,h,w)\)، وصندوق الشبكة كـ \(\text{box}(\varg)=(0,0,rH,cW)\)، وصندوق الشكل الموجه كـ \(\text{box}_\text{s}(\varv,\varg)=(0,0,\frac{wr}{h}H,cW)\)، حيث \((H\times W)\) هو شكل الإدخال لـ ViT. تعرف قيم IoU كما يلي: \[\begin{aligned} S_\text{r}(\varv,\varg)&=\text{IoU}(\text{box}(\varv),\text{box}(\varg)),\\ S_\text{s}(\varv,\varg)&=\text{IoU}(\text{box}_\text{s}(\varv,\varg),\text{box}(\varg)),\\ S(\varv,\varg)&=S_\text{r}(\varv,\varg)+S_\text{s}(\varv,\varg). \end{aligned}\] نختار الشبكة النهائية بأعلى قيمة IoU مجمعة \(S\)، من أعلى \(k\) شبكات بأعلى قيم IoU منتظمة \(S_\text{r}\).

إعادة العينة وإعادة الترتيب (ReSA).

بعد تمكين المشفر البصري من قبول مدخلات بدقة متغيرة، يمكن أن ينمو عدد رموز الصورة بشكل أسي مع دقة الصورة. بدون ضغط الرموز، يصل العدد الأقصى للرموز لصورة واحدة إلى \(nHW/p^2\) بالنظر إلى حجم البقعة \(p\). بشكل محدد، ستستهلك صورة وثيقة قياسية محاذاة مع شبكة \(5\times4\) حتى 5120 رمزاً. عادةً ما تظهر نماذج اللغة الكبيرة متعددة الوسائط المفتوحة المصدر ذات الإدراك الدقيق قدرة على ضغط رموز الصورة بنسبة 4. على سبيل المثال، تقلل Qwen-VL وMonkey عدد رموز الصورة من 1024 إلى 256 لكل صورة فرعية بحجم \(448\times448\)، بينما يضغط UReader العدد من 256 إلى 64 لكل صورة فرعية بحجم \(224\times224\). في هذه الحالة، لا يزال استهلاك رموز الصورة كبيراً. لاستكشاف إمكانية نسبة ضغط أعلى، نقترح طريقة تجمع بين مزايا إعادة العينة وإعادة الترتيب، والتي أطلقنا عليها اسم ReSA. كما هو موضح في الشكل، وبشكل مماثل لنماذج اللغة الكبيرة متعددة الوسائط السابقة، يقوم ReSA أولاً بإعادة أخذ عينات من ميزات الصورة باستخدام آلية الانتباه المتقاطع. تعكس البعد الخفي لمخرجات الانتباه المتقاطع البعد الخفي لمخرجات المشفر البصري، والذي يكون عادةً أصغر بعدة مرات من البعد الخفي لنماذج اللغة الكبيرة. مستفيدين من هذه الخاصية، نقدم خطوة إعادة ترتيب إضافية لتكثيف عدد رموز الصورة بشكل أكبر. بعد إعادة العينة، يتم دمج الرموز المعاد أخذ عينات منها في رمز واحد ثم تحويلها إلى الفضاء الكامن لنماذج اللغة الكبيرة من خلال إسقاط خطي. في تجاربنا، تمتلك كل خطوة من خطوات ReSA نسبة ضغط تبلغ 4، مما يؤدي إلى نسبة ضغط أعلى بشكل ملحوظ تبلغ 16.

الانتباه المتقاطع متعدد المستويات (MLCA).

كما ذكر في الأعمال السابقة (blip2, llava)، يتم تدريب مشفرات الصور مسبقاً على مهام محددة وبالتالي قد تركز الميزات من طبقاتها الأخيرة أكثر على تلك المهام. لقد ثبت أن الميزات من الطبقة قبل الأخيرة تعطي أداءً أفضل من الطبقة الأخيرة (llava). بالإضافة إلى ذلك، من الممكن دمج الميزات من عدة طبقات. في مجال الكشف عن الأجسام، شبكة هرم الميزات (fpn) معروفة بدمج الميزات متعددة المستويات، مما يحسن القدرة على الإدراك للأجسام الدقيقة. أما بالنسبة لنماذج اللغة متعددة المستويات، فقد أثبتت (comm) أن دمج الميزات العميقة والسطحية مفيد لتقليل الهلوسة وتحسين الأداء في المهام الدقيقة، حتى عند عدم وجود هيكل هرمي. مستلهمين من شبكة هرم الميزات، نقترح استراتيجية دمج الميزات متعددة المستويات تُسمى MLCA. كما هو موضح في الشكل (fig:arch) (ب)، تمكن MLCA جهاز إعادة العينات من امتصاص الميزات من طبقات مشفر الصور العميقة والسطحية مع جدول توجيه محدد مسبقاً. طالما أن العدد الإجمالي لطبقات جهاز إعادة العينات لم يتغير، فإن MLCA لا يتطلب تكلفة حسابية إضافية مقارنة بالانتباه المتقاطع القياسي. من خلال التجربة، نعتمد أربع مراحل لمشفر الصور، استخراج الميزات من طبقات المشفر الـ 14، 18، 22، و 26 على التوالي.

التضمينات الموضعية القابلة للتوسع (SPEs).

العلاقات الموضعية النسبية بين الصور الفرعية غير واضحة بدون إضافة تضمينات موضعية إضافية. للتعامل مع عدد متغير من قطع الصور، اقترحت الأعمال السابقة (pix2struct, ureader) تعلم تضمينات موضعية مطلقة ثنائية الأبعاد أو مفككة تغطي الفهرس الموضعي الأقصى المقدم في بيانات التدريب. لا تفتقر هذه التضمينات فقط إلى الفعالية في التوسع إلى أشكال خارج نطاق التدريب، ولكن من المؤكد أن التضمينات المتعلمة تظهر أيضاً عدم ملاءمة بسبب التوزيع غير المتساوي لأشكال الإدخال التدريبية. للتغلب على العقبات المذكورة، نقترح طريقة جديدة تُسمى SPEs، تمديد التضمينات الموضعية المفككة (حيث يتم تحليل الصف والعمود) إلى أشكال تعسفية. للتوضيح، يتم التعامل مع تضمينات الصف والعمود بنفس الطريقة في SPEs، ولذلك يتم حذف مواصفاتها في الجزء التالي.

أفترض أن التضمينات الموضعية المتعلمة مبدئياً من توزيع طبيعي \(\calN(0, 1)\). كل تضمين موضعي \(\vare\in\bbR^d\) هو متجه بمعيار \(\ell_2\)-norm \(\sqrt{d}\)، مما يشير إلى أن التضمينات الموضعية موزعة عبر سطح كرة فائقة الأبعاد. في الممارسة العملية، يظل معيار \(\ell_2\)-norm للتضمينات الموضعية المتعلمة ضمن نطاق ضيق خلال عملية التدريب بأكملها، محافظاً على خصائص توزيع الكرة الفائقة. التكامل الخطي الكروي (Slerp)، وهي تقنية شائعة الاستخدام في الرسومات الحاسوبية، تقوم بتكامل أي متجه وسيط بين متجهين وحدويين، وتظهر كبديل محتمل لطرق التكامل التقليدية للتضمينات الموضعية.

لتلبية متطلبات Slerp بدقة، نطبق التطبيع والتحجيم قبل التكامل لكل رأس انتباه، مما يضمن معيار \(\ell_2\)-norm موحد عبر جميع التضمينات الموضعية: \[\begin{aligned} \vare_i&=s\frac{\tilde{\vare}_i}{\|\tilde{\vare}_i\|},\end{aligned}\] حيث \(\tilde{\vare}_i\) \((i\in\{0,1\})\) يشير إلى تضمينين موضعيين نهائيين قابلين للتعلم، و\(s\) هو عامل تحجيم قابل للتعلم مبدئياً كـ \(\sqrt{d}\).

كما هو موضح في الشكل [fig:spe_qpn] (a)، نستخدم Slerp لتوليد تضمينات موضعية تعسفية تمتد بين النقاط النهائية: \[\begin{aligned} \theta&=\arccos\frac{\vare_0\vare_1}{\|\vare_0\|\|\vare_1\|},\\ \vare(t)&=\frac{\sin(\theta-t\theta)}{\sin\theta}\vare_0+\frac{\sin(t\theta)}{\sin\theta}\vare_1, \end{aligned}\] حيث \(t\in[0,1]\) هو الموضع الكسري، والذي يمكن أن يكون الموضع النسبي لصورة فرعية أو قطعة صورة.

شبكة اقتراح الاستعلامات.

على الرغم من الأداء المرضي الذي أظهره النموذج Q-Former على نماذج اللغة متعددة المستويات ذات الدقة الثابتة، فإن طريقة تهيئة استعلامات إعادة العينة من عدد ثابت من المعلمات المتعلمة تفتقر إلى المرونة تحت إعدادات الدقة المتغيرة. قد يؤدي إعادة استخدام الاستعلامات الأولية على صور فرعية مختلفة إلى الإفراط وأنماط انتباه غير مرغوب فيها، حيث تظهر رموز الصور المعاد تجميعها المقابلة لصور فرعية متميزة ولكن باستعلامات معادة متطابقة تشابهات قوية وتتلقى درجات انتباه أعلى بشكل غير مناسب. للقضاء على الآثار الجانبية للاستعلامات الأولية المشتركة، نقترح وحدة خفيفة تُسمى شبكة اقتراح الاستعلامات لتوليد الاستعلامات بشكل ديناميكي. كما هو موضح في الشكل، يتكون هيكل شبكة اقتراح الاستعلامات من شبكة عصبية متعددة الطبقات ذات طبقتين مع تنشيط GELU وطبقة تجميع الحد الأقصى وطبقة إسقاط خطية. يتم تغذية مخرجات المشفر البصري إلى شبكة اقتراح الاستعلامات ويتم التحكم في عدد الاستعلامات المقترحة بواسطة خطوة طبقة تجميع الحد الأقصى. للمقارنة العادلة، تعتمد تجاربنا خطوة بمقدار \(2\times2\) بحيث يظل معدل الضغط 4. تم ضبط بعد مخرجات طبقات الشبكة العصبية متعددة الطبقات وبعد مدخلات طبقة الإسقاط على أربعة أضعاف البعد الخفي للمشفر البصري.

رأس الكشف.

أظهرت الأعمال السابقة (shikra, qwen-vl, llava-1.5) في تطبيق نماذج اللغة متعددة الطبقات لتحديد مواقع الأهداف أنها تعتمد بشكل أساسي على النصوص العادية لتمثيل الإحداثيات، وهذا منطقي نظراً لأن النماذج المدربة مسبقاً تعمل بشكل جيد مع سلاسل النصوص العادية. ومع ذلك، فإن الإحداثيات المبنية على النصوص العادية تستهلك الكثير من الرموز، مما يقلل من كفاءة التدريب والاستدلال. نقترح توسيع قاموس نماذج اللغة متعددة الطبقات برموز خاصة للإحداثيات المعيارية. على وجه التحديد، يستخدم سلسلة نصية عادية لوصف مربع التحديد ما مجموعه \(2+4\times5+3=25\) رمزاً، يشمل علامتين محفزتين، وأربعة أعداد عشرية، وثلاثة فواصل. ومع ذلك، من خلال استبدال العديد من رموز الأرقام لكل عدد عشري برمز إحداثي فريد والاحتفاظ بفاصلة واحدة فقط، يمكننا تقليل عدد الرموز إلى \(2+4+1=7\) فقط.

ومع ذلك، فإن تدريب التضمينات الكلمية المضافة حديثاً بخسارة نمذجة اللغة على كمية صغيرة من البيانات ليس فعالاً. في تجاربنا، ينهار النموذج أحياناً، مما ينتج إحداثيات بلا معنى. للتخفيف من مشكلة تدريب رموز الإحداثيات بشكل غير فعال، نهدف إلى تقديم هدف تدريب مساعد. مستوحاة من (detr)، ندمج شبكة عصبية متعددة الطبقات بسيطة مكونة من طبقتين مع وظيفة تنشيط ReLU وطبقة إسقاط خطية كرأس كشف مساعد، والتي تعمل بالتوازي مع طبقة الإخراج الأصلية لنموذج اللغة. يتم تعيين إخراج رأس الكشف بواسطة وظيفة التنشيط Sigmoid. نقيم الخطأ بين التنبؤ والحقيقة الأرضية بواسطة خسارة \(\ell_1\): \[\begin{aligned} \calL_\text{box}&=\frac{1}{|\mathcal{B}|}\sum_{i\in \calB}\|b_i-b^*_i\|_1,\end{aligned}\] حيث \(b_i\) و\(b^*_i\) هما التنبؤات والحقيقة الأرضية لإحداثيات مربع التحديد المعيارية عند الموضع \(i\) على التوالي، و\(\mathcal{B}\) هي مجموعة مواضع رموز الإحداثيات في تسلسل الإخراج.

دالة الخسارة.

تنظم جميع البيانات في محادثات متعددة الأدوار، حيث يتم تنسيق كل دور على النحو التالي: \[\begin{aligned} \text{المستخدم: <s>}\calI^t\text{</s>المساعد: <s>}\calR^t\text{</s>}\end{aligned}\] حيث يشير <s> و </s> إلى الرموز الخاصة التي تعلن بداية ونهاية رسائل المحادثة. \(\mathcal{I}^t\) و \(\mathcal{R}^t\) هما رموز التعليمات ورموز الاستجابة في الدور \(t\). على عكس تعديل التعليمات اللغوية الذي يشمل فقط رموز النص، قد يتكون \(\mathcal{I}^t\) من رموز نصية، صورية، أو كلا النمطين. يعتمد تدريب نماذج اللغة متعددة المهام بشكل أساسي على خسارة نمذجة اللغة على رموز الاستجابة: \[\begin{aligned} \calL_\text{lm}=-\frac{1}{\sum \alpha_i}\sum_{i\in \calM}\alpha_i\log(p(x_i|\varx_{<i})),\quad \alpha_i=\left\{ \begin{aligned} &1\quad&i\notin\calB,\\ &\alpha&i\in\calB, \end{aligned} \right.\end{aligned}\] حيث \(\calM\) هي مجموعة مواقع الاستجابة، \(\alpha\) هو وزن محدد مسبقاً لرموز الإحداثيات، و \(\varx_{<i}\) هي رموز التعليمات والاستجابات متعددة الوسائط التي ظهرت قبل الرمز \(i\).

الخسارة النهائية هي مجموع موزون لخسارة نمذجة اللغة وخسارة مربع الحدود المذكورة أعلاه: \[\begin{aligned} \calL=\calL_\text{lm} + \lambda\calL_\text{box},\end{aligned}\] حيث \(\lambda\) هو وزن محدد مسبقاً لخسارة مربع الحدود.

التجارب

مجموعات البيانات

تجميع البيانات.

لإنشاء دفعات بيانات تحتوي على تسلسلات بأطوال متفاوتة، يلزم إجراء عملية تعبئة، مما يؤدي إلى هدر الرموز. للتقليل من هذا الهدر وزيادة كفاءة التدريب، نقوم بدمج عينات أصلية متعددة في عينة تدريب واحدة. على وجه التحديد، نختار ونجمع العينات من مجموعة البيانات بشكل عشوائي حتى يصل طول التسلسل المجمع إلى قيمة قصوى محددة مسبقاً. من الجدير بالذكر أننا نقوم بتغطية العينات الأصلية بعناية بحيث تكون غير مرئية بالتبادل من بعضها البعض.

التعليق التصوري.

لتحقيق القدرة الأساسية على الإدراك وكذلك لمواءمة المفهوم بين المشفر البصري ونموذج اللغة الكبير، تم جمع (96M) زوجاً من الصور والنصوص من مجموعات بيانات التعليق على الصور، بما في ذلك (CC3M)، (CC12M)، (SBU) ومجموعة فرعية من (LAION-400M). في هذه المهمة، يولد النموذج تعليقاً قصيراً للصورة المعطاة، كما يتطلب الأمر “وصف الصورة باختصار”.

التعليق التأسيسي.

لتمكين نموذج التعلم المتعدد اللغات بقدرات تأسيسية أساسية، تم اعتماد مجموعة فرعية من مجموعة البيانات GrIT (kosmos2) تشمل 16 مليون زوج من الصور والنصوص. في هذه المهمة، يولد النموذج تعليقاً قصيراً بالإضافة إلى صناديق الحدود المعيارية للأشياء المشار إليها في الصورة، كما يتطلبه التوجيه “وصف الصورة بإيجاز، مع التركيز على الكائنات الرئيسية مع صناديق الحدود المعيارية”.

التعرف الضوئي على الحروف.

باستثناء الصور الطبيعية، نحن مهتمون بشكل خاص بالصور الموجهة للوثائق. لتعزيز قدرة الإدراك لنموذج التعلم المتعدد المستويات للحروف الضوئية، تم جمع 1.28 مليون صورة من (IIT-CDIP). ثلاثة أنواع من الاستعلامات، “اذكر محتوى النص في الصورة”، “اذكر مربعات النص المحيطة في الصورة” و “اذكر محتوى النص مع مربعاته المحيطة في الصورة”، تُستخدم لحث النموذج على توليد محتوى النص، مربعات النص، أو كليهما لصورة معينة، حيث يتم جمع التصنيفات الخشنة بواسطة نظام التعرف الضوئي على الحروف التجاري.

تحويل الصيغة.

مستوحى من (nougat)، نجمع 1.28 مليون صفحة PDF ومحتوى تحويل الصيغة الخاص بالأوراق العلمية من ملفات مصدر arXiv، والتي تحتوي على معلومات تخطيط أكثر مثل ترتيب القراءة مقارنة ببيانات التعرف الضوئي على الحروف العادية. نستخدم تعليمات بسيطة، “انقل محتوى صورة الوثيقة”، لطلب من النموذج تحويل صفحة PDF لوثيقة علمية إلى تحويل الصيغة.

التعليمات.

أثر اتباع LLaVA-1.5، قمنا ببناء بيانات التنعيم الخاصة بنا استناداً إلى مجموعات البيانات الموجودة لتعزيز قدرة MLLMs على اتباع التعليمات والتفاعل في محادثات تتعلق بالطبيعة والمستندات. على وجه التحديد، نعتمد عدة مجموعات بيانات تشمل (vqav2)، (okvqa)، (gqa)، (aokvqa)، (textcaps)، (ocrvqa)، (refcoco)، (pointqa)، (flickr)، (docvqa)، (chartqa)، (infovqa)، (tabfact)، (wtq)، (vg)، (visualmrc)، و(slidevqa). تم اعتماد نفس الأوامر من LLaVA-1.5 لتنظيم أسلوب الاستجابة لـ MLLMs. لكل مجموعة بيانات، نقوم بدمج جميع أزواج الأسئلة والأجوبة المتعلقة بنفس الصورة التدريبية لإنشاء محادثات متعددة الأدوار وتحسين كفاءة البيانات. بالإضافة إلى المهام الأصلية، نقدم أيضاً مهاماً متعددة لمساعدة MLLMs على التعرف على النصوص وفهم تخطيط المستندات، بما في ذلك مهمة التعرف الضوئي على الحروف لـ (DocVQA)، (InfoVQA)، (VisualMRC) و(SlideVQA)، مهمة التحويل من الرسم البياني إلى الجدول لـ (ChartQA)، ومهمة التحويل من الصورة إلى markdown لـ (TabFact) و(WTQ). لتطوير MLLM للأغراض العامة، نستفيد من عدة مجموعات بيانات حوارية تشمل (ShareGPT)، (ShareGPT-4V)، (ALLaVA)، (LLaVA)، (SVIT)، و(Shikra).

دوك جيميني.

لمعالجة ندرة مجموعات البيانات الحوارية الموجهة للوثائق ذات الجودة العالية، نستفيد من القدرات البصرية الأصلية لـ Gemini-Pro لتعزيز البيانات. لكل عينة تدريب من DocVQA، ChartQA، وInfoVQA، نقدم لـ Gemini-Pro الصورة وأزواج الأسئلة والأجوبة الأصلية مع استعلام لتوليد: (1) ملخص موجز لمواضيع الوثيقة؛ (2) أزواج أسئلة وأجوبة قصيرة إضافية، حتى 10؛ (3) رؤى وراء كل إجابة. باختصار، تتكون مجموعة البيانات المولدة دوك جيميني من 30 ألف صورة و 195 ألف زوج من الأسئلة والأجوبة مع الرؤى.

التدريب

لجميع مراحل التدريب، نعتمد على AdamW كمحسن، مع \(\beta_1=0.9\)، \(\beta_2=0.95\)، وتحلل الوزن 0.05.

التدريب المسبق بدقة ثابتة.

مستوحى من BLIP-2، نعتمد مجموعات بيانات التعليق التصوري على نطاق واسع لمواءمة مشفر بصري مدرب مسبقاً ومجمد مع LLM. على وجه التحديد، يتم استخدام 96M زوج صورة-نص في هذه المرحلة. كل تعليق تصوري هو وصف موجز يلخص المعلومات العامة المصورة في صورة، نادراً ما يكون متعلقاً بالتفاصيل الدقيقة. لتسريع التدريب، تخضع جميع الصور لإعادة تحجيم إلى \(224\times224\). الحد الأقصى لطول التسلسل هو 4,096 وحجم الدفعة هو 96، مما يؤدي إلى حجم دفعة فعال يقارب 8,000 بعد تجميع البيانات. نقوم بتدريب النموذج مسبقاً لـ 12,000 خطوة، ما يعادل تقريباً دورة واحدة عبر مجموعة البيانات. خلال التدريب المسبق، نجمد المشفر البصري وLLM وندرب المعيد العشوائي المبدئي ووحدات LoRA. معدل التعلم يزداد تدريجياً إلى \(3e^{-4}\) في أول 3% من الخطوات، يليه انحدار خطي إلى \(1e^{-5}\) في الخطوات المتبقية. يستغرق الأمر يوماً واحداً لإنهاء التدريب على 48 وحدة معالجة رسومات NVIDIA V100.

التدريب المسبق بدقة مختلطة.

في هذه المرحلة، نقوم بتكييف جهاز إعادة العينات ليتناسب مع دقة الإدخال المتغيرة. يتم استخدام الصور ذات الأحجام الأصلية المختلفة ونسب العرض إلى الارتفاع من مجموعات بيانات التعليق التوضيحي، والتعرف الضوئي على الحروف، وتخفيض الأسعار. يتم تحديد حجم كل صورة فرعية بـ \(224\times224\). يتم تحديد المساحة القصوى \(n\) بـ 36 ويتم تحديد الطول الأقصى للجانب \(l\) بـ 12. لتسريع مطابقة الشبكة للقطع المتكيفة مع الشكل، يتم تحديد \(k\) بـ 9. حجم الدفعة الفعال تقريباً 1500 وعدد خطوات التدريب 12000، ما يعادل تقريباً دورة واحدة عبر مجموعة البيانات بالكامل. باستثناء جهاز إعادة العينات و LoRA، يتم تهيئة رأس الكشف عشوائياً وتحديثه في هذه المرحلة. يتم تحديد وزن \(\alpha\) لرموز الإحداثيات بـ \(0.25\) (أربعة رموز لكل مربع تحديد) ويتم تحديد وزن \(\lambda\) لخسارة \(\ell_1\) بـ 1. يتم الاحتفاظ بتجميد المشفر البصري والنموذج اللغوي الكبير. معدل التعلم يزداد تدريجياً إلى \(1.5e^{-4}\) في أول 3% من الخطوات، يليه تضاؤل تدريجي إلى \(5e^{-6}\). يستغرق الأمر 3 أيام لإنهاء التدريب على 40 وحدة معالجة رسومات من نوع NVIDIA V100.

الضبط الدقيق بإشراف مختلط الدقة.

خلال عملية الضبط الدقيق، ندمج أوزان LoRA مع نموذج اللغة الكبير وندرب محول الدقة والنموذج اللغوي الكبير ورأس الكشف معاً، مع الحفاظ على تجميد مشفر الصورة. تورث المعلمات الفائقة للقص المتكيف مع الشكل ورأس الكشف من التدريب المسبق بدقة مختلطة. الطول الأقصى للتسلسل هو 2048. نقوم بتدريب النموذج على بيانات اتباع التعليمات لفترة واحدة مع حجم دفعة يبلغ 64. معدل التعلم يزداد تدريجياً إلى \(2e^{-5}\) في أول 3% من الخطوات، يليه انحدار زاوي إلى \(0\). يستغرق التدريب يوماً واحداً لإنهاء التدريب على 32 وحدة معالجة رسومات من نوع NVIDIA V100.

النتائج على المعايير القياسية

لإظهار فعالية طرقنا، نجري مقارنة بين DocuPercept، ونموذجين متخصصين لمهام موجهة للوثائق، وأحدث نماذج اللغات متعددة المستويات على مجموعة واسعة من المعايير. تستهدف كل معيار مجموعة من المهام العامة أو المهام المفصلة. أولاً، نقوم بتقييم النماذج على معايير شاملة تشمل (MME)، (MMBench)، (SEED-Bench)، و(GQA). نظراً لأن دقة الصور في هذه المعايير منخفضة نسبياً، نقوم بتقييم قدرة الإدراك المفصل على فهم الوثائق ومهام الإشارة، بما في ذلك (DocVQA)، (ChartQA)، (InfoVQA)، (TabFact)، (WTQ)، و(RefCOCO).

كما هو موضح في الجدول (tab:benchmark)، يتفوق DocuPercept في كل من المعايير العامة والموجهة للوثائق، حيث يحتل المرتبة الأولى في 6 من 9 معايير. في جميع المعايير العامة، لا يتفوق DocuPercept على (LLaVA-1.5-7B) فحسب، بل يحقق أيضاً نتائج مماثلة مع (InternLM-XComposer)، على الرغم من أن الأخير يشارك نفس النموذج الأساسي للغة ولكن يستخدم مشفراً بصرياً أكبر. عند المقارنة بنماذج اللغات متعددة المستويات السابقة الموجهة للوثائق، مثل (Ureader) و(TextMonkey)، يظهر DocuPercept أداءً متفوقاً في المعايير الموجهة للوثائق. على وجه التحديد، يحقق DocuPercept مكاسب في الأداء بنسبة 11.0%، 7.3%، 8.4%، 3.5%، و5.3% على (DocVQA)، (ChartQA)، (InfoVQA)، (TabFact)، و(WTQ)، على التوالي، مقارنة بـ(Ureader). بشكل ملحوظ، يتفوق DocuPercept حتى على (TextMonkey)، الذي يستخدم مشفراً بصرياً أكبر، في معايير (DocVQA) و(WTQ). من الجدير بالذكر أن إدخال بياناتنا (DocGemini) يمكن أن يحسن أكثر من الأداء في المعايير الموجهة للوثائق. بالإضافة إلى ذلك، يحقق DocuPercept نتائج تنافسية على مجموعة بيانات (RefCOCO)، مما يظهر قدراته الجيدة في مهمة الإشارة.

دراسة الاستئصال

نعتمد تكوينين أسرع للتدريب من أجل دراسة الاستئصال. التدريب بالدقة الثابتة هو نفسه تماماً كما هو موصوف في القسم [sec:train]. بعد ذلك، يتم تنقيح نماذج الدقة الثابتة على بيانات التدريب الخاصة بـ LLaVA-1.5 لمدة دورة تدريبية واحدة، بينما يتم تنقيح نماذج الدقة المتغيرة على بيانات التدريب الخاصة بـ LLaVA-1.5، DocVQA، ChartQA، InfoVQA، TabFact، و WTQ.

إعادة العينة وإعادة الترتيب (ReSA).

لإظهار فعالية إعادة العينة وإعادة الترتيب، نجري تجارب بدقة ثابتة مع تكوينات ضغط مختلفة، وتظهر النتائج في الجدول [tab:resa]. مقارنة باستراتيجية إعادة العينة فقط، فإن دمج إعادة العينة وإعادة الترتيب الذي يقسم إجراء الضغط إلى مرحلتين يحسن الأداء في جميع المعايير، خاصة في RefCOCO حيث تظهر مهمة الفهم المرجعي طلباً كبيراً للحفاظ على معلومات أكثر دقة.

الانتباه المتقاطع متعدد المستويات (MLCA).

من الناحية التجريبية، تلتقط الطبقات العميقة داخل مشفرات الرؤية المعلومات الدلالية العالمية بشكل أساسي، بينما تميل الطبقات السطحية إلى الاحتفاظ بالتفاصيل المحلية المعقدة. لاستكشاف تأثير استراتيجية التوجيه لـ MLCA، نجري تجارب مع جداول توجيه مختلفة، كما هو موضح في الجدول [tab:mlca]. من أجل البساطة، نستخدم R1 إلى R5 للإشارة إلى جداول التوجيه المختلفة. R1 هو حالة خاصة تشمل فقط مرحلة التشفير 3، مما يؤدي إلى العودة إلى إعدادات الانتباه المتقاطع التقليدية. عند مقارنة R1 و R2، يمكننا أن نجد أن الأخير يحسن الأداء بشكل كبير في المهام المفصلة، بينما ينخفض قليلاً في الأداء في المعايير العامة. عند مقارنة R2 و R3/R4، يمكننا أن نجد أن توجيه الميزات من طبقات التشفير الأقل عمقاً إلى طبقات إعادة العينات الأعمق يظهر دقة أعلى على RefCOCO، مقارنة بتوجيهها إلى طبقات إعادة العينات المتوسطة. من بين جميع الإعدادات التجريبية، يحقق R5 توازناً جيداً بين المهام العامة والمهام المفصلة، وبالتالي نعتمده كجدول توجيه افتراضي.

شبكة اقتراح الاستعلامات (QPN).

للتحقق من أهمية استعلامات إعادة العينة عالية الجودة، قمنا بمقارنة تهيئة الاستعلامات من المعلمات المتعلمة وتوليد الاستعلامات باستخدام شبكة اقتراح الاستعلامات، كما هو موضح في الجدول [tab:qpn]. للمقارنة العادلة، يبلغ عدد الاستعلامات 64 في كلتا التجربتين. يمكننا أن نجد أن دمج شبكة اقتراح الاستعلامات يحسن أداء النموذج في معظم المعايير القياسية، وخاصة في RefCOCO.

التضمينات الموضعية القابلة للتوسع (SPEs).

لاستكشاف تأثير التضمينات الموضعية الإضافية، نجري تجارب مع إعدادات دقة متغيرة. تظهر النتائج على المعايير الدقيقة في الجدول [tab:pe]. من الواضح أن غياب التضمينات الموضعية الإضافية يؤدي إلى تدهور الأداء في معظم المعايير. مقارنة بالتضمينات الموضعية المطلقة المستخدمة في الأعمال السابقة، تحسن SPEs الأداء الدقيق بشكل أكبر. في الوقت نفسه، يمكن توسيع دقة SPEs من الخلية إلى بقعة الصورة دون زيادة عدد المعاملات. تم التأكيد على أن استخدام التضمينات الموضعية الأدق والأكثر سلاسة على مستوى بقعة الصورة يحسن الأداء العام بشكل أكبر.

رأس الكشف.

كلا من رأس نمذجة اللغة الأصلي ورأس الكشف الإضافي قادران على توليد الإحداثيات. عندما ينتج الأول رمز إحداثي، يمكننا استبداله بسلاسة بالناتج من الأخير. في الجدول [tab:head]، نقارن نتائج الرؤوس المختلفة على RefCOCO. من الواضح أن رأس الكشف يظهر دقة أعلى في جميع الأقسام، مما يثبت تفوقه في مهام التأصيل.

القيود

المشفر البصري في DocuPercept مجمد أثناء التدريب، مما يعني أنه لا يتعلم من بيانات التدريب. قد يحد هذا من قدرة النموذج على التكيف مع بيانات بصرية جديدة أو غير مرئية تختلف بشكل كبير عن البيانات التي تم تدريبه عليها في البداية. في المستقبل، سنقوم بتدريب المشفر البصري لتحسين قدرات الإدراك بشكل أكبر.

الخلاصة

في هذه الورقة، قدمنا DocuPercept، نموذج لغوي كبير متعدد الوسائط (Multimodal Large Language Model) مصمم خصيصاً لمواجهة التحديات الفريدة التي تطرحها المهام الموجهة نحو الوثائق. يقدم DocuPercept عدة مكونات مبتكرة. تعمل هذه المكونات بتناغم لتعزيز قدرات النموذج على الإدراك البصري الدقيق وضغط المعلومات، مما يمكنه من التعامل مع الدقة العالية وكثافة المعلومات المميزة لصور الوثائق. تظهر تجاربنا الواسعة على معايير النماذج اللغوية الكبيرة متعددة الوسائط الموجهة للوثائق والعامة أن DocuPercept يتفوق على الطرق الحديثة، مما يبرز قدراته المتفوقة في إدراك الوثائق الدقيق وقدراته العامة في الرؤية واللغة.