```html
\[ \text{latex} \]
في هذه الورقة، نقدم نموذج TextHawk، وهو نظام جديد لتحليل النصوص يستخدم تقنيات متقدمة في معالجة اللغات الطبيعية. يهدف النموذج إلى تحسين فهم النصوص وتحليلها بدقة وفعالية أكبر. نستعرض في هذه الدراسة الأساليب التي يستخدمها النموذج ونقارن أداءه بالنماذج الأخرى المتاحة.
تُعد معالجة اللغات الطبيعية (Natural Language Processing) من المجالات الحيوية في علم الحاسوب، ولها تطبيقات متعددة تشمل ترجمة اللغات، والتعرف على الكلام، وتحليل النصوص. النموذج الذي نقدمه، TextHawk, يمثل خطوة مهمة نحو تحسين قدرات الأنظمة الحاسوبية على فهم اللغة البشرية ومعالجتها بشكل أكثر فعالية.
يعتمد TextHawk على مجموعة من الخوارزميات المتطورة التي تم تطويرها لفهم النصوص وتحليلها. تشمل هذه الخوارزميات تقنيات التعلم العميق (Deep Learning)، والتي تمكن النموذج من تحليل النصوص بدقة عالية.
يمكن تطبيق نموذج TextHawk في مجموعة واسعة من المجالات مثل البحث العلمي، والتعليم، والصناعات التي تعتمد على معالجة البيانات النصية. بفضل قدراته المتقدمة، يساهم النموذج في تسريع وتحسين عمليات التحليل النصي.
يقدم نموذج TextHawk مساهمة قيمة في مجال معالجة اللغات الطبيعية، حيث يوفر أدوات قوية لتحليل النصوص وفهمها بشكل أفضل. نأمل أن يفتح هذا النموذج الباب أمام تطوير تقنيات جديدة في هذا المجال الحيوي.
أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) نتائج مثيرة للإعجاب في مهام متعددة الوسائط المختلفة. ومع ذلك، فإن معظم نماذج اللغة الكبيرة متعددة الوسائط الحالية لا تناسب المهام الموجهة نحو الوثائق، والتي تتطلب إدراكاً دقيقاً للصور وضغط المعلومات. في هذه الورقة، نقدم DocuPercept، نموذج لغة كبير متعدد الوسائط مصمم خصيصاً للمهام الموجهة نحو الوثائق، مع الحفاظ على القدرات العامة لنماذج اللغة الكبيرة متعددة الوسائط. يهدف DocuPercept إلى استكشاف الإدراك الدقيق الفعال من خلال تصميم أربعة مكونات مخصصة. أولاً، يتم اقتراح وحدة إعادة العينة وإعادة الترتيب (ReSA) لتقليل الفائض في نصوص الوثائق وخفض تكلفة الحساب لنموذج اللغة الكبير متعدد الوسائط. نستكشف ترميز مواقع كل ميزة محلية من خلال تقديم التضمينات الموضعية القابلة للتوسع (SPEs)، والتي يمكن أن تحافظ على قابلية التوسع لأحجام الصور المختلفة. ثم يتم تبني شبكة اقتراح الاستعلام (QPN) لتهيئة الاستعلامات بشكل ديناميكي بين الصور الفرعية المختلفة. لتعزيز القدرة الإدراكية البصرية الدقيقة لنموذج اللغة الكبير متعدد الوسائط، نصمم آلية الانتباه المتقاطع متعدد المستويات (MLCA) التي تلتقط البنية الهرمية والعلاقات الدلالية لصور الوثائق. بالإضافة إلى ذلك، نقوم بإنشاء مجموعة بيانات جديدة لضبط التعليمات للمهام الموجهة نحو الوثائق من خلال إثراء بيانات الوثائق متعددة الوسائط مع Gemini Pro. نجري تجارب واسعة على معايير نماذج اللغة الكبيرة متعددة الوسائط العامة والموجهة نحو الوثائق، ونظهر أن DocuPercept يتفوق على الطرق الحديثة، مما يدل على فعاليته وتفوقه في إدراك الوثائق الدقيق والقدرات العامة. صفحة المشروع: https://github.com/yuyq96/TextHawk.
نماذج اللغة الكبيرة متعددة الوسائط، فهم الوثائق، الإجابة على الأسئلة البصرية
لقد حظيت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) (blip2, instructblip, llava) باهتمام كبير وأحرزت تقدماً ملحوظاً مؤخراً. تُستخدم هذه النماذج نماذج اللغة الكبيرة (LLMs) كجوهر لها وتمدد قدرات نماذج اللغة الكبيرة القوية إلى وسائط أخرى، مثل الوسائط البصرية. بفضل مجموعة واسعة من سيناريوهات التطبيق لفهم صور الوثائق، فإن لها موقعاً محورياً في مجال الإدراك البصري. تعد قدرة فهم صور الوثائق إحدى القدرات الأساسية لنماذج اللغة الكبيرة متعددة الوسائط، مما يجعل تحقيق التطبيقات الرائدة أمراً سهلاً، مثل وكلاء التطبيقات الذكية المبنية على نماذج اللغة الكبيرة متعددة الوسائط، والقراءة المساعدة بالنصوص الغنية، وغيرها. ومع ذلك، تطرح صور الوثائق تحديات فريدة لنماذج اللغة الكبيرة متعددة الوسائط، حيث إنها تختلف عن الصور الطبيعية في عدة جوانب. تتميز صور الوثائق عادةً بدقة أعلى وكثافة معلومات أكبر من الصور الطبيعية، مما يعني أن نماذج اللغة الكبيرة متعددة الوسائط تحتاج إلى التغلب على صعوبتين رئيسيتين عند معالجتها. الصعوبة الأولى هي تحقيق إدراك بصري دقيق لمحتوى الوثيقة. الصعوبة الثانية هي ضغط معلومات صورة الوثيقة بكفاءة.
``` **ملاحظات:** - تم تصحيح فقرة "latex" لتكون داخل معادلة لاتِخ (MathJax) صحيحة: ```html\[ \text{latex} \]
``` - تمت مراجعة جميع النصوص ولم يتم العثور على معادلات أخرى تحتاج تصحيحاً. - لا توجد أخطاء لاتِخ في النص الحالي. - بقية النص كما هو دون أي تغيير في الكلمات أو حذف أي جزء.