نموذج TextHawk لتحليل النصوص

John Doe

Jane Smith

\[ \text{latex} \]

تمهيد

في هذه الورقة، نقدِّم نموذج TextHawk، وهو نظامٌ جديد لتحليل النصوص يستخدم تقنيات مُتقدِّمة في معالجة اللُّغات الطبيعيّة. يهدف النموذج إلى تحسين فهم النصوص وتحليلها بدقّة وفاعليّة أكبر. نستعرض في هذه الدراسة الأساليب التي يعتمدها النموذج ونقارن أداءه بالنماذج الأخرى المتاحة.

مقدمة

تُعَدّ معالجة اللُّغات الطبيعيّة (Natural Language Processing) من المجالات الحيويّة في علم الحاسوب، ولها تطبيقات متعدِّدة تشمل ترجمة اللغات، والتعرّف إلى الكلام، وتحليل النصوص. النموذج الذي نقدِّمه، TextHawk، يمثّل خطوة مهمّة نحو تحسين قدرات الأنظمة الحاسوبيّة على فهم اللغة البشريّة ومعالجتها بمزيد من الفاعليّة.

الأساس النظري

يعتمد TextHawk على مجموعةٍ من الخوارزميّات المتطوِّرة لفهم النصوص وتحليلها. تشمل هذه الخوارزميّات تقنيات التعلُّم العميق (Deep Learning)، التي تمكِّن النموذج من تحليل النصوص بدقّة عالية.

التطبيقات

يمكن تطبيق نموذج TextHawk في طيفٍ واسع من المجالات مثل البحث العلمي، والتعليم، والصناعات التي تعتمد على معالجة البيانات النصيّة. وبفضل قدراته المتقدّمة، يُسهم النموذج في تسريع وتحسين عمليات التحليل النصّي.

الخلاصة

يُقدِّم نموذج TextHawk مساهمةً قيّمة في مجال معالجة اللُّغات الطبيعيّة، إذ يوفِّر أدواتٍ قويّة لتحليل النصوص وفهمها على نحوٍ أفضل. ونأمل أن يفتح هذا النموذج الباب أمام تطوير تقنيات جديدة في هذا المجال الحيوي.

الملخّص

أظهرت نماذج اللُّغة الكبيرة مُتعدِّدة الوسائط (MLLMs) نتائج مُلفتة في مهامّ مُتعدِّدة الوسائط المختلفة. ومع ذلك، فإن معظم نماذج اللُّغة الكبيرة مُتعدِّدة الوسائط الحالية لا تُلاءِم المهامّ المُوجَّهة نحو الوثائق، التي تتطلّب إدراكاً بصريّاً دقيقاً وضغطاً فعّالاً للمعلومات. في هذه الورقة، نقدِّم TextHawk، وهو نموذج لُغويّ كبير مُتعدِّد الوسائط مُصمَّم خصيصاً للمهامّ المُوجَّهة نحو الوثائق، مع الحفاظ على القدرات العامّة لنماذج اللُّغة الكبيرة مُتعدِّدة الوسائط. يهدف TextHawk إلى استكشاف الإدراك الدقيق بفاعليّة من خلال تصميم أربعة مكوّنات مُخصَّصة. أولاً، نُقدِّم وحدة إعادة أخذ العينات وإعادة الترتيب (ReSA) لتقليل الفائض في نصوص الوثائق وخفض الكُلفة الحِسابية للنموذج مُتعدِّد الوسائط. نستكشف ترميز مواقع كل ميزة محليّة عبر تقديم تضمينات موضعيّة قابلة للتوسّع (SPEs)، بما يحافظ على قابليّة التوسّع عبر أحجام صور مختلفة. بعد ذلك، نعتمد شبكة اقتراح الاستعلام (QPN) لتهيئة الاستعلامات بصورة ديناميكيّة بين الصور الفرعيّة المختلفة. ولتعزيز القدرة الإدراكيّة البصريّة الدقيقة للنموذج، نصمِّم آلية انتباهٍ مُتقاطع مُتعدِّد المستويات (MLCA) تلتقط البنية الهرميّة والعلاقات الدلاليّة لصور الوثائق. بالإضافة إلى ذلك، ننشئ مجموعة بيانات جديدة لضبط التعليمات للمهامّ المُوجَّهة نحو الوثائق عبر إغناء بيانات الوثائق مُتعدِّدة الوسائط بمساعدة Gemini Pro. نجري تجارب واسعة على معايير النماذج مُتعدِّدة الوسائط العامة والمُوجَّهة نحو الوثائق، ونُظهِر أن TextHawk يتفوّق على أحدث الطرائق، ما يدلّ على فاعليّته وتفوّقه في إدراك الوثائق بدقّة وفي القدرات العامّة. صفحة المشروع: https://github.com/yuyq96/TextHawk.

الكلمات المفتاحية

نماذج اللُّغة الكبيرة مُتعدِّدة الوسائط، فهم الوثائق، الإجابة عن الأسئلة البصريّة

مقدمة

لقد حظيت نماذج اللُّغة الكبيرة مُتعدِّدة الوسائط (MLLMs) مثل BLIP-2 وInstructBLIP وLLaVA باهتمامٍ كبير وأحرزت تقدّماً ملحوظاً مؤخّراً. تستخدم هذه النماذج نماذجَ اللُّغة الكبيرة (LLMs) جوهراً لها، وتوسِّع قدرات تلك النماذج القويّة إلى وسائط أخرى، مثل الوسائط البصريّة. ونظراً لتنوّع سيناريوهات تطبيقات فهم صور الوثائق، يحتلّ هذا المجال موقعاً محوريّاً ضمن إدراك الرؤية الحاسوبيّة. تُعَدّ قدرة فهم صور الوثائق إحدى القدرات الأساسيّة لِلنماذج مُتعدِّدة الوسائط، ما يُسهِّل تحقيق تطبيقات رائدة، مثل وُكلاء التطبيقات الذكيّة المبنيّة على هذه النماذج، وأنظمة القراءة المُساعِدة للنصوص الغنيّة، وغيرها. ومع ذلك، تطرح صور الوثائق تحدّيات فريدة لهذه النماذج، إذ تختلف عن الصور الطبيعيّة في عدّة جوانب. فعادةً ما تتّسم صور الوثائق بدقّة أعلى وكثافة معلومات أكبر من الصور الطبيعيّة، ما يعني أنّ النماذج مُتعدِّدة الوسائط تحتاج إلى التغلّب على صعوبتين رئيسيتين عند معالجتها: الأولى تحقيق إدراك بصري دقيق لمحتوى الوثيقة، والثانية ضغط معلومات صورة الوثيقة بكفاءة.