LaTeX
في هذه الورقة، نقدم نموذج TextHawk، وهو نظام جديد لتحليل النصوص يستخدم تقنيات متقدمة في معالجة اللغات الطبيعية. يهدف النموذج إلى تحسين فهم النصوص وتحليلها بدقة وفعالية أكبر. نستعرض في هذه الدراسة الأساليب التي يستخدمها النموذج ونقارن أداءه بالنماذج الأخرى المتاحة.
تُعد معالجة اللغات الطبيعية (Natural Language Processing) من المجالات الحيوية في علم الحاسوب، ولها تطبيقات متعددة تشمل ترجمة اللغات، والتعرف على الكلام، وتحليل النصوص. النموذج الذي نقدمه، TextHawk، يمثل خطوة مهمة نحو تحسين قدرات الأنظمة الحاسوبية على فهم اللغة البشرية ومعالجتها بشكل أكثر فعالية.
يعتمد TextHawk على مجموعة من الخوارزميات المتطورة التي تم تطويرها لفهم النصوص وتحليلها. تشمل هذه الخوارزميات تقنيات التعلم العميق (Deep Learning)، والتي تمكن النموذج من تحليل النصوص بدقة عالية.
يمكن تطبيق نموذج TextHawk في مجموعة واسعة من المجالات مثل البحث العلمي، والتعليم، والصناعات التي تعتمد على معالجة البيانات النصية. بفضل قدراته المتقدمة، يساهم النموذج في تسريع وتحسين عمليات التحليل النصي.
يقدم نموذج TextHawk مساهمة قيمة في مجال معالجة اللغات الطبيعية، حيث يوفر أدوات قوية لتحليل النصوص وفهمها بشكل أفضل. نأمل أن يفتح هذا النموذج الباب أمام تطوير تقنيات جديدة في هذا المجال الحيوي.
أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) نتائج مثيرة للإعجاب في مهام متعددة الوسائط المختلفة. ومع ذلك، فإن معظم نماذج اللغة الكبيرة متعددة الوسائط الحالية لا تناسب المهام الموجهة نحو الوثائق، التي تتطلب إدراكًا دقيقًا للصور وضغط المعلومات. في هذه الورقة، نقدم DocuPercept، نموذج لغة كبير متعدد الوسائط مصمم خصيصًا للمهام الموجهة نحو الوثائق، مع الحفاظ على القدرات العامة لنماذج اللغة الكبيرة متعددة الوسائط. يهدف DocuPercept إلى استكشاف الإدراك الدقيق الفعّال من خلال تصميم أربعة مكونات مخصصة. أولاً، نقترح وحدة إعادة العينة وإعادة الترتيب (ReSA) لتقليل الفائض في الوثائق وخفض تكلفة الحساب لنموذج اللغة الكبير متعدد الوسائط. نستكشف ترميز مواقع كل ميزة محلية من خلال تقديم التضمينات الموضعية القابلة للتوسع (SPEs)، التي تحافظ على قابلية التوسع لأحجام الصور المختلفة. ثم نتبنى شبكة اقتراح الاستعلام (QPN) لتهيئة الاستعلامات ديناميكيًا بين الصور الفرعية. لتعزيز القدرة الإدراكية البصرية الدقيقة لنموذج اللغة الكبير متعدد الوسائط، نصمم آلية الانتباه المتقاطع متعدد المستويات (MLCA) التي تلتقط البنية الهرمية والعلاقات الدلالية لصور الوثائق. بالإضافة إلى ذلك، ننشئ مجموعة بيانات جديدة لضبط التعليمات للمهام الموجهة نحو الوثائق من خلال إثراء بيانات الوثائق متعددة الوسائط بمخرجات Gemini Pro. نجري تجارب واسعة على معايير نماذج اللغة الكبيرة متعددة الوسائط العامة والموجهة نحو الوثائق، ونظهر أن DocuPercept يتفوق على الطرق الحديثة، مما يدل على فعاليته وتفوقه في الإدراك الدقيق للوثائق والقدرات العامة. صفحة المشروع: https://github.com/yuyq96/TextHawk.
نماذج اللغة الكبيرة متعددة الوسائط، فهم الوثائق، الإجابة على الأسئلة البصرية