مُلَخَّص
في السنوات الأخيرة، شهد تطوير نماذج اللغة المدربة مسبقاً (PLMs) زخماً متزايداً بفضل قدرتها على تجاوز الحواجز اللغوية وتيسير نقل المعرفة عبر لغات متنوعة. ومع ذلك، ركَّز معظم هذا التقدم على اللغات ذات الموارد العالية، فاتسعت فجوة واضحة في المشهد متعدد اللغات. يسعى هذا البحث إلى سد هذه الفجوة من خلال تقديم أربعة نماذج PLMs مصممة خصيصاً وخضعت لتكييف دقيق للغات الأنغولية، وذلك باستخدام نهج التكييف الدقيق متعدد اللغات (MAFT). نُسلط الضوء في هذا العمل على دور تهيئة التضمين المستنير والبيانات الاصطناعية في تعزيز أداء نماذج MAFT في المهام اللاحقة. وحققنا تحسينات بلغت 12.3 نقطة عند الاعتماد على AfroXLMR-base (مطوّر بواسطة MAFT)، و3.8 نقطة عبر OFA (تهيئة التضمين الفعالة).
تقديم الأوراق البحثية في ورشة عمل AfricaNLP ضمن مؤتمر ICLR2023
مُقَدِّمَة
لقد شهدت نماذج اللغة ومجموعات التقييم اللغوي تقدماً ملحوظاً عبر لغات العالم (devlin-etal-2019-bert, conneau-etal-2020-unsupervised, workshop2023bloom, xue-etal-2021-mt5). ومع ذلك، غالباً ما غُفلت العديد من اللغات الأفريقية، فأفضى ذلك إلى فجوة واضحة. كما أن معظم النماذج الموجهة لأفريقيا لم تُدمج اللغات الأنغولية ضمن مقاربتها (dossou-etal-2022-afrolm, alabi-etal-2022-adapting, ogueji-etal-2021-small). وتجلى نشاط مجتمع أبحاث معالجة اللغات الطبيعية في أفريقيا مؤخراً في توسيع مجموعات التقييم (adelani-etal-2021-masakhaner, adelani-etal-2022-masakhaner, muhammad-etal-2023-semeval, ma2023taxi1500). ورغم هذه المبادرات، لا تزال اللغات الأنغولية تعاني من نقص التمثيل المناسب.
ينطوي النهج الأول على بناء نموذج من الصفر وتدريبه مباشرة على لغات متعددة باستخدام أهداف التعلم الذاتي مثل نمذجة اللغة المقنعة (devlin-etal-2019-bert). أما النهج الثاني، التكييف الدقيق متعدد اللغات (MAFT), فيتضمن تكييف نموذج متعدد اللغات مدرب مسبقاً عبر إضافة مجموعة جديدة من اللغات (alabi-etal-2022-adapting, wang-etal-2022-expanding, imanigooghari-etal-2023-glot500). يتميز MAFT بالكفاءة في استغلال الموارد، لا سيما في ظل ارتفاع التكاليف الحاسوبية ومعدلات نمو حجم النماذج (tay2022scale, gupta2023continual). يمكن أيضاً تعزيز أداء MAFT عبر إضافة رموز مفردات جديدة للغات إضافية واستخدام تهيئة تضمين غير غاوسية (minixhofer-etal-2022-wechsel, dobler-de-melo-2023-focus, liu2023ofa).
في هذا البحث، نعرض المجموعة الأولى من نماذج PLM متعددة اللغات المصممة خصيصاً لخمس لغات أنغولية باستخدام نهج MAFT. نقارن النماذج المطورة عبر MAFT مع نظيرتها بدون تهيئة تضمين مستنير، المشار إليهما باسم angofa و angbert، على التوالي. من خلال استثمار نهج OFA لتهيئة التضمين قبل تطبيق MAFT، تكشف نتائجنا أن angofa يتفوق بشكل ملحوظ على angbert وOFA، مما يبرز التحسينات الجوهرية في الأداء الناجمة عن دمج تهيئة التضمين المستنير والبيانات الاصطناعية.
نتيجة مفاجئة
أظهرت نتائجنا أن نموذج OFA المطور على أكثر من 500 لغة يحقق أداءً يقارب أداء AngOFA، مما يؤكد قدرة OFA على التوسع ليشمل لغات إضافية.
اللغات الأنغولية
يشهد المشهد اللغوي في أنغولا تنوعاً يضم أكثر من 40 لغة، مع تعداد سكاني يقارب 32 مليون نسمة. تضم هذه اللغات البرتغالية وبعض لغات الخويسان، وغالبيتها تنتمي إلى عائلة النيجر-الكونغو البانتو. ورغم ذلك، هناك نقص واضح في الأدب والمحتوى الإذاعي والتلفزيوني باللغات الأنغولية الأصلية. تُكتب جميع لغات أنغولا بالأبجدية اللاتينية، ويشترك كثير منها في ديغرافات محددة. وبالنظر إلى ندرة الموارد، سيركز هذا البحث على خمس لغات أنغولية هي الأوسع انتشاراً: أومبوندو، كيمبوندو، كيكونغو، تشوكوي، ولوَبَأ-كاساي. انظر الجدول [table-angola-languages] لمزيد من التفاصيل.
النهج لتحسين MAFT
توسيع المفردات
تميل نماذج اللغة المبرمجة إلى مواجهة رموز خارج المفردات للغات أو النصوص التي لم تُغطَّ أثناء التدريب المسبق. يظهر هذا بشكل أوضح في النصوص غير المرئية (adelani-etal-2021-masakhaner, pfeiffer-etal-2021-unks)، وأحد أكثر الطرق فعالية للتعامل مع ذلك هو توسيع مفردات نموذج اللغة المبرمجة لتغطية الرموز الجديدة (wang-etal-2019-improving). تم إنشاء Glot-500 (imanigooghari-etal-2023-glot500) عن طريق توسيع مفردات XLM-R من 250K إلى 400K قبل MAFT. ومع ذلك، تم تهيئة الرموز الجديدة المضافة بشكل عشوائي.
عامل التضمين OFA
يعالج OFA مشكلتين في تكييف نماذج اللغة المبرمجة مسبقاً مع لغات جديدة: (١) البدء العشوائي لتضمينات الكلمات الفرعية الجديدة لا يستفيد من المعرفة اللغوية المشفرة في النموذج المصدر، (٢) إدخال معاملات إضافية يشكل عقبات محتملة أمام التدريب الفعال للنموذج المعدل (liu2023ofa). يحل OFA هذه المشكلات من خلال الاستفادة من التضمينات متعددة اللغات الخارجية والتضمينات في نموذج اللغة المبرمجة المصدر لتهيئة تضمينات الكلمات الفرعية الجديدة. في هذا النهج، يقوم OFA بتحليل مصفوفة التضمينات لنموذج اللغة المبرمجة المصدر إلى مصفوفتين أصغر كبدائل. في فضاء ذو أبعاد أقل، يتم التعبير عن تضمينات الكلمات الفرعية الجديدة غير المتداخلة كمجموعات من تضمينات الكلمات الفرعية لنموذج اللغة المبرمجة المصدر. توزن هذه المجموعات بواسطة التشابهات المستمدة من التضمينات متعددة اللغات الخارجية المحاذاة جيداً، أي ColexNet+ (liu2023crosslingual)، التي تغطي أكثر من ألف لغة. تُنسخ تضمينات الكلمات الفرعية المتداخلة مباشرة. يضمن هذا النهج أن تضمينات الكلمات الفرعية المشتركة بين نموذج اللغة المبرمجة المصدر والمفردات الموسعة متكاملة، محافظة على الاستمرارية في التمثيل. لإكمال العملية، يقوم OFA بتكرار جميع المعاملات غير التضمينية من نموذج اللغة المبرمجة المصدر، ويستبدل المحلل اللغوي المصدر بالمحلل اللغوي الهدف بعد توسيع المفردات.
النماذج الأساسية
البيانات الاصطناعية لنمذجة اللغة
بالنسبة للغات التي تفتقر إلى بيانات كافية قبل التدريب، يمكن توليد بيانات اصطناعية من خلال توسيع القاموس (reid-etal-2021-afromt) أو نموذج الترجمة الآلية (MT) - وهو نهج شائع جداً في بحوث الترجمة الآلية يعرف باسم الترجمة العكسية، وهو طريقة فعالة لتحسين نموذج الترجمة الآلية للغات ذات الموارد المنخفضة (sugiyama-yoshinaga-2019-data, xia-etal-2019-generalized). في هذه الورقة، نستخدم البيانات الاصطناعية التي تم الحصول عليها من خلال الترجمة الآلية كما وصف في (adelani2023sib200). لقد قام المؤلفون بتوليد بيانات مترجمة آلياً لـ 34 لغة أفريقية (بما في ذلك اللغات الأنغولية) بأقل من 10MB من البيانات، باستخدام مجموعة بيانات تعليقات الأخبار الإنجليزية (kocmi-etal-2022-findings)، والتي تحتوي على أكثر من 600K جملة.
البيانات
بيانات التدريب
عتمدنا على مجموعة بيانات NLLB (nllb2022)، مستثنين الترجمات الإنجليزية، وركزنا فقط على لغات كيمبوندو، أومبوندو، كيكونغو، تشوكوي، ولوَبَأ-كاساي. تم دمج هذه اللغات في ملف واحد كمجموعة بيانات أولية للتدريب. بالإضافة إلى ذلك، أضفنا بيانات اصطناعية تم توليدها من خلال NLLB. تعرض التفاصيل بيانات أحادية اللغة.
بيانات التقييم
في عملنا، قمنا بإجراء التقييم على مجموعة بيانات تصنيف النصوص SIB-200 (adelani2023sib200)، التي توفر مجموعات تدريب/تطوير/اختبار وتضم 7 فئات في أكثر من 200 لغة ولهجة أفريقية. توزيع الفئات هو: العلوم/التكنولوجيا (252)، السفر (198)، السياسة (146)، الرياضة (122)، الصحة (110)، الترفيه (93)، الجغرافيا (83). SIB-200 هي المجموعة الوحيدة التي تغطي اللغات الأنغولية. لقد قمنا بالتقييم فقط على مجموعة اللغات الأنغولية المغطاة في هذا العمل.
الإعداد التجريبي
استفدنا من قدرات XLM-R متعددة اللغات في مرحلة التدريب، فأنشأنا نماذج جديدة من اللغة المبرمجة: AngBERT و AngOFA. هذه النماذج خضعت لعمليات تهيئة دقيقة مختلفة. على وجه التحديد، خضع AngBERT لعملية تهيئة باستخدام طريقة MAFT كما هو موضح في (alabi-etal-2022-adapting)، بنوعين - أحدهما تم تدريبه فقط على البيانات أحادية اللغة (281.6 MB)، والآخر يشمل كلاً من البيانات أحادية اللغة والبيانات الاصطناعية (808.7 MB).
وبالمثل، خضع AngOFA أيضاً لنوعين من التهيئة، باستخدام مجموعات البيانات بنفس الطريقة كما في AngBERT. ومع ذلك، اتبع AngOFA التكوينات الموضحة لـ ofa-multi-768
، كما هو موصوف في (liu2023ofa). اخترنا الحفاظ على 768 كبعد كامن وحيد في تجاربنا استناداً إلى الرؤى من (imanigooghari-etal-2023-glot500, liu2023ofa) والتي تدعمها أيضاً النتائج الأولية من تجاربنا الخاصة. كشفت هذه النتائج عن دلائل على فقدان المعلومات في الأبعاد الأدنى، وهو ما كان ملحوظاً بشكل خاص في مهام مثل تصنيف النصوص. كان الهدف من هذا النهج في تقسيم البيانات هو استكشاف تأثيرات طرق MAFT وOFA، سواء مع البيانات الاصطناعية أو بدونها، على أداء النموذج.
قمنا بمقارنة نماذجنا الجديدة مع النماذج الأساسية التالية:
XLM-R (conneau-etal-2020-unsupervised): نموذج يعتمد فقط على المشفر والذي خضع للتدريب المسبق على 100 لغة من خلال هدف نمذجة اللغة المقنعة. XLM-R لا يغطي أي لغة تم تقييمها في هذا عمل.
Serengeti (adebara-etal-2023-serengeti): تم تدريبه على 500 لغة أفريقية، بما في ذلك 10 لغات ذات موارد عالية. يشمل Kimbundu، Umbundu، و Chokwe.
Glot-500 (imanigooghari-etal-2023-glot500): مشتق من XLM-R، تم توسيعه ليغطي 500 لغة من خلال توسيع مفرداته من 250K إلى 400K، وبالتالي استيعاب رموز جديدة تمثل 400 لغة غير موجودة سابقاً في XLM-R. Glot-500 يغطي جميع اللغات الأنغولية المستخدمة في تقييمنا.
AfroXLMR-base (alabi-etal-2022-adapting): تم تطويره باستخدام طريقة MAFT، يغطي 20 لغة مع مجموعة أحادية اللغة لا تقل عن 50MB. اللغات الأنغولية غير مشمولة.
AfroXLMR-base-76L (adelani2023sib200): تم تطويره باستخدام طريقة MAFT، يغطي اللغات التي لديها بيانات على الويب لا تقل عن 10MB. يوسع التغطية لتشمل المزيد من اللغات، ولا سيما تلك المدرجة في نموذج NLLB-200 MT. تم إنشاء بيانات اصطناعية أيضاً لحوالي 30 لغة ذات بيانات محدودة، بما في ذلك جميع اللغات الأنغولية الخمس. في المجمل، يغطي 76 لغة.
OFA (liu2023ofa): يدمج تهيئة التضمين OFA جنباً إلى جنب مع MAFT باستخدام Glot500-c (imanigooghari-etal-2023-glot500)، وبالتالي يشمل جميع اللغات المعالجة في هذا عمل.
مُهِمَّة التقييم
النتائج والمناقشة
نتائج المعيار: مقارنة فعالية (OFA) مع التهيئة العشوائية قبل التكييف الدقيق متعدد اللغات (MAFT)
Table[table-1] تُظهر أداء نماذجنا الأساسية باستخدام مقياس F1 الموزون. نناقش أهم النتائج أدناه:
نماذج اللغة المحددة بالمنطقة أفضل من تلك المدربة مسبقاً من الصفر بعدة لغات
أظهرت نتائجنا أن (AngBERT) المنشأ باستخدام (MAFT) أدى أداءً أفضل من (XLM-R)، (AfroXLMR)، (Serengeti) و(Glot-500) بـ (+5.5)، (+1.2)، (+3.6)، (+6.6) نقاط على التوالي. لقد تم تدريب آخر نموذجين مسبقاً على أكثر من 500 لغة مع عدد قليل من اللغات الأنغولية ولكن أداؤهما كان أسوأ من (AfroXLMR) (المكيف من خلال (MAFT) إلى 20 لغة)، و(AngBERT) (المكيف إلى خمس لغات أنغولية). هذا يظهر أن نماذج اللغة المحددة بالمنطقة التي تغطي اللغات المتصلة ضمن نفس العائلة اللغوية يمكن أن تكون أكثر فعالية.
يمكن تعزيز نتائج (MAFT) من خلال الاستفادة من البيانات أحادية اللغة الاصطناعية
من خلال دمج بيانات اصطناعية إضافية، تحسن أداء (AngBERT) (+SYN data) بـ (+5.5) عن (AngBERT) بدون بيانات اصطناعية. ومع ذلك، فشل في تجاوز أداء (AfroXLMR-base-76L) الذي تم تدريبه على 76 لغة أفريقية بما في ذلك جميع اللغات الأنغولية باستثناء لوَبَأ-كاساي مع بيانات أكبر. أظهرت تجربتنا أن النموذج المكيف لـ 76 لغة أدى أداءً أفضل من (Serengeti) المدرب مسبقاً على 500 لغة، مما يظهر أنه يمكننا إنشاء نماذج لغة أفضل لتغطية المزيد من اللغات من خلال التكييف دون العملية المكلفة للتدريب من الصفر.
تهيئة التضمين (OFA) مع بيانات أكبر أكثر فعالية
أظهرت النماذج المهيأة مع (OFA) تحسناً مستمراً مقارنة بالنماذج الأساسية الأخرى. هذا يشير إلى أن (OFA)، الذي يستفيد صراحة من المعلومات المشفرة في تضمينات النموذج المصدر والتضمينات متعددة اللغات الخارجية، أفضل من التهيئة العشوائية. بشكل ملحوظ، تم تعزيز ميزة (AngOFA) على (OFA) من خلال وصوله إلى مجموعة بيانات أكبر بكثير للغات المعنية من خلال استخدام البيانات الاصطناعية. بدون البيانات الاصطناعية الإضافية، أدى (AngOFA) أداءً أسوأ من (OFA) المدرب مسبقاً على 500 لغة بانخفاض قدره (-3.2). ومع ذلك، عندما تم التدريب على البيانات الاصطناعية، حقق (AngOFA) أفضل أداء شامل بـ (+16.6) على (XLM-R)، (+12.3) على (AfroXLMR)، و (+5.6) على (AngBERT) (مع بيانات اصطناعية).
الخلاصة والأعمال المستقبلية
يقدم هذا البحث أربعة نماذج لغوية متعددة اللغات مصممة خصيصاً للغات الأنغولية. توضح نتائج تجاربنا أن تهيئة التضمين المستنيرة تعزز بشكل كبير أداء نموذج MAFT في المهام اللاحقة. وتُظهر النماذج التي خضعت لتهيئة OFA نتائج متفوقة مقارنة بنظيراتها، حتى عندما تُدرَّب AngBERT على مجموعة بيانات أكبر للغات المعنية، فهي لا تزال تبدو أقل أداءً مقارنة بـOFA المدربة على مجموعة بيانات أصغر. ومع ذلك، تثير العوامل المحددة التي تؤدي إلى تفوق AngBERT على OFA، ولا سيما في سياق لوَبَأ-كاساي، أسئلة مهمة حول المحددات الأساسية لأداء النماذج في المهام اللاحقة، بما في ذلك الاعتبارات المتعلقة بحجم مجموعة البيانات مقابل تهيئة التضمين المستنيرة. نترك هذه الأسئلة للبحث في المستقبل. كما نخطط لتوسيع تطبيق OFA على مزيد من اللغات الأفريقية لاستكشاف آفاق أوسع.
الشكر والتقدير
تم دعم هذا عمل جزئياً بواسطة اعتمادات وموارد Oracle Cloud المقدمة من Oracle. يعترف David Adelani بدعم برنامج DeepMind Academic Fellowship.