مُلَخَّص
في السنوات الأخيرة، شهد تطوير نماذج اللغة المُدرَّبة مُسبقاً (PLMs) زخماً متزايداً بفضل قدرتها على تجاوز الحواجز اللغوية وتيسير نقل المعرفة عبر لغات متنوعة. ومع ذلك، انصبَّ معظم هذا التقدُّم على اللغات عالية الموارد، فنشأت فجوة واضحة في المشهد متعدِّد اللغات. يسعى هذا البحث إلى سدّ هذه الفجوة من خلال تقديم أربعة نماذج PLMs مُصمَّمة خصيصاً وخضعت لتكييف دقيق مع اللغات الأنغولية، وذلك باستخدام نهج التكييف الدقيق متعدِّد اللغات (MAFT). نسلِّط الضوء في هذا العمل على دور تهيئة التضمينات المستنيرة والبيانات الاصطناعية في تعزيز أداء نماذج MAFT في المهام اللاحقة. وحققنا تحسينات بلغت 12.3 نقطة عند الاعتماد على AfroXLMR-base (المُكيَّف بطريقة MAFT)، و3.8 نقاط بفضل OFA (تهيئة التضمينات الفعّالة).
تقديم الأوراق البحثية في ورشة عمل AfricaNLP ضمن مؤتمر ICLR 2023
مُقَدِّمَة
شهدت نماذج اللغة ومجموعات التقييم اللغوي تقدُّماً ملحوظاً عبر لغات العالم (devlin-etal-2019-bert, conneau-etal-2020-unsupervised, workshop2023bloom, xue-etal-2021-mt5). ومع ذلك، كثيراً ما أُغفلت لغات أفريقية عديدة، ما أفضى إلى فجوة واضحة. كما أنّ معظم النماذج الموجَّهة لأفريقيا لم تدمج اللغات الأنغولية ضمن مقاربتها (dossou-etal-2022-afrolm, alabi-etal-2022-adapting, ogueji-etal-2021-small). وقد تجلّى نشاط مجتمع أبحاث معالجة اللغات الطبيعية في أفريقيا مؤخراً في توسيع مجموعات التقييم (adelani-etal-2021-masakhaner, adelani-etal-2022-masakhaner, muhammad-etal-2023-semeval, ma2023taxi1500). ورغم هذه المبادرات، لا تزال اللغات الأنغولية تُعاني نقصَ التمثيل المناسب.
ينطوي النهج الأوّل على بناء نموذج من الصفر وتدريبه مباشرة على لغات متعددة باستخدام أهداف التعلُّم الذاتي مثل نمذجة اللغة المُقنَّعة (devlin-etal-2019-bert). أمّا النهج الثاني، التكييف الدقيق متعدِّد اللغات (MAFT)، فيتضمن تكييف نموذج متعدِّد اللغات مُدرَّباً مُسبقاً عبر إضافة مجموعة جديدة من اللغات (alabi-etal-2022-adapting, wang-etal-2022-expanding, imanigooghari-etal-2023-glot500). يتميّز MAFT بالكفاءة في استغلال الموارد، لا سيّما في ظل ارتفاع التكاليف الحاسوبية وتضخُّم أحجام النماذج (tay2022scale, gupta2023continual). يمكن أيضاً تعزيز أداء MAFT عبر إضافة رموز مفردات جديدة للغات إضافية واستخدام تهيئة تضمينات غير عشوائية (minixhofer-etal-2022-wechsel, dobler-de-melo-2023-focus, liu2023ofa).
في هذا البحث، نعرض المجموعة الأولى من نماذج PLM متعدِّدة اللغات المُصمَّمة خصيصاً لخمس لغات أنغولية باستخدام نهج MAFT. نقارن النماذج المطوَّرة عبر MAFT مع نظيرتها دون تهيئة تضمينات مستنيرة، المشار إليهما باسم angofa وangbert، على التوالي. من خلال استثمار طريقة OFA لتهيئة التضمينات قبل تطبيق MAFT، تكشف نتائجنا أنّ angofa يتفوّق بوضوح على angbert وOFA، ما يبرز التحسينات الجوهرية في الأداء الناجمة عن دمج تهيئة التضمينات المستنيرة والبيانات الاصطناعية.
نتيجة مفاجِئة
أظهرت نتائجنا أنّ نموذج OFA المطوَّر على أكثر من 500 لغة يحقق أداءً يقارب أداء AngOFA، ما يؤكد قدرة OFA على التوسُّع لتشمل لغات إضافية.
اللغات الأنغولية
يشهد المشهد اللغوي في أنغولا تنوُّعاً يضم أكثر من 40 لغة، مع تعداد سكاني يقارب 32 مليون نسمة. تضم هذه اللغات البرتغالية وبعض لغات الخويسان، وغالبيتها تنتمي إلى عائلة النيجر-الكونغو (البانتو). ومع ذلك، هناك نقص واضح في الأدب والمحتوى الإذاعي والتلفزيوني باللغات الأنغولية الأصيلة. تُكتب جميع لغات أنغولا بالأبجدية اللاتينية، ويشترك كثير منها في ديغرافات محددة. وبالنظر إلى ندرة الموارد، يركّز هذا البحث على خمس لغات أنغولية هي الأوسع انتشاراً: أومبوندو، كيمبوندو، كيكونغو، تشوكوي، ولوبا-كاساي. انظر الجدول [table-angola-languages] لمزيد من التفاصيل.
النهج لتحسين MAFT
توسيع المُفردات
تميل نماذج اللغة المُسبقة التدريب إلى مواجهة رموز خارج المفردات (OOV) للغات أو النصوص التي لم تُغطَّ أثناء التدريب المُسبق. يظهر هذا بشكل أوضح في النصوص غير المرئية (adelani-etal-2021-masakhaner, pfeiffer-etal-2021-unks)، وأحد أكثر الأساليب فاعلية للتعامل مع ذلك هو توسيع مُفردات النموذج لتغطية الرموز الجديدة (wang-etal-2019-improving). تم إنشاء Glot-500 (imanigooghari-etal-2023-glot500) عن طريق توسيع مُفردات XLM-R من 250K إلى 400K قبل MAFT. ومع ذلك، جرى تهيئة الرموز الجديدة المضافة بشكلٍ عشوائي.
طريقة OFA لتهيئة التضمينات
تعالج OFA مشكلتين في تكييف النماذج المُدرَّبة مُسبقاً مع لغات جديدة: (1) البدء العشوائي لتضمينات الكلمات الفرعية الجديدة لا يستفيد من المعرفة اللغوية المُشفَّرة في النموذج المصدر، (2) إدخال معاملات إضافية قد يعيق التدريب الفعّال للنموذج المُعدَّل (liu2023ofa). تحل OFA هاتين المشكلتين عبر الاستفادة من التضمينات متعدِّدة اللغات الخارجية والتضمينات في النموذج المصدر لتهيئة تضمينات الكلمات الفرعية الجديدة. في هذا النهج، تُفكَّك مصفوفة تضمينات النموذج المصدر إلى حاصل ضرب مصفوفتين أصغر. وفي فضاء منخفض الأبعاد، تُعبَّر تضمينات الكلمات الفرعية الجديدة غير المتداخلة كمجموعات خطيّة من تضمينات الكلمات الفرعية للنموذج المصدر، تُوزَن هذه المجموعات بالتشابهات المستمدة من التضمينات متعدِّدة اللغات الخارجية المُحاذاة جيداً، أي ColexNet+ (liu2023crosslingual)، التي تغطي أكثر من ألف لغة. أمّا تضمينات الكلمات الفرعية المتداخلة فتُنسخ مباشرة. يضمن هذا النهج أن تضمينات الكلمات الفرعية المشتركة بين النموذج المصدر والمُفردات الموسَّعة تبقى متكاملة، محافظةً على الاستمرارية في التمثيل. ولإكمال العملية، تعيد OFA استخدام جميع المعاملات غير الخاصة بالتضمين من النموذج المصدر، وتستبدل المُقَطِّع المصدر بالمُقَطِّع الهدف بعد توسيع المُفردات.
النماذج الأساسية
البيانات الاصطناعية لنمذجة اللغة
بالنسبة للغات التي تفتقر إلى بيانات كافية قبل التدريب، يمكن توليد بيانات اصطناعية عبر توسيع القاموس (reid-etal-2021-afromt) أو باستخدام نموذج الترجمة الآلية (MT) — وهو نهج شائع في بحوث الترجمة الآلية يُعرف بالترجمة العكسية، ويُعد طريقة فعّالة لتحسين نماذج الترجمة للغات منخفضة الموارد (sugiyama-yoshinaga-2019-data, xia-etal-2019-generalized). في هذه الورقة، نستخدم بيانات اصطناعية مُترجَمة آلياً كما وُصف في (adelani2023sib200). فقد قام المؤلفون بتوليد بيانات مترجمة آلياً لـ 34 لغة أفريقية (بما في ذلك اللغات الأنغولية) بأقل من 10MB من البيانات، باستخدام مجموعة بيانات تعليقات الأخبار الإنجليزية (kocmi-etal-2022-findings)، والتي تحتوي على أكثر من 600K جملة.
البيانات
بيانات التدريب
اعتمدنا على مجموعة بيانات NLLB (nllb2022)، مع استثناء الترجمات الإنجليزية، وركَّزنا فقط على لغات كيمبوندو، أومبوندو، كيكونغو، تشوكوي، ولوبا-كاساي. دُمجت هذه اللغات في ملف واحد كمجموعة بيانات أولية للتدريب. بالإضافة إلى ذلك، أضفنا بيانات اصطناعية تم توليدها باستخدام NLLB. تفاصيل البيانات الأُحادية اللغة مُبيَّنة لاحقاً.
بيانات التقييم
أجرينا التقييم على مجموعة بيانات تصنيف النصوص SIB-200 (adelani2023sib200)، التي توفِّر مجموعات تدريب/تطوير/اختبار وتضم 7 فئات في أكثر من 200 لغة ولهجة أفريقية. توزيع الفئات هو: العلوم/التكنولوجيا (252)، السفر (198)، السياسة (146)، الرياضة (122)، الصحة (110)، الترفيه (93)، الجغرافيا (83). وتُعد SIB-200 المجموعة الوحيدة التي تغطي اللغات الأنغولية. وقد قمنا بالتقييم فقط على مجموعة اللغات الأنغولية المغطاة في هذا العمل.
الإعداد التجريبي
استفدنا من قدرات XLM-R متعدِّد اللغات في مرحلة التدريب، فأنشأنا نماذج لغوية مُكيَّفة جديدة: AngBERT وAngOFA. هذه النماذج خضعت لعمليات تهيئة/تكييف مختلفة. على وجه التحديد، خضع AngBERT لعملية تكييف باستخدام طريقة MAFT كما هو موصوف في (alabi-etal-2022-adapting)، بنوعين — أحدهما تم تدريبه فقط على البيانات الأُحادية اللغة (281.6 MB)، والآخر يشمل كلاً من البيانات الأُحادية والبيانات الاصطناعية (808.7 MB).
وبالمثل، خضع AngOFA أيضاً لنوعين من التهيئة، باستخدام مجموعات البيانات نفسها كما في AngBERT. غير أنّ AngOFA اتّبع التكوينات الموضّحة لـofa-multi-768
، كما هو موصوف في (liu2023ofa). اخترنا الحفاظ على 768 كبُعد كامن وحيد في تجاربنا استناداً إلى الرؤى من (imanigooghari-etal-2023-glot500, liu2023ofa) والتي تدعمها أيضاً نتائجنا الأولية. وقد كشفت هذه النتائج عن دلائل على فقدان المعلومات في الأبعاد الأدنى، وهو ما كان ملحوظاً خاصةً في مهام مثل تصنيف النصوص. وكان الهدف من هذا التقسيم للبيانات استكشاف تأثيرات MAFT وOFA، مع البيانات الاصطناعية ومن دونها، على أداء النموذج.
قمنا بمقارنة نماذجنا الجديدة مع النماذج الأساسية التالية:
XLM-R (conneau-etal-2020-unsupervised): نموذج يعتمد فقط على المُشفِّر وخضع للتدريب المُسبق على 100 لغة من خلال هدف نمذجة اللغة المُقنَّعة. لا يغطي XLM-R أيّاً من اللغات التي تم تقييمها في هذا العمل.
Serengeti (adebara-etal-2023-serengeti): تم تدريبه على 500 لغة أفريقية، بما في ذلك 10 لغات عالية الموارد. ويشمل كيمبوندو، أومبوندو، وتشوكوي.
Glot-500 (imanigooghari-etal-2023-glot500): مشتق من XLM-R، وتم توسيعه ليغطي 500 لغة عبر توسيع مُفرداته من 250K إلى 400K، بما يستوعب رموزاً جديدة تمثّل 400 لغة لم تكن موجودة سابقاً في XLM-R. ويغطي Glot-500 جميع اللغات الأنغولية المستخدمة في تقييمنا.
AfroXLMR-base (alabi-etal-2022-adapting): تم تطويره باستخدام طريقة MAFT، ويغطي 20 لغة مع مجموعة أُحادية اللغة لا تقل عن 50MB. اللغات الأنغولية غير مشمولة.
AfroXLMR-base-76L (adelani2023sib200): تم تطويره باستخدام طريقة MAFT، ويغطي اللغات التي لديها بيانات مُتاحة على الويب لا تقل عن 10MB. يوسِّع التغطية لتشمل مزيداً من اللغات، ولا سيّما تلك المدرجة في نموذج NLLB-200 MT. كما أُنشئت بيانات اصطناعية لحوالي 30 لغة محدودة البيانات، بما في ذلك جميع اللغات الأنغولية الخمس. وبالمجمل، يغطي 76 لغة.
OFA (liu2023ofa): يدمج تهيئة التضمينات بطريقة OFA جنباً إلى جنب مع MAFT باستخدام Glot500-c (imanigooghari-etal-2023-glot500)، وبالتالي يشمل جميع اللغات المُعالَجة في هذا العمل.
مُهِمَّة التقييم
النتائج والمناقشة
نتائج المعيار: مقارنة فاعلية (OFA) مع التهيئة العشوائية قبل التكييف الدقيق متعدِّد اللغات (MAFT)
يوضِّح الجدول [table-1] أداء نماذجنا الأساسية باستخدام مقياس F1 المُوزون. نناقش أهم النتائج أدناه:
النماذج اللغوية المُحدَّدة بمنطقة تتفوّق على النماذج المُدرَّبة من الصفر على لغات عديدة
أظهرت نتائجنا أنّ (AngBERT) المُنشأ باستخدام (MAFT) قدّم أداءً أفضل من (XLM-R)، (AfroXLMR)، (Serengeti) و(Glot-500) بـ(+5.5)، (+1.2)، (+3.6)، (+6.6) نقاط على التوالي. وقد تم تدريب النموذجين الأخيرين مُسبقاً على أكثر من 500 لغة مع إدراج قليل من اللغات الأنغولية، لكن أدائهما كان أسوأ من (AfroXLMR) (المُكيَّف عبر MAFT إلى 20 لغة)، و(AngBERT) (المُكيَّف إلى خمس لغات أنغولية). يُظهر هذا أنّ النماذج اللغوية المُحدَّدة بمنطقة، التي تغطي لغات مُتقاربة ضمن العائلة نفسها، يمكن أن تكون أكثر فاعلية.
يمكن تعزيز نتائج (MAFT) عبر الاستفادة من البيانات الأُحادية الاصطناعية
من خلال دمج بيانات اصطناعية إضافية، تحسَّن أداء (AngBERT) (+SYN data) بـ(+5.5) عن (AngBERT) من دون بيانات اصطناعية. ومع ذلك، فشل في تجاوز أداء (AfroXLMR-base-76L) الذي تم تكييفه على 76 لغة أفريقية — بما في ذلك جميع اللغات الأنغولية باستثناء لوبا-كاساي — مع بيانات أكبر. كما أظهرت تجربتنا أنّ النموذج المُكيَّف لـ76 لغة قدّم أداءً أفضل من (Serengeti) المُدرَّب مُسبقاً على 500 لغة، ما يُظهر أننا نستطيع بناء نماذج لغوية أفضل لتغطية المزيد من اللغات عبر التكييف من دون تكلفة التدريب من الصفر.
تهيئة التضمينات بـ(OFA) مع بيانات أكبر أكثر فاعلية
أظهرت النماذج المُهيّأة بـ(OFA) تحسُّناً مطّرداً مقارنة بالنماذج الأساسية الأخرى. وهذا يُشير إلى أنّ (OFA)، الذي يستفيد صراحةً من المعلومات المُشفَّرة في تضمينات النموذج المصدر والتضمينات متعدِّدة اللغات الخارجية، أفضل من التهيئة العشوائية. ومن اللافت أنّ تفوُّق (AngOFA) على (OFA) تعزَّز بفضل الوصول إلى مجموعة بيانات أكبر بكثير للغات المعنيّة عبر استخدام البيانات الاصطناعية. ومن دون هذه البيانات الإضافية، أدّى (AngOFA) أداءً أسوأ من (OFA) المُدرَّب مُسبقاً على 500 لغة بانخفاض قدره (-3.2). ولكن عند التدريب بالبيانات الاصطناعية، حقق (AngOFA) أفضل أداء إجمالي بـ(+16.6) على (XLM-R)، و(+12.3) على (AfroXLMR)، و(+5.6) على (AngBERT) (مع بيانات اصطناعية).
الخُلاصة والأعمال المستقبلية
يُقدِّم هذا البحث أربعة نماذج لغوية متعدِّدة اللغات مُصمَّمة خصيصاً للغات الأنغولية. وتُظهر نتائج تجاربنا أنّ تهيئة التضمينات المستنيرة تُعزِّز بشكل كبير أداء نموذج MAFT في المهام اللاحقة. كما تُظهر النماذج التي خضعت لتهيئة OFA نتائج متفوّقة مقارنة بنظيراتها؛ فحتى عندما يُدرَّب AngBERT على مجموعة بيانات أكبر للغات المعنيّة، يظل أداؤه أدنى مقارنة بـOFA المُدرَّب على مجموعة بيانات أصغر. ومع ذلك، فإن العوامل المحدِّدة التي تؤدي إلى تفوُّق AngBERT على OFA — ولا سيّما في سياق لوبا-كاساي — تطرح أسئلة مهمّة حول محدِّدات الأداء في المهام اللاحقة، بما في ذلك الموازنة بين حجم مجموعة البيانات وتهيئة التضمينات المستنيرة. نترك هذه الأسئلة لبحوث مستقبلية. كما نخطِّط لتوسيع تطبيق OFA على مزيد من اللغات الأفريقية لاستكشاف آفاق أوسع.
الشكر والتقدير
تم دعم هذا العمل جزئياً بواسطة اعتمادات وموارد Oracle Cloud المُقدَّمة من Oracle. ويعترف David Adelani بدعم برنامج DeepMind Academic Fellowship.