في السنوات الأخيرة، شهد تطويرُ نماذجِ اللغةِ المدرَّبةِ مسبقًا (PLMs) زخمًا متزايدًا بفضل قدرتها على تجاوز الحواجز اللغوية وتيسير نقل المعرفة عبر لغات متنوعة. ومع ذلك، ركَّز معظم هذا التقدم على اللغات ذات الموارد العالية، فاتسعت فجوةٌ واضحة في المشهد متعدد اللغات. يسعى هذا البحث إلى سد هذه الفجوة من خلال تقديم أربعة نماذج PLMs مصممةٍ خصيصًا وخضعت لتكييفٍ دقيقٍ للغات الأنغولية باستخدام نهج التكييف الدقيق متعدد اللغات (MAFT). نُسلط الضوء في هذا العمل على دور التهيئة المستنيرة للتضمين والبيانات الاصطناعية في تعزيز أداء نماذج MAFT في المهام اللاحقة. وتمكّنا من تحقيق تحسينات بلغت 12.3 نقطة عند الاعتماد على AfroXLMR-base (مكيف بواسطة MAFT)، و3.8 نقطة باستخدام OFA (تهيئة التضمين الفعالة).
لقد شهدت نماذجُ اللغة ومجموعاتُ التقييم اللغوي تقدّمًا ملحوظًا عبر لغات العالم (devlin-etal-2019-bert, conneau-etal-2020-unsupervised, workshop2023bloom, xue-etal-2021-mt5). ومع ذلك، غالبًا ما غُفِلَت العديد من اللغات الأفريقية، فأفضى ذلك إلى فجوةٍ واضحة. وكثيرًا ما لم تضم معظم النماذج الموجّهة لأفريقيا اللغات الأنغولية ضمن مقاربتها (dossou-etal-2022-afrolm, alabi-etal-2022-adapting, ogueji-etal-2021-small). وتجلى نشاطُ مجتمع أبحاث معالجة اللغات الطبيعية في أفريقيا مؤخرًا في توسيع مجموعات التقييم (adelani-etal-2021-masakhaner, adelani-etal-2022-masakhaner, muhammad-etal-2023-semeval, ma2023taxi1500). ورغم هذه المبادرات، لا تزال اللغات الأنغولية تعاني نقصًا في التمثيل الملائم.
ينطوي النهج الأول على بناء نموذج من الصفر وتدريبه مباشرة على لغات متعددة باستخدام أهداف التعلم الذاتي مثل نمذجة اللغة المقنّعة (devlin-etal-2019-bert). أما النهج الثاني، التكييف الدقيق متعدد اللغات (MAFT)، فيتضمن تكييف نموذج متعدد اللغات مدرَّبٍ مسبقًا بإضافة مجموعة جديدة من اللغات (alabi-etal-2022-adapting, wang-etal-2022-expanding, imanigooghari-etal-2023-glot500). يتميز MAFT بالكفاءة في استغلال الموارد، لا سيما في ظل ارتفاع التكاليف الحاسوبية وتنامي حجم النماذج (tay2022scale, gupta2023continual). ويمكن أيضًا تعزيز أداء MAFT بإضافة رموز مفردات جديدة واستخدام تهيئة تضمين غير غاوسية (minixhofer-etal-2022-wechsel, dobler-de-melo-2023-focus, liu2023ofa).
في هذا البحث، نعرض المجموعة الأولى من نماذج PLM متعددة اللغات المصممة خصيصًا لخمس لغات أنغولية باستخدام نهج MAFT. نقارن النماذج المطوّرة عبر MAFT—والمسماة angofa وangbert—بأقرانها التي لم تستفد من التهيئة المستنيرة. من خلال تطبيق نهج OFA لتهيئة التضمين قبل MAFT، تكشف نتائجنا أن angofa يتفوق بشكل ملحوظ على angbert وOFA، مما يبرز التحسينات الجوهرية الناتجة عن دمج التهيئة المستنيرة والبيانات الاصطناعية.
أظهرت نتائجنا أن نموذج OFA المطور على أكثر من 500 لغة يحقق أداءً يُقارِب أداء AngOFA، مما يؤكد قدرة OFA على التوسع ليشمل لغات إضافية.
يشهد المشهد اللغوي في أنغولا تنوعًا يضم أكثر من 40 لغة، مع تعداد سكاني يقارب 32 مليون نسمة. تضم هذه اللغات البرتغالية وبعض لغات الخويسان، وغالبيتها تنتمي إلى عائلة النيجر–الكونغو البانتو. ورغم ذلك، هناك نقص واضح في الأدب والمحتوى الإذاعي والتلفزيوني باللغات الأنغولية الأصلية. تُكتب جميع لغات أنغولا بالأبجدية اللاتينية، ويشترك كثير منها في ديغرافات محددة. وبالنظر إلى ندرة الموارد، سيركز هذا البحث على خمس لغات أنغولية هي الأوسع انتشارًا: أومبوندو، كيمبوندو، كيكونغو، تشوكوي، ولوبا-كاساي. انظر الجدول [table-angola-languages] لمزيد من التفاصيل.
تميل نماذج اللغة المدربة مسبقًا إلى مواجهة رموز خارجية غير مدرجة ضمن مفرداتها عندما تتعامل مع لغات أو نصوص لم تُغطَ أثناء التدريب المسبق (adelani-etal-2021-masakhaner, pfeiffer-etal-2021-unks). وأحد أكثر الطرق فعالية للتعامل مع ذلك هو توسيع مفردات النموذج لتغطية الرموز الجديدة (wang-etal-2019-improving). فمثلاً، تم إنشاء Glot-500 (imanigooghari-etal-2023-glot500) عن طريق توسيع مفردات XLM-R من 250K إلى 400K قبل MAFT، ولكن الرموز الجديدة تمت تهيئتها بشكل عشوائي.
يعالج OFA مشكلتين رئيسيتين في تكييف النماذج المدربة مسبقًا مع لغات جديدة: (١) التهيئة العشوائية لتضمينات الكلمات الفرعية الجديدة التي لا تستفيد من المعرفة المشفرة في النموذج المصدر، و(٢) إدخال معاملات إضافية يعرقل بعضها تدريب النموذج المعدَّل (liu2023ofa). يحل OFA هذه المشكلات بالاستفادة من التضمينات متعددة اللغات الخارجية والتضمينات في النموذج المصدر لتهيئة التضمينات الجديدة. في هذا النهج، يحلل OFA مصفوفة التضمين الخاصة بالنموذج المصدر إلى مصفوفتين أصغر، ثم يُمثل تضمينات الكلمات الفرعية الجديدة غير المتداخلة كمجموعات من تضمينات الكلمات الفرعية في النموذج المصدر داخل فضاء أقل بعدًا. وتُوزن هذه المجموعات بالتشابهات المستمدة من التضمينات متعددة اللغات الخارجية المحاذاة جيدًا، مثل ColexNet+ (liu2023crosslingual) الذي يغطي أكثر من ألف لغة. أما تضمينات الكلمات الفرعية المشتركة بين النموذج المصدر والمفردات الموسعة فتُنسخ مباشرة، مما يضمن تكاملها واستمرارية التمثيل. لاستكمال العملية، يكرر OFA جميع المعاملات غير الخاصة بالتضمين من النموذج المصدر، ويستبدل محلل الأشكال (tokenizer) الأصلي بالخاص بالنموذج الهدف بعد توسيع المفردات.
بالنسبة للغات التي تفتقر إلى بيانات كافية قبل التدريب، يمكن توليد بيانات اصطناعية من خلال توسيع القاموس (reid-etal-2021-afromt) أو عبر نموذج الترجمة الآلية (MT)—وهو نهج شائع في بحوث الترجمة الآلية يعرف بالترجمة العكسية، طريقٌ فعّالة لتحسين النماذج للغات منخفضة الموارد (sugiyama-yoshinaga-2019-data, xia-etal-2019-generalized). في هذه الورقة، نستخدم البيانات الاصطناعية المُولَّدة بالترجمة الآلية كما وُصفت في (adelani2023sib200). قام المؤلفون بتوليد بيانات مترجمة آليًا لـ 34 لغة أفريقية (بما في ذلك اللغات الأنغولية) بأقل من 10MB من البيانات، باستخدام مجموعة تعليقات الأخبار الإنجليزية (kocmi-etal-2022-findings) التي تضم أكثر من 600K جملة.
اعتمدنا على مجموعة بيانات NLLB (nllb2022)، مستثنين الترجمات الإنجليزية، وركزنا فقط على لغات كيمبوندو، أومبوندو، كيكونغو، تشوكوي، ولوبا-كاساي. تم دمج هذه اللغات في ملفٍ واحدٍ كمجموعة بيانات أولية للتدريب، وأضفنا إليها البيانات الاصطناعية المُولَّدة بواسطة NLLB. تُعرضُ التفاصيل بيانات أحادية اللغة.
قمنا بالتقييم على مجموعة تصنيف النصوص SIB-200 (adelani2023sib200)، التي توفر مجموعات تدريب/تطوير/اختبار وتضم 7 فئات في أكثر من 200 لغة ولهجة أفريقية. توزيع الفئات: العلوم/التكنولوجيا (252)، السفر (198)، السياسة (146)، الرياضة (122)، الصحة (110)، الترفيه (93)، الجغرافيا (83). تُعدّ SIB-200 المجموعة الوحيدة التي تغطي اللغات الأنغولية، وقيمنا الأداء فقط على هذه اللغات في عملنا.
استفدنا من قدرات XLM-R متعدد اللغات في مرحلة التدريب، فأنشأنا نموذجين جديدين مبنيين على XLM-R: AngBERT وAngOFA. خضع كل منهما لعمليات تهيئة دقيقة مختلفة. خضع AngBERT لتهيئة باستخدام MAFT كما هو موضح في (alabi-etal-2022-adapting)، بنوعين من البيانات: أحدهما يعتمد على البيانات أحادية اللغة فقط (281.6 MB)، والآخر يجمع بين البيانات الأحادية والبيانات الاصطناعية (808.7 MB).
وبالمثل، خضع AngOFA لنوعي تهيئة باستخدام نفس مجموعات البيانات، لكن مع اتباع التكوينات الخاصة بـ ofa-multi-768
كما وصفها (liu2023ofa). اخترنا الحفاظ على البُعد الكامن 768 في تجاربنا استنادًا إلى النتائج الأولية والرؤى من (imanigooghari-etal-2023-glot500, liu2023ofa). كشفت هذه التجارب عن دلائل لفقدان المعلومات عند استخدام أبعاد أقل، وهو ما ظهر جليًا في مهام مثل تصنيف النصوص. هدف هذا التقسيم في البيانات كان استكشاف تأثير أسلوبي MAFT وOFA، مع البيانات الاصطناعية أو بدونها، على أداء النموذج.
قمنا بمقارنة نماذجنا مع النماذج الأساسية التالية:
XLM-R (conneau-etal-2020-unsupervised): نموذج مشفر فقط، درِّب مسبقًا على 100 لغة عبر هدف نمذجة اللغة المقنّعة، ولا يغطي أي لغة تم تقييمها في هذا العمل.
Serengeti (adebara-etal-2023-serengeti): درِّب على 500 لغة أفريقية، بما فيها 10 لغات غنية بالموارد، من بينها كيمبوندو، أومبوندو، وتشوكوي.
Glot-500 (imanigooghari-etal-2023-glot500): مشتق من XLM-R، تم توسيعه ليغطي 500 لغة برفع المفردات من 250K إلى 400K، لاستيعاب رموز 400 لغة لم تكن مغطاة سابقًا. يغطي جميع اللغات الأنغولية في تقييمنا.
AfroXLMR-base (alabi-etal-2022-adapting): مطوَّر عبر MAFT، يغطي 20 لغة بحجم بيانات أحادية لا يقل عن 50MB. اللغات الأنغولية غير مشمولة.
AfroXLMR-base-76L (adelani2023sib200): مطوَّر عبر MAFT، يغطي لغات على الويب لا تقل بياناتها عن 10MB. وسّع التغطية لتشمل مزيدًا من اللغات في NLLB-200، وأُنشئت بيانات اصطناعية لحوالي 30 لغة منخفضة الموارد، منها جميع اللغات الأنغولية الخمس. يغطي النموذج 76 لغة.
OFA (liu2023ofa): يدمج تهيئة التضمين OFA مع MAFT باستخدام Glot500-c (imanigooghari-etal-2023-glot500)، ليشمل جميع اللغات المعالجة في هذا العمل.
نتائج مقارنة المعايير: مقارنة فعالية OFA مع التهيئة العشوائية قبل MAFT
تُظهر الجدول [table-1] أداءَ النماذج الأساسية باستخدام مقياس F1 الموزون. نلخص أهم النتائج فيما يلي:
أظهرت نتائجنا أن AngBERT، المطوَّر عبر MAFT، حقق أداءً أفضل من XLM-R وAfroXLMR وSerengeti وGlot-500 بفروق قدرها +5.5 و+1.2 و+3.6 و+6.6 نقطة على التوالي. ورغم أن Serengeti وGlot-500 تدربا مسبقًا على أكثر من 500 لغة مع تمثيل محدود للغات الأنغولية، فإن أدائهما كان أقل من أداء AfroXLMR (مكيف لـ20 لغة عبر MAFT) وAngBERT (مكيف لخمس لغات أنغولية). يوضح ذلك أن النماذج الإقليمية التي تغطي لغات متصلة ضمن نفس العائلة قد تكون أكثر فعالية.
بدمج البيانات الاصطناعية الإضافية، تحسن أداء AngBERT (+SYN data) بفارق +5.5 عن AngBERT بدون بيانات اصطناعية. ومع ذلك، لم يتجاوز أداء AfroXLMR-base-76L المدرب على 76 لغة أفريقية (بما في ذلك جميع اللغات الأنغولية عدا لوبا-كاساي) على عينة بيانات أكبر. وقد أظهرت تجربتنا أن نموذج الـ76 لغة تفوق على Serengeti المدرب مسبقًا على 500 لغة، مما يبرهن على إمكانية بناء نماذج لغوية فعالة أكثر لتغطية لغات إضافية عبر التكييف دون الحاجة للتدريب من الصفر المكلف.
قدّمت النماذج المهيأة بواسطة OFA تحسينًا مستمرًا مقارنةً بالنماذج الأخرى، مما يدل على تفوق OFA الذي يستفيد صراحة من المعلومات المشفرة في النموذج المصدر والتضمينات متعددة اللغات الخارجية. ولاحظنا أن AngOFA ارتقى بأدائه فوق OFA بعد الوصول إلى مجموعة بيانات أكبر للغات المعنية باستخدام البيانات الاصطناعية. من دون هذه البيانات، كان أداء AngOFA أقل من نموذج OFA المدرب على 500 لغة بانخفاض −3.2. ولكن عند التدريب على البيانات الاصطناعية، حقق AngOFA أفضل أداء شامل بفروق +16.6 على XLM-R، و+12.3 على AfroXLMR، و+5.6 على AngBERT (مع البيانات الاصطناعية).
يقدم هذا البحث أربعة نماذج لغوية متعددة اللغات مصممة خصيصًا للغات الأنغولية. توضح نتائج تجاربنا أن التهيئة المستنيرة للتضمين تعزّز بشكل كبير أداء MAFT في المهام اللاحقة. وتُظهر النماذج التي خضعت لتهيئة OFA نتائج متفوقة مقارنةً بأقرانها؛ حتى عندما تدربت AngBERT على مجموعة بيانات أكبر، ظل أداؤها أقل من OFA المدربة على مجموعة أصغر. ومع ذلك، تُثير العوامل التي أدّت إلى تفوق AngBERT على OFA، لاسيما في سياق لوبا-كاساي، أسئلةً حول المحددات الأساسية لأداء النماذج في المهام اللاحقة، بما في ذلك الاعتبارات المرتبطة بحجم البيانات مقابل التهيئة المستنيرة. نترك هذه الأسئلة للبحث المستقبلي، كما نخطط لتوسيع تطبيق OFA على مزيد من اللغات الأفريقية لاستكشاف آفاق أوسع.
تم دعم هذا العمل جزئيًا بواسطة اعتمادات وموارد Oracle Cloud المقدمة من Oracle. ويعترف David Adelani بدعم برنامج DeepMind Academic Fellowship.