في السنوات الأخيرة، شهد تطوير نماذج اللغة المدربة مسبقاً (PLMs) زخماً متزايداً، حيث أظهرت قدرتها على تجاوز الحواجز اللغوية وتسهيل نقل المعرفة عبر لغات متنوعة. ومع ذلك، فقد شمل هذا التقدم بشكل رئيسي اللغات ذات الموارد العالية، مما أدى إلى خلق فجوة ملحوظة في المشهد متعدد اللغات. يتناول هذا البحث هذه الفجوة من خلال تقديم أربعة نماذج PLMs مصممة خصيصاً ومعدلة بدقة للغات الأنغولية، باستخدام نهج التكييف الدقيق متعدد اللغات (MAFT). في هذا البحث، نستعرض دور تهيئة التضمين المستنير والبيانات الاصطناعية في تعزيز أداء نماذج MAFT في المهام اللاحقة. نحن نحسن الأداء بالاعتماد على AfroXLMR-base (المطورة من خلال MAFT) وOFA (تهيئة التضمين الفعالة) بمقدار 12.3 و 3.8 نقاط على التوالي.
لقد شهدت نماذج اللغة ومجموعات تقييم اللغات تقدماً ملحوظاً عبر العديد من لغات العالم (devlin-etal-2019-bert, conneau-etal-2020-unsupervised, workshop2023bloom, xue-etal-2021-mt5). ومع ذلك، غالباً ما تم تجاهل العديد من اللغات الأفريقية، مما أدى إلى خلق فجوة كبيرة. في الوقت نفسه، تجاهلت معظم نماذج اللغة المركزة على أفريقيا تضمين اللغات الأنغولية (dossou-etal-2022-afrolm, alabi-etal-2022-adapting, ogueji-etal-2021-small). لقد كانت جهود مجتمع أفريقيا في معالجة اللغات الطبيعية واضحة في توسيع مجموعات تقييم اللغات النهائية (adelani-etal-2021-masakhaner, adelani-etal-2022-masakhaner, muhammad-etal-2023-semeval, ma2023taxi1500). ومع ذلك، على الرغم من هذه المبادرات، لا تزال اللغات الأنغولية تفتقر إلى التمثيل الكافي.
في سعينا لتطوير نموذج لغة متعدد اللغات مدرب مسبقاً، هناك نهجان رئيسيان. الأول يتضمن بناء نموذج من الصفر، وتدريبه مباشرة على لغات متعددة، باستخدام تعلم ذاتي محدد مثل نمذجة اللغة المقنعة (devlin-etal-2019-bert). النهج البديل هو التكييف الدقيق متعدد اللغات (MAFT) والذي يتضمن تكييف نموذج لغة متعدد اللغات مدرب مسبقاً موجود مع مجموعة جديدة من اللغات (alabi-etal-2022-adapting, wang-etal-2022-expanding, imanigooghari-etal-2023-glot500). يكتسب MAFT تفضيلاً لكفاءته في استخدام الموارد، خاصة في السيناريوهات التي تفرض فيها الميزانيات الحاسوبية قيوداً وسط تصاعد أحجام النماذج (tay2022scale, gupta2023continual). يمكن تعزيز أداء MAFT من خلال إدخال رموز مفردات جديدة للغات الإضافية واستخدام تهيئة تضمين غير غاوسية (minixhofer-etal-2022-wechsel, dobler-de-melo-2023-focus, liu2023ofa).
في هذه الورقة، نقدم أول مجموعة من نماذج PLM متعددة اللغات مصممة لخمس لغات أنغولية باستخدام نهج MAFT. نقارن PLMs المطورة من خلال MAFT مع وبدون تهيئة التضمين المستنير، المشار إليهما باسم angofa و angbert، على التوالي. من خلال الاستفادة من نهج OFA لأداء تهيئة التضمين قبل تنفيذ MAFT، تكشف نتائجنا أن angofa يتفوق بشكل كبير على angbert وOFA، مما يبرز التحسينات الكبيرة في الأداء التي يمكن تحقيقها من خلال دمج تهيئة التضمين المستنير والبيانات الاصطناعية.
وجدنا أن OFA المطور على أكثر من 500 لغة يمتلك أداءً مشابهاً لأداء AngOFA، مما يؤكد على قابلية OFA للتوسع عبر لغات متعددة.
تتميز أنغولا بمشهد لغوي غني يضم أكثر من 40 لغة وعدد سكان يبلغ 32 مليون نسمة. تشمل اللغات الأنغولية البرتغالية، وبعض لغات الخويسان، ومعظمها من لغات البانتو التابعة لعائلة النيجر-الكونغو. على الرغم من هذا التنوع اللغوي، هناك نقص ملحوظ في الأدب والبرامج الإذاعية والتلفزيونية باللغات الأنغولية الأصلية. تكتب جميع اللغات في أنغولا بالأبجدية اللاتينية، وتشترك العديد منها في ديغرافات مشتركة. نظراً لندرة البيانات، سيركز اهتمامنا بشكل أساسي حول اللغات الأنغولية الخمس الأكثر تحدثاً: أومبوندو، كيمبوندو، كيكونغو، تشوكوي، ولوَبَأ-كاساي. انظر الجدول [table-angola-languages] لمزيد من التفاصيل.
تميل نماذج اللغة المبرمجة إلى مواجهة رموز خارج المفردات للغات أو النصوص التي لم تُغطَّ أثناء التدريب المسبق. يظهر هذا بشكل أوضح في النصوص غير المرئية (adelani-etal-2021-masakhaner, pfeiffer-etal-2021-unks)، وأحد أكثر الطرق فعالية للتعامل مع ذلك هو توسيع مفردات نموذج اللغة المبرمجة لتغطية الرموز الجديدة (wang-etal-2019-improving). تم إنشاء Glot-500 (imanigooghari-etal-2023-glot500) عن طريق توسيع مفردات XLM-R من 250K إلى 400K قبل MAFT. ومع ذلك، تم تهيئة الرموز الجديدة المضافة بشكل عشوائي.
يعالج OFA مشكلتين في تكييف نماذج اللغة المبرمجة مسبقاً مع لغات جديدة: (١) البدء العشوائي لتضمينات الكلمات الفرعية الجديدة لا يستفيد من المعرفة اللغوية المشفرة في النموذج المصدر، (٢) إدخال معاملات إضافية يشكل عقبات محتملة أمام التدريب الفعال للنموذج المعدل (liu2023ofa). يحل OFA هذه المشكلات من خلال الاستفادة من التضمينات متعددة اللغات الخارجية والتضمينات في نموذج اللغة المبرمجة المصدر لتهيئة تضمينات الكلمات الفرعية الجديدة. في هذا النهج، يقوم OFA بتحليل مصفوفة التضمينات لنموذج اللغة المبرمجة المصدر إلى مصفوفتين أصغر كبدائل. في فضاء ذو أبعاد أقل، يتم التعبير عن تضمينات الكلمات الفرعية الجديدة غير المتداخلة كمجموعات من تضمينات الكلمات الفرعية لنموذج اللغة المبرمجة المصدر. توزن هذه المجموعات بواسطة التشابهات المستمدة من التضمينات متعددة اللغات الخارجية المحاذاة جيداً، أي ColexNet+ (liu2023crosslingual)، التي تغطي أكثر من ألف لغة. تُنسخ تضمينات الكلمات الفرعية المتداخلة مباشرة. يضمن هذا النهج أن تضمينات الكلمات الفرعية المشتركة بين نموذج اللغة المبرمجة المصدر والمفردات الموسعة متكاملة، محافظة على الاستمرارية في التمثيل. لإكمال العملية، يقوم OFA بتكرار جميع المعاملات غير التضمينية من نموذج اللغة المبرمجة المصدر، ويستبدل المحلل اللغوي المصدر بالمحلل اللغوي الهدف بعد توسيع المفردات.
بالنسبة للغات التي تفتقر إلى بيانات كافية قبل التدريب، يمكن توليد بيانات اصطناعية من خلال توسيع القاموس (reid-etal-2021-afromt) أو نموذج الترجمة الآلية (MT) - وهو نهج شائع جداً في بحوث الترجمة الآلية يعرف باسم الترجمة العكسية، وهو طريقة فعالة لتحسين نموذج الترجمة الآلية للغات ذات الموارد المنخفضة (sugiyama-yoshinaga-2019-data, xia-etal-2019-generalized). في هذه الورقة، نستخدم البيانات الاصطناعية التي تم الحصول عليها من خلال الترجمة الآلية كما وصف في (adelani2023sib200). لقد قام المؤلفون بتوليد بيانات مترجمة آلياً لـ 34 لغة أفريقية (بما في ذلك اللغات الأنغولية) بأقل من 10MB من البيانات، باستخدام مجموعة بيانات تعليقات الأخبار الإنجليزية (kocmi-etal-2022-findings)، والتي تحتوي على أكثر من 600K جملة.
استفدنا من مجموعة بيانات NLLB (nllb2022)، مستثنين الترجمات الإنجليزية، وركزنا فقط على لغات كيمبوندو، أومبوندو، كيكونغو، تشوكوي، ولوَبَأ-كاساي. تم دمج هذه اللغات في ملف واحد كمجموعة بيانات أولية للتدريب. بالإضافة إلى ذلك، أضفنا بيانات اصطناعية تم توليدها من خلال NLLB. تعرض التفاصيل بيانات أحادية اللغة.
في عملنا، قمنا بالتقييم على مجموعة بيانات تصنيف النصوص SIB-200 (adelani2023sib200)، والتي توفر مجموعات تدريب/تطوير/اختبار مع 7 فئات في أكثر من 200 لغة ولهجة أفريقية. توزيع الفئات هو: العلوم/التكنولوجيا (252)، السفر (198)، السياسة (146)، الرياضة (122)، الصحة (110)، الترفيه (93)، الجغرافيا (83). SIB-200 هي المجموعة الوحيدة التي تغطي اللغات الأنغولية. لقد قمنا بالتقييم فقط على مجموعة اللغات الأنغولية المغطاة في هذا العمل.
لقد استفدنا من القدرات اللغوية المتعددة لـ XLM-R (conneau-etal-2020-unsupervised) للتدريب، مما أدى إلى إنشاء مجموعة جديدة من نماذج اللغة المبرمجة: AngBERT و AngOFA. هذه النماذج خضعت لعمليات تهيئة دقيقة مختلفة. على وجه التحديد، خضع AngBERT لعملية التهيئة باستخدام طريقة MAFT كما هو موضح في (alabi-etal-2022-adapting)، بنوعين - أحدهما تم تدريبه فقط على البيانات أحادية اللغة (281.6 MB)، والآخر يشمل كلاً من البيانات أحادية اللغة والبيانات الاصطناعية (808.7 MB).
وبالمثل، خضع AngOFA أيضاً لنوعين من التهيئة، باستخدام مجموعات البيانات بنفس الطريقة كما في AngBERT. ومع ذلك، اتبع AngOFA التكوينات الموضحة لـ ofa-multi-768
، كما هو موصوف في (liu2023ofa). اخترنا الحفاظ على 768 كبعد كامن وحيد في تجاربنا استناداً إلى الرؤى من (imanigooghari-etal-2023-glot500, liu2023ofa) والتي تدعمها أيضاً النتائج الأولية من تجاربنا الخاصة. كشفت هذه النتائج عن دلائل على فقدان المعلومات في الأبعاد الأدنى، وهو ما كان ملحوظاً بشكل خاص في مهام مثل تصنيف النصوص. كان الهدف من هذا النهج في تقسيم البيانات هو استكشاف تأثيرات طرق MAFT وOFA، سواء مع البيانات الاصطناعية أو بدونها، على أداء النموذج.
قمنا بمقارنة نماذجنا الجديدة مع النماذج الأساسية التالية:
XLM-R (conneau-etal-2020-unsupervised): نموذج يعتمد فقط على المشفر والذي خضع للتدريب المسبق على 100 لغة من خلال هدف نمذجة اللغة المقنعة. XLM-R لا يغطي أي لغة تم تقييمها في هذا العمل.
Serengeti (adebara-etal-2023-serengeti): تم تدريبه على 500 لغة أفريقية، بما في ذلك 10 لغات ذات موارد عالية. يشمل Kimbundu، Umbundu، و Chokwe.
Glot-500 (imanigooghari-etal-2023-glot500): مشتق من XLM-R، تم توسيعه ليغطي 500 لغة من خلال توسيع مفرداته من 250K إلى 400K، وبالتالي استيعاب رموز جديدة تمثل 400 لغة غير موجودة سابقاً في XLM-R. Glot-500 يغطي جميع اللغات الأنغولية المستخدمة في تقييمنا.
AfroXLMR-base (alabi-etal-2022-adapting): تم تطويره باستخدام طريقة MAFT، يغطي 20 لغة مع مجموعة أحادية اللغة لا تقل عن 50MB. اللغات الأنغولية غير مشمولة.
AfroXLMR-base-76L (adelani2023sib200): تم تطويره باستخدام طريقة MAFT، يغطي اللغات التي لديها بيانات على الويب لا تقل عن 10MB. يوسع التغطية لتشمل المزيد من اللغات، ولا سيما تلك المدرجة في نموذج NLLB-200 MT. تم إنشاء بيانات اصطناعية أيضاً لحوالي 30 لغة ذات بيانات محدودة، بما في ذلك جميع اللغات الأنغولية الخمس. في المجمل، يغطي 76 لغة.
OFA (liu2023ofa): يدمج تهيئة التضمين OFA جنباً إلى جنب مع MAFT باستخدام Glot500-c (imanigooghari-etal-2023-glot500)، وبالتالي يشمل جميع اللغات المعالجة في هذا العمل.
نتائج المعيار: مقارنة فعالية (OFA) مع التهيئة العشوائية قبل التكييف الدقيق متعدد اللغات (MAFT)
Table[table-1] تُظهر أداء نماذجنا الأساسية باستخدام مقياس F1 الموزون. نناقش أهم النتائج أدناه:
أظهرت نتائجنا أن (AngBERT) المنشأ باستخدام (MAFT) أدى أداءً أفضل من (XLM-R)، (AfroXLMR)، (Serengeti) و(Glot-500) بـ \(+5.5\)، \(+1.2\)، \(+3.6\)، \(+6.6\) نقاط على التوالي. لقد تم تدريب آخر نموذجين مسبقاً على أكثر من 500 لغة مع عدد قليل من اللغات الأنغولية ولكن أداؤهما كان أسوأ من (AfroXLMR) (المكيف من خلال (MAFT) إلى 20 لغة)، و(AngBERT) (المكيف إلى خمس لغات أنغولية). هذا يظهر أن نماذج اللغة المحددة بالمنطقة التي تغطي اللغات المتصلة ضمن نفس العائلة اللغوية يمكن أن تكون أكثر فعالية.
من خلال دمج بيانات اصطناعية إضافية، تحسن أداء (AngBERT) (+SYN data) بـ \(+5.5\) عن (AngBERT) بدون بيانات اصطناعية. ومع ذلك، فشل في تجاوز أداء (AfroXLMR-base-76L) الذي تم تدريبه على 76 لغة أفريقية بما في ذلك جميع اللغات الأنغولية باستثناء لوَبَأ-كاساي مع بيانات أكبر. أظهرت تجربتنا أن النموذج المكيف لـ 76 لغة أدى أداءً أفضل من (Serengeti) المدرب مسبقاً على 500 لغة، مما يظهر أنه يمكننا إنشاء نماذج لغة أفضل لتغطية المزيد من اللغات من خلال التكييف دون العملية المكلفة للتدريب من الصفر.
أظهرت النماذج المهيأة مع (OFA) تحسناً مستمراً مقارنة بالنماذج الأساسية الأخرى. هذا يشير إلى أن (OFA)، الذي يستفيد صراحة من المعلومات المشفرة في تضمينات النموذج المصدر والتضمينات متعددة اللغات الخارجية، أفضل من التهيئة العشوائية. بشكل ملحوظ، تم تعزيز ميزة (AngOFA) على (OFA) من خلال وصوله إلى مجموعة بيانات أكبر بكثير للغات المعنية من خلال استخدام البيانات الاصطناعية. بدون البيانات الاصطناعية الإضافية، أدى (AngOFA) أداءً أسوأ من (OFA) المدرب مسبقاً على 500 لغة بانخفاض قدره \(-3.2\). ومع ذلك، عندما تم التدريب على البيانات الاصطناعية، حقق (AngOFA) أفضل أداء شامل بـ \(+16.6\) على (XLM-R)، \(+12.3\) على (AfroXLMR)، و \(+5.6\) على (AngBERT) (مع بيانات اصطناعية).
هذا البحث يقدم أربعة من النماذج اللغوية متعددة اللغات مصممة خصيصاً للغات أنغولا. توضح نتائج تجاربنا أن استخدام تهيئة التضمين المستنيرة يعزز بشكل كبير أداء نموذج MAFT في المهام اللاحقة. بينما النماذج التي تم تهيئتها باستخدام OFA تظهر نتائج متفوقة مقارنة بنظيراتها، حتى في الحالة التي يتم فيها تدريب AngBert على مجموعة بيانات أكبر للغات المعنية ولكنه يؤدي بشكل ضعيف مقارنة بـ OFA المدرب على مجموعة بيانات أصغر. ومع ذلك، فإن العوامل المحددة التي تسهم في تفوق AngBert على OFA، خاصة في سياق لوَبَأ-كاساي، تثير أسئلة مثيرة للاهتمام حول العوامل الأساسية التي تؤثر على أداء النماذج في المهام اللاحقة، بما في ذلك اعتبارات مثل حجم مجموعة البيانات مقابل تهيئة التضمين المستنيرة. هذه الأسئلة متروكة للتحقيق في المستقبل. علاوة على ذلك، نهدف إلى توسيع تطبيق OFA لمزيد من اللغات الأفريقية لاستكشاف أوسع.
تم دعم هذا العمل جزئياً بواسطة اعتمادات وموارد Oracle Cloud المقدمة من Oracle. يعترف David Adelani بدعم برنامج DeepMind Academic Fellowship.