فِي السَنَواتِ الأَخِيرَةِ، شَهِدَ تَطْوِيرِ نَماذِجَ اللُغَةِ المُدَرِّبَة مُسْبَقاً (PLMs) زَخِماً مُتَزايِداً، مَظْهَرا قُدْرَتِها عَلَى تَجاوُزِ الحَواجِزِ اللُغَوِيَّةُ وَتَسْهِيلِ نَقْلِ المَعْرِفَةِ عَبْرَ اللُغاتِ المُتَنَوِّعَةَ. وَمَعَ ذٰلِكَ، فَقَد تَجاوُزِ هٰذا التَقَدُّمِ بِشَكْلٍ رَئِيسِيٍّ شُمُول اللُغاتِ ذاتِ المَوارِدِ المُنْخَفِضَة جِدّاً، مِمّا أَدَّى إِلَى خَلْقُ فَجْوَةِ مَلْحُوظَةٌ فِي المَشْهَدُ مُتَعَدِّدِ اللُغاتِ. يَتَناوَل هٰذا البَحْثِ هٰذِهِ الفَجْوَةِ مِن خِلالَ تَقْدِيمِ أَرْبَعَةِ نَماذِجَ PLMs مُصَمِّمَةً خَصِيصاً وَمُعَدَّله بِدِقَّةٍ لَلُغات الأَنْغُولِيَّة، بِاِسْتِخْدامِ نَهْجٍ التنغيم الدَقِيقِ التكيفي مُتَعَدِّدِ اللُغاتِ (MAFT). فِي هٰذا البَحْثِ، نَسْتَعْرِض دَوْرِ تَهْيِئَةِ التَضْمِين المُسْتَنِيرُ وَالبَياناتِ الاِصْطِناعِيَّةِ فِي تَعْزِيزِ أَداءِ نَماذِجَ MAFT فِي المَهامّ اللاحِقَةِ. نَحْنُ نُحْسِن الأَساسِ عَلَى AfroXLMR-base (المُطَوِّرَة مِن خِلالَ MAFT) وOFA (تَهْيِئَةِ التَضْمِين الفَعّالَةَ) ب 12.3 وَ 3.8 نِقاطٍ عَلَى التَوالِي.
لَقَد شَهِدَت نَماذِجَ اللُغَةِ وَمَجْمُوعاتٍ تَقْيِيمِ اللُغاتِ تَقَدُّماً مَلْحُوظاً عَبْرَ العَدِيدَ مِن اللُغاتِ العالَمِيَّةِ (devlin-etal-2019-bert, conneau-etal-2020-unsupervised, workshop2023bloom, xue-etal-2021-mt5). وَمَعَ ذٰلِكَ، غالِباً ما تَمَّ تَجاوُزِ العَدِيدَ مِن اللُغاتِ الأَفْرِيقِيَّةِ، مِمّا أَدَّى إِلَى خَلْقُ فَجْوَةِ كَبِيرَةٍ. فِي الوَقْتِ نَفْسِهِ، تَجاهَلَت مُعْظَمَ نَماذِجَ اللُغَةِ المُرَكَّزَةِ عَلَى أَفْرِيقِيا تَضْمِينِ اللُغاتِ الأَنْغُولِيَّة (dossou-etal-2022-afrolm, alabi-etal-2022-adapting, ogueji-etal-2021-small). لَقَد كانَت جُهُودِ مُجْتَمَعٍ أَفْرِيقِيا لِمُعالَجَةِ اللُغاتِ الطَبِيعِيَّةِ مَشْهُودَةً فِي تَوْسِيعِ مَجْمُوعاتٍ تَقْيِيمِ اللُغاتِ النِهائِيَّةِ (adelani-etal-2021-masakhaner, adelani-etal-2022-masakhaner, muhammad-etal-2023-semeval, ma2023taxi1500). وَمَعَ ذٰلِكَ، عَلَى الرَغْمِ مِن هٰذِهِ المُبادَراتِ، لا تَزال اللُغاتِ الأَنْغُولِيَّة تَفْتَقِر إِلَى التَمْثِيلِ.
فِي سَعَيْنا لِتَطْوِيرِ نَمُوذَجَ لُغَةً مُتَعَدِّدِ اللُغاتِ مُدَرِّبُ مُسْبَقاً، هُناكَ نهجان رَئِيسِيّانِ. الأَوَّلِ يَتَضَمَّن بِناءَ نَمُوذَجَ مِن الصِفْرِ، وَتَدْرِيبه مُباشَرَةً عَلَى لُغات مُتَعَدِّدَةِ، بِاِسْتِخْدامِ تَعْلَم ذاتِيٍّ مُحَدَّدٍ مِثْلَ نمذجه اللُغَةِ المُقْنِعَةِ (devlin-etal-2019-bert). النَهْجِ البَدِيلُ هُوَ التَنْعِيم الدَقِيقِ التكيفي مُتَعَدِّدِ اللُغاتِ (MAFT) وَالَّذِي يَتَضَمَّن تَكْيِيفَ نَمُوذَجَ لُغَةً مُتَعَدِّدِ اللُغاتِ مُدَرِّبُ مُسْبَقاً مَوْجُودٌ مَعَ مَجْمُوعَةِ جَدِيدَةٍ مِن اللُغاتِ (alabi-etal-2022-adapting, wang-etal-2022-expanding, imanigooghari-etal-2023-glot500). يَكْتَسِب MAFT تَفْضِيلاً لَكَفاءَته فِي اِسْتِخْدامِ المَوارِدِ، خاصَّةٍ فِي السِينارِيُوهات الَّتِي تَفْرِض فِيها المِيزانِيّاتِ الحِسابِيَّة قُيُوداً وَسَطَ تَصاعُدِ أَحْجام النَماذِجِ (tay2022scale, gupta2023continual). يُمْكِن تَعْزِيزِ أَداءِ MAFT مِن خِلالَ إِدْخالُ رُمُوزِ مُفْرَداتٍ جَدِيدَةٍ لَلُغات الإِضافِيَّة وَاِسْتِخْدامِ تَهْيِئَةِ التَضْمِين غَيْرِ الغاوسيه (minixhofer-etal-2022-wechsel, dobler-de-melo-2023-focus, liu2023ofa).
فِي هٰذِهِ الوَرَقَةَ، نُقَدِّم أَوَّلِ مَجْمُوعَةِ مِن نَماذِجَ PLM مُتَعَدِّدَةِ اللُغاتِ المُصَمِّمَة لِخَمْسِ لُغات أَنْغُولِيّه بِاِسْتِخْدامِ نَهْجٍ MAFT. نُقارَن PLMs المُطَوِّرَة مِن خِلالَ MAFT مَعَ وَبِدُونِ تَهْيِئَةِ التَضْمِين المُسْتَنِيرُ، المُشارِ إِلَيها بِاِسْمِ angofa وَ angbert، عَلَى التَوالِي. مِن خِلالَ الاِسْتِفادَةِ مِن نَهْجٍ OFA لَأَداء تَهْيِئَةِ التَضْمِين قِبَلَ أَداءِ MAFT، تَكْشِف نَتائِجنا أَنَّ angofa يَتَفَوَّق بِشَكْلٍ كَبِيرٍ عَلَى angbert وOFA، مِمّا يَبْرُز التَحْسِيناتِ الكَبِيرَةِ فِي الأَداءِ الَّتِي يُمْكِن تَحْقِيقِها مِن خِلالَ دَمْجِ تَهْيِئَةِ التَضْمِين المُسْتَنِيرُ وَالبَياناتِ الاِصْطِناعِيَّةِ.
وَجَدْنا أَنَّ OFA المُطَوِّر عَلَى أَكْثَرَ مِن 500 لُغَةً يَمْتَلِك أَداءِ مُشابِها لَأَداء AngOFA، مِمّا يُؤَكِّد عَلَى قابِلِيَّةِ OFA لِلتَوَسُّع عَبْرَ لُغات مُتَعَدِّدَةِ.
تَتَمَيَّز أَنْغُولا بِمَشْهَدِ لُغَوِيٌّ غَنِيٍّ يَضُمّ أَكْثَرَ مِن 40 لُغَةً وَعَدَدٌ سُكّانِ يَبْلُغ 32 مِلْيُونِ نَسَمَةٍ. تَشْمَل اللُغاتِ الأَنْغُولِيَّة البُرْتُغالِيَّةِ، وَبِعَضِّ لُغات الخويسان، وَمُعْظَمُها مِن لُغات البانتو التابِعَةِ لِعائِلَةٍ النَيْجَر-الكُونْغُو. عَلَى الرَغْمِ مِن هٰذا التَنَوُّعِ اللُغَوِيُّ، هُناكَ نَقْصِ مَلْحُوظٍ فِي الأَدَبِ وَالبَرامِجِ الإِذاعِيَّة وَالتِلفِزيُونِيَّة بِاللُغات الأَنْغُولِيَّة الأَصْلِيَّةِ. تَكْتُب جَمِيعِ اللُغاتِ فِي أَنْغُولا بِالأَبْجَدِيَّة اللاتِينِيَّةِ، وَتَشْتَركَ العَدِيدَ مِنها فِي الديغرافات المُشْتَرَكَةِ. نَظَراً لِنَدْره البَياناتِ، سَيُرَكِّز اِهْتِمامِنا بِشَكْلٍ أَساسِيٌّ حَوْلَ اللُغاتِ الأَنْغُولِيَّة الخَمْسِ الأَكْثَرَ تَحَدَّثا: اومبوندو، كيمبوندو، كيكونغو، تشوكوي، وَلِوَبَأ-كَأْسايَ. أَنْظُر الجَدْوَلُ [table-angola-languages] لِمَزِيدٍ مِن التَفاصِيلِ.
تَمِيل نَماذِجَ اللُغَةِ المُبَرْمَجَة إِلَى مُواجَهَةِ رُمُوزِ خارِجَ المُفْرَداتِ لَلُغات أَو النُصُوصِ الَّتِي لَم تُغَطَّى أَثْناءَ التَدْرِيبِ المُسْبَقِ. الوَضْعِ أَكْثَرَ وُضُوحاً لِلنُصُوص غَيْرِ المَرْئِيَّةِ (adelani-etal-2021-masakhaner, pfeiffer-etal-2021-unks)، واحِدَيَّ الطُرُقِ الأَكْثَرَ فَعّالِيَّةِ لِلتَعامُلِ مَعَ هٰذا هُوَ تَوْسِيعِ مُفْرَداتٍ نَمُوذَجَ اللُغَةِ المُبَرْمَجَة لِتَغْطِيَةِ الرُمُوزَ الجَدِيدَةِ (wang-etal-2019-improving). تَمَّ إِنْشاءِ Glot-500 (imanigooghari-etal-2023-glot500) عَن طَرِيقِ تَوْسِيعِ مُفْرَداتٍ XLM-R مِن 250K إِلَى 400K قِبَلَ MAFT. وَمَعَ ذٰلِكَ، تَمَّ تَهْيِئَةِ الرُمُوزَ الجَدِيدَةِ المُضافَةِ بِشَكْلٍ عَشْوائِيٍّ.
يُعالَج OFA مُشْكِلَتَيْنِ فِي تَكْيِيفَ نَماذِجَ اللُغَةِ المُبَرْمَجَة مُسْبَقاً مَعَ لُغات جَدِيدَةٍ: (١) البَدْء العَشْوائِيِّ لِلتَضْمِينات لِلكَلِمات الفَرْعِيَّةِ الجَدِيدَةِ لا يَسْتَفِيد مِن المَعْرِفَةِ اللُغَوِيَّةُ المشفره فِي النَمُوذَجِ المَصْدَرُ، (٢) إِدْخالُ مُعامَلاتِ إِضافِيَّةً يُشَكِّل عَقَباتٍ مُحْتَمَلَةٍ أَمامَ التَدْرِيبِ الفَعّالَ لِلنَمُوذَج المُعَدَّلِ (liu2023ofa). يُحِلّ OFA هٰذِهِ المُشْكِلاتِ مِن خِلالَ الاِسْتِفادَةِ مِن التَضْمِينات مُتَعَدِّدَةِ اللُغاتِ الخارِجِيَّةِ وَالتَضْمِينات فِي نَمُوذَجَ اللُغَةِ المُبَرْمَجَة المَصْدَرُ لَتَهْيِئَة تَضْمِينات الكَلِماتُ الفَرْعِيَّةِ الجَدِيدَةِ. فِي هٰذا النَهْجِ، يَقُوم OFA بِتَحْلِيلِ مَصْفُوفه التَضْمِينات لَنَمُوذَج اللُغَةِ المُبَرْمَجَة المَصْدَرُ إِلَى مَصْفُوفَتَيْنِ أَصْغَرِ كَبَدائِل. فِي فَضاءِ ذُو أَبْعادَ أَقَلَّ، يَتِمّ التَعْبِيرِ عَن تَضْمِينات الكَلِماتُ الفَرْعِيَّةِ الجَدِيدَةِ غَيْرِ المتداخله كَمَجْمُوعات مِن تَضْمِينات الكَلِماتُ الفَرْعِيَّةِ لَنَمُوذَج اللُغَةِ المُبَرْمَجَة المَصْدَرُ. توزن هٰذِهِ المَجْمُوعاتِ بِواسِطَةِ التَشابُهات المُسْتَمَدَّةِ مِن التَضْمِينات مُتَعَدِّدَةِ اللُغاتِ الخارِجِيَّةِ المُحاذاة جَيِّداً، أَيّ ColexNet+ (liu2023crosslingual)، الَّتِي تُغَطِّي أَكْثَرَ مِن أَلْفِ لُغَةً. تَنَسَّخَ تَضْمِينات الكَلِماتُ الفَرْعِيَّةِ المتداخله مُباشَرَةً. يَضْمَن هٰذا النَهْجِ أَنَّ تَضْمِينات الكَلِماتُ الفَرْعِيَّةِ المُشْتَرَكَةِ بَيِّنَ نَمُوذَجَ اللُغَةِ المُبَرْمَجَة المَصْدَرُ وَالمُفْرَدات المُوسِعَةِ مُتَكامِلَةٍ، مُحافَظَةِ عَلَى الاِسْتِمْرارِيَّة فِي التَمْثِيلِ. لَإِكْمال العَمَلِيَّةِ، يَقُوم OFA بِتَكْرار جَمِيعِ المُعامَلاتِ غَيْرِ التضمينيه مِن نَمُوذَجَ اللُغَةِ المُبَرْمَجَة المَصْدَرُ، وَيَسْتَبْدِل المُحَلِّلُ اللُغَوِيُّ المَصْدَرُ بِالمُحَلِّل اللُغَوِيُّ الهَدَفَ بُعْدَ تَوْسِيعِ المُفْرَداتِ.
بِالنِسْبَةِ لَلُغات الَّتِي تَفْتَقِر إِلَى بَياناتٍ ما قِبَلَ التَدْرِيبِ الكافِيَةِ، يُمْكِن تَوْلِيدِ بَياناتٍ اِصْطِناعِيَّةٍ مِن خِلالَ تَوْسِيعِ القامُوسُ (reid-etal-2021-afromt) أَو نَمُوذَجَ التَرْجَمَةَ الآلِيَّةِ (MT) - وَهُوَ نَهْجٍ شائِع جِدّاً فِي بُحُوثٍ التَرْجَمَةَ الآلِيَّةِ يَعْرِف بِاِسْمِ التَرْجَمَةَ العَكْسِيَّة وَهُوَ طَرِيقَةِ فَعّالَةٍ لِتَحْسِينِ نَمُوذَجَ التَرْجَمَةَ الآلِيَّةِ لَلُغات المَوارِدِ المُنْخَفِضَة (sugiyama-yoshinaga-2019-data, xia-etal-2019-generalized). فِي هٰذِهِ الوَرَقَةَ، نَسْتَخْدِم البَياناتِ الاِصْطِناعِيَّةِ الَّتِي تَمَّ الحُصُولِ عَلَيها مِن خِلالَ التَرْجَمَةَ الآلِيَّةِ كَما وَصَفَ فِي (adelani2023sib200). لَقَد قامَ المُؤَلِّفُونَ بِتَوْلِيد بَياناتٍ مُتَرْجِمه آلِيّا لِ 34 لُغَةً أَفْرِيقِيَّةٍ (بِما فِي ذٰلِكَ اللُغاتِ الأَنْغُولِيَّة) بِأَقَلِّ مِن 10MB مِن البَياناتِ، بِاِسْتِخْدامِ مَجْمُوعَةِ بَياناتٍ تَعْلِيقاتِ الأَخْبار الإِنْجلِيزِيَّةِ (kocmi-etal-2022-findings)، وَالَّتِي تَحْتَوِي عَلَى أَكْثَرَ مِن 600K جُمْلَةِ.
اِسْتَفَدْنا مِن مَجْمُوعَةِ بَياناتٍ NLLB (nllb2022)، مُسْتَثْنِينَ التَرْجَمات الإِنْجلِيزِيَّةِ، وَرَكَّزْنا فَقَط عَلَى اللُغاتِ كيمبوندو، اومبوندو، كيكونغو، تشوكوي، وَلِوَبَأ-كَأْسايَ. تَمَّ دَمْجِ هٰذِهِ اللُغاتِ فِي مِلَفِّ واحِدٍ كَمَجْمُوعَةٍ بَياناتٍ أَوَّلِيَّةً لِلتَدْرِيبِ. بِالإِضافَةِ إِلَى ذٰلِكَ، أَضَفْنا بَياناتٍ اِصْطِناعِيَّةٍ تَمَّ تَوْلِيدها مِن خِلالَ NLLB. يُعَرِّض تَفاصِيلَ البَياناتِ أُحادِيَّةُ اللُغَةِ.
فِي عَمَلِنا، قُمْنا بِالتَقْيِيم عَلَى مَجْمُوعَةِ بَياناتٍ تَصْنِيفِ النُصُوصِ SIB-200 (adelani2023sib200)، وَالَّتِي تُوَفِّر مَجْمُوعاتٍ تَدْرِيبِ/تَطْوِيرِ/اِخْتِبارِ مَعَ 7 فِئاتِ فِي أَكْثَرَ مِن 200 لُغَةً وَلَهْجَة أَفْرِيقِيَّةٍ. تَوْزِيعِ الفِئاتِ هُوَ: العُلُومِ/التِكْنُولُوجِيا (252)، السَفَرِ (198)، السِياسَةِ (146)، الرِياضَةِ (122)، الصِحَّةِ (110)، التَرْفِيه (93)، الجُغْرافِيا (83). SIB-200 هِيَ المَجْمُوعَةِ الوَحِيدَةُ الَّتِي تُغَطِّي اللُغاتِ الأَنْغُولِيَّة. لَقَد قُمْنا بِالتَقْيِيم فَقَط عَلَى مَجْمُوعَةِ اللُغاتِ الأَنْغُولِيَّة المُغَطّاة فِي هٰذا العَمَلِ.
لَقَد اِسْتَفَدْنا مِن القُدْراتِ اللُغَوِيَّةُ المُتَعَدِّدَةِ لِ XLM-R (conneau-etal-2020-unsupervised) لِلتَدْرِيبِ، مِمّا أَدَّى إِلَى إِنْشاءِ مَجْمُوعَةِ جَدِيدَةٍ مِن نَماذِجَ اللُغَةِ المُبَرْمَجَة: AngBERT وَ AngOFA. هٰذِهِ النَماذِجِ خَضَعَت لِعَمَلِيّاتِ تَهْيِئَةِ دَقِيقَةً مُخْتَلِفَةٍ. عَلَى وَجْهِ التَحْدِيدِ، خَضَعَ AngBERT لِعَمَلِيَّةِ التَهْيِئَة بِاِسْتِخْدامِ طَرِيقَةِ MAFT كَما هُوَ مُوَضِّح فِي (alabi-etal-2022-adapting)، مَعَ نَوْعَيْنِ - أَحَدُهُما تَمَّ تَدْرِيبه فَقَط عَلَى البَياناتِ أُحادِيَّةُ اللُغَةِ (281.6 MB)، وَالآخَرِ يَشْمَل كُلّاً مِن البَياناتِ أُحادِيَّةُ اللُغَةِ وَالبَياناتِ الاِصْطِناعِيَّةِ (808.7 MB).
بِالمِثْلِ، خَضَعَ AngOFA أَيْضاً لِنَوْعَيْنِ مِن التَهْيِئَة، بِاِسْتِخْدامِ مَجْمُوعاتٍ البَياناتِ بِنَفْسِ الطَرِيقَةِ كَما فِي AngBERT. وَمَعَ ذٰلِكَ، اِتَّبَعَ AngOFA التَكْوِيناتِ المُوَضِّحَة لِ ofa-multi-768
، كَما هُوَ مَوْصُوفٌ فِي (liu2023ofa). اِخْتَرْنا الحِفاظِ عَلَى 768 كَالبُعْد الكامِن الوَحِيدُ فِي تَجارِبنا اِسْتِناداً إِلَى الرُؤَى مِن (imanigooghari-etal-2023-glot500, liu2023ofa) وَالَّتِي تُدَعِّمها أَيْضاً النَتائِجِ الأَوَّلِيَّةِ مِن تَجارِبنا الخاصَّةِ. كَشَفَت هٰذِهِ النَتائِجِ عَن دَلائِلِ عَلَى فُقْدانِ المَعْلُوماتِ فِي الأَبْعاد الأَدْنَى، وَهُوَ ما كانَ مَلْحُوظاً بِشَكْلٍ خاصٍّ فِي مَهامِّ مِثْلَ تَصْنِيفِ النُصُوصِ. كانَ الهَدَفَ مِن هٰذا النَهْجِ فِي تَقْسِيمِ البَياناتِ هُوَ اِسْتِكْشافٍ تَأْثِيراتِ طُرُقٍ MAFT وOFA، سَواءُ مَعَ البَياناتِ الاِصْطِناعِيَّةِ أَو بِدُونِها، عَلَى أَداءِ النَمُوذَجِ.
قُمْنا بِمُقارَنَة نَماذِجنا الجَدِيدَةِ مَعَ النَماذِجِ الأَساسِيَّةِ التالِيَةِ:
XLM-R (conneau-etal-2020-unsupervised): نَمُوذَجَ يَعْتَمِد فَقَط عَلَى المِشْفَر وَالَّذِي خَضَعَ لِلتَدْرِيبِ المُسْبَقِ عَلَى 100 لُغَةً مِن خِلالَ هَدَفَ نَمُوذَجَ اللُغَةِ المُقْنِعَةِ. XLM-R لا يُغَطِّي أَيّ لُغَةً تَمَّ تَقْيِيمها فِي هٰذا العَمَلِ.
Serengeti (adebara-etal-2023-serengeti): تَمَّ تَدْرِيبه عَلَى 500 لُغَةً أَفْرِيقِيَّةٍ، بِما فِي ذٰلِكَ 10 لُغات ذاتِ مَوارِدِ عالِيَةٍ. يَشْمَل Kimbundu، Umbundu، وَ Chokwe.
Glot-500 (imanigooghari-etal-2023-glot500): مُشْتَقّ مِن XLM-R، تَمَّ تَوْسِيعه لِيُغَطَّى 500 لُغَةً مِن خِلالَ تَوْسِيعِ مُفْرَداته مِن 250K إِلَى 400K، وَبِالتالِي اِسْتِيعابِ رُمُوزِ جَدِيدَةٍ تُمَثِّل 400 لُغَةً غَيْرِ مَوْجُودَةٌ سابِقاً فِي XLM-R. Glot-500 يُغَطِّي جَمِيعِ اللُغاتِ الأَنْغُولِيَّة المُسْتَخْدَمَةِ فِي تَقْيِيمنا.
AfroXLMR-base (alabi-etal-2022-adapting): تَمَّ تَطْوِيرُهُ بِاِسْتِخْدامِ طَرِيقَةِ MAFT، يُغَطِّي 20 لُغَةً مَعَ مَجْمُوعَةِ أُحادِيَّةُ اللُغَةِ لا تُقِلّ عَن 50MB. اللُغاتِ الأَنْغُولِيَّة غَيْرِ مَشْمُوله.
AfroXLMR-base-76L (adelani2023sib200): تَمَّ تَطْوِيرُهُ بِاِسْتِخْدامِ طَرِيقَةِ MAFT، يُغَطِّي اللُغاتِ الَّتِي لَدَيها بَياناتٍ عَلَى الوِيب لا تُقِلّ عَن 10MB. يُوَسِّع التَغْطِيَةِ لِتَشْمَل المَزِيدِ مِن اللُغاتِ، وَلا سِيَّما تِلْكَ المُدْرَجَةِ فِي نَمُوذَجَ NLLB-200 MT. تَمَّ إِنْشاءِ بَياناتٍ اِصْطِناعِيَّةٍ أَيْضاً لِحَوالَى 30 لُغَةً ذاتِ بَياناتٍ مَحْدُودَةٍ، بِما فِي ذٰلِكَ جَمِيعِ اللُغاتِ الأَنْغُولِيَّة الخَمْسِ. فِي المَجْمُوعِ، يُغَطِّي 76 لُغَةً.
OFA (liu2023ofa): يُدْمَج تَهْيِئَةِ التَضْمِين OFA جَنْباً إِلَى جَنْبٍ مَعَ MAFT بِاِسْتِخْدامِ Glot500-c (imanigooghari-etal-2023-glot500)، وَبِالتالِي يَشْمَل جَمِيعِ اللُغاتِ المُعالَجَةِ فِي هٰذا العَمَلِ.
نَتائِجِ المِعْيار: مُقارَنَةً فَعّالِيَّةِ (OFA) مَعَ التَهْيِئَة العَشْوائِيَّةِ قِبَلَ التَنْعِيم الدَقِيقِ المُتَعَدِّدِ اللُغاتِ (MAFT)
Table[table-1] تُظْهِر أَداءِ نَماذِجنا الأَساسِيَّةِ بِاِسْتِخْدامِ مِقْياسِ F1 المَوْزُون. نُناقِش أَهَمَّ النَتائِجِ أَدَنّاهُ:
أَظْهَرَت نَتائِجنا أَنَّ (AngBERT) المَنْشَأِ بِاِسْتِخْدامِ (MAFT) أَدَّى أَداءِ أَفْضَلَ مِن (XLM-R)، (AfroXLMR)، (Serengeti) وَ(Glot-500) ب \(+5.5\)، \(+1.2\)، \(+3.6\)، \(+6.6\) نِقاطٍ عَلَى التَوالِي. لَقَد تَمَّ تَدْرِيبِ آخَرِ نَمُوذَجَيْنِ مُسْبَقاً عَلَى أَكْثَرَ مِن 500 لُغَةً مَعَ عَدَدٍ قَلِيلٍ مِن اللُغاتِ الأَنْغُولِيَّة وَلٰكِن أَداؤهما كانَ أَسْوَأ مِن (AfroXLMR) (المُكَيَّف مِن خِلالَ (MAFT) إِلَى 20 لُغَةً)، وَ(AngBERT) (المُكَيَّف إِلَى خَمْسِ لُغات أَنْغُولِيّه). هٰذا يُظْهِر أَنَّ نَماذِجَ اللُغَةِ المُحَدَّدَةِ بِالمِنْطَقَةِ الَّتِي تُغَطِّي اللُغاتِ المُتَّصِلَةِ ضِمْنَ نَفْسِ العائِلَةِ اللُغَوِيَّةُ يُمْكِن أَنَّ تَكُون أَكْثَرَ فَعّالِيَّةِ.
مِن خِلالَ دَمْجِ بَياناتٍ اِصْطِناعِيَّةٍ إِضافِيَّةً، تَحَسُّنِ أَداءِ (AngBERT) (+SYN data) ب \(+5.5\) عَن (AngBERT) بِدُونِ بَياناتٍ اِصْطِناعِيَّةٍ. وَمَعَ ذٰلِكَ، فَشَلِ فِي تَجاوُزِ أَداءِ (AfroXLMR-base-76L) الَّذِي تَمَّ تَدْرِيبه عَلَى 76 لُغَةً أَفْرِيقِيَّةٍ بِما فِي ذٰلِكَ جَمِيعِ اللُغاتِ الأَنْغُولِيَّة بِاِسْتِثْناءِ لَوَبَأ-كَأْسايَ مَعَ أَكْبَرَ بَياناتٍ. أَظْهَرَت تَجْرِبَتنا أَنَّ النَمُوذَجِ المُكَيَّف لِ 76 لُغَةً أَدَّى أَداءِ أَفْضَلَ مِن (Serengeti) المُدَرِّبِ مُسْبَقاً عَلَى 500 لُغَةً، مِمّا يُظْهِر أَنَّنا يُمْكِن أَنَّ نُنْشِئ نَماذِجَ لُغَةً أَفْضَلَ لِتَغْطِيَةِ المَزِيدِ مِن اللُغاتِ مِن خِلالَ التَكَيُّفِ دُونِ العَمَلِيَّةِ المُكَلَّفَةِ لِلتَدْرِيبِ مِن الصِفْرِ.
أَظْهَرَت النَماذِجِ المُهَيَّأَة مَعَ (OFA) تَحَسُّناً مُسْتَمِرّاً مُقارَنَةً بِالنَماذِج الأَساسِيَّةِ الأُخْرَى. هٰذا يُشِير إِلَى أَنَّ (OFA)، الَّذِي يَسْتَفِيد صَراحَةً مِن المَعْلُوماتِ المشفره فِي تَضْمِينات النَمُوذَجِ المَصْدَرُ وَالتَضْمِينات مُتَعَدِّدَةِ اللُغاتِ الخارِجِيَّةِ، أَفْضَلَ مِن التَهْيِئَة العَشْوائِيَّةِ. بِشَكْلٍ مَلْحُوظٍ، تَمَّ تَعْزِيزِ مِيزَةً (AngOFA) عَلَى (OFA) مِن خِلالَ وُصُولِهِ إِلَى مَجْمُوعَةِ بَياناتٍ أَكْبَرَ بِكَثِيرٍ لَلُغات المَعْنِيَّةِ مِن خِلالَ اِسْتِخْدامِ البَياناتِ الاِصْطِناعِيَّةِ. بِدُونِ البَياناتِ الاِصْطِناعِيَّةِ الإِضافِيَّة، أَدَّى (AngOFA) أَداءِ أَسْوَأ مِن (OFA) المُدَرِّبِ مُسْبَقاً عَلَى 500 لُغَةً بِاِنْخِفاضِ قَدَّرَهُ \(-3.2\). وَمَعَ ذٰلِكَ، عِنْدَما تَمَّ التَدْرِيبِ عَلَى البَياناتِ الاِصْطِناعِيَّةِ، حَقَّقَ (AngOFA) أَفْضَلَ أَداءِ شامِلٍ ب \(+16.6\) عَلَى (XLM-R)، \(+12.3\) عَلَى (AfroXLMR)، وَ \(+5.6\) عَلَى (AngBERT) (مَعَ بَياناتٍ اِصْطِناعِيَّةٍ).
هٰذا البَحْثِ يُقَدِّم أَرْبَعَةِ نَماذِجَ مِن النَماذِجِ اللُغَوِيَّةُ مُتَعَدِّدَةِ اللُغاتِ مُصَمِّمَةً خَصِيصاً لَلُغات أَنْغُولا. تُوَضِّح نَتائِجِ تَجارِبنا أَنَّ اِسْتِخْدامِ تَهْيِئَةِ التَضْمِين المُسْتَنِيرَة يُعَزِّز بِشَكْلٍ كَبِيرٍ أَداءِ نَمُوذَجَ MAFT فِي المَهامّ اللاحِقَةِ. بَيْنَما النَماذِجِ الَّتِي تَمَّ تَهْيِئَتها بِاِسْتِخْدامِ OFA تُظْهِر نَتائِجِ مُتَفَوِّقَةً مُقارَنَةً بِنَظِيراتها، حَتَّى فِي الحالَةِ الَّتِي يَتِمّ فِيها تَدْرِيبِ AngBert عَلَى مَجْمُوعَةِ بَياناتٍ أَكْبَرَ لَلُغات المَعْنِيَّةِ وَلٰكِنَّهُ يُؤَدِّي بِشَكْلٍ ضَعِيفِ مُقارَنَةً ب OFA المُدَرِّبِ عَلَى مَجْمُوعَةِ بَياناتٍ أَصْغَرِ. وَمَعَ ذٰلِكَ، فَإِنَّ العَوامِلُ المُحَدَّدَةِ الَّتِي تُساهِم فِي تَفُوق AngBert عَلَى OFA، خاصَّةٍ فِي سِياقِ لَوَبَأ-كَأْسايَ، تُثِير أَسْئِلَةٍ مُثِيرَةٍ لِلاِهْتِمامِ حَوْلَ العَوامِلُ الأَساسِيَّةِ الَّتِي تُؤَثِّر عَلَى أَداءِ النَماذِجِ فِي المَهامّ اللاحِقَةِ، بِما فِي ذٰلِكَ الاِعْتِباراتُ مِثْلَ حَجْمِ مَجْمُوعَةِ البَياناتِ مُقابِلَ تَهْيِئَةِ التَضْمِين المُسْتَنِيرَة. هٰذِهِ الأَسْئِلَةِ مَتْرُوكه لِلتَحْقِيقِ فِي المُسْتَقْبَلِ. عِلاوَةً عَلَى ذٰلِكَ، نَهْدِف إِلَى تَوْسِيعِ تَطْبِيقِ OFA لِمَزِيدٍ مِن اللُغاتِ الأَفْرِيقِيَّةِ لِاِسْتِكْشافِ أَكْثَرَ.
تَمَّ دَعْمِ هٰذا العَمَلِ جُزْئِيّاً بِواسِطَةِ اِعْتِماداتٍ وَمَوارِد Oracle Cloud المُقَدَّمَةِ مِن Oracle. يَعْتَرِف David Adelani بِدَعْمٍ بَرْنامَجِ DeepMind Academic Fellowship.