latex
لَقَد أَظْهَرَت النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ فَعّالِيَّتها فِي تَطْبِيقات لُغَوِيّه مُتَعَدِّدَةِ، بِما فِي ذٰلِكَ تَلْخِيصُ النُصُوصِ وَتَوْلِيدِ النُصُوصِ المُوَجَّهَةِ. وَمَعَ ذٰلِكَ، لا تَزال الدِراساتِ حَوْلَ قُدْرَتِها عَلَى التَبْدِيل بَيِّنَ الأَسالِيبِ عَبْرَ ضَبْطِ التَعْلِيماتِ غَيْرِ مُسْتَكْشِفه بِشَكْلٍ كافٍ. تُرَكِّز هٰذِهِ الدِراسَةُ عَلَى قُدْراتٍ التَبْدِيل بَيِّنَ الأَسالِيبِ لِلنَماذِج اللُغَوِيَّةُ الكَبِيرَةِ وَتَقَدَّمَ نَهْجاً جَدِيداً يُسَمَّى ProSwitch، الَّذِي يُمْكِن نَمُوذَجَ اللُغَةِ مِن تَوْلِيدِ نُصُوصُ بِأُسْلُوبَيْنِ اِحْتِرافِيٍّ وَغَيْرِ اِحْتِرافِيٍّ، مِن خِلالَ الضَبْطِ وَالتَقْيِيم بِمُساعَدَةِ المَعْرِفَةِ المُتَعَلِّقَةِ بِالمَجال وَالأُسْلُوبُ. يَتَكَشَّف ProSwitch عَبْرَ ثَلاثِ مَراحِلِ: التَحْضِيرِ المُعَزِّز بِالنَمُوذَج اللُغَوِيُّ الكَبِيرِ لِجَمْعِ المَعْرِفَةِ المُتَعَلِّقَةِ بِالمَجال وَأَزْواج الأَسْئِلَةِ وَالأَجْوِبَة؛ ضَبْطِ التَعْلِيماتِ لِتَحْسِينِ النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ مَعَ مُسْتَوَياتٍ مُتَعَدِّدَةِ مِن صِيَغٍ التَعْلِيماتِ؛ وَالتَقْيِيم الشامِلِ لَتَقْيِيم كُلِّ مِن التَمْيِيزِ الاِحْتِرافِيّ وَجُودَةِ النَصِّ المُوَلِّدِ بِناءَ عَلَى المَراجِعِ. تَكْشِف التَحْلِيلاتِ المُقارَنَةِ لِ ProSwitch مُقابِلَ النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ العامَّةِ وَالمُتَخَصِّصَةِ أَنَّ نَهْجنا يَتَفَوَّق عَلَى الأَساسِيّات فِي التَبْدِيل بَيِّنَ تَوْلِيدِ النُصُوصِ الاِحْتِرافِيَّةُ وَغَيْرِ الاِحْتِرافِيَّةُ.
لَقَد تَفَوَّقَت نَماذِجَ اللُغَةِ الكَبِيرَةِ، مِثْلَ ChatGPT وَ Llama (llama)، فِي مَهامِّ اللُغَةِ الطَبِيعِيَّةِ، بِما فِي ذٰلِكَ الإِجابَةَ عَلَى الأَسْئِلَةِ (omar2023chatgpt, tan2023chatgpt, baek2023knowledgeaugmented) وَاِسْتِخْراج المَعْلُوماتِ (perot2023lmdx, PromptIE). فِي المَجالاتِ المُحَدَّدَةِ، يُمْكِن لَنَماذِج اللُغَةِ الكَبِيرَةِ تَقْدِيمِ إِجابات تَتَناسَب مَعَ أُسْلُوبِ مُعَيَّنٍ مِن خِلالَ دَمْجِ المَعْرِفَةِ المُتَخَصِّصَةِ، كَما هُوَ الحالِ مَعَ ChatDoctor (chatdoctor)، ChatLaw (chatlaw) وَ FinGPT (fingpt). وَمَعَ ذٰلِكَ، لا تَزال نَماذِجَ اللُغَةِ الكَبِيرَةِ غَيْرِ مُسْتَغَلّه بِشَكْلٍ كافٍ فِي التَبْدِيل بَيِّنَ سياقات مُخْتَلِفَةٍ، مِثْلَ الأَسالِيبِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ.
تَهْدِف الأَبْحاثِ السابِقَةِ إِلَى تَحْقِيقِ الهَدَفَ المَذْكُورِ أَعْلاه مِن مَنْظُورٍ تُخَصَّصِي مُتَنَوِّعِ. تُرَكِّز بِعَضِّ الدِراساتِ فِي عُلِمَ اللُغَةِ وَالتَرْبِيَةِ عَلَى وَصَفَ خَصائِصِ اللُغَةِ المِهْنِيَّةِ وَالعامِّيَّة (malyuga2021expressive, orrego2016reception, malyuga2012professional)، مُشِيرَةً إِلَى أَنَّ السِمَةُ المُمَيَّزَةِ لِلُغَةِ المِهْنِيَّةِ هِيَ المُعْجَمِ المصطلحي وَالبُنْيَةِ المَنْطِقِيَّةِ. تَحَقَّقَ دِراساتٍ أُخْرَى فِي عُلِمَ الحاسُوب نَقْلِ الأُسْلُوبِ بِهَدَفِ اِسْتِهْدافِ المُسْتَخْدَمِينَ الخُبَراءِ وَالعامَّةُ (pu-demberg-2023-chatgpt, xu2022self) مِن خِلالَ تَوْلِيدِ نُصُوصُ قابِلَةٍ لِلتَحَكُّمِ، حَيْثُ يَتِمّ تَوْفِيرِ مُطالَبَةِ تُحَدِّد الأُسْلُوبِ المَطْلُوبِ لَنَمُوذَج اللُغَةِ لِإِنْتاجِ مُحْتَوَى يُحاكَى السِينارِيُوهات الواقِعِيَّةِ (zhou2023controlled, NEURIPS2021_d0f5edad, li2022diffusionlm, pascual-etal-2021-plug-play). وَمَعَ ذٰلِكَ، لا تَزال هُناكَ بِعَضِّ القَضايا الَّتِي لَم تَسْتَكْشِف بُعْدَ. أَوَّلاً، الأَبْحاثِ الحالِيَّةِ لا تُعالِج بِشَكْلٍ كافٍ اِكْتِساب قُدْراتٍ التَبْدِيل بَيِّنَ الأَسالِيبِ فِي نَماذِجَ اللُغَةِ الكَبِيرَةِ مِن حَيْثُ الجَوانِبِ المُعْجَمِيَّة وَالهَيْكَلِيَّة، خاصَّةٍ فِيما يَتَعَلَّق بِالنُصُوص المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. ثانِياً، مِن الضَرُورِيِّ اِقْتِراحِ إِسْتراتِيجِيّاتِ تَقْيِيمِ كَمِّيَّةِ لَتَقْيِيم التَمْيِيزِ الاسلوبي لِلنُصُوص الَّتِي تُوَلِّدها نَماذِجَ اللُغَةِ الكَبِيرَةِ. تَحْفِز المُلاحَظاتِ المَذْكُورَةِ أَعْلاه عَلَى اِسْتِكْشافٍ السُؤالُ التالِي: كَيْفَ يُمْكِن تَحْسِينِ قُدْرَةِ نَمُوذَجَ اللُغَةِ الكَبِيرَةِ عَلَى التَبْدِيل بَيِّنَ الاِسْتِجابات ذاتِ الأُسْلُوبِ المِهْنِيِّ وَغَيْرِ المِهْنِيِّ، دُونِ المِساسِ بِمَهاراتٍ تَوْلِيدِ النُصُوصِ.
تَقَدَّمَ هٰذِهِ الدِراسَةُ ProSwitch، وَهِيَ طَرِيقَةِ لِتَحْسِينِ قُدْرَةِ التَبْدِيل بَيِّنَ الأَسالِيبِ المِهْنِيَّةِ فِي نَمُوذَجَ اللُغَةِ الكَبِيرَةِ مِن خِلالَ تَعْدِيلِ التَعْلِيماتِ المُوَجَّهَةِ بِالمَعْرِفَةِ وَالتَقْيِيم. تَتَضَمَّن العَمَلِيَّةِ ثَلاثِ مَراحِلِ، كَما هُوَ مُوَضِّح فِي الشَكْلِ [framework]. فِي مَرْحَلَةِ إِعْدادِ البَياناتِ، نَجْمَع المَقالاتِ وَالمَفاهِيمِ المُحَدَّدَةِ بِالمَجال، ثُمَّ نُولَد مَجْمُوعَةِ بَياناتٍ مُتَوازِنَةٍ وَمَوْسُومه مِن أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة مِن خِلالَ عَمَلِيَّةِ تَوْسِيعِ البَياناتِ شِبْهِ الآلِيَّةِ. خِلالَ تَعْدِيلِ التَعْلِيماتِ، نُصَمِّم صِيَغاً مُتَعَدِّدَةِ لِلمُطالَبات لَنَمُوذَج اللُغَةِ الكَبِيرَةِ المُدَرِّبِ مُسْبَقاً لِتَحْسِينِ قُدْرَتِهِ عَلَى التَبْدِيل بَيِّنَ الأَسالِيبِ مِن خِلالَ تَوْفِيرِ المَعْلُوماتِ عَلَى مُسْتَوَياتٍ مُخْتَلِفَةٍ مِن التَفْصِيل. بِناءَ عَلَى مِيزاتِ الاِحْتِرافِ المَوْصُوفَة فِي الدِراساتِ السابِقَةِ وَقُدْراتِ التَحْلِيلِ الدَلالِيّ القَوِيَّةِ لِ GPT-4 (openai2023gpt4)، نَقْتَرِح إِسْتراتِيجِيَّةِ تَقْيِيمِ شامِلَةٍ تَحْتَوِي عَلَى مُؤَشِّراتٌ لِكُلِّ مِن التَمْيِيزِ الاِحْتِرافِيّ وَجُودَةِ اللُغَةِ المَرْجِعِيَّةِ. تُشِير نَتائِجنا إِلَى أَنَّ ProSwitch يُمْكِن أَنَّ يُحَسِّن بِشَكْلٍ كَبِيرٍ قُدْرَةِ التَبْدِيل بَيِّنَ الأَسالِيبِ مُقارَنَةً بِنَماذِج اللُغَةِ الكَبِيرَةِ العامَّةِ وَالمُتَخَصِّصَةِ.
بِاِخْتِصار، إِسْهاماتنا كَالتالِي: (1) نُقَدِّم ProSwitch، البَحْثِ الأَوَّلِ عَن تَوْلِيدِ نُصُوصُ ذاتِ أُسْلُوبِ مِهْنِيّ وَغَيْرِ مِهْنِيّ مِن خِلالَ اِسْتِغْلالِ المَعْرِفَةِ المجاليه عَبْرَ تَعْدِيلِ تَعْلِيماتٍ نَماذِجَ اللُغَةِ الكَبِيرَةِ، وَهُوَ مُخْتَلِفِ عَن الدِراساتِ النَمَطِيَّة لِنَقْلِ الأُسْلُوبِ الَّتِي تُرَكِّز فَقَط عَلَى التَغْيِيراتِ المُعْجَمِيَّة. (2) نَقْتَرِح وَنُحَلِّل صِيَغٍ التَعْلِيماتِ مِن مُسْتَوَياتٍ مُتَعَدِّدَةِ لِتَنْفِيذِ عَمَلِيَّةِ تَعْدِيلِ التَعْلِيماتِ، مِن خِلالَ تَوْفِيرِ مَعْلُوماتٍ مَجالَيْهِ غَنِيَّةٌ بِشَكْلٍ مُتَزايِدٍ، وَهُوَ ما يَخْتَلِف عَن تَعْدِيلِ المُطالَبات وَتَعْدِيلِ التَعْلِيماتِ المُسْتَوَى الواحِدِ المُسْتَخْدِمُ فِي مَهامِّ نَقْلِ الأُسْلُوبِ السابِقَةِ وَتَوْلِيدِ النُصُوصِ القابِلَةِ لِلتَحَكُّمِ. (3) نَقُوم بِتَقْيِيم شامِلٍ مِن خِلالَ اِقْتِراحِ مُؤَشِّراتٌ مِن جَوانِبَ التَمْيِيزِ الاِحْتِرافِيّ وَجُودَةِ اللُغَةِ. الأَداءِ فِي مَجْمُوعاتٍ بَياناتٍ الأَسْئِلَةِ وَالأَجْوِبَة مِن المَجالاتِ الطِبِّيَّةِ وَتِكْنُولُوجِيا المَعْلُوماتِ يَكْشِف أَنَّ ProSwitch يَتَفَوَّق عَلَى نَماذِجَ اللُغَةِ الكَبِيرَةِ العامَّةِ وَالمُتَخَصِّصَةِ فِي قُدْرَتِهِ عَلَى التَبْدِيل بَيِّنَ تَوْلِيدِ النُصُوصِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ.
يَتَضَمَّن نَقْلِ أُسْلُوبِ النَصِّ تَغْيِيرٍ أُسْلُوبِ جُمْلَةِ مَدْخَله دُونِ تَغْيِيرٍ مَعْناها الأَساسِيُّ (Jin_Jin_Hu_Vechtomova_Mihalcea_2022, Babakov_Dale_Logacheva_Panchenko_2022, Mir_Felbo_Obradovich_Rahwan_2019). لَقَد اُسْتُخْدِمَت الدِراساتِ السابِقَةِ طُرُقٍ تَعْلَم التَسَلْسُل إِلَى التَسَلْسُل الَّتِي تُطَبِّق مَجْمُوعاتٍ مُتَوازِيه مَعَ جُمَلٍ مُقْتَرِنه بِأَسالِيبِ مُخْتَلِفَةٍ (Cheng_Gan_Zhang_Elachqar_Li_Liu_2020, hu-etal-2021-syntax). وَمَعَ ذٰلِكَ، بِسَبَبِ الطَلَبِ العالِي عَلَى المَوارِدِ وَالتَكالِيفِ لِتُسَمِّيه البَياناتِ، فَإِنَّ البَياناتِ المُتَوازِيَة بِأَسالِيبِ مُتَنَوِّعَةٍ مَحْدُودَةٍ. وَقَد شَجَّعَ ذٰلِكَ عَلَى اِهْتِمامَ مُتَزايِدٍ بِالتَحْقِيقِ فِي السِينارِيُوهات العَمَلِيَّةِ حَيْثُ تَتَوَفَّر فَقَط مَجْمُوعاتٍ غَيْرِ مُتَوازِيه مُصَمِّمَةً بِأُسْلُوبٍ (Reif_Ippolito_Yuan_Coenen_Callison-Burch_Wei_2022, Malmi_Severyn_Rothe_2020).
تَوْلِيدِ النُصُوصِ القابِلَةِ لِلتَحَكُّمِ هُوَ مَجالِ يَتَطَوَّر بِسُرْعَةٍ وَيَهْدِف إِلَى إِنْشاءِ نُصُوصُ أَو رُدُودِ بِخَصائِص مُحَدَّدَةٍ (Keskar_McCann_Varshney_Xiong_Socher_2019, Dathathri_Madotto_Lan_Hung_Frank_Molino_Yosinski_Liu_2019, He_Kryscinski_McCann_Rajani_Xiong_2021). تَمَّ اِقْتِراحِ إِسْتراتِيجِيّاتِ مُتَعَدِّدَةِ لِهٰذِهِ المُهِمَّةِ، بِما فِي ذٰلِكَ نَماذِجَ التَسَلْسُل إِلَى التَسَلْسُل الَّتِي أَظْهَرَت إِمْكاناتِ فِي إِنْشاءِ مُحْتَوَى مُمْتازٌ مُصَمِّمٌ لَاِحْتِياجات مُحَدَّدَةٍ (Wu_Liu_Liu_Stenetorp_Xiong_2021, Amplayo_Angelidis_Lapata_2021). كَما تَمَّ تَقْدِيمِ طُرُقٍ أُخْرَى لِتَحْسِينِ قابِلِيَّةِ التَحَكُّمِ فِي تَوْلِيدِ النُصُوصِ، مِثْلَ التَوْلِيد الشُرْطِيَّ (He_Kryscinski_McCann_Rajani_Xiong_2021)، وَالتَوْلِيد المَبْنِيَّ عَلَى الأَوامِرَ (yang-etal-2023-tailor)، وَالتَعَلُّمِ المُتَعَدِّدِ المَهامّ (gu-etal-2022-distributional).
يَجْمَع تَحْسِينِ التَعْلِيماتِ بَيِّنَ أَفْضَلَ جَوانِبَ نَهْجِي التَدْرِيبِ المُسْبَقِ وَالتَحْسِينِ وَالتَوْجِيهِ مِن خِلالَ التَحْسِين الإِشْرافِيّ (Wei_Bosma_Zhao_Guu_Yu_Lester_Du_Dai_Le_2021). بِهٰذِهِ الطَرِيقَةِ، يَتِمّ تَدْرِيبِ النَمُوذَجِ عَلَى التَنَبُّؤ التسلسلي لِكُلِّ رَمْزُ فِي الإِخْراج، بِناءَ عَلَى التَعْلِيماتِ والمدخلات (InstructGPT, BLOOMZ, alpaca, Vicuna). تُطَبِّق بِعَضِّ نَماذِجَ اللُغَةِ المُتَخَصِّصَةِ فِي المَجالاتِ أَسالِيبِ تَحْسِينِ التَعْلِيماتِ لِحَلِّ مَهامِّ أَو سِينارِيُوهاتٍ مُحَدَّدَةٍ، مِثْلَ اِسْتِخْراج المَعْلُوماتِ (InstructUIE)، تَحْلِيلِ العَواطِفِ (InstructSentiment)، الحِوارِ الطِبِّيُّ (chatdoctor)، وَتَوْلِيدِ الكود (WizardCoder). لِلتَكَيُّفِ السَرِيعِ مَعَ المَهامّ اللاحِقَةِ، تَعْمَل تَقْنِيّاتِ التَحْسِين الفَعّالَةَ، مِثْلَ التَقْنِيّاتِ المَبْنِيَّةُ عَلَى الإِضافَة (Schick_2021)، التَقْنِيّاتِ المَبْنِيَّةُ عَلَى التَحْدِيدِ (BitFit)، وَإِعادَةِ الصِياغَةُ (hu2022lora)، عَلَى تَحْسِينِ جُزْء صَغِيرٍ مِن المُعامَلاتِ.
عَلَى الرَغْمِ مِن التَقَدُّمِ المَوْصُوف أَعْلاه، لَم تَسْتَكْشِف الأَبْحاثِ قُدْرَةِ النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ عَلَى التَبْدِيل بَيِّنَ الأَنْماط بَيِّنَ النُصُوصِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ بِتَوْجِيهِ مِن التلميحات المُسْتَهْدَفَة وَالمَعْرِفَةِ المُحَدَّدَةِ لِلمَجال. تَظَلّ هٰذِهِ القُدْرَةِ المُحْتَمَلَةِ لِلنَماذِج اللُغَوِيَّةُ الكَبِيرَةِ بِاِنْتِظارِ مَزِيدٍ مِن الاِسْتِقْصاءِ.
اِسْتِناداً إِلَى الدِراساتِ السابِقَةِ فِي عُلِمَ اللُغَةِ وَالتَعْلِيمِ (malyuga2021expressive, orrego2016reception, malyuga2012professional)، يَتِمّ قِياسُ اِحْتِرافَيْهِ الجُمْلَةُ مِن خِلالَ تَحْلِيلِ المُصْطَلَحاتِ المُحَدَّدَةِ لِلمَجال وَالبُنْيَةِ المَنْطِقِيَّةِ، مِمّا يَتَطَلَّب تَقْدِيرٍ المُصْطَلَحاتِ وَتَسَلْسُلات التَفْكِيرِ. ثُمَّ يُمْكِن حِسابِ اِحْتِرافَيْهِ الجُمْلَةُ كَما يَلِي: \[\begin{aligned} Pro(O)=f_i(f_t(O,L_\mathcal{T}), f_{r}(O,\mathcal{M})) \label{eq:eq0} \end{aligned}\] حَيْثُ أَنَّ \(f_t(\cdot)\) وَ \(f_r(\cdot)\) هُما دالَّتانِ لِحِسابِ المُصْطَلَحاتِ الخاصَّةِ بِالمَجال وَتَسَلْسُلات التَفْكِيرِ مِن الجُمْلَةُ الناتِجَةِ \(O\)، وَ\(f_i(\cdot)\) هِيَ دالَّةٍ دَمْجِ المُؤَشِّرَيْنِ، \(L_\mathcal{T}\) هِيَ قائِمَةً المُصْطَلَحاتِ المُطابَقَة، \(\mathcal{M}\) هُوَ النَمُوذَجِ لِتَحْلِيلِ التَفْكِيرِ. عِنْدَما تُلَبِّي \(Pro(O)\) شَرْطاً مُعَيَّنا، يُمْكِن مُعامَلَةِ الجُمْلَةُ \(O\) كَنَصٍّ مَكْتُوبٍ بِأُسْلُوبٍ اِحْتِرافِيٍّ.
نَقْتَرِح تَحْسِينِ قُدْرَةِ نَمُوذَجَ اللُغَةِ الكَبِيرِ عَلَى التَبْدِيل بَيِّنَ الأَسالِيبِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ، بِهَدَفِ تَعْظِيمِ التَمْيِيزِ بَيِّنَ النُصُوصِ المُوَلِّدَة بِالأُسْلُوبَيْنِ مَعَ الحِفاظِ عَلَى جُودَة الجَمَل المُوَلِّدَة، مِن خِلالَ التَقْيِيم بِاِسْتِخْدامِ مَجْمُوعَةِ مِن المُؤَشِّراتِ التَفْصِيلِيَّةِ. يُمْكِن صِياغَةِ هَدَفَنا كَما يَلِي: \[\begin{aligned} &\max \big(f_p(O_{p}, O_{np}) + f_q(O_{p}) + f_q(O_{np})\big), \\ &O_{p} = LM(Pmt_{p}), O_{np} = LM(Pmt_{np}) \label{eq:eq1} \end{aligned}\] حَيْثُ أَنَّ \(m\) هُوَ الأُسْلُوبِ المَطْلُوبِ لَتَعْظِيم دَرَجَةِ النَصِّ المُوَلِّدِ بِواسِطَةِ نَمُوذَجَ اللُغَةِ الكَبِيرِ. \(f_p(\cdot)\) وَ \(f_q(\cdot)\) هُما دالَّتانِ لَتَقْيِيم التَمْيِيزِ المِهْنِيِّ وَجُودَةِ النَصِّ المُوَلِّدِ عَلَى التَوالِي. \(O_p\) وَ \(O_{np}\) هُما النواتج المُوَلِّدَة بِواسِطَةِ نَمُوذَجَ اللُغَةِ \(LM\)، الَّذِي يَتِمّ تَزْوِيده بِمُطالَبات لِلأُسْلُوب المِهْنِيِّ \(Pmt_p\) وَالأُسْلُوبُ غَيْرِ المِهْنِيِّ \(Pmt_{np}\).
يُمْكِن اِعْتِبارِ الاِسْتِفْسارَ الَّذِي يُولَد الإِجاباتِ بِواسِطَةِ نَمُوذَجَ اللُغَةِ الكَبِيرِ فِي أُسْلُوبِ مُعَيَّنٍ عَلَى أَنَّهُ تَكْوِينِ لِثَلاثِ مُكَوِّناتِ: إِرْشادات المُهِمَّةِ وَالأُسْلُوبُ، الأَسْئِلَةِ الَّتِي يَجِب مُعالَجَتُها، وَمَعْلُوماتٍ الحَدِّ المُتَعَلِّقَةِ بِنَمُوذَجٍ اللُغَةِ لِلحِفاظِ عَلَى تَناسُقَ الناتِجِ. يُمْكِن صِياغَةِ الاِسْتِفْسارَ المُسْتَخْدِمُ فِي دِراسَتنا كَما يَلِي: \[\begin{aligned} Pmt_p =& Guide_p \oplus Q_n \oplus Limit_{lm}, \\ Pmt_{np} =& Guide_{np} \oplus Q_n \oplus Limit_{lm} \label{eq:eq2} \end{aligned}\] ، حَيْثُ \(Guide_p\) وَ \(Guide_{np}\) هُما الإِرْشادات لَتَوْلِيد إِجابات بِأُسْلُوبٍ اِحْتِرافِيٍّ وَغَيْرِ اِحْتِرافِيٍّ. \(Q_n\) هِيَ السُؤالُ ال\(n\) الَّذِي يَحْتاج إِلَى أَجابَهُ. \(Limit_{lm}\) هُوَ النَصِّ التقييدي لَنَمُوذَج لُغَةً مُحَدَّدٍ \(lm\). تَرْتَبِط هٰذِهِ المُكَوِّناتِ بِعامِل الرَبْطِ \(\oplus\).
تُظْهِر الأَسالِيبِ المِهْنِيَّةِ غالِباً فِي السِينارِيُوهات الأَكادِيمِيَّةِ مِثْلَ المَقالاتِ العِلْمِيَّةِ وَأَوْراقَ المُؤْتَمَراتِ، خاصَّةٍ فِي المَجالاتِ المَعْرِفِيَّة مِثْلَ الرِعايَةُ الصِحِّيَّةِ وَالطِبّ. فِي الوَقْتِ نَفْسِهِ، يُمْكِن تَعْلَم مِيزاتِ الأُسْلُوبِ المِهْنِيِّ مِن مَهامِّ الأَسْئِلَةِ وَالأَجْوِبَة المُتَخَصِّصَةِ. اِسْتِناداً إِلَى المَعْلُوماتِ أَعْلاه، جَمَعَنا مَجْمُوعَتَيْنِ مِن بَياناتٍ الأَسْئِلَةِ وَالأَجْوِبَة الطِبِّيَّةِ، (BioASQ) وَ(PubMedQA)، المُسْتَمَدَّةِ مِن المَقالاتِ الأَكادِيمِيَّةِ. تَهْدِف الإِجاباتِ فِي هٰذِهِ المَجْمُوعاتِ إِلَى تَوْضِيحِ الأَسْئِلَةِ اِسْتِناداً إِلَى قِسْمِ مِن الأَوْراقِ ذاتِ الصِلَةِ، وَالَّتِي تَكُون غَنِيَّةٌ بِالمُصْطَلَحات الفَنِّيَّةِ والشروحات المُفَصَّلَة. نَعْتَبِر هٰذِهِ المَجْمُوعاتِ بِمَثابَةِ بُذُورِ لَبَيانات التَدْرِيبِ ذاتِ الأُسْلُوبِ المِهْنِيِّ.
لاحَظْنا تَبايُناتٌ واضِحَةٍ فِي الأُسْلُوبِ بَيِّنَ أَنْواعِ مُخْتَلِفَةٍ مِن أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة. عَلَى سَبِيلِ المِثالِ، تَخْتَلِف أَجابَهُ تُسْتَخْدَم قائِمَةً مِن المُصْطَلَحاتِ بِشَكْلٍ كَبِيرٍ عَن أَجابَهُ تَشْرَح ظاهِرَةِ بِاِسْتِخْدامِ الكَلِماتُ فَقَط. هٰذا يَلْهَمنا لِتَصْنِيفِ أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة حَسَبَ أَنْواعِ الأَسْئِلَةِ لِمُساعَدَةِ النَمُوذَجِ عَلَى تَعْلَم المِيزاتِ المُتَعَلِّقَةِ بِالنَوْع مِن الاِحْتِرافِيَّةُ. وِفْقاً لِ(BioASQ)، نَعْتَبِر أَرْبَعَةِ أَنْواعِ: القائِمَةِ، الخُلاصَةِ، نَعَم/لا، وَالحَقِيقِيَّةِ. وَمَعَ ذٰلِكَ، لا يُحَدِّد (PubMedQA) أَيّ أَنْواعِ، لُذّاً نَسْتَخْدِم (GPT-4) لِتَصْنِيفِ كُلِّ زَوْج مِن الأَسْئِلَةِ وَالأَجْوِبَة إِلَى أَحَدُ الأَنْواع الأَرْبَعَةِ مِن خِلالَ تَقْدِيمِ بِعَضِّ الأَمْثِلَة، يَلِيه فَحْص يَدَوِيٍّ (التَفاصِيلِ فِي المُلْحَقِ [typecls]). يُمْكِن صِياغَةِ مُهِمَّةً تَصْنِيفِ النَوْعِ المَدْعُومَةِ بِنَماذِج اللُغَةِ الكَبِيرَةِ كَما يَلِي: \[\begin{aligned} T(Q_n) & = LM(Pmt_t, (Q_n, A_n), L_t, \{S_1, ..., S_k\}) \\ L_t & = \{list, summarize, yes/no, factoid\} \label{eq:eq3} \end{aligned}\]، حَيْثُ \(Q_n\) وَ\(A_n\) هُما السُؤالُ وَالجَواب اللَّذانِ يَحْتاجانِ إِلَى التَصْنِيفِ. \(Pmt_t\) هُوَ التَعْلِيماتِ الأَوَّلِيَّةِ لَأَداء مُهِمَّةً التَصْنِيفِ حَسَبَ نَوْعٍ السُؤالُ مَعَ مَجْمُوعَةِ تَسْمِيات النَوْعِ \(L_t\). \(\{S_1, ..., S_k\}\) هُوَ مَجْمُوعَةِ الأَمْثِلَة لَأَداء التَعَلُّمِ بِعَدَدٍ قَلِيلٍ مِن الأَمْثِلَة، حَيْثُ \(k\) هُوَ عَدَدٍ الأَمْثِلَة.
نَظَراً لِعَدَمِ وُجُودِ اِسْتِجابات غَيْرِ مِهْنِيَّةِ مُقابَلَةٍ فِي مَجْمُوعَةِ البَياناتِ الخاصَّةِ بِنا وَنَقْص أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة لِلتَدْرِيبِ بُكَلاً الأُسْلُوبَيْنِ، هُناكَ حاجَةٍ لَأَداء تَعْزِيزِ البَياناتِ لِمَرْحَلَةِ التَدْرِيبِ. بِاِسْتِخْدامِ نَماذِجَ اللُغَةِ الكَبِيرَةِ وَالتَعَلُّمِ فِي سِياقِ الاِسْتِخْدامِ (ICL) (ICLSurvey)، هَدَفَنا هُوَ تَوْلِيدِ أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة بِشَكْلٍ مُتَزايِدٍ لِكُلِّ نَوْعٍ مِن الأَسْئِلَةِ فِي كُلِّ أُسْلُوبِ، سَأُعَيَّن لِلحُصُولِ عَلَى حَجْمِ كافٍ وَمُتَساو. يُكَلِّف (GPT-4) بِتَوْلِيد الإِجاباتِ بِاِسْتِخْدامِ لُغَةً مِهْنِيَّةِ أَو غَيْرِ مِهْنِيَّةِ، مَعَ الاِلْتِزامِ بِالإِرْشادات الخاصَّةِ اِسْتِناداً إِلَى الأَسْئِلَةِ المُقَدَّمَةِ وَالرُجُوع إِلَى الأَمْثِلَة المُقَدَّمَةِ. لِتَعْزِيزِ البَياناتِ المِهْنِيَّةِ، يَسْتَخْدِم (GPT-4) حَصْرِيّا لِإِعادَةِ صِياغَةِ الإِجاباتِ المُشارِ إِلَيها. لَتَوْلِيد البَياناتِ غَيْرِ المِهْنِيَّةِ، يُوَفِّر (GPT-4) أَجابَهُ مُباشَرَةً بِلُغَةِ عامَيْهِ، متوافقه مَعَ الإِرْشادات المُقَدَّمَةِ (التَفاصِيلِ فِي المُلْحَقِ [dataaugment]). يُمْكِن صِياغَةِ مُهِمَّةً تَعْزِيزِ البَياناتِ عَلَى النَحْوِ التالِي: \[\begin{aligned} A(Q_n) =& LM(Pmt_a, Q_n, \{S_1, ..., S_k\}),\\ Pmt_a =& f_i(Dict, L_{p}, T(Q_n)) \label{eq:eq4} \end{aligned}\]، حَيْثُ \(Pmt_a\) هُوَ التَعْلِيماتِ الأَوَّلِيَّةِ لِلإِجابَة عَلَى الأَسْئِلَةِ المتوافقه مَعَ أَنْواعِ الأَسْئِلَةِ وَتَسْمِيات الأُسْلُوبِ. يَتِمّ اِسْتِرْجاعِ \(Pmt_a\) مِن قامُوسِ التَعْلِيماتِ المُحَدَّدِ مُسْبَقاً \(Dict\) بِواسِطَةِ وَظِيفَةٍ الفِهْرِسَة \(f_i\)، بِاِسْتِخْدامِ نَوْعٍ السُؤالُ \(T(Q_n)\) وَتَسْمِيَةَ الأُسْلُوبِ المِهْنِيِّ \(L_{p}\) كَمَفاتِيح.
عَلَى عَكْسَ دِراساتٍ نَقْلِ الأُسْلُوبِ الأُخْرَى، يَتَطَلَّب تَقْيِيمِ الاِحْتِرافِيَّةُ لَأَجابَهُ فِي مُهِمَّتِنا خِبْرَةِ مُحَدَّدَةٍ بِالمَجال، وَتُساعِدنا المُصْطَلَحاتِ فِي المَجالِ عَلَى أَداءِ التَقْيِيم تِلْقائِيّا. فِي المَجالِ الطِبِّيُّ، نَجْمَع (MeSH)، قائِمَةً مُصْطَلَحاتٍ طِبِّيَّةٌ مُسْتَخْدَمَةً عَلَى نِطاقِ واسِعٍ بِتَنْسِيق XML. نَسْتَخْرِج جَمِيعِ QualifierNames مِن المِلَفِّ الأَصْلِيُّ لِتَجْمِيعِ قائِمَةً المُصْطَلَحاتِ الطِبِّيَّةِ. ثُمَّ يَتِمّ اِسْتِخْدامِ هٰذِهِ القائِمَةِ كَمَعْرِفَة خارِجِيَّةِ لَمَجالنا لَمُطابَقَة العِباراتِ فِي أَجابَهُ لَتَقْيِيم اِحْتِرافِيَّتها كَمِّيّا.
مَعَ الأَزْواج السُؤالُ-جَوابٍ المُوَلِّدَة بِأُسْلُوبَيْنِ مِهْنِيّ وَغَيْرِ مِهْنِيّ، يَجِب أَنَّ نُقَدِّم تَوْجِيهاتٍ إِضافِيَّةً لِتَوْضِيحِ المُهِمَّةِ لَنَمُوذَج اللُغَةِ أَثْناءَ التَحْسِين الدَقِيقِ. مُتَّبَعَيْنِ تَنْسِيقِ التَعْلِيماتِ الخاصِّ ب (alpaca)، نَقُوم بِصِياغَة التَعْلِيماتِ الَّتِي تُرَكِّز عَلَى ثَلاثَةِ مُسْتَوَياتٍ مِن المَعْلُوماتِ لِمُهِمَّةِ تَبْدِيلَ الأُسْلُوبِ، كَما يَلِي.
أَوَّلاً، نُطَبِّق فَقَط الوَصْفَ السَطْحِيّ لِلأَسالِيب المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. تَنْقُل التَعْلِيماتِ لِلإِجابات المِهْنِيَّةِ كَما يَلِي: أَجِب عَن السُؤالُ وَأَشْرَح السَبَبِ بِخَطَواتٍ مُفَصَّلَةٌ بِاِسْتِخْدامِ تَعْبِيرات مِهْنِيَّةِ فَنِّيَّةٍ. أَمّا بِالنِسْبَةِ لِلإِجابات غَيْرِ المِهْنِيَّةِ، فَالتَعْلِيمات هِيَ: أَجِب عَن السُؤالُ وَأَشْرَح السَبَبِ بِشَرْح بَسِيطٍ بِاِسْتِخْدامِ تَعْبِيرات غَيْرِ مِهْنِيَّةِ عَفْوِيَّةً.
فِي المُقابِلِ، مَعَ الأَخْذِ فِي الاِعْتِبارِ الاِخْتِلافاتِ الكَبِيرَةِ فِي الاِسْتِجابات لِأَنْواعِ الأَسْئِلَةِ المُخْتَلِفَةِ، نَقْتَرِح تَنْسِيقِ تَعْلِيماتٍ دَقِيقَةً مِن خِلالَ تَقْدِيمِ وَصَفَ مَبْنِيٌّ عَلَى النَوْعِ مِثْلَ تَطْبِيقِ أَجِب عَن السُؤالُ ب وَأَشْرَح ب... لَأَسْئِلَة النَوْعِ القائِمَةِ. يُنْتِج عَن هٰذِهِ الصِياغَةُ تَبادُلِ بَيِّنَ عَلامَتَيْنِ اسلوبيتين (مِهْنِيَّةِ وَغَيْرِ مِهْنِيَّةِ) وَأَرْبَعَةُ أَنْواعِ مِن الأَسْئِلَةِ (قائِمَةً، مُلَخَّصُ، نَعَم/لا، وَحَقائِقَ).
عِلاوَةً عَلَى ذٰلِكَ، مَعَ المَعْلُوماتِ الغَنِيَّةِ المُعَبِّرَة المَوْجُودَةِ فِي المَقالاتِ ذاتِ الصِلَةِ بِالمَجال، نَقْتَرِح تَعْلِيماتٍ مُعَزِّزه بِالمَعْرِفَةِ مِن خِلالَ حَقَنَ مُقْتَطَفاتٌ المَقالاتِ المُتَعَلِّقَةِ بِالسُؤالِ، وَالَّتِي تَعامُلِ كَمَعْرِفَة ضِمْنِيَّةٍ لِلأُسْلُوب المِهْنِيِّ، لِبِناءِ التَعْلِيماتِ المِهْنِيَّةِ، مُنَسِّقَةُ كَما يَلِي: المَعْرِفَةِ: <article_snippet>. أَجِب عَن السُؤالُ وِفْقاً لَأُسْلُوب المَعْرِفَةِ المُقَدَّمَةِ وَ.... بِالنِسْبَةِ لِلتَعْلِيمات غَيْرِ المِهْنِيَّةِ، نَحْقُن جُمْلَةِ وَصَفَّيْهِ أَكْثَرَ كَمَعْرِفَة صَرِيحَةٌ لِلأُسْلُوب غَيْرِ المِهْنِيِّ لِشَرْحِ كَيْفَ يَنْبَغِي التَعْبِيرِ عَن الإِجابَةَ، مُنَسِّقَةُ كَما يَلِي: المَعْرِفَةِ: الإِجابَةَ غَيْرِ المِهْنِيَّةِ تَمِيل إِلَى اِسْتِخْدامِ الاِسْتِعارات وَالأَفْعالِ العباريه لِشَرْحِ السُؤالُ بِتَعْبِيرات تِكْنُولُوجِيَّةٍ وَتَنْظِيمِيَّةٍ أَقَلَّ. أَجِب عَن السُؤالُ وِفْقاً لِلمَعْرِفَة بِاِسْتِخْدامِ تَعْبِيرات غَيْرِ مِهْنِيَّةِ.
تَمْتَلِك نَماذِجَ اللُغَةِ المُخْتَلِفَةِ قُدْراتٍ مُتَفاوِتَةٍ وَيُمْكِنها تَوْلِيدِ نُصُوصُ بِأَطْوال وَتَنْسِيقات مُخْتَلِفَةٍ، مِمّا يُؤَدِّي إِلَى عَدَمِ تَناسُقَ فِي المُقارَناتِ. لِمُعالَجَةِ هٰذِهِ المُشْكِلَةِ، خِلالَ مَرْحَلَةِ الاِخْتِبارُ لَدَينا، نُضِيف مَعْلُوماتٍ تقييديه مُوجَزه كَما هُوَ مُوَضِّح فِي المُعادَلَةَ [eq:eq2] إِلَى أَسْئِلَةٍ الإِدْخال، مِمّا يُوَجِّه نَمُوذَجَ اللُغَةِ لَتَوْلِيد نَصَّ بِتَنْسِيقات مُماثِلَةٍ. عَلَى وَجْهِ التَحْدِيدِ، بِما أَنَّ بِعَضِّ النَماذِجِ المُعَدَّلَةِ بِبَيانات المُحادَثاتِ البَشَرِيَّةِ تَمِيل إِلَى تَقْدِيمِ إِجابات طَوِيلَةٍ، نَقُوم بِإِلْحاق عِبارَةٌ أَجِب عَن السُؤالُ مُباشَرَةً بِفَقْرَة واحِدَةٍ. بِالأَسْئِلَة أَثْناءَ الاِسْتِدْلال لِتَجَنُّبِ المَعْلُوماتِ غَيْرِ المُرْتَبِطَةِ وَالتَنْسِيقات المُخْتَلِفَةِ. بِالنِسْبَةِ لِلنَماذِج المُعَدَّلَةِ بِأَسْئِلَتنا، نَشْمَل وَلِماذا؟ لِلتَأْكِيدِ عَلَى أَنَّهُ مِن الضَرُورِيِّ تَقْدِيمِ المَزِيدِ مِن النُصُوصِ التوضيحيه إِلَى جانِبِ الإِجابَةَ الأَساسِيَّةِ.
لَتَقْيِيم قُدْرَةِ ProSwitch، نَقْتَرِح مَجْمُوعَةِ مِن المُؤَشِّراتِ لِإِظْهارِ التَمْيِيزِ بَيِّنَ الأَسالِيبِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ لِلناتِج المُوَلِّدِ. مُشِيرِينَ إِلَى المِهْنِيَّةِ المَعْرِفَةِ فِي القِسْمِ [professionalism]، نِصْفِ مُؤَشِّراتنا كَما يَلِي.
عَدَدٍ المُصْطَلَحاتِ الفَنِّيَّةِ المَوْجُودَةِ فِي فَقْرَةٍ مَوْلِده هُوَ مِقْياسِ مُفِيدٌ يَقُودنا لِتَقْدِيمِ مُؤَشَّرنا الأَوَّلِ. يَقِيس THG التَفاوُت بَيِّنَ عَدَدٍ المُصْطَلَحاتِ الفَنِّيَّةِ المَوْجُودَةِ فِي الرُدُود المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. مَعَ جَمْعِ مَعْرِفَةُ المُصْطَلَحاتِ، نَحْسِب هٰذا المُؤَشِّرُ مِن خِلالَ إِجْراءِ مُطابَقَة عَلَى مُسْتَوَى العِبارَةِ بَيِّنَ ناتِجٌ نَمُوذَجَ اللُغَةِ وَالعِبارات فِي قائِمَةً مُصْطَلَحاتٍ مَجالنا، كَما يُلاحِظ: \[\begin{aligned} &THG = |\frac{1}{N} \sum_{n=1}^{N} TH_n^p - \frac{1}{N} \sum_{n=1}^{N} TH_n^{np}| , \\ &TH_n^p = f_c(f_m(Term_d, LM(Pmt_n^p))) \label{eq:eq5} \end{aligned}\]، حَيْثُ \(TH_n^p\) وَ \(TH_n^{np}\) هُما قِيَمِ الإِصابَة بِالمُصْطَلَحات لِلإِجابَة ال\(n\)-ثه بِالأُسْلُوب المِهْنِيِّ وَغَيْرِ المِهْنِيِّ عَلَى التَوالِي. \(f_m\) وَ \(f_c\) هُما الوَظائِفِ لَمُطابَقَة المُصْطَلَحاتِ وَعَدَ الإِصابات عَلَى التَوالِي. \(Term_d\) هِيَ قائِمَةً المُصْطَلَحاتِ فِي المَجالِ \(d\). \(LM(Pmt_n^p)\) هُوَ الناتِجِ المُوَلِّدِ بِواسِطَةِ \(LM\) مَعَ تَوْجِيهِ يَصِف السُؤالُ ال\(n\)-ث بِشَكْلٍ مِهْنِيّ.
عِلاوَةً عَلَى ذٰلِكَ، نَقْتَرِح مُؤَشَّرنا الثانِي لِلتَمْيِيزِ بَيِّنَ مُسْتَوَى التَفْكِيرِ فِي اللُغَةِ المُوَلِّدَة، RSG، وَالَّذِي يَقِيس فَجْوَةِ خَطَواتٍ التَفْكِيرِ بَيِّنَ الرُدُود المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. يَعْتَمِد هٰذا المُؤَشِّرُ عَلَى الفِكْرَةِ القائِلَةِ بِأَنَّ الرُدُود المِهْنِيَّةِ تُظْهِر عادَةً هَيْكَلا مَنْطِقِيّاً أَكْثَرَ صَرامَةٍ مِن اللُغَةِ العادِيَّةِ. لِحِسابِ RSG، نَسْتَخْدِم GPT-4 لِتَحْوِيلِ الإِجابَةَ الخامِ إِلَى خَطَواتٍ تَفْكِيرٌ مُتَسَلْسِلَةً ثُمَّ نَعُدّ هٰذِهِ الخَطَواتِ بِوَظِيفَة تَحْلِيلِ. يُمْكِن تَسْجِيلِ هٰذِهِ العَمَلِيَّةِ أَدَنّاهُ. \[\begin{aligned} RSG =& |\frac{1}{N} \sum_{n=1}^{N} RS_n^p - \frac{1}{N} \sum_{n=1}^{N} RS_n^{np} |, \\ RS_n^p =& f_p(LLM(Pmt_r, LM(Pmt_n^p))) \label{eq:eq6} \end{aligned}\]، حَيْثُ \(RS_n^p\) وَ \(RS_n^{np}\) هُما قِيَمِ خَطَواتٍ التَفْكِيرِ لِلإِجابَة ال\(n\)-ثه المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. \(f_p\) هِيَ وَظِيفَةٍ التَحْلِيلِ لَاِسْتِخْراج عَدَدٍ الخَطَواتِ الصَحِيحَةِ مِن التَفاصِيلِ المَنْطِقِيَّةِ الَّتِي تَمَّ تَوْلِيدها بِواسِطَةِ \(LLM\). \(Pmt_r\) هُوَ التَوْجِيهِ لِ GPT-4 لَأَداء مُهِمَّةً التَنْظِيمِ مِن الإِجابَةَ المُعْطاة.
لَقِياس قُدْرَةِ نَمُوذَجَ اللُغَةِ المُعَدَّلِ لَدَينا عَلَى تَوْلِيدِ أَسالِيبِ نَصَّيْهِ مَرْغُوبه بِشَكْلٍ أَكْبَرَ، نُنَفِّذ مُهِمَّةً تَصْنِيفِ ثُنائِيَّةٍ. نَحْسِب عَدَدٍ المُصْطَلَحاتِ وَخَطَواتُ التَفْكِيرِ المَوْجُودَةِ فِي الإِجاباتِ، وَنَضَع عَتَباتِ لِهٰذَيْنِ المُؤَشِّرَيْنِ بِناءَ عَلَى تَسْمِياتهما الحَقِيقِيَّةِ (التَفاصِيلِ فِي المُلْحَقِ [threshold]). لِلإِجابات المُوَلِّدَة حَدِيثاً، نُقارَن التَسْمِيات الَّتِي تُلَبِّيها مُؤَشِّراتهم مَعَ تَسْمِياتهم الأَصْلِيَّةِ لِلحُصُولِ عَلَى دَرَجَةِ F1 النَمُوذَجِيَّةِ (forman2003extensive)، المُشارِ إِلَيها بِاِسْمِ Pro F1.
لِلتَحْقِيقِ فِيما إِذا كانَت مَرْحَلَةِ التَعْدِيلِ تُؤَدِّي إِلَى تَدَهْوُرِ القُدْرَةِ الأَساسِيَّةِ لَنَمُوذَج اللُغَةِ الكَبِيرِ، نَسْتَخْدِم دَرَجَةِ بيرت (BERTScore) وَبَلْوَرَت (sellam-etal-2020-bleurt)، وَهُما مِقْياسانِ قائِمانِ عَلَى المَراجِعِ لِتَعْلَم الآلَةِ فِي تَوْلِيدِ النُصُوصِ، قادِرانِ عَلَى اِلْتِقاطِ التَشابُهات الدَلالِيَّة بَيِّنَ الجَمَل بِاِسْتِخْدامِ نَماذِجَ بيرت (vaswani2017attention). يَتِمّ تَوْضِيحِ هٰذِهِ المَقايِيسِ كَما يَلِي: \[\begin{aligned} BERT score = 2 \frac{P_{BERT} \cdot R_{BERT}}{P_{BERT}+R_{BERT}}, \label{eq:eq7} \end{aligned}\] حَيْثُ \(P_{BERT}\) وَ \(R_{BERT}\) هُما الدِقَّةِ وَالاِسْتِرْجاع اللَّذانِ يَتِمّ حِسابهما بِاِسْتِخْدامِ التَضْمِينات الكلميه المتساقطه لِلإِجابَة المَرْجِعِيَّةِ وَالناتِجَ المُوَلِّدِ لِلسُؤال \(n\) عَلَى التَوالِي. \[\begin{aligned} BLEURT &= Wv_{[CLS]}+b, \\ v_{[CLS]},v_{x_1},...,v_{x_r}&,v_{\tilde{x}_1},...,v_{\tilde{x}_p} = BERT(x,\tilde{x}), \label{eq:eq8} \end{aligned}\] حَيْثُ \(x_1, .., x_r\) تَكُون الجُمْلَةُ المَرْجِعِيَّةِ بِطُولِ \(r\) وَ \(\tilde{x}_1, .., \tilde{x}_p\) تَكُون جُمْلَةِ التَنَبُّؤ بِطُولِ \(p\)، \(v_{[CLS]}\) هُوَ التَمْثِيلِ لَرَمْز \([CLS]\) الخاصِّ، \(W\) وَ \(b\) هُما مَصْفُوفه الوَزْنِ وَمُتَّجِه الاِنْحِيازِ عَلَى التَوالِي.
نَحْنُ نُطَوِّر مَجْمُوعَتَيَّ بَياناتٍ مُتَخَصِّصَتَيْنِ، PubMedPro وَ IcliniqPro، لَتَقْيِيم قُدْرَةِ التَحْوِيلِ بَيِّنَ الأَسالِيبِ. تَمَّ تَكْوِينِ PubMedPro وِفْقاً لِتَنْسِيقِ الالبكه كَما هُوَ مُفَصَّلٍ فِي القِسْمِ [data-prepare]، وَتَشْتَمِل عَلَى 24,000 زَوْج مِن الأَسْئِلَةِ وَالأَجْوِبَة بِأَسالِيبِ مِهْنِيَّةِ وَغَيْرِ مِهْنِيَّةِ ضِمْنَ المَجالِ الطِبِّيُّ. نَحْنُ نَخْتار 200 سُؤالاً بِأَنْواع مُخْتَلِفَةٍ، مَعَ إِجاباتهم بِأَسالِيبِ إِيجابِيَّةً وَسَلْبِيّه، كَمَجْمُوعَةٍ اِخْتِبارِ لِلتَقْيِيم. هٰذِهِ الأَسْئِلَةِ مُسْتَمَدّه مِن (BioASQ) وَ (PubMedQA)، وَهُما مَجْمُوعَتا بَياناتٍ الأَسْئِلَةِ وَالأَجْوِبَة المُتاحَتانِ بِحُرِّيَّةٍ وَالمُسْتَخْرَجَتانِ مِن المَقالاتِ الأَكادِيمِيَّةِ لPubMed. مَجْمُوعَةِ البَياناتِ الأُخْرَى هِيَ IcliniqPro، المُشْتَقَّة مِن iCliniq، وَهِيَ مَجْمُوعَةِ بَياناتٍ حِوارٍ طِبِّيٌّ تَمَّ تَنْزِيلها مِن المُسْتَوْدَعاتِ المَذْكُورَةِ فِي (zeng-etal-2020-meddialog,MQS-ECL). نَحْنُ نَخْتار يَدَوِيّاً وَبِعِنايَة الأَسْئِلَةِ بِنَفْسِ العَدَدَ وَالتَعْبِيرات المُماثِلَةِ لِتِلْكَ المَوْجُودَةِ فِي PubMedPro، وِفْقاً لمبداين: 1. يَجِب الإِجابَةَ عَلَى الأَسْئِلَةِ بِمَعْرِفَة مُحَدَّدَةٍ؛ 2. يَتِمّ طَرْحِ الأَسْئِلَةِ بِشَكْلٍ مُباشِرٍ دُونِ مَشاعِرَ شَخْصِيَّةً.
نَقُوم بِتَقْيِيم نُسَخ ProSwitch مُقابِلَ عِدَّةٍ مَعايِيرِ مَرْجِعِيَّةِ. Llama2-Chat (llama2)، نَمُوذَجَ الأَساسِ لَدَينا، هُوَ نَمُوذَجَ لُغَوِيٌّ شائِع لَسِينارِيُوهات الحِوارِ العامَّةِ. ChatDoctor (chatdoctor) هُوَ نَمُوذَجَ لُغَوِيٌّ مُتَخَصِّصٍ تَمَّ تَدْرِيبه بِشَكْلٍ مُكَثَّفٍ بِاِسْتِخْدامِ بَياناتٍ حِوارٍ طَبِيبٍ-مَرِيضٌ لِتَحْسِينِ دِقَّةٍ النَصائِحِ الطِبِّيَّةِ. ChatGPT 3.5 1 هُوَ نَمُوذَجَ لُغَوِيٌّ آخَرِ لِلأَغْراض العامَّةِ، وَلٰكِن بِحَجْمِ مُعامَلاتِ أَكْبَرَ بِكَثِيرٍ. عِلاوَةً عَلَى ذٰلِكَ، نَقُوم بِتَنْفِيذِ تَطْبِيقِ يُشِير إِلَى العَمَلِ فِي نَقْلِ أُسْلُوبِ الرَسْمِيَّةِ (etinger2019formality) كَمِعْيارٍ مَرْجِعَيَّ تَقْلِيدِيٍّ. نَحْنُ نُعِيد إِنْتاجِ العَمَلِ الخَبِيرُ-العامِّيُّ (pu-demberg-2023-chatgpt) كَمُنافِس فِي تَلْخِيصُ النُصُوصِ القابِل لِلتَحَكُّمِ (CTS).
مَعَ الأَوامِرَ الَّتِي تَحْتَوِي عَلَى مُسْتَوَياتٍ مُتَعَدِّدَةِ مِن التَعْلِيماتِ وَالمَعْلُوماتِ المُقَيَّدَة، كَما هُوَ مُوَضِّح فِي القِسْمِ (instruction)، نُطَبِّق طَرِيقَةِ (hu2022lora)، وَهِيَ إِحْدَى طُرُقٍ التَحْسِين الفَعّالَةَ لِلمُعَلِّمات، لِتَحْسِينِ نَمُوذَجَ مُسْبَقٍ التَدْرِيبِ لَمَهَمَّتنا. تُقَلِّل (LoRA) بِشَكْلٍ كَبِيرٍ مِن عَدَدٍ المُعَلِّماتُ القابِلَةِ لِلتَدْرِيبِ مِن خِلالَ تَجْمِيدَ اوزان النَمُوذَجِ المُسْبَقِ التَدْرِيبِ وَدَمْج مَصْفُوفات التَحَلُّلُ المَرْتَبَةِ القابِلَةِ لِلتَدْرِيبِ فِي المُحَوِّلُ. وَأَخِيرا، بِاِسْتِخْدامِ (Llama2-Chat) كَنَمُوذَج أَساسِيٌّ لَنا، يَتِمّ تَوْلِيدِ ثَلاثَةِ نَماذِجَ مُحَسِّنه وِفْقاً لِلمُسْتَوَيات الثَلاثَةِ مِن صياغات التَعْلِيماتِ، وَالَّتِي تُسَمَّى (ProSwitch-B)، وَ(ProSwitch-T)، وَ(ProSwitch-K) عَلَى التَوالِي.
خِلالَ مَرْحَلَةِ التَعْدِيلِ، نَقُوم بِتَدْرِيبِ نَمُوذَجَ ProSwitch عَلَى 24,000 زَوْج مِن الأَسْئِلَةِ وَالأَجْوِبَة، مُوَزَّعَةٌ بِالتَساوِي بَيِّنَ عَلامَتَيْنِ اسلوبيتين وَأَرْبَعَةُ أَنْواعِ مِن الأَسْئِلَةِ. يَتِمّ إِجْراءِ هٰذِهِ العَمَلِيَّةِ التَدْرِيبِيَّةِ عَلَى وَحْدَةِ مُعالَجَةِ الرُسُومات NVIDIA RTX A6000 لِثَلاثِ دَوْراتِ تَدْرِيبِيَّةً، بِمُعَدَّلِ تَعْلَم قَدَّرَهُ 2e-5 وَحَجْمُ دَفْعَةً قَدَّرَهُ 128، وَتَسْتَغْرِق حِوالِي أَرْبَع ساعاتٍ بِالمُجْمَل. لِلتَقْيِيم، يَتِمّ تَحْدِيدِ العَتَباتِ لِعَدَدٍ الضَرَباتِ المصطلحيه وَعَدَدٌ خَطَواتٍ التَفْكِيرِ عِنْدَ 1 وَ 4 عَلَى التَوالِي، متماشيه بِشَكْلٍ وَثِيقٍ مَعَ نَتائِجِ التَسْمِيَة البَشَرِيَّةِ بِمِنْطَقَة تَحْتَ المُنْحَنَى (AUC) أَكْبَرَ مِن 0.85. نَقُوم بِتَقْيِيم أَساسِ ChatDoctor بِمُعامَلات 13B وَ Llama2-Chat بِمُعامَلات 7B، مُطابَقَة لَنَمُوذَج ProSwitch لَدَينا. تُجْرَى جَمِيعِ التَجارِبِ فِي المُتَوَسِّطِ ثَلاثِ مَرّاتٍ لِلتَوْلِيد.
نَقُوم بِتَقْيِيم ProSwitch وَالأُسُسِ المَرْجِعِيَّةِ عَلَى مَجْمُوعَةِ بَياناتٍ PubMedPro بِاِسْتِخْدامِ مَقايِيسِ التَمْيِيزِ الاِحْتِرافِيّ وَمَقايِيس الجُودَةِ المُسْتَنِدَةَ إِلَى المَراجِعِ. فِي الوَقْتِ نَفْسِهِ، نَقُوم بِتَقْيِيم النَماذِجِ عَلَى مَجْمُوعَةِ بَياناتٍ IcliniqPro، مَعَ التَرْكِيزِ فَقَط عَلَى التَمْيِيزِ الاِحْتِرافِيّ بِسَبَبِ عَدَمِ وُجُودِ إِجابات اِحْتِرافَيْهِ حَقِيقِيَّةٍ. تُظْهِر النَتائِجِ التَجْرِيبِيَّة فِي الجَدْوَلُ [performance1]. يُمْكِننا مُلاحَظَةُ مِن النَتائِجِ أَنَّ:
إِجْراءنا لِضَبْطِ التَعْلِيماتِ المُوَجَّهَةِ بِالمَعْرِفَةِ يُحَسِّن القُدْرَةِ عَلَى التَبْدِيل بَيِّنَ الأَسالِيبِ الاِحْتِرافِيَّةُ وَغَيْرِ الاِحْتِرافِيَّةُ، دُونِ التَأْثِيرِ عَلَى قُدْراتٍ تَوْلِيدِ النُصُوصِ.
النَمُوذَجِ الَّذِي يَسْتَخْدِم التَعْلِيماتِ المُسْتَنِدَةَ إِلَى النَوْعِ والمثريه بِالمَعْرِفَةِ يُمْكِن أَنَّ يُوَفِّر إِرْشادات أَكْثَرَ تَفْصِيلاً، مِمّا يُؤَدِّي إِلَى تَوْلِيدِ نُصُوصُ بِأَسالِيبِ تَحْمِل تَوَقُّعاتٍ أَعْلَى.
ChatDoctor وَ FST، عَلَى الرَغْمِ مِن التَنْقِيح بِاِسْتِخْدامِ بَياناتٍ المَجالِ أَو اِسْتِهْدافِ مَهامِّ مُماثِلَةٍ، تُعانِي مِن فُقْدانِ قُدْرَةِ التَبْدِيل بَيِّنَ الأَسالِيبِ، وَالَّتِي تَبْدُو مُجَهَّزَةٌ جُزْئِيّاً بِواسِطَةِ الأُسُسِ المَرْجِعِيَّةِ الأُخْرَى.
ChatGPT وَ CTS، عَلَى الرَغْمِ مِن التَدْرِيبِ بِمُؤَسَّساتِ ضَخْمَةٍ وَالتَنْقِيح بِالعَدِيدِ مِن المَهامّ، لا تَزال تُظْهِر نَقْصاً فِي مُهِمَّةً التَبْدِيل بَيِّنَ الأَسالِيبِ مُقارَنَةً بِطَرِيقَتنا المُحَدَّدَةِ لِلمُهِمَّةِ.
يُوجَد نِقاشٍ حَوْلَ تَنَوُّعِ الإِجاباتِ الَّتِي تُوَلِّدها النَماذِجِ اللُغَوِيَّةُ الكَبِيرَةِ فِي المُلْحَقِ [variation]. دِراسَةٌ حَوْلَ بِعَضِّ الحالاتِ التَمْثِيلِيَّةِ مَوْجُودَةٌ فِي المُلْحَقِ [casestudy].
نَقُوم بِتَجْنِيد مُتَطَوِّعَيْنِ لَأَداء التَقْيِيم كَمَهَمَّة تَجْمِيعِ الجُمْهُورِ. يَتِمّ تَقْيِيمِ كُلِّ سُؤالٍ وَإِجاباته المُوَلِّدَة فِي مَجْمُوعَةِ الاِخْتِبارُ مِن حَيْثُ جانِبَيْنِ: التَمْيِيزِ الاسلوبي وَسَلاسَةِ اللُغَةِ. بِالنِسْبَةِ لِلتَمْيِيزِ الاسلوبي، يَتِمّ إِعْطاءِ كُلِّ زَوْج مِن الإِجاباتِ دَرَجاتٍ مِن 1 إِلَى 5 لِتَحْدِيدِ دَرَجَةِ التَمْيِيزِ فِي الاِحْتِرافِيَّةُ بَيِّنَ الإِجابَتَيْنِ. أَمّا بِالنِسْبَةِ لَسَلاسَة اللُغَةِ، فَتُقِيم كُلِّ أَجابَهُ أَيْضاً مِن 1 إِلَى 5 مِن حَيْثُ قابِلِيَّتها لِلفَهْم مِن الناحِيَةِ النَحَوِيَّة. وِفْقاً لِ(xu2022self)، نَحْسِب نِسْبَةَ التَقْيِيمات الَّتِي حَصَلَت عَلَى 4 وَ 5 نِقاطٍ كَمُعَدَّلات نَجاحِ (SR)، وَكَذٰلِكَ المُتَوَسِّطات النقطيه (AS) لِكُلِّ مِعْيار (التَفاصِيلِ فِي المُلْحَقِ [humaneval]). يَتِمّ إِجْراءِ التَقْيِيم البَشَرِيِّ عَلَى جَمِيعِ النَماذِجِ الأَساسِيَّةِ وَمُتَغَيِّرات ProSwitch. تُظْهِر نَتائِجِ التَقْيِيم البَشَرِيِّ المَعْرُوضَةِ فِي الجَدْوَلُ [human] تَناسُقاً مَعَ تَقْيِيمنا المَبْنِيَّ عَلَى المُؤَشِّراتِ، بِشَكْلٍ عامَ.
بِالإِضافَةِ إِلَى توليف نَماذِجَ اللُغَةِ بِاِسْتِخْدامِ طُرُقٍ PEFT، حاوَلَنا أَيْضاً تَدْرِيبِ نَمُوذَجَ ProSwitch بِاِسْتِخْدامِ طَرِيقَةِ التوليف الكامِلِ لِلمُعامَلاتِ، لِاِسْتِكْشافِ القُدْرَةِ المُحْتَمَلَةِ لَنَمُوذَج اللُغَةِ الأَساسِيُّ عَلَى تَعْلَم كَيْفِيَّةِ التَبْدِيل بَيِّنَ الأَسالِيبِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. يُظْهِر الأَداءِ الخاصِّ ب ProSwitch بِاِسْتِخْدامِ طُرُقٍ LoRA والتوليف الكامِلِ لِلمُعامَلاتِ (FFT) فِي الجَدْوَلُ [performance2]. اُكْتُشِفْنا أَنَّ النَمُوذَجِ المولف بِالكامِلِ يَمِيل إِلَى تَوْلِيدِ إِجابات طَوِيلَةٍ مَعَ المَزِيدِ مِن خَطَواتٍ التَفْكِيرِ، وَلٰكِن مَعَ عَدَدٍ أَقَلَّ مِن المُصْطَلَحاتِ الفَنِّيَّةِ، مِمّا يُؤَدِّي إِلَى اِنْخِفاضِ فِي دَرَجَةِ THG، وَالَّتِي تُشِير إِلَى أَنَّ التوليف الكامِلِ يَتَعَلَّم التَعْبِيرِ بِشَكْلٍ أَفْضَلَ مِن التَعْبِيرِ اللَفْظِيّ.
كَما يُعامِل اللُغَةِ المِهْنِيَّةِ عُمُوماً عَلَى أَنَّها نِظامِ مُنَظَّمٍ بِشَكْلٍ مَنْطِقِيٍّ (malyuga2012professional)، فَإِنَّ الإِجاباتِ الَّتِي تَحْتَوِي عَلَى نُصُوصُ تفكيريه أَكْثَرَ تُعْتَبَر أَكْثَرَ اِحْتِرافَيْهِ، وَالَّتِي يُمْكِن أَنَّ تُؤَدِّي أَيْضاً إِلَى نُصُوصُ أَطْوَلِ. وَمَعَ ذٰلِكَ، تُظْهِر نَتائِجنا الإِحْصائِيَّةُ فِي الجَدْوَلُ [performance3] أَنَّ الإِجاباتِ الَّتِي تَحْتَوِي عَلَى العَدِيدَ مِن الجَمَل الموجزه المُرْتَبِطَةِ مَنْطِقِيّاً يُمْكِن أَنَّ تَتَناسَب جَيِّداً مَعَ الأُسْلُوبِ المِهْنِيِّ. بِالمُقابِلِ، فَإِنَّ كَثافَةُ خَطَواتٍ التَفْكِيرِ داخِلَ أَجابَهُ هِيَ مِيزَةً فَعّالَةٍ لِلاِحْتِرافِيَّة.
نَقُوم بِتَقْيِيم أَداءِ التَكَيُّفِ لَنَمُوذَج ProSwitch فِي مَجالِ آخَرِ: الدَعْمِ الفَنِّيِّ لَتِكْنُولُوجِيا المَعْلُوماتِ، بِاِسْتِخْدامِ مَجْمُوعَةِ بَياناتٍ TechQA (castelli-etal-2020-techqa)، وَالَّتِي تَحْتَوِي عَلَى أَسْئِلَةٍ واقِعِيَّةٍ طَرْحُها المُسْتَخْدَمُونَ عَلَى مُنْتَدَى IBMDeveloper. يُقَدِّم هٰذا المَجالِ دَعْماً اِحْتِرافِيّا مُتَعَدِّدِ الجَوانِبِ لِتَلْبِيَةِ اِحْتِياجات المُسْتَخْدَمِينَ المُتَنَوِّعَةَ. نَخْتار عَشْوائِيّا مَجْمُوعَةِ فَرْعِيَّةٍ مِن أَسْئِلَةٍ TechQA الخاصَّةِ بِتِكْنُولُوجِيا المَعْلُوماتِ كَمَجْمُوعَةٍ اِخْتِبارِ وَنَجْمَع 352 مُصْطَلَحاً خاصّاً بِتِكْنُولُوجِيا المَعْلُوماتِ وَمُرادِفاتها مِن مَواقِعِ مُخْتَلِفَةٍ لِحِسابِ مُؤَشِّرُ THG. نَسْتَخْدِم مُباشَرَةً نَماذِجَ ProSwitch الَّتِي تَمَّ تَدْرِيبها بِاِسْتِخْدامِ مَجْمُوعاتٍ بَياناتٍ الأَسْئِلَةِ وَالأَجْوِبَة الطِبِّيَّةِ لَتَوْلِيد إِجابات اِحْتِرافَيْهِ وَغَيْرِ اِحْتِرافَيْهِ لَأَسْئِلَة تِكْنُولُوجِيا المَعْلُوماتِ. يَتِمّ عَرَضَ الأَداءِ مُقارَنَةً بِالنَماذِج العامَّةِ مِثْلَ Llama2-Chat وَ ChatGPT فِي الجَدْوَلُ [domain].
تَقْتَرِح هٰذِهِ الدِراسَةُ ProSwitch، وَهِيَ طَرِيقَةِ تَعْدِيلِ التَعْلِيماتِ المُوَجَّهَةِ بِالمَعْرِفَةِ، لِتَحْسِينِ قُدْرَةِ نَماذِجَ اللُغَةِ عَلَى التَبْدِيل بَيِّنَ تَوْلِيدِ النُصُوصِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ. نُرَكِّز عَلَى مَهامِّ الأَسْئِلَةِ وَالأَجْوِبَة المُتَعَلِّقَةِ بِالمَجالات وَنُجْرَى ثَلاثِ مَراحِلِ: إِعْدادِ البَياناتِ المُعَزِّزَة بِنَماذِج اللُغَةِ الكَبِيرَةِ، تَعْدِيلِ التَعْلِيماتِ مُتَعَدِّدِ المُسْتَوَياتِ، وَالتَقْيِيم الشامِلِ لَاِكْتِساب قُدْرَةِ التَمْيِيزِ المِهْنِيِّ وَالجُودَةِ المُسْتَنِدَةَ إِلَى المَراجِعِ. تُظْهِر نَتائِجنا أَنَّ ProSwitch يُحَسِّن بِشَكْلٍ مَلْحُوظٍ تَمْيِيزٍ الأُسْلُوبِ فِي النُصُوصِ المُوَلِّدَة، مُقارَنَةً بِالأَساسِيّات العامَّةِ وَالمُتَخَصِّصَةِ.
تَكْمُن قُيُودٍ بَحَثْنا فِي عَدَمِ وُجُودِ أَساسِ بَحْثِي يُمْكِن الرُجُوعِ إِلَيهِ لِلتَعْرِيف الرَسْمِيِّ لِاِحْتِرافَيْهِ اللُغَةِ، وَكَذٰلِكَ عَدَمِ وُجُودِ أَزْواج مِن الأَسْئِلَةِ وَالأَجْوِبَة الحَقِيقِيَّةِ فِي مَجالاتِ مُحَدَّدَةٍ ذاتِ أَسالِيبِ مِهْنِيَّةِ. سَتُرَكِّز الدِراساتِ المُسْتَقْبَلِيَّةِ عَلَى المَسائِلِ المَذْكُورَةِ أَعْلاه.
جَمِيعِ مَجْمُوعاتٍ البَياناتِ المُسْتَخْدَمَةِ فِي هٰذِهِ الدِراسَةُ مُتاحَةٍ لِلعُمُومِ وَقَد اِلْتَزَمْنا بِالاِعْتِبارات الأَخْلاقِيَّةِ مِن خِلالَ عَدَمِ إِدْخالُ مَعْلُوماتٍ إِضافِيَّةً كمدخلات أَثْناءَ تَدْرِيبِ نَماذِجَ اللُغَةِ الكَبِيرَةِ وَتَوْلِيدِ نُصُوصُ نَماذِجَ اللُغَةِ الكَبِيرَةِ.
نَقُوم بِمُهِمَّةٍ تَصْنِيفِ نَوْعٍ السُؤالُ بِناءَ عَلَى نَمُوذَجَ اللُغَةِ الكَبِيرَةِ مِن خِلالَ تَقْدِيمِ المَطْلَبِ التالِي فِي الجَدْوَلُ [prompt1] إِلَى GPT-4 وَاِسْتِبْدال مُتَغَيِّر <question> بِأَسْئِلَتنا الحَقِيقِيَّةِ فِي مَجْمُوعاتٍ البَياناتِ لَدَينا. أَنْتَ مُكَلَّفٌ بِتَصْنِيف سُؤالٍ إِلَى أَرْبَعَةِ أَنْواعِ، وِفْقاً لِلإِرْشادات التالِيَةِ:
1. قَمَّ بِإِخْراج نَوْعٍ السُؤالُ بِناءَ عَلَى شَكْلٍ طَرَحَهُ. الأَنْواع المُمْكِنَةِ هِيَ: yesno, list, factoid, summary.
2. قَمَّ فَقَط بِإِخْراج نَوْعٍ واحِدٍ دُونِ أَيّ مَعْلُوماتٍ وَصَفَّيْهِ.
3. الأَسْئِلَةِ الموجزه عادَةً ما تَكُون أَكْثَرَ عُمُومِيَّةٍ، لٰكِنَّ الأَسْئِلَةِ الحقائقيه تَكُون أَكْثَرَ تَحْدِيداً.
4. يُمْكِنكَ اِسْتِنْتاجِ النَوْعِ وِفْقاً لَأَشْكال العَرْضِ لِلإِجابات المُحْتَمَلَةِ.
إِلَيكَ بِعَضِّ الأَمْثِلَة:
سُؤالٍ: أَيّ تَسَلْسُلات الحَمْضِ النَوَوِيِّ أَكْثَرَ عُرْضَةً لَتَكْوِين حَلَقاتِ R؟
إِخْراجِ: list
سُؤالٍ: هَل العَناصِرِ المَحْفُوظَة جِدّاً غالِباً ما تَكُون مَنْقُوله؟
إِخْراجِ: yesno
سُؤالٍ: ما هُوَ الكلاثرين؟
إِخْراجِ: summary
سُؤالٍ: أَيّ مَسارِ إِشارَةٍ يَثْبُطه السونيديجيب؟
إِخْراجِ: factoid
يُرْجَى إِخْراجِ نَوْعٍ السُؤالُ التالِي:
سُؤالٍ: <question>
إِخْراجِ:
نَقُوم بِمُهِمَّةٍ تَوْسِيعِ زَوْج الأَسْئِلَةِ وَالأَجْوِبَة بِاِسْتِخْدامِ نَمُوذَجَ اللُغَةِ الكَبِيرِ مِن خِلالَ تَقْدِيمِ التَلْمِيح التالِي فِي الجَدْوَلُ [prompt2] إِلَى GPT-4 وَاِسْتِبْدال <aim_style> بِتَسْمِيَة الأُسْلُوبِ الَّذِي نَرْغَب فِي جُمْعَة. لَنَوْع سُؤالٍ مُعَيَّنٍ، نُقَدِّم أَيْضاً وَصَفَ أُسْلُوبِ الإِجابَةَ فِي مَكانٍ <answer_type> لَتَقْيِيد النَصِّ المُنْتِجِ.
فِي مَرْحَلَةِ التَقْيِيم لَدَينا، نَحْسِب عَدَدٍ خَطَواتٍ التَفْكِيرِ بِمُساعَدَةِ GPT-4 مِن خِلالَ إِعادَةِ تَنْظِيمِ الإِجاباتِ عَلَى شَكْلٍ خَطَواتٍ مُتَتالِيَةٍ ثُمَّ نُقَدِّم العَدَدَ الإِجْمالِيِّ لِلخَطَوات فِي النِهايَةِ. يَتِمّ عَرَضَ مَطْلَبٌ إِعادَةِ التَنْظِيمِ فِي الجَدْوَلُ [prompt3].
يَتِمّ تَصْنِيفِ نَوْعٍ السُؤالُ إِلَى واحِدٍ مِن أَرْبَع فِئاتِ بِواسِطَةِ GPT-4. وَمَعَ ذٰلِكَ، هُناكَ بِعَضِّ المَشاكِلِ أَثْناءَ أَداءِ العَمَلِيَّةِ. المُشْكِلَةِ الرَئِيسِيَّةِ هِيَ الخَلْط بَيِّنَ مَعانِي الأَنْواع. يَحْدُث أَحَدُ الاِلْتِباسات بَيِّنَ الأَسْئِلَةِ الحقائقيه وَالمُلَخَّصات، حَيْثُ أَنَّ لَهُما هَياكِلِ جُمَلٍ مُتَشابِهَةً، مِثْلَ بِدايَةِ ما هُوَ. الفِرَقِ هُوَ أَنَّ أَسْئِلَةٍ المُلَخَّصات عادَةً ما تَكُون أَكْثَرَ عُمُومِيَّةٍ، مِثْلَ ما هُوَ السينوكلينوباثي؟ وَما هُوَ الفَيْرُوسَ الحَيَوانِيّ المَنْشَأِ؟. وَمَعَ ذٰلِكَ، فَإِنَّ الأَسْئِلَةِ الحقائقيه أَكْثَرَ تَحْدِيداً وَتَهْدِف إِلَى الحُصُولِ عَلَى جانِبِ مُعَيَّنٍ مِن كِيانَ، مِثْلَ ما هِيَ وَظِيفَةٍ الببلومر الفَيْرُوسِيّ؟. يَحْدُث اِلْتِباسٌ آخَرِ بَيِّنَ الأَسْئِلَةِ القائِمَةِ وَالأَسْئِلَة الحقائقيه، وَالَّتِي لَها أَيْضاً تَعْبِيرات مُماثِلَةٍ وَلٰكِن لَها أَشْكالِ مُخْتَلِفَةٍ مِن الإِجاباتِ. لِمُعالَجَةِ المَشاكِلِ المَذْكُورَةِ أَعْلاه، كَما هُوَ مُوَضِّح فِي المُلْحَقِ A.1، نُقَدِّم إِرْشادات فِي تَعْلِيماتنا لِوَصْفِ المَعْلُوماتِ المُمَيَّزَةِ لِمُساعَدَةِ GPT-4 عَلَى فَهُم الاِخْتِلافاتِ بِشَكْلٍ أَفْضَلَ.
نَظَراً لِأَنَّ مَجْمُوعَةِ بَياناتٍ PubMedPro مُكَوَّنَةٍ مِن سِينارِيُوهاتٍ الأَسْئِلَةِ وَالأَجْوِبَة الأَكادِيمِيَّةِ، فَإِنَّ هُناكَ عَدَداً أَكْبَرَ بِكَثِيرٍ مِن أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة المِهْنِيَّةِ مُقارَنَةً بِغَيْرِ المِهْنِيَّةِ. لَتَوازُن عَدَدٍ أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة فِي كُلِّ أُسْلُوبِ، نَقُوم بِإِنْشاءِ بَياناتٍ مُعَزِّزه بِاِسْتِخْدامِ نَمُوذَجَ اللُغَةِ الكَبِيرِ بِاِسْتِخْدامِ الأَمْرُ المَعْرُوضِ فِي الجَدْوَلُ [prompt2]. ما يَحْتاج إِلَى التَأْكِيدُ هُوَ أَنَّنا جَرَّبْنا أَنْواعاً مُخْتَلِفَةٍ مِن وَصَفَ الأُسْلُوبِ لِتَوْجِيهِ GPT4 لَتَوْلِيد أَو إِعادَةِ صِياغَةِ الإِجاباتِ المَطْلُوبَةِ. نَوْعٍ واحِدٍ مِن الوَصْفَ يَتْبَع تَنْسِيقِ تَعْلِيماتنا الأَساسِيُّ، مِثْلَ يَشْرَح السَبَبِ بِخَطَواتٍ مُفَصَّلَةٌ بِاِسْتِخْدامِ تَعْبِيرات مِهْنِيَّةِ فَنِّيَّةٍ لَسُؤال مِهْنِيّ. نَوْعٍ آخَرِ مِن الوَصْفَ يَتْبَع تَنْسِيقِ تَعْلِيماتنا القائِمِ عَلَى النَوْعِ، مِثْلَ يَحْتَوِي عَلَى قائِمَةً مِن العَناصِرِ وَيَشْرَح كُلِّ عُنْصُرٍ بِأَسْباب فِي خَطَواتٍ مُفَصَّلَةٌ بِاِسْتِخْدامِ تَعْبِيرات مِهْنِيَّةِ فَنِّيَّةٍ لَسُؤال مِهْنِيّ وَمِن نَوْعٍ القائِمَةِ. نَقُوم بِتَقْيِيم ناتِجٌ هٰذَيْنِ النَوْعَيْنِ مِن الأَوامِرَ لَتَوْلِيد البَياناتِ وَإِعادَةِ الصِياغَةُ مِن خِلالَ العَيْنات العَشْوائِيَّةِ وَالفَحْص اليَدَوِيِّ، وَنَخْتار الوَصْفَ القائِمِ عَلَى النَوْعِ كَالنُسْخَة النِهائِيَّةِ لِتَعْزِيزِ البَياناتِ، حَيْثُ يُسَهِّل تَوْلِيدِ إِجابات أَقْرَبِ إِلَى الإِجاباتِ المَرْجِعِيَّةِ.
نَبْحَث عَن عَتَباتِ المُؤَشِّراتِ المِهْنِيَّةِ وِفْقاً لِلعَيْنات المَوْسُومَة بَشَرِيّاً لَبَيانات الاِخْتِبارُ لِلتَصْنِيفِ الثُنائِيِّ. نَقُوم بِتَوْظِيفِ 3 مُتَطَوِّعَيْنِ لِتُسَمِّيه يَدَوِيَّةً لِ 300 زَوْج سُؤالٍ وَجَواب تَمَّ اِخْتِيارُهُم بِشَكْلٍ عَشْوائِيٍّ وَنَقُوم بِفَرْز الإِجاباتِ الَّتِي تَحْظَى بِتَوافُقِ فِي التَسْمِيَة مَعَ ثَلاثِ تَسْمِيات (مِهْنِيّ، غَيْرِ مِهْنِيّ، غَيْرِ مُتَأَكِّدٌ). ثُمَّ نَقُوم بِتَعْدِيلِ عَدَدٍ مُصْطَلَحاتٍ العَدّ وَخَطَواتُ التَفْكِيرِ لِهٰذِهِ الإِجاباتِ الَّتِي يُمْكِن أَنَّ تُمَيِّز بَيِّنَ الإِجاباتِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ مِن أَجْلِ مُلاءَمَةِ التَسْمِيات الَّتِي أَنْشَآها البَشَرِ.
عَدَدٍ أَزْواج الأَسْئِلَةِ وَالأَجْوِبَة فِي مَراحِلِ مُخْتَلِفَةٍ لَمَجْمُوعَتِي البَياناتِ العامَّةِ (BioASQ وPubMedQA) الَّتِي تُشَكِّل مَجْمُوعَةِ بَياناتٍ PubMedPro مُوَضِّح فِي الجَدْوَلُ [stats] أَدَنّاهُ. نَظَراً لِأَنَّ كُلِّ سُؤالٍ فِي BioASQ قَد يَحْتَوِي عَلَى إِجابات مُتَعَدِّدَةِ، قُمْنا بِتَقْسِيمها إِلَى أَزْواج مُتَعَدِّدَةِ مِن الأَسْئِلَةِ وَالأَجْوِبَة.
هُناكَ سَبَبانِ يُمْكِن أَنَّ يُؤَدَّيا إِلَى تَبايُناتٌ غَيْرِ مَرْغُوبٌ فِيها فِي أَداءِ مُهِمَّتِنا. السَبَبِ الأَوَّلِ يَأْتِي مِن صِياغَةِ الأَوامِرَ، وَالَّذِي يُؤَثِّر عَلَى تَوْلِيدِ الإِجاباتِ المِهْنِيَّةِ وَغَيْرِ المِهْنِيَّةِ بِشَكْلٍ كَبِيرٍ. لِتَجَنُّبِ التَحَيُّزِ المُحَدَّدِ لِلنَمُوذَج فِي التَوْلِيد، نَحْنُ نُزِيل جَمِيعِ الأَوامِرَ المُحَدَّدَةِ مُسْبَقاً فِي نَماذِجَ اللُغَةِ مَفْتُوحَةً المَصْدَرُ أَثْناءَ التَنْقِيح الدَقِيقِ وَالاِسْتِدْلالُ. لِمَنْعِ المُنافِسَيْنِ مِن تَوْلِيدِ إِجابات قَصِيرَةٍ جِدّاً أَو طَوِيلَةٍ جِدّاً، نَخْتَبِر أُمَثِّله واسِعَةً وَنُضِيف مَعْلُوماتٍ تقييديه تَتَعَلَّق بِالنَمُوذَج. السَبَبِ الآخَرِ الَّذِي قَد يُؤَدِّي إِلَى نَتائِجِ مُتَبايِنه يَأْتِي مِن الطَلَباتِ المُتَعَدِّدَةِ، وَالَّذِي يُؤَثِّر عَلَى كُلِّ مِن تَوْلِيدِ الإِجاباتِ وَتَحْلِيلٌ خَطَواتٍ التَفْكِيرِ. نَحْنُ نَشْغَل كُلِّ نَمُوذَجَ ثَلاثِ مَرّاتٍ وَنَحْسِب القِيَمِ المُتَوَسِّطَةِ لِلمُؤَشِّرات أَو عَدَدٍ الخَطَواتِ كَنَتائِج قابِلَةٍ لِلاِسْتِخْدامِ. كَما نَضْبُط مُعَلِّمات التَشْغِيلِ المُناسَبَةِ مِثْلَ Top-K، Top-P، وَدَرَجَة الحَرارَةِ لِكُلِّ نَمُوذَجَ أَثْناءَ التَوْلِيد.
نَقُوم بِتَجْنِيد 5 مُتَطَوِّعَيْنِ مِن طُلّابُ الدِراساتِ العُلْيا فِي جامِعَتنا لَتَقْيِيم النُصُوصِ المُوَلِّدَة بَشَرِيّاً. نُقَدِّم التَعْلِيماتِ كَما يَلِي: يَطْلُب مِنكُم تَقْيِيمِ الإِجاباتِ المُوَلِّدَة بِواسِطَةِ نَمُوذَجَ اللُغَةِ الكَبِيرِ لِبَحْثِ فِي تَوْلِيدِ النُصُوصِ ضِمْنَ سِينارِيو الأَسْئِلَةِ وَالأَجْوِبَة المُتَخَصِّصَةِ. يُرْجَى تَقْيِيمِ الإِجاباتِ الإِنْجلِيزِيَّةِ المُقَدَّمَةِ مِن حَيْثُ التَمَيُّز المِهْنِيِّ وَطَلاقه اللُغَةِ عَلَى النَحْوِ التالِي: 1. بِالنِسْبَةِ لِلزَوْجِ المُعْطَى مِن الإِجاباتِ الإِنْجلِيزِيَّةِ، قِيَمِ تمايزها المِهْنِيِّ؛ كَلْماً كانَ التَمَيُّز فِي الاِحْتِرافِيَّةُ أَفْضَلَ، كانَت الدَرَجَةِ أَعْلَى (1-5 نِقاطٍ). 2. لِكُلِّ أَجابَهُ إِنْجلِيزِيّه مُقَدِّمَةِ، قِيَمِ طَلاقه اللُغَةِ؛ كَلْماً كانَت القِراءَةِ أَسْهَلُ، كانَت الدَرَجَةِ أَعْلَى (1-5 نِقاطٍ). نَحْتَفِظ بِنَتائِجِ التَقْيِيم الَّتِي أَكْمَلَها المُقِيمُونَ وَنَحْسِب المُتَوَسِّطات وَمُعَدَّلاتِ النَجاحِ لِكُلِّ نَمُوذَجَ، كَما نوقش فِي قِسْمِ التَجْرِبَةِ.
فِي هٰذا القِسْمِ، نُقَدِّم أُمَثِّله لِإِبْرازِ تَحَسُّنِ نَمُوذَجنا بُعْدَ تَطْبِيقِ طَرِيقَةِ التَعْدِيلِ الخاصَّةِ بِنا. تَعَرَّضَ الأَمْثِلَة فِي الجَدْوَلُ [performance4] كَيْفَ يُولَد كُلِّ مِن نَمُوذَجَ ProSwitch وَنَمُوذَجنا الأَساسِيُّ Llama2-Chat إِجابات عَلَى سُؤالٍ مَعَ عَدَدٍ مُخْتَلِفِ مِن المُصْطَلَحاتِ التَقْنِيَّةِ. يَمِيل ProSwitch إِلَى تَوْلِيدِ المَزِيدِ مِن المُصْطَلَحاتِ المُتَخَصِّصَةِ مُقارَنَةً بِالنَمُوذَج الأَساسِيُّ عِنْدَ تَقْدِيمِ رَدٍّ مِهْنِيّ. يُظْهِر الجَدْوَلُ [performance5] أَنَّ ProSwitch يَمِيل إِلَى تَقْدِيمِ جُمَلٍ مُتَرابِطه مَنْطِقِيّاً وَمُوجَزه أَكْثَرَ مِن Llama2-Chat أَثْناءَ الإِجابَةَ عَلَى سُؤالٍ بِنِعْمٍ أَو لا بِأُسْلُوبٍ مِهْنِيّ. يُظْهِر الجَدْوَلُ [performance6] أَنَّ ProSwitch يُمْكِن أَنَّ يُولَد أَجابَهُ بِمَزِيدٍ مِن المُصْطَلَحاتِ المُتَخَصِّصَةِ وَبِنْيَةً جُمْلَةِ أَفْضَلَ فِي الوَقْتِ نَفْسِهِ مُقارَنَةً ب Llama2-Chat.
https://chat.openai.com/↩