```html ProSwitch: توجيه المعرفة لضبط التعليمات لتوليد نصوص بأسلوب احترافي وغير احترافي

ProSwitch: توجيه المعرفة لضبط التعليمات لتوليد نصوص بأسلوب احترافي وغير احترافي

Chang Zong Yuyan Chen Weiming Lu Jian Shao Yueting Zhuang

LaTeX

ملخص

أظهرت النماذج اللغوية الكبيرة فعاليةً عاليةً في تطبيقات لغوية متعددة، مثل تلخيص النصوص وتوليد المحتوى الموجّه. ومع ذلك، لا تزال الدراسات غير كافية لاستكشاف قدرتها على التبديل بين الأساليب عبر ضبط التعليمات. تركز هذه الدراسة على قدرات التبديل بين الأساليب في النماذج اللغوية الكبيرة، وتقدّم نهجًا جديدًا يُسمّى ProSwitch، الذي يتيح للنموذج توليد نصوص بأسلوبين: احترافي وغير احترافي، عبر الضبط والتقييم بمساعدة المعرفة المتعلقة بالمجال والأسلوب. يتألف ProSwitch من ثلاث مراحل: التحضير المعزّز بجمع المعرفة المتخصصة في المجال وتوليد أزواج الأسئلة والأجوبة؛ ضبط التعليمات باستخدام صيغ متعددة لتحسين قدرات النموذج؛ والتقييم الشامل الذي يقيس كلًّا من التمييز الاحترافي وجودة النص المولّد استنادًا إلى المراجع. تظهر التحليلات المقارنة لـProSwitch مع النماذج اللغوية الكبيرة العامة والمتخصّصة تفوّق منهجنا في التبديل بين توليد النصوص الاحترافية وغير الاحترافية.

مقدمة

تفوّقت نماذج اللغة الكبيرة، مثل ChatGPT و Llama (llama)، في مهام معالجة اللغة الطبيعية، بما في ذلك الإجابة على الأسئلة (omar2023chatgpt, tan2023chatgpt, baek2023knowledgeaugmented) واستخراج المعلومات (perot2023lmdx, PromptIE). في المجالات المتخصصة، يمكن لهذه النماذج تقديم إجابات تتناسب مع أسلوب معيّن عبر دمج المعرفة الميدانية، كما في ChatDoctor (chatdoctor), ChatLaw (chatlaw) وFinGPT (fingpt). ومع ذلك، لا تزال إمكاناتها على التبديل بين سياقات وأُساليب مختلفة، مثل الأساليب الاحترافية والعامية، غير مستغلة بالشكل الكافي.

تهدف الأبحاث السابقة إلى تحقيق هذا الهدف من منظورات تخصصية متنوّعة. ركّزت بعض الدراسات في علم اللغة والتربية على وصف خصائص الأسلوب الاحترافي والعامي (malyuga2021expressive, orrego2016reception, malyuga2012professional)، مشيرةً إلى أن السمة المميّزة للأسلوب الاحترافي هي المعجم المصطلحي والبنية المنطقية. تناولت دراسات أخرى في علوم الحاسوب نقلَ الأسلوب بهدف استهداف المستخدمين الخبراء والعامة (pu-demberg-2023-chatgpt, xu2022self) عبر توليد نصوص قابلة للتحكم، حيث يُقدَّم طلب يحدد الأسلوب المطلوب للموديل لإنتاج محتوى يحاكي السيناريوهات الواقعية (zhou2023controlled, NEURIPS2021_d0f5edad, li2022diffusionlm, pascual-etal-2021-plug-play). ومع ذلك، لا تزال هناك بعض القضايا غير المستكشفة: أولًا، لم تعالج الأبحاث الحالية بشكل كافٍ اكتساب قدرات التبديل بين الأساليب من الجوانب المعجمية والبنيوية، خاصةً فيما يتعلّق بالنصوص الاحترافية وغير الاحترافية. ثانيًا، من الضروري اقتراح استراتيجيات تقييم كمية لتمكين قياس التمييز الأسلوبي للنصوص المولَّدة.

تستند هذه الملاحظات إلى السؤال التالي: كيف يمكن تحسين قدرة النماذج اللغوية الكبيرة على التبديل بين الاستجابات بأسلوب احترافي وغير احترافي دون الإضرار بمهارات توليد النصوص؟

تقدّم هذه الدراسة ProSwitch، وهو إطار عمل لتحسين قدرة التبديل بين الأساليب الاحترافية وغير الاحترافية في النماذج اللغوية الكبيرة عبر تعديل التعليمات الموجّهة بالمعرفة وتقييم النتائج. تتضمن العملية ثلاث مراحل، كما هو موضّح في الشكل~\ref{framework}. في مرحلة إعداد البيانات، نجمع المقالات والمفاهيم المتخصصة في المجال، ثم نولّد مجموعة متوازنة وموصومة من أزواج الأسئلة والأجوبة عبر عملية توسعة شبه آلية. خلال ضبط التعليمات، نصمم صيغًا متعددة للمطالبات للنموذج المدرب مسبقًا، بهدف تحسين قدرته على التبديل بين الأساليب من خلال توفير معلومات مجالية متدرّجة في مستوى التفاصيل. استنادًا إلى معايير الاحتراف المعروفة وقدرات التحليل الدلالي القويّة لِـ GPT-4 (openai2023gpt4)، نقترح استراتيجية تقييم شاملة تشمل مؤشرات التمييز الاحترافي وجودة اللغة المرجعية. تشير نتائجنا إلى أن ProSwitch يعزّز بشكل ملحوظ قدرة التبديل بين الأساليب مقارنةً بالنماذج اللغوية الكبيرة العامة والمتخصّصة.

باختصار، إسهاماتنا كالآتي: (1) تقديم ProSwitch، أول بحث عن توليد نصوص بأسلوب احترافي وغير احترافي عبر استغلال المعرفة الميدانية بتعديل تعليمات النماذج اللغوية الكبيرة، متميز عن دراسات نقل الأسلوب التي تركز فقط على التغيرات المعجمية. (2) اقتراح وتحليل صيغ تعليمات متعددة المستويات لتعديل التعليمات عبر توفير معلومات مجالية غنية متدرجة، مختلف عن تكييف المطالبات التقليدية. (3) إجراء تقييم شامل باقتراح مؤشرات لكل من التمييز الاحترافي وجودة اللغة المرجعية. يبرز أداء ProSwitch في مجموعات بيانات الأسئلة والأجوبة من مجالي الطب وتقنية المعلومات تفوّقه على النماذج اللغوية الكبيرة العامة والمتخصصة في قدرته على التبديل بين توليد النصوص الاحترافية وغير الاحترافية.

``` **ملاحظات التصحيح:** - تم تصحيح الإشارة إلى الشكل من "الشكل [framework]" إلى "الشكل~\ref{framework}" باستخدام تنسيق LaTeX الصحيح. - لا توجد معادلات رياضية أخرى أو صيغ LaTeX تحتاج إلى تصحيح في هذا الجزء من النص. - تم التأكد من أن جميع عناصر LaTeX ستعمل بشكل صحيح مع MathJax في هذا السياق. - لم يتم تغيير أي كلمات أو حذف أي نص. - تم الحفاظ على النص كاملاً والتأكد من خلوه من أخطاء LaTeX.