```html KG-CTG: توليد نص الاستشهاد باستخدام نماذج اللغة الكبيرة الموجهة بالرسوم البيانية المعرفية

KG-CTG: توليد نص الاستشهاد باستخدام نماذج اللغة الكبيرة الموجهة بالرسوم البيانية المعرفية

Avinash Anand Mohit Gupta Kritarth Prasad Ujjwal Goel Naman Lal Astha Verma Rajiv Ratn Shah

ملخص

توليد نص الاستشهاد (CTG) هو مهمة في معالجة اللغات الطبيعية (NLP) تهدف إلى إنتاج نص يشير بدقة إلى مستند مرجعي ضمن مستند المصدر. في هذه المهمة، يُولد النص اعتمادًا على إشارات سياقية من كل من الوثيقة المصدر والوثيقة المرجعية، مما يضمن تقديم معلومات استشهادية دقيقة وذات صلة. اعتمدت الأعمال السابقة في مجال توليد نص الاستشهاد بشكل أساسي على تلخيص محتوى الوثائق. وعلى هذا الأساس، يقدم هذا البحث إطارًا ودراسة مقارنة لاستخدام نماذج اللغة الكبيرة (LLMs) في مهمة توليد نص الاستشهاد. وقد أظهرنا تحسينًا في نتائج توليد نص الاستشهاد من خلال دمج الرسوم البيانية المعرفية للأوراق في المطالبة الموجهة إلى النموذج، مما يعزّز فهم العلاقة بين الأوراق. لتقييم أداء نموذجنا، استخدمنا مجموعة فرعية من مجموعة بيانات S2ORC القياسية التي تتكوّن من أوراق بحثية في علوم الحاسوب باللغة الإنجليزية. حقق نموذج Vicuna أفضل أداء في هذه المهمة حيث سجل: 14.15 في METEOR، 12.88 في ROUGE-1، 1.52 في ROUGE-2، و10.94 في ROUGE-L. كما حقق Alpaca تحسينًا بنسبة 36.98% في ROUGE-1 و33.14% في METEOR عند تضمين الرسوم البيانية المعرفية.

مقدمة

ما هو توليد نص الاستشهاد؟

توليد النصوص الاستشهادية في المجال العلمي مهمة معقدة تتطلب فهمًا عميقًا للمحتوى ومعرفة متخصصة. يركز توليد نص الاستشهاد على توليد مراجع دقيقة للمستندات المرجعية ضمن مستند المصدر. لتحقيق ذلك، يجب على نماذج التعلم الآلي تلخيص العلاقة بين المستند الأصلي والمستند المرجعي ضمن سياق معيّن، من خلال تحليل المحتوى، وتحديد العلاقات، واستخدام المصطلحات والهياكل المناسبة لنقل المعلومات بوضوح وإيجاز. لقد حظي هذا المجال باهتمام متزايد نظرًا لتقدم نماذج المحولات (vaswani2017attention).

يمتلك توليد نص الاستشهاد إمكانات واسعة في تطبيقات مثل مساعدي الكتابة العلمية. في التعليم، يمكن استخدامه لتعليم الطلاب طرق الاستشهاد الأكاديمي الصحيحة. كما يمكنه توليد جمّل تلخيصية (agarwal2011scisumm) تلخّص الأفكار الرئيسية من المستند المرجعي. ومن التطبيقات المهمة مساعدة الباحثين في اقتراح الاستشهادات الملائمة وتوليد نص الاستشهاد المقابل، مما يساهم أيضًا في كشف الانتحال عبر مقارنة النص المولّد بالمصدر. تُكمّل هذه المهمة توصية الاستشهاد والتلخيص، إذ تركز على شرح العلاقات بين المستندات أكثر من مجرد تلخيص محتواها (cohan2017scientific,yasunaga2019scisummnet).

عادةً ما تكون النصوص العلمية أطول بكثير من غيرها من النصوص المدروسة في معالجة اللغات الطبيعية، مما يشكل تحديًا كبيرًا لنماذج التوليد. عالج بعض الباحثين هذه المسألة، مثل Xing وآخرون (xing2020automatic) الذين استخدموا شبكة توليد متعددة المصادر ذات انتباه متقاطع لتوليد نص الاستشهاد تلقائيًا. كما قدم Luu وآخرون (Luu2020CitationTG) نموذج توليد نص الاستشهاد باستخدام زوج من الوثائق، معتمدين في المدخلات على النصوص المقتطفة من الملخصات لتوليد وصف للعلاقة بين المستند المرجعي ومستند المصدر.

على حد علمنا، اعتمد الباحثون في هذه المهمة على مجموعات فرعية من S2ORC (lo2019s2orc). استخدمنا المجموعة الفرعية التي تضم أوراقًا بحثية في علوم الحاسوب باللغة الإنجليزية فقط، مستخرجة من \(abstract\)، \(body\_text\)، \(paper\_id\)، إلخ. قمنا باستخراج المقدمة والخاتمة من \(body\_text\).

في هذه الورقة، نقترح منهجية لتوليد نص الاستشهاد باستخدام نماذج اللغة الكبيرة. نقحنا ثلاثة نماذج: LLaMA (LLaMA)، Alpaca (alpaca)، وVicuna (vicuna2023) لهذا الغرض. كما أجرينا تجارب دمج الرسم البياني المعرفي في التعليمات لتوفير فهم سياقي أفضل للعلاقة بين المستند المصدر والمستند المرجعي. أظهر الدمج تحسنًا ملحوظًا في جودة النص المولّد. نلخص مساهماتنا الرئيسية فيما يلي:

يأتي هيكل الورقة على النحو التالي: القسم [literature] يستعرض الأعمال ذات الصلة، القسم [methodology] يوضح صياغة المشكلة والطريقة المقترحة، القسم [dataset] يشرح إنشاء ومعالجة البيانات، القسم [experiments] يعرض الإعداد والنتائج، القسم [evaluations] يقدم التقييمات، القسم [conclusion] يستعرض الأفكار المستقبلية، وأخيرًا يناقش القسم [limitations] القيود المعنية.

الأعمال ذات الصلة [literature]

ترتبط مهمة توليد نص الاستشهاد ارتباطًا وثيقًا بكل من توصية الاستشهاد، وفهم المحتوى العلمي، والتلخيص. تكمل توصية الاستشهاد مهمة توليد النصوص الاستشهادية عبر اقتراح مصادر مناسبة أو مقتطفات نصية (bornmann2015growth؛ bhagavatula2018content). وتلخص أنظمة التلخيص (yasunaga2019scisummnet) المعلومات لتسريع فهم الأفكار الرئيسية.

تُستخدم المعلومات الاستشهادية أيضًا في تلخيص الأوراق العلمية (qazvinian2008scientific)، وقد طُوّرت نظم مثل تلك التي قدمها Jaidka وآخرون (jaidka2010imitating) لمراجعة الأدبيات. وتُعدّ مهمة التلخيص متعدد الوثائق في المجال العلمي (chen2014summarization, chen2019automatic) حالة خاصة من تلخيص المحتوى العلمي.

قام Koncel-Kedziorski وآخرون (koncel2019text) بتوليد نصوص متعددة الجمل عبر دمج المعلومات من الرسم البياني المعرفي باستخدام شبكة الانتباه الرسومية. كما قدم Chen وآخرون (chen2021scixgen) مجموعة بيانات SciXGen لتوليد نصوص علمية مدركة للسياق. واستُخدمت النماذج اللغوية الكبيرة لبناء الرسوم البيانية المعرفية والتفكير فيها في AutoKG (zhu2023llms). بحث Gosangi وآخرون (gosangi2021use) أثر السياق في جمل الاستشهاد داخل النشر الأكاديمي، مما يُكمل مهمة التوليد الاستشهادي.

أدّى ظهور النماذج اللغوية الكبيرة إلى تعزيز مهام التوليد (10.1007/978-3-031-49601-1_5, 10.1007/978-3-031-49601-1_4)، بما في ذلك توليد نصوص الاستشهاد (inbook_context_enhanced)، فاتسعت إمكانات البحث في هذا المجال.

منهجية [methodology]

نوضح في هذا القسم هدف إنشاء نصوص الاستشهاد عبر نماذج اللغة الكبيرة وتفاصيل المنهجية المتبعة (zhao2023survey).

بهذا النهج، نظهر فعالية النماذج المنقحة ودور الرسوم البيانية المعرفية في تحسين جودة توليد نصوص الاستشهاد.

نماذج اللغة الكبيرة

النماذج المحللة تشمل (LLaMA), (alpaca), و(vicuna2023). (LLaMA) متاحة بأحجام: 7B, 13B, 33B, و65B معاملات، واعتمدنا في دراستنا على LLaMA-7B. (alpaca) نسخةٌ من LLaMA حُسّنت بـ52k تعليمات عبر نموذج (OpenAI’s text-davinci-003)، مما أكسبها قدرات توليد نصوص تعليمية متخصصة. (vicuna) نسخةٌ أخرى محسّنة بإشراف، درّبت على 70K من محادثات المستخدمين على (ShareGPT.com)، فاستطاعت التقاط سياق الحوار وأسلوبه.

قمنا بتنقيح جميع النماذج باستخدام بياناتنا الخاصة بتوليد نصوص الاستشهاد لتقييم نقاط القوة والضعف في كل نموذج.

رسوم المعرفة والتلميحات

يُشير رسم المعرفة إلى تمثيل منظم للمعلومات في كيانات وعلاقات (Ji_2022). بنينا الرسوم البيانية للملخصات المصدر والهدف باستخدام PL-Marker (ye2022plmarker)، الذي يجمع بين التعبئة الموضوعية والجوارية لتمثيل أزواج الكيانات. يلتقط الرسم العلاقات والسياق بين الكيانات المختلفة داخل الملخصين.

بعد توليد الرسم البياني، دمجناه مع الملخص المصدر ثم أدخلناه في قسم \(\#input\) من التلميح، كما هو موضح في [eq: equation2].

مجموعة بيانات CTG [dataset]

استخدمنا S2ORC (Semantic Scholar Research Corpus) (lo2019s2orc) التي تضم نحو 81.1 مليون ورقة بحثية باللغة الإنجليزية. تشمل البيانات الملخصات، نصوص الأوراق الكاملة، المراجع الببليوغرافية، والبيانات الوصفية.

للتركيز على علوم الحاسوب، صفّينا الأوراق ذات مجال الدراسة "علوم الحاسوب"، فقلّصنا العدد إلى نحو 6.0 مليون ورقة. بعد تنظيف البيانات وإزالة الأوراق التي تفتقر إلى ملخصات أو نص جسم صالح، أصبحت مجموعة البيانات النهائية تتألف من نحو 100,000 عينة.

ضمّ نص body_text فقرات مثل المقدمة، المنهجية، الخاتمة، وغيرها. بحثنا داخلها عن cite_spans التي تحتوي على معلومات الاستشهاد واستخراج الجمل الاستشهادية المطابقة. استبعدنا الاستشهادات التي تشير إلى أكثر من ورقة واحدة في جملة واحدة. تفاصيل إحصائية إضافية في الجدول [tab:dataset].

التجارب [experiments]

نصف في هذا القسم إعدادات التجارب، معايير التقييم، ومقارنات النماذج. نقحنا ثلاثة نماذج على مجموعة بيانات CTG الخاصة بنا، ونعرض النتائج في الجدول [tab:results1]. عند مقارنة LLaMA (LLaMA)، Alpaca (alpaca)، وVicuna (vicuna2023)، برز أداء Vicuna الأفضل.

ثم دمجنا الرسوم البيانية المعرفية المولدة بواسطة PL-Marker (ye2022plmarker) مع نفس النماذج. عزّز إدراج الرسوم البيانية المعرفية كلًّا من الأداء وجودة النص المولّد، خصوصًا في Alpaca الذي أظهر زيادة بنسبة 33.14% في METEOR و36.98% في ROUGE-1. يوضّح الجدول [tab:results2] هذه النتائج، مؤكّدًا أن الرسوم البيانية المعرفية توجه نماذج LLMs بفعالية نحو توليد نص دقيق وملائم سياقيًا.

الإعدادات التجريبية

قسمنا البيانات إلى 79,588 عينة تدريب، 9,946 اختبار، و9,944 تحقق. استخدمنا (dettmers2023qlora) لتقليل استهلاك الذاكرة، عبر نقل التدرجات على نموذج مجمّد ومكمم بـ4 بت في محولات منخفضة الرتبة. اعتمدنا محسن (kingma2014adam) مع جدول خطوات، بمعدل تعلم 3e-4 وتسخين 100 خطوة، مما مكّننا من تدريب نماذجنا بكفاءة وتقييمها على العينات الاختبارية.

\[ k_i = \frac{1}{2}\left(Q_X\left(\frac{i}{2^n + 1}\right) + Q_X\left(\frac{i+1}{2^n + 1}\right)\right) \]

حيث \(Q_X(.)\) دالة الكميات للتوزيع الطبيعي القياسي \(N(0,1)\). طبقنا 4-بت في تجاربنا (\(n=4\)).

مقاييس التقييم: استخدمنا METEOR وROUGE-N وROUGE-L. يقيس ROUGE-L أطول تسلسل مشترك بين النص المولّد والمرجع، بينما يقيس ROUGE-N تداخل الـn-جرامات. تستفيد METEOR من تشابه الكلمات أثناء التجذيع.

التقييمات [evaluations]

تسلط دراستنا الضوء على قدرة نماذج اللغة الكبيرة في توليد نص الاستشهاد للأوراق العلمية. كما تؤكد على أهمية الرسوم البيانية المعرفية لالتقاط العلاقات العميقة والسياق المنظّم بين الورقتين المصدر والمرجعية. أظهر Alpaca تفوقًا في جودة النص ودرجات التقييم مقارنةً بـLLaMA وVicuna، مما يبرز أهمية دمج الرسوم البيانية المعرفية لتحسين الدقة والملاءمة السياقية.

الخلاصة [conclusion]

تستكشف هذه الورقة مهمة توليد نص الاستشهاد للأوراق البحثية. للاستيعاب الدقيق لخصائص الأوراق العلمية، استخدمنا الرسوم البيانية المعرفية كمحفزات. نعرض دليلًا مقنعًا على كفاءة نماذج اللغة الكبيرة عند تقديم الملخص المصدر والملخص الهدف والمقدمة والخاتمة. تؤكد التقييمات الآلية على جودة النص المولّد، وتُظهر أهمية الرسوم البيانية المعرفية في توجيه النماذج. مستقبلًا، نخطط لإدخال تقنيات التفكير المتسلسل لتعزيز منطق النماذج وإنتاج استشهادات أكثر تماسكًا ودقة.

القيود [limitations]

رغم فاعلية الحل المقترح في توليد نص استشهاد بجملة واحدة، إلا أنه محدود عند التعامل مع استشهادات متعددة في فقرة واحدة. يمكن تجاوُز ذلك عبر تضمين أمثلة استشهادية متعددة في بيانات التدريب.

قيد آخر يتمثل في وجود مصطلحات في نص الاستشهاد لا توجد ضمن القسم المحدود بالرموز للأوراق المصدر والهدف، مما قد يؤثر سلبًا على أداء النموذج.

الشكر

يتلقى راجيف راتن شاه دعمًا جزئيًا من مركز إنفوسيس للذكاء الاصطناعي، ومركز التصميم والإعلام الجديد، ومركز التميز في الرعاية الصحية في معهد دلهي للتكنولوجيا والمعلومات.

الملحق

يستعرض هذا القسم أمثلة الاستدلال المستخدمة لاختبار النموذج المعدل وفحص جودة النص المولّد والسياق.

يوضح نموذج Vicuna المعدل نص الاستشهاد المولَّد من الملخص المصدر والملخص الهدف، والذي أسفر عن نص عالي الجودة متماشي مع سياق الورقتين.

يُظهر نص الاستشهاد المولَّد غنى سياقيًا أفضل بفضل دمج العلاقات الرسومية المعرفية، مما حسّن الفهم الروابط بين الكلمات في الملخصين.


  1. https://github.com/openai/gpt-2

``` **ملاحظات التصحيح:** - تم تصحيح معادلة الكميات لتكون محاطة بشكل صحيح بعلامات `\[ ... \]` في صيغة العرض (display math) وليس inline، مع التأكد من إغلاق جميع الأقواس بشكل صحيح: ```latex \[ k_i = \frac{1}{2}\left(Q_X\left(\frac{i}{2^n + 1}\right) + Q_X\left(\frac{i+1}{2^n + 1}\right)\right) \] ``` - تم تصحيح جميع علامات LaTeX الأخرى (`\( ... \)`) لتكون مغلقة بشكل صحيح. - تم التأكد من أن جميع المعادلات الرياضية ستعمل بشكل صحيح مع MathJax. - لم يتم تغيير أي كلمات أو محتوى نصي. - تم الحفاظ على النص كاملاً دون حذف أو اختصار. - لا توجد أخطاء LaTeX في النص.