ملخّص
توليد نصّ الاستشهاد (CTG) هو مهمّة في معالجة اللغات الطبيعيّة (NLP) تهدف إلى إنتاج نصّ يُشير بدقّة إلى وثيقةٍ مرجعيّة ضمن وثيقة المصدر. في هذه المهمّة، يُولِّد النظام النصَّ اعتمادًا على إشارات سياقيّة من كلٍّ من الوثيقة المصدر والوثيقة المرجعيّة، بما يضمن تقديم معلوماتٍ استشهاديّة دقيقة وذات صلة. اعتمدت الأعمال السابقة في مجال توليد نصّ الاستشهاد أساسًا على تلخيص محتوى الوثائق. وعلى هذا الأساس، يقدّم هذا البحث إطارًا ودراسةً مقارنة لاستخدام نماذج اللُّغة الكبيرة (LLMs) في مهمّة توليد نصّ الاستشهاد. وقد أظهرنا تحسُّنًا في النتائج عبر دمج الرسوم البيانيّة المعرفيّة للأوراق في صياغة المطالبة المُقدَّمة إلى النموذج، بما يعزّز فهم العلاقة بين الأوراق. للتقييم، استخدمنا مجموعةً فرعيّة من مجموعة بيانات S2ORC القياسيّة والمكوّنة من أوراقٍ بحثيّة في علوم الحاسوب بالإنجليزيّة. حقّق نموذج Vicuna أفضل أداء في هذه المهمّة، حيث سجّل: 14.15 في METEOR، 12.88 في ROUGE-1، 1.52 في ROUGE-2، و10.94 في ROUGE-L. كما حقّق Alpaca تحسّنًا بنسبة 36.98% في ROUGE-1 و33.14% في METEOR عند تضمين الرسوم البيانيّة المعرفيّة.
مقدّمة
ما هو توليد نصّ الاستشهاد؟
توليد النصوص الاستشهاديّة في المجال العلمي مهمّةٌ معقّدة تتطلّب فهمًا عميقًا للمحتوى ومعرفةً متخصّصة. يركّز توليد نصّ الاستشهاد على إنتاج صِيَغٍ لغويّة دقيقة تُحيل إلى الوثائق المرجعيّة ضمن وثيقة المصدر. ولتحقيق ذلك، ينبغي لنماذج التعلُّم الآلي تلخيص العلاقة بين الوثيقة الأصليّة والوثيقة المرجعيّة ضمن سياقٍ معيّن، من خلال تحليل المحتوى، وتحديد العلاقات، واستخدام المصطلحات والهياكل المناسبة لنقل المعلومات بوضوحٍ وإيجاز. لقد حَظِي هذا المجال باهتمامٍ متزايد نظرًا لتقدُّم نماذج المُحوِّلات (vaswani2017attention).
يمتلك توليد نصّ الاستشهاد إمكانات واسعة في تطبيقاتٍ مثل مُساعدي الكتابة العلميّة. في التعليم، يمكن استخدامه لتعليم الطلّاب طرائق الاستشهاد الأكاديمي الصحيحة. كما يمكنه توليد جُمل تلخيصيّة (agarwal2011scisumm) تُلخِّص الأفكار الرئيسة من الوثيقة المرجعيّة. ومن التطبيقات المهمّة مساعدة الباحثين في اقتراح الاستشهادات الملائمة وتوليد نصّ الاستشهاد المقابل، بما يُسهِم أيضًا في كشف الانتحال عبر مقارنة النصّ المُولَّد بالمصدر. تُكَمِّل هذه المهمّة توصية الاستشهاد والتلخيص، إذ تُركِّز على شرح العلاقات بين الوثائق أكثر من مجرّد تلخيص محتواها (cohan2017scientific,yasunaga2019scisummnet).
عادةً ما تكون النصوص العلميّة أطول بكثير من غيرها من النصوص المدروسة في معالجة اللغات الطبيعيّة، ما يُشكّل تحدّيًا كبيرًا لنماذج التوليد. عالج بعض الباحثين هذه المسألة؛ مثل Xing وآخرون (xing2020automatic) الذين استخدموا شبكة توليدٍ متعدّدة المصادر ذات انتباهٍ مُتقاطع لتوليد نصّ الاستشهاد تلقائيًّا. كما قدّم Luu وآخرون (Luu2020CitationTG) نموذجًا لتوليد نصّ الاستشهاد باستخدام زوجٍ من الوثائق، معتمدين في المُدخلات على مقاطع مُنتقاة من الملخّصات لتوليد وصفٍ للعلاقة بين الوثيقة المرجعيّة ووثيقة المصدر.
على حدّ علمنا، اعتمد الباحثون في هذه المهمّة على مجموعاتٍ فرعيّة من S2ORC (lo2019s2orc). استخدمنا المجموعة الفرعيّة التي تضمّ أوراقًا بحثيّة في علوم الحاسوب بالإنجليزيّة فقط، مستخرَجة من \(abstract\)، \(body\_text\)، \(paper\_id\)، إلخ. وقد استخرجنا المقدّمة والخاتمة من \(body\_text\).
في هذه الورقة، نقترح منهجيّةً لتوليد نصّ الاستشهاد باستخدام نماذج اللُّغة الكبيرة. قمنا بضبطٍ دقيق لثلاثة نماذج: LLaMA (LLaMA)، Alpaca (alpaca)، وVicuna (vicuna2023) لهذا الغرض. كما أجرينا تجاربَ ندمج فيها الرسم البياني المعرفي ضمن صياغة المطالبات لتوفير فهمٍ سياقيٍّ أفضل للعلاقة بين وثيقة المصدر والوثيقة المرجعيّة. وأظهر هذا الدمج تحسّنًا ملحوظًا في جودة النصّ المُولَّد. نُلخّص مساهماتنا الرئيسة فيما يلي:
- نُوظِّف قدرات نماذج اللُّغة الكبيرة في توليد نصّ الاستشهاد في الكتابة البحثيّة، بعد ضبط ثلاثة نماذج اعتمادًا على محتوى الأوراق كمصدرٍ ومرجع.
- دمجنا الرسوم البيانيّة المعرفيّة للوثيقتين: المصدر والمرجعيّة، ضمن المطالبات بهدف تعزيز فهم النموذج للعلاقات بين الأوراق باستخدام PL-Marker (ye2022plmarker).
- أثبتنا أن دمج الرسوم البيانيّة المعرفيّة يُحسِّن الأداء بشكلٍ ملموس، حيث حقّق Alpaca زيادةً بنسبة 33.14% في METEOR و36.98% في ROUGE-1 على S2ORC.
يأتي هيكل الورقة على النحو التالي: يستعرض قسم الأعمال ذات الصلة، ويعرض قسم المنهجيّة صياغة المشكلة والطريقة المقترحة، ويشرح قسم مجموعة البيانات إنشاءها ومعالجتها، ويقدّم قسم التجارب الإعداد والنتائج، ويعرض قسم التقييمات التحليلات، ثمّ يقدّم قسم الخلاصة والأفكار المستقبليّة، وأخيرًا يناقش قسم القيود.
الأعمال ذات الصلة [literature]
ترتبط مهمّة توليد نصّ الاستشهاد ارتباطًا وثيقًا بكلٍّ من توصية الاستشهاد، وفهم المحتوى العلمي، والتلخيص. تُكمل توصية الاستشهاد مهمّة توليد النصوص الاستشهاديّة عبر اقتراح مصادر مناسبة أو مقتطفات نصيّة (bornmann2015growth؛ bhagavatula2018content). وتُلخِّص أنظمة التلخيص (yasunaga2019scisummnet) المعلومات لتسريع فهم الأفكار الرئيسة.
تُستخدم المعلومات الاستشهاديّة أيضًا في تلخيص الأوراق العلميّة (qazvinian2008scientific)، وقد طُوِّرت نظمٌ مثل تلك التي قدّمها Jaidka وآخرون (jaidka2010imitating) لمراجعة الأدبيّات. وتُعدّ مهمّة التلخيص متعدد الوثائق في المجال العلمي (chen2014summarization, chen2019automatic) حالةً خاصّةً من تلخيص المحتوى العلمي.
قام Koncel-Kedziorski وآخرون (koncel2019text) بتوليد نصوصٍ متعدّدة الجمل عبر دمج المعلومات من الرسم البياني المعرفي باستخدام شبكة الانتباه الرسومي. كما قدّم Chen وآخرون (chen2021scixgen) مجموعة بيانات SciXGen لتوليد نصوصٍ علميّة مُدركة للسياق. واستُخدمت النماذج اللغويّة الكبيرة لبناء الرسوم البيانيّة المعرفيّة والتفكير فيها في AutoKG (zhu2023llms). وبحث Gosangi وآخرون (gosangi2021use) أثر السياق في جمل الاستشهاد داخل النشر الأكاديمي، بما يُكمل مهمّة التوليد الاستشهادي.
أدّى ظهور النماذج اللغويّة الكبيرة إلى تعزيز مهامّ التوليد (10.1007/978-3-031-49601-1_5, 10.1007/978-3-031-49601-1_4)، بما في ذلك توليد نصوص الاستشهاد (inbook_context_enhanced)، فتوسّعت إمكانات البحث في هذا المجال.
منهجيّة [methodology]
نوضّح في هذا القسم هدف إنشاء نصوص الاستشهاد عبر نماذج اللُّغة الكبيرة وتفاصيل المنهجيّة المُتّبَعة (zhao2023survey).
- الضبط الدقيق للنماذج: أجرينا ضبطًا دقيقًا لثلاثة نماذج: LLaMA (LLaMA)، Alpaca (alpaca)، وVicuna (vicuna2023) باستخدام مجموعةٍ فرعيّة من S2ORC، لتخصيصها لمهمّة توليد نصّ الاستشهاد وتقييم أدائها.
- إدراج الرسوم البيانيّة المعرفيّة: لتحسين فهم العلاقات والسياق، ضمّنا الرسم البياني المعرفي المُولَّد من الأوراق ضمن صياغة المطالبة، مستفيدين من PL-Marker (ye2022plmarker) ونتائج الأبحاث الحديثة (pan2023unifying).
بهذا النهج، نُظهِر فعاليّة النماذج بعد ضبطها، ودور الرسوم البيانيّة المعرفيّة في تحسين جودة توليد نصوص الاستشهاد.
نماذج اللُّغة الكبيرة
النماذج المدروسة تشمل (LLaMA)، (alpaca)، و(vicuna2023). يتوفّر (LLaMA) بأحجام: 7B، 13B، 33B، و65B معاملة، واعتمدنا في دراستنا على LLaMA-7B. أمّا (alpaca) فهو نسخةٌ من LLaMA مُحسَّنة بـ52k تعليمات باستخدام نموذج (OpenAI’s text-davinci-003)، ما أكسبها قدراتٍ جيّدة في توليد نصوصٍ تعليميّة مخصّصة. و(vicuna) نسخةٌ أخرى مُحسَّنة بإشراف، دُرِّبت على 70K من محادثات المستخدمين على (ShareGPT.com)، فاستطاعت التقاط سياق الحوار وأسلوبه.
قمنا بضبط جميع النماذج ضبطًا دقيقًا باستخدام بياناتنا الخاصّة بتوليد نصوص الاستشهاد لتقييم نقاط القوّة والضعف في كلّ نموذج.
الرسوم البيانيّة المعرفيّة والمطالبات
يشير الرسم البياني المعرفي إلى تمثيلٍ منظّم للمعلومات في كياناتٍ وعلاقات (Ji_2022). بنينا الرسوم البيانيّة لملخّصي المصدر والهدف باستخدام PL-Marker (ye2022plmarker)، الذي يمزج بين ترميز الموضع والقرائن السياقيّة لتمثيل أزواج الكيانات. يلتقط الرسم العلاقات والسياق بين الكيانات المختلفة داخل الملخّصين.
بعد توليد الرسم البياني، دمجناه مع ملخّص المصدر ثمّ أدرجناه في قسم \(\#input\) من المطالبة، كما هو مُوضَّح في المعادلة التالية.
مجموعة بيانات CTG [dataset]
استخدمنا S2ORC (Semantic Scholar Research Corpus) (lo2019s2orc) التي تضمّ نحو 81.1 مليون ورقة بحثيّة بالإنجليزيّة. تشمل البيانات الملخّصات، والنصوص الكاملة للأوراق، والمراجع الببليوغرافيّة، والبيانات الوصفيّة.
للتركيز على علوم الحاسوب، صفّينا الأوراق ذات مجال الدراسة "علوم الحاسوب"، فانخفض العدد إلى نحو 6.0 ملايين ورقة. وبعد تنظيف البيانات وإزالة الأوراق التي تفتقر إلى ملخّصات أو نصّ جسمٍ صالح، أصبحت مجموعة البيانات النهائيّة تتألف من نحو 100,000 عيّنة.
ضمّ نصّ body_text فقراتٍ مثل: المقدّمة، المنهجيّة، الخاتمة، وغيرها. بحثنا داخله عن cite_spans التي تحتوي على معلومات الاستشهاد واستخرجنا الجُمل الاستشهاديّة المطابقة. واستبعدنا الاستشهادات التي تُشير إلى أكثر من ورقةٍ واحدة في جملةٍ واحدة. تفاصيلٌ إحصائيّة إضافيّة في الجدول [tab:dataset].
التجارب [experiments]
نصف في هذا القسم إعدادات التجارب، ومعايير التقييم، ومقارنات النماذج. أجرينا ضبطًا دقيقًا لثلاثة نماذج على مجموعة بيانات CTG الخاصّة بنا، وتُعرض النتائج في الجدول [tab:results1]. وعند مقارنة LLaMA (LLaMA)، وAlpaca (alpaca)، وVicuna (vicuna2023)، برز أداء Vicuna باعتباره الأفضل.
ثمّ دمجنا الرسوم البيانيّة المعرفيّة المُولَّدة بواسطة PL-Marker (ye2022plmarker) مع النماذج نفسها. وقد عزّز إدراج الرسوم البيانيّة المعرفيّة كلًّا من الأداء وجودة النصّ المُولَّد، لا سيّما في Alpaca الذي أظهر زيادةً بنسبة 33.14% في METEOR و36.98% في ROUGE-1. يوضّح الجدول [tab:results2] هذه النتائج، مؤكِّدًا أنّ الرسوم البيانيّة المعرفيّة تُوجِّه نماذج LLMs بفعاليّة نحو توليد نصٍّ دقيق وملائم سياقيًّا.
الإعدادات التجريبيّة
قسّمنا البيانات إلى 79,588 عيّنة تدريب، و9,946 اختبار، و9,944 تحقق. استخدمنا (dettmers2023qlora) لتقليل استهلاك الذاكرة، وذلك عبر تدريب مُحوِّلات منخفضة الرتبة فوق نموذج أساس مُجمَّد ومُكمَّم بــ4-بت. اعتمدنا المُحسِّن (kingma2014adam) مع جدول خطوات، بمعدّل تعلُّم 3e-4 وتسخينٍ بمقدار 100 خطوة، ما أتاح لنا تدريب نماذجنا بكفاءة وتقييمها على عيّنات الاختبار.
\[ k_i = \frac{1}{2}\left(Q_X\left(\frac{i}{2^n + 1}\right) + Q_X\left(\frac{i+1}{2^n + 1}\right)\right) \]
حيث إنّ \(Q_X(.)\) هي دالّة الكميّات للتوزيع الطبيعي القياسي \(N(0,1)\). طبّقنا 4-بت في تجاربنا (\(n=4\)).
مقاييس التقييم: استخدمنا METEOR وROUGE-N وROUGE-L. يقيس ROUGE-L أطول تسلسلٍ مشترك بين النصّ المُولَّد والمرجع، بينما يقيس ROUGE-N تداخل الـn-جرامات. وتستفيد METEOR من تشابه الكلمات أثناء التجذير.
التقييمات [evaluations]
تُسلِّط دراستنا الضوء على قدرة نماذج اللُّغة الكبيرة في توليد نصّ الاستشهاد للأوراق العلميّة، وتؤكّد أهميّة الرسوم البيانيّة المعرفيّة لالتقاط العلاقات العميقة والسياق المُنظَّم بين وثيقة المصدر والوثيقة المرجعيّة. وقد حقّق Vicuna أفضل أداءٍ إجماليًّا وفق المقاييس الآليّة، بينما استفاد Alpaca على نحوٍ ملحوظ من دمج الرسوم البيانيّة المعرفيّة، مُحقّقًا أكبر قفزةٍ نسبيّة في الدقّة والملاءمة السياقيّة.
الخلاصة [conclusion]
تستكشف هذه الورقة مهمّة توليد نصّ الاستشهاد للأوراق البحثيّة. وللاستيعاب الدقيق لخصائص النصوص العلميّة، استخدمنا الرسوم البيانيّة المعرفيّة بوصفها مُحفِّزاتٍ سياقيّة ضمن المطالبات. نعرض دليلًا مُقنعًا على كفاءة نماذج اللُّغة الكبيرة عند تقديم ملخّص المصدر وملخّص الهدف والمقدّمة والخاتمة. تؤكّد التقييمات الآليّة جودة النصّ المُولَّد، وتُظهر أهميّة الرسوم البيانيّة المعرفيّة في توجيه النماذج. مستقبلًا، نُخطِّط لإدخال تقنيّات التفكير المتسلسل لتعزيز منطق النماذج وإنتاج استشهاداتٍ أكثر تماسكًا ودقّة.
القيود [limitations]
على الرغم من فاعليّة الحلّ المقترح في توليد نصّ استشهادٍ من جملةٍ واحدة، إلّا أنّه يظلّ محدودًا عند التعامل مع استشهاداتٍ متعدّدة في فقرةٍ واحدة. ويمكن تجاوز ذلك عبر تضمين أمثلة استشهاديّة متعدّدة في بيانات التدريب.
قيدٌ آخر يتمثّل في وجود مصطلحاتٍ في نصّ الاستشهاد لا تظهر ضمن القسم المحدود بالرموز من وثيقتَي المصدر والهدف، ما قد يؤثّر سلبًا في أداء النموذج.
الشكر
يتلقّى راجيف راتن شاه دعمًا جزئيًّا من مركز إنفوسيس للذّكاء الاصطناعي، ومركز التصميم والإعلام الجديد، ومركز التميّز في الرعاية الصحيّة في معهد دلهي للتكنولوجيا والمعلومات.
الملحق
يستعرض هذا القسم أمثلة الاستدلال المستخدمة لاختبار النموذج المضبوط ضبطًا دقيقًا وفحص جودة النصّ المُولَّد وسياقه.
يوضّح نموذج Vicuna المضبوط نصّ الاستشهاد المُولَّد من ملخّص المصدر وملخّص الهدف، والذي أسفر عن نصٍّ عالي الجودة مُتوافقٍ مع سياق الورقتين.
يُظهر نصّ الاستشهاد المُولَّد غِنى سياقيًّا أفضل بفضل دمج العلاقات في الرسم البياني المعرفي، ممّا حسَّن فَهم الروابط بين الكلمات في الملخّصين.