KG-CTG: توليد الاقتباس باستخدام نماذج اللغة الكبيرة الموجهة برسوم البيانات المعرفية

Avinash Anand

Mohit Gupta

Kritarth Prasad

Ujjwal Goel

Naman Lal

Astha Verma

Rajiv Ratn Shah

مُلخّص

توليد نص الاقتباس (CTG) هو مهمة في معالجة اللغات الطبيعية (NLP) تهدف إلى إنتاج نص يقتبس بدقة أو يشير إلى وثيقة مقتبسة ضمن وثيقة مصدر. في CTG، يعتمد النص المولّد على إشارات سياقية من كل من الوثيقة المصدر والورقة المقتبسة، مما يضمن توفير معلومات اقتباس دقيقة وذات صلة. الأعمال السابقة في مجال توليد الاقتباس تعتمد بشكل أساسي على تلخيص النصوص للوثائق. بناءً على ذلك، يقدم هذا البحث إطارًا ودراسة مقارنة لإظهار استخدام نماذج اللغة الكبيرة (LLMs) لمهمة توليد الاقتباس. كما أظهرنا تحسينًا في نتائج توليد الاقتباس من خلال دمج علاقات رسوم البيانات المعرفية للأوراق في الطلب الموجه للنموذج لفهم العلاقة بين الأوراق بشكل أفضل. لتقييم أداء نموذجنا، استخدمنا مجموعة فرعية من مجموعة بيانات S2ORC القياسية، والتي تتكون فقط من أوراق البحث الأكاديمية في علوم الكمبيوتر باللغة الإنجليزية. يحقق Vicuna أفضل أداء لهذه المهمة بـ 14.15 في Meteor، 12.88 في Rouge-1، 1.52 في Rouge-2، و 10.94 في Rouge-L. أيضًا، يحقق Alpaca أداءً أفضل، ويحسن الأداء بنسبة 36.98% في Rouge-1، و 33.14% في Meteor من خلال تضمين رسوم البيانات المعرفية.

مقدمة

ما هو توليد نص الاستشهاد؟

توليد النصوص في المجال العلمي هو مهمة معقدة تتطلب فهمًا قويًا للنص المدخل ومعرفة متخصصة بالمجال. توليد نص الاستشهاد هو مهمة في معالجة اللغات الطبيعية تركز على توليد استشهادات أو مراجع دقيقة للمستندات المستشهد بها ضمن مستند المصدر. لتحقيق ذلك، يجب على نماذج التعلم الآلي أن تلخص ببراعة العلاقة بين المقال الأصلي والمقال المستشهد به في سياق معين. يتضمن ذلك تحليل محتوى المستندات، وتحديد ارتباطاتها، واستخدام المصطلحات والهياكل المناسبة لنقل هذه المعلومات بوضوح وإيجاز. لقد حظي مجال توليد النصوص باهتمام كبير في الآونة الأخيرة، ويعود ذلك إلى حد كبير إلى التقدم في نماذج المحولات (vaswani2017attention).

يحمل توليد نص الاستشهاد إمكانات كبيرة لتطبيقات متنوعة، خاصة في مجال مساعدي الكتابة العلمية. في سياق التعليم، يمكن استخدام توليد نص الاستشهاد لتعليم الطلاب الطريقة الصحيحة للاستشهاد بالأوراق في الكتابة الأكاديمية. ومن الآفاق المثيرة للاهتمام أيضًا القدرة على إنشاء جمل ملخصة (agarwal2011scisumm) من الأوراق المصدر المرجعية، مما يلخص الأفكار الرئيسية للنص المستشهد به. الاستخدام البارز التالي هو مساعدة الباحثين في كتابة الأوراق العلمية من خلال تقديم اقتراحات للاستشهادات المناسبة وتوليد نص الاستشهاد المقابل. يمكن أن يساعد ذلك في الكشف عن الانتحال من خلال مقارنة نص الاستشهاد المولّد بالمادة المصدر. توليد نص الاستشهاد هو مهمة مكملة لتوصية الاستشهاد والتلخيص، حيث يركز بشكل خاص على شرح العلاقات بين المستندات بدلاً من مجرد تلخيص محتوياتها (cohan2017scientific,yasunaga2019scisummnet).

النصوص العلمية أطول بكثير من المجالات الأخرى التي تمت دراستها عادة في معالجة اللغات الطبيعية. هذه مشكلة صعبة وغير محلولة لنماذج توليد النصوص. تم معالجة هذه المشكلة في بعض الأعمال مثل Xing et al. (xing2020automatic) الذي يقوم بتوليد نص الاستشهاد تلقائيًا في المقالات العلمية. يستخدم شبكة توليد مؤشرات متعددة المصادر بالاهتمام المتقاطع. Luu et al. (Luu2020CitationTG) قدم توليد نص الاستشهاد باستخدام زوج من الوثائق العلمية كمصدر وأوراق مستشهد بها. لقد استخدموا بشكل أساسي النص من الملخصات كمدخلات. وقد قام بتوليد نص الاستشهاد الذي يصف العلاقة بين المستند المصدر والمستند المستشهد به.

حسب علمنا، يستخدم الباحثون مجموعات فرعية من مجموعة بيانات S2ORC (lo2019s2orc) لمهمة توليد نص الاستشهاد. لقد استخدمنا فقط المجموعة الفرعية التي تحتوي على مقالات بحثية فقط في مجال علوم الحاسوب باللغة الإنجليزية. تحتوي مجموعة البيانات الأصلية على \(abstract\) للورقة، \(body\_text\)، \(paper\_id\)، إلخ. لقد قمنا باستخراج المقدمة والخاتمة من \(body\_text\).

في هذه الورقة، اقترحنا منهجية أو تقنية لتوليد نص الاستشهاد باستخدام نماذج اللغة الكبيرة. لقد قمنا بتحسين ثلاثة نماذج لغوية كبيرة لمهمة توليد نص الاستشهاد. النماذج هي LLaMA (LLaMA)، Alpaca (alpaca)، و Vicuna (vicuna2023). كما أجرينا تجارب لدمج الرسم البياني للمعرفة في الأوامر لتوليد الاستشهاد، لتوفير فهم سياقي أفضل للورقة المصدر والورقة المستهدفة لفهم العلاقة بينهما بشكل أفضل. يُظهر دمج الرسم البياني للمعرفة تحسنًا في الأداء وجودة توليد النص. لخصنا مساهماتنا الرئيسية في هذه الورقة على النحو التالي:

ترتيب العمل المكتوب كالتالي: القسم [literature] يوفر نظرة عامة على الأعمال ذات الصلة بتوليد نص الاستشهاد. القسم [methodology] يصف صياغة المشكلة، النماذج المستخدمة، ومكوناتها. القسم [dataset] يحدد معالجة وإنشاء مجموعة البيانات من S2ORC. القسم [experiments] يقدم الإعداد التجريبي، النتائج، وتفاصيل التنفيذ. القسم [evaluations] يقدم التقييمات التي أُجريت في الدراسة. القسم [conclusion] يلخص الأهداف المستقبلية للورقة. وأخيرًا، القسم [limitations] يناقش القيود المتعلقة بالنظام المقترح.

الأعمال ذات الصلة [literature]

ترتبط مهمة توليد النصوص الاستشهادية ارتباطًا وثيقًا بتوصية الاستشهادات، وفهم الوثائق العلمية، والتلخيص. تكمل مهمة توصية الاستشهادات مهمة توليد النصوص الاستشهادية، حيث توفر مراجع للمنشورات ذات الصلة بوثيقة معينة أو مقتطف نصي (bornmann2015growth). بالإضافة إلى ذلك، تلعب أنظمة توصية الاستشهادات (bhagavatula2018content) دورًا حيويًا في توجيه الباحثين نحو مصادر معلومات قيمة. تقوم أنظمة التلخيص (yasunaga2019scisummnet) بتكثيف المعلومات مما يسمح للعلماء بفهم الفكرة الأساسية في قسم البحث بشكل أسرع.

كما أن المعلومات الاستشهادية مفيدة لتلخيص الأوراق العلمية (qazvinian2008scientific). تشمل الأعمال السابقة أعمالًا (jaidka2010imitating) في نظام مراجعة الأدبيات الخاص بهم لتلخيص النصوص. تعتبر مهمة التلخيص متعدد الوثائق في المجال العلمي (chen2014summarization) وتوليد النصوص للوثائق العلمية حالة خاصة من التلخيص العلمي متعدد الوثائق (chen2019automatic).

قام كونسيل-كيدزيورسكي وآخرون (koncel2019text) بتوليد نصوص متعددة الجمل من نظام استخراج المعلومات وحسنوا الأداء باستخدام رسم بياني للمعرفة. قاموا بترميز الرسم البياني باستخدام شبكة الانتباه الرسومية. اقترح تشن وآخرون (chen2021scixgen) مجموعة بيانات SciXGen لحل مشكلة توليد النصوص المدركة للسياق في مجال علمي. يستخدم تشو وآخرون (zhu2023llms) النماذج اللغوية الكبيرة لبناء الرسوم البيانية للمعرفة، واستخدموها للتفكير. اقترحوا AutoKG، الذي يستخدم النماذج اللغوية الكبيرة لبناء وتفكير الرسوم البيانية للمعرفة. درس جوسانجي وآخرون (gosangi2021use) أهمية السياق في تحديد ما إذا كانت جملة في نشر أكاديمي تستحق الاستشهاد. يمكن اعتبار هذه الورقة عملًا مكملًا مع مهام توليد النصوص الاستشهادية.

حسب أفضل معرفتنا، كان هناك عملان متوازيان حديثان في المجال يركزان على توليد نصوص الاستشهاد من الأوراق البحثية. كان لو وآخرون (Luu2020CitationTG) أول من قدم هذه المهمة ونجح في توليد نصوص الاستشهاد باستخدام الوثائق المصدر والمستشهد بها كمدخلات. من ناحية أخرى، غاص شينج وآخرون (xing2020automatic) بشكل أعمق في العلاقة بين الوثائق العلمية من خلال الاستفادة من مجموعة بيانات أكبر. استخدموا خوارزمية استخراج الاستشهادات الضمنية، باستخدام GPT-21، التي تم تدريبها على مجموعة بيانات موسومة لتعزيز بيانات التدريب تلقائيًا. أدى ظهور النماذج اللغوية الكبيرة إلى تحقيق اختراق كبير في التعليم (10.1007/978-3-031-49601-1_5, 10.1007/978-3-031-49601-1_4, mathify)، وكذلك في مهام توليد النصوص الاستشهادية، كما أظهرت الأبحاث الأخيرة مثل تلك التي أجراها أفيناش وآخرون (inbook_context_enhanced). لقد خلقت هذه النماذج العديد من إمكانيات التعلم الجديدة.

منهجية [methodology]

الهدف من مهمة إنشاء الاستشهادات، التي تحاول إنتاج نص الاستشهاد في سياق كل من النشر المصدر والورقة المرجعية، يتم توضيحه في هذا القسم. نحن نستفيد من تقدم نماذج اللغة الكبيرة، التي أظهرت تحسينات كبيرة في مختلف مهام توليد النصوص (zhao2023survey).

من خلال اتباع هذه المنهجية، نظهر فعالية النماذج اللغوية الكبيرة المنقحة لإنشاء نص الاستشهاد. بالإضافة إلى ذلك، نبحث في تأثير إدخال رسوم البيانات المعرفية على تحسين أداء النموذج في التقاط العلاقات والمعلومات السياقية الغنية بين الورقة المصدر والورقة المستشهد بها.

نماذج اللغة الكبيرة

في هذه الفقرة، نصف نماذج اللغة الكبيرة المستخدمة في دراستنا لتوليد نصوص الاستشهاد. النماذج التي تم تحليلها في بحثنا تشمل (LLaMA)، (alpaca)، و(vicuna2023). (LLaMA) هو نموذج مبني على تقنية المحولات متوفر بعدة تنويعات، مثل 7B، 13B، 33B، و65B من المعاملات. في دراستنا، ركزنا على (LLaMA-7B). (alpaca)، وهو نسخة من (LLaMA)، تم تحسينه باستخدام 52k تعليمات من نموذج (OpenAI’s text-davinci-003). هذا التدريب المستهدف يسمح لـ(alpaca) بالتخصص في توليد النصوص التعليمية. (vicuna) هو نسخة من (LLaMA) تم تحسينها بإشراف باستخدام 70K من المحادثات المشتركة من المستخدمين على (ShareGPT.com). هذه النسخة من (LLaMA) تلتقط السياق والأسلوب المحدد للمحادثات المشتركة من المستخدمين، مما يمكنها من توليد نصوص تتماشى مع أنماط الحوار.

لتقييم أداء هذه النماذج في مهمة توليد نصوص الاستشهاد، قمنا بتحسين جميع النماذج باستخدام مجموعة بياناتنا الخاصة بتوليد نصوص الاستشهاد. هذا التحليل المقارن يمكننا من تقييم نقاط القوة والضعف لكل نموذج في توليد نصوص استشهاد دقيقة وملائمة سياقيًا.

رسوم المعرفة والتلميحات

يطلق على التمثيل المنظم للمعرفة اسم رسم المعرفة، والذي ينظم المعلومات في كيانات وعلاقاتها، مما يتيح تحليل البيانات المتقدم والاستدلال (Ji_2022). في عملنا، قمنا ببناء رسم المعرفة للملخصات المصدر والهدف باستخدام أداة حديثة تسمى PL-Marker (ye2022plmarker). يستخدم PL-Marker تقنية جديدة تسمى تقنية العلامة المرفوعة المعبأة، والتي تجمع بين نهج التعبئة المركز على الموضوع والجوار للحصول على تمثيلات الزوج. يتم بناء رسم المعرفة لالتقاط العلاقة والسياق بين الكيانات المختلفة داخل ملخصات الأوراق.

بعد توليد رسم المعرفة من الملخص المصدر مع الملخص الهدف، المقدمة والخاتمة، قمنا بعد ذلك بدمجه مع الملخص المصدر. ثم يتم تمرير هذه السلسلة النهائية في قسم \(\#input\) من التلميح. تظهر بنية التلميح مع علاقات رسم المعرفة في [eq: equation2].

مجموعة بيانات CTG [dataset]

في بحثنا، استخدمنا مجموعة بيانات S2ORC (Semantic Scholar Research Corpus) (lo2019s2orc)، والتي تشمل مجموعة كبيرة تضم حوالي 81.1 مليون ورقة بحثية باللغة الإنجليزية من مختلف التخصصات. تشتمل هذه المجموعة على معلومات متنوعة مثل الملخصات، نصوص الأوراق الكاملة، المراجع الببليوغرافية، والبيانات الوصفية المرتبطة بكل ورقة.

للتركيز بشكل خاص على مجال علوم الحاسوب، قمنا بتصفية المجموعة من خلال اختيار الأوراق التي تحمل علامة “مجال الدراسة” كعلوم الحاسوب. من إجمالي 81.1 مليون ورقة، قمنا بتقليصها إلى حوالي 6.0 مليون ورقة ذات صلة بمجال علوم الحاسوب. ومع ذلك، لم تكن جميع الأوراق في هذه المجموعة الفرعية تحتوي على ملخصات ونصوص جسم صالحة. بعضها احتوى على محتوى غير ذي صلة أو فارغ، والذي قمنا بإزالته لاحقًا خلال عملية تنظيف البيانات. نتيجة لذلك، تألفت مجموعة البيانات النهائية لدينا من حوالي 100,000 عينة.

نص “body_text” لكل ورقة كان يتكون من فقرات، تشمل أقسامًا مثل المقدمة، المنهجية، الخاتمة، وغيرها. ضمن هذه الأقسام، قمنا بفحص وجود cite_spans، وهي قواميس تحتوي على معلومات الاستشهاد للأوراق المرجعية ضمن كل فقرة. تضمن تحليلنا تحديد هذه cite_spans ضمن نص الجسم واستخراج الجمل الاستشهادية المقابلة. من المهم ملاحظة أننا استبعدنا الاستشهادات التي أشارت إلى أكثر من ورقة واحدة ضمن جملة واحدة. يمكن العثور على تفاصيل إحصائية إضافية حول مجموعة البيانات في الجدول [tab:dataset].

التجارب [experiments]

نصف في هذا القسم إعدادات التجارب الخاصة بنا، معايير التقييم، ومقارنات النماذج. لقد قمنا بتحسين وتقييم ثلاثة نماذج لتوليد النصوص اللغوية الكبيرة على مجموعة بيانات CTG لدينا. يعرض الجدول [tab:results1] النتائج. عند مقارنة LLaMA (LLaMA)، Alpaca (alpaca)، و Vicuna (vicuna2023)، لاحظنا أداء Vicuna الأفضل.

بعد ذلك، نقوم بدمج الرسوم البيانية للمعرفة المبنية من الأوراق المصدر والهدف باستخدام PL-Marker (ye2022plmarker) ونواصل تحسين نفس مجموعة النماذج. إن دمج الرسوم البيانية للمعرفة يعزز بشكل كبير كل من أداء وجودة النص المولّد. بشكل ملحوظ، يظهر Alpaca أداءً متفوقًا، كما يتضح من الزيادة الكبيرة في نتيجة METEOR بنسبة 33.14%، و 36.98% في Rouge-1. يعرض الجدول [tab:results2] النتائج لهذا التكوين. تؤكد هذه النتائج أن إدراج الرسوم البيانية للمعرفة يوجه بفعالية نماذج اللغات الكبيرة (LLMs) في مهام توليد النص.

الإعدادات التجريبية

في هذا البحث، قمنا بتقسيم مجموعة بياناتنا إلى 79,588 عينة تدريبية و 9,946 عينة اختبار و 9,944 عينة تحقق. لضبط نماذج اللغة الكبيرة، استخدمنا (dettmers2023qlora) لتقليل استخدام وحدة معالجة الرسومات. من خلال نقل التدرجات عبر نموذج لغوي مسبق التدريب مجمّد ومكمم بـ 4 بت في محولات ذات رتبة منخفضة، يعتبر (dettmers2023qlora) طريقة فعالة لتعظيم استخدام الذاكرة. استخدمنا محسن (kingma2014adam) مع جدول خطوات. تم ضبط معدل التعلم على 3e-4، وقمنا بإدراج 100 خطوة تسخين لضبط معدل التعلم تدريجيًا. من خلال اتباع هذا النهج، تمكنا من تدريب نماذج اللغة الكبيرة بفعالية على مجموعة البيانات، مما سمح لنا بتقييم أدائها على العينات الاختبارية المعنية.

\[k_i = \frac{1}{2}\left(Q_X\left(\frac{i}{2^n + 1}\right) + Q_X\left(\frac{i+1}{2^n + 1}\right)\right)\]

حيث \(Q_x (.)\) هي دالة الكميات للتوزيع الطبيعي القياسي \(N(0, 1)\). لتجاربنا، استخدمنا \(n = 4\) حيث نطبق التكميم بـ 4 بت.

مقاييس التقييم: لمهام توليد النصوص والتلخيص، استخدمنا مقاييس تقييم شائعة مثل METEOR وROUGE-N وROUGE-L. يقيم ROUGE-L أطول تسلسل مشترك بين النص المولّد والمرجع، بينما يتم قياس تداخل n-جرامات بين الاثنين باستخدام ROUGE-N. تتلقى ROUGE-N معلومات إضافية من METEOR، التي تأخذ في الاعتبار تشابه الكلمات أثناء التجذيع.

التقييمات [evaluations]

تسلط أعمالنا المقترحة الضوء على استخدام نماذج اللغة الكبيرة في مجال توليد نص الاستشهاد للأوراق العلمية. علاوة على ذلك، تؤكد دراستنا على أهمية الرسوم البيانية المعرفية المولدة من كل من الورقتين المصدر والهدف، حيث تسهل التقاط العلاقات الأعمق والبيانات السياقية المنظمة بين هذه الأوراق. من خلال بحثنا، عرضنا فعالية نموذج اللغة الكبيرة Alpaca في توليد نص الاستشهاد، والذي يتفوق على LLaMA وVicuna من حيث كل من النتائج المحصلة وجودة النص المولّد. تبرز هذه النتائج قيمة استخدام نماذج اللغة الكبيرة ودمج الرسوم البيانية المعرفية لتعزيز توليد نص استشهاد دقيق وملائم سياقيًا للأوراق العلمية.

الخلاصة [conclusion]

تستكشف هذه الورقة مهمة توليد نصوص الاستشهاد في الأوراق البحثية. لفهم واستيعاب الخصائص ذات الصلة من الأوراق العلمية بدقة، نستفيد من توليف رسوم المعرفة. نقدم حالة استخدام مقنعة لتوظيف نماذج اللغة الكبيرة في مجال توليد نص الاستشهاد، مما يظهر أداءها المثير للإعجاب عند تقديم الملخص المصدر والملخص الهدف، المقدمة، والخلاصة. يتم تأكيد كفاءة نماذج اللغة الكبيرة من خلال التقييمات الآلية باستخدام مقاييس متنوعة. تؤكد تجاربنا أيضًا على أهمية استخدام رسوم المعرفة كمحفزات لتوجيه عملية توليد النموذج. مستقبلاً، نخطط لتعزيز قدرات نماذج اللغة الكبيرة من خلال دمج تقنيات التفكير المتسلسل، والتي ستحسن قدراتها في التفكير وتمكنها من توليد استشهادات أكثر معقولية وجودة عالية.

القيود [limitations]

بينما تتميز الحلول التي نقترحها في توليد الاستشهادات ذات الجملة الواحدة، فإن فعاليتها تقتصر بشكل أساسي في السيناريوهات التي يستخدم فيها الكاتب استشهادات متعددة ضمن فقرة واحدة. للتغلب على هذا القيد، يمكننا تحسين نموذجنا من خلال دمج أمثلة الاستشهادات المتعددة في مجموعة البيانات الخاصة بنا.

قيد آخر للعمل الذي نقترحه هو وجود بعض الكلمات الرئيسية في نص الاستشهاد المستهدف التي لا توجد ضمن القسم المقيد بعدد الرموز للأوراق المصدر والهدف. هذا الاختلاف يؤثر سلبًا على أداء النماذج، مما يؤدي إلى انخفاض في الفعالية العامة.

الشكر

يتلقى راجيف راتن شاه دعمًا جزئيًا من مركز إنفوسيس للذكاء الاصطناعي، ومركز التصميم والإعلام الجديد، ومركز التميز في الرعاية الصحية في معهد دلهي للتكنولوجيا والمعلومات.

الملحق

هذا القسم يعرض أمثلة الاستدلال المستخدمة لاختبار النموذج المعدل وفحص جودة النص المولّد والسياق.

يوضح النموذج المعدل Vicuna نص الاقتباس المولّد الذي تم الحصول عليه من الملخص المصدر والملخص الهدف والذي أسفر عن نص اقتباس عالي الجودة يتماشى جيدًا مع سياق كل من المقالتين المصدر والهدف.

يظهر نص الاقتباس المولّد مستوى أعلى من غنى السياق بسبب دمج علاقات الرسم البياني المعرفي. تمكنت هذه العلاقات من فهم أفضل للروابط بين الكلمات في الملخصات المصدر والهدف، مما يؤدي إلى نص مولّد أكثر صلة بالسياق.


  1. https://github.com/openai/gpt-2