ملاحظات حول بناء أنظمة RAG للوثائق التقنيّة

Sumit Soman و Sujoy Roychowdhury

نصّ مُنسَّق بلغة LaTeX

ملخص

يطرح التوليد المُعزَّز بالاسترجاع (RAG) للوثائق التقنيّة تحدّياتٍ، إذ إنّ التمثيلات المُضمَّنة غالباً لا تلتقط المعلومات الخاصّة بالمجال بشكلٍ كافٍ. نُراجع الأعمال السابقة حول العوامل المؤثّرة في أنظمة RAG، ونُجري تجارب لتسليط الضوء على أفضل الممارسات والتحدّيات المحتملة في بناء أنظمة RAG للوثائق التقنيّة.

مقدمة

تتطلّب الإجابة عن الأسئلة المطوّلة توليد استجابات بحجم فقرة عبر النماذج اللغويّة الكبيرة (LLMs). وتواجه أنظمة RAG للوثائق التقنيّة تحدّيات عديدة (xu2023retrieval, toro2023dynamic). وقد جرى تقييم العوامل التي تؤثّر على أداء الاسترجاع، بما في ذلك تقطيع الوثائق ووضعها في سياقها، والنماذج اللغويّة الكبيرة، ومقاييس التقييم المختلفة (chen2023understanding). توسيعاً لهذا العمل، نُجري تجارب على وثائق تقنيّة تتعلّق بمصطلحات الاتصالات والبطّاريات لفحص أثر طول المقطع، وطرق البحث المعتمدة على الكلمات المفتاحيّة، وترتيب النتائج المسترجعة في خط أنابيب RAG.

الإعداد التجريبي

تعتمد تجاربنا على مواصفات الطبقة الفيزيائيّة وطبقة التحكّم في الوصول إلى الوسائط لشبكة IEEE اللاسلكيّة (9363693)، والمعجم القياسي لمصطلحات البطّاريات الثابتة لـ IEEE (7552407). نعالج معجم التعريفات والوثيقة الكاملة على نحوٍ منفصل، لأنّ كثيراً من الأسئلة المتوقّعة يستند إلى التعريفات. نستخرج الأسئلة استناداً إلى خبرتنا التخصّصيّة ونُبلغ عن النتائج التجريبيّة لـ 42 استفساراً تمثيليّاً عبر الوثيقتين. يمكن استخدام نماذج متعدّدة للتمثيلات المُضمَّنة (reimers2019sentence)، ونستخدم نموذج MPNet (song2020mpnet) لتمثيل الوثيقة الكاملة — باستثناء الجداول والتعليقات التوضيحيّة. أمّا في المعجم، فنقسّم المُصطلح وتعريفه ونُولِّد تمثيلات مُضمَّنة منفصلة لكلٍّ منهما، بالإضافة إلى تمثيل مُضمَّن للفقرة الكاملة التي تحتويهما.

استعرضت (soman2023observations) نماذج لغويّة كبيرة أخرى في قطاع الاتصالات، لكنّنا اخترنا نموذج llama2-7b-chat (touvron2023llama) لأنّه متاح مجاناً وبترخيص مناسب للاستخدام التجاري. نقيس أداء النموذج على مجموعة من الأسئلة ونُقدّم نتائج مختارة لتوكيد ملاحظاتنا. وللإنصاف، تُوفَّر الأوامر المستخدمة للنموذج اللغوي الكبير في الملحق [app:appA].

الملاحظات

لاحظنا بدايةً أنّ موثوقيّة التمثيلات المُضمَّنة على مستوى الجملة تنخفض مع ازدياد طول المقطع. يوضّح الملحق [app:appB] في الشكل [fig:kde_chunk] تقدير كثافة النواة (KDE) لتوزيع درجات تشابه جيب التمام على الأزواج المختلفة ولأطوال مقاطع متباينة. أخذنا 10,970 جملة ونظرنا في التشابه الزوجي بينها جميعاً؛ ولوحِظ أنّ التشابهات المرتفعة تظهر أكثر مع المقاطع الأطول نسبيّاً. وتشير التوزيعات الأعلى للتشابه عند الأطوال الكبيرة إلى وجود تشابهات زائفة، وقد تحقّقنا منها يدوياً على عيّنة. وجدنا أنّه عندما يزيد طول كلٍّ من الاستعلام والوثيقة المستعلَم عنها على 200 كلمة يظهر توزيع ثنائي القمّة؛ وإذا زاد أحدهما فقط عن هذا الحدّ يظهر ارتفاع طفيف عند التشابهات العالية، لكنّه أقلّ وضوحاً.

ملخّص الملاحظات — تفاصيل الاستفسارات الفرديّة في الملحق [app:appB]

يقدّم الجدول [tab:observations] فَرَضيّاتنا والملاحظات الرئيسة؛ وقد أُرفقت استفسارات العيّنة ونتائجها في الملحق [app:appC]. نفترض أنّ الفصل بين التعريفات والمصطلحات يمكن أن يُحسِّن نتائج الاسترجاع (H1)، وأنّ درجات التشابه معيار مناسب للانتقاء (H2)، وأنّ موقع الكلمات المفتاحيّة يؤثّر على النتائج (H3)، وأنّ الاسترجاع المعتمد على الجملة يُحسِّن الأداء (H4) ويُعزِّز التوليد (H5)، وأنّ إجابات التعريفات المتّصلة بتوسُّعات الاختصارات لها خصائص محدّدة (H6)، وأنّ ترتيب النتائج المسترجعة يؤثّر على أداء المُولِّد (H7). من بين هذه الفرضيّات، يستند H2 إلى تجاربنا مع توزيعات درجات التشابه المُشار إليها أعلاه، ويعتمد H7 على (chen2023understanding)، أمّا بقيّتها فاستخلصناها أثناء تحسين النتائج. في العمود الأخير، نعرض عدد التجارب المؤيِّدة لكلّ فرضيّة وعدد غير المؤيِّدة، مع استفسارات عيّنة.

وجدنا أنّ الاسترجاع وفق ترتيب درجات التشابه ليس مفيداً دائماً. ففي الاستفسارات 1 و2 و5، يأتي أعلى ترتيب للوثائق عندما تحتوي عبارة الاستعلام على المصطلح أو التعريف صراحةً. أمّا في الاستفسار 3، فظهرت النتيجة الصحيحة في المرتبة الثانية عند استخدام تمثيل التعريف المُضمَّن، بينما لم تظهر في مرات أخرى بسبب تقارب الدرجات. وفي الاستفسارين 4 و6، لم نتمكّن من استرجاع النتيجة الصحيحة رغم دلالة الدرجات على احتمال صحّتها. وعليه، قد يؤدّي اختيار النتائج المسترجعة بناءً على درجات التشابه إلى تحسين أداء المُولِّد بصورة غير مُستقرّة. نقيس أداء المُولِّد على استفساراتنا بناءً على ما يُسترجَع، مستخدمين أعلى \(k\) مسترجعات من: (أ) التعريفات وحدها، و(ب) المصطلحات مع التعريفات. ويوفّر السياق الأنسب استجابات مُولَّدة أفضل. وبالنسبة للاختصارات وتوسُّعاتها، لم يُضِف المُولِّد قيمة إضافيّة.

لاسترجاع الوثيقة الكاملة، نستكشف طريقتيْ بحث: البحث المعتمد على التشابه على مستوى الجملة، والبحث على مستوى الفقرة. في الأولى، نحدِّد الفقرة التي تنتمي إليها الجملة ثم نجمع أعلى \(k\) فقرات متميّزة من بين الجُمل الأكثر تشابهاً. نلاحظ أنّ البحث المعتمد على تشابه الجُمل مع استخدام الفقرات كمدخل للمُولِّد يوفّر أداءً أفضل في الاسترجاع والتوليد. وقد أشار (chen2023understanding) إلى أهميّة ترتيب المعلومات المُقدَّمة، لكنّنا لم نرَ اختلافاً جوهريّاً عند تبديل ترتيب الفقرات المسترجعة. كما لاحظنا أحياناً إخفاق استجابات المُولِّد بسبب استرجاع نتيجة غير صحيحة، أو بسبب هلوسات، أو بسبب تركيب/صياغة غير سليمة.

نُوصي باعتماد هذه الأساليب عند إعداد أسئلة وأجوبة مطوّلة في الوثائق التقنيّة، إذ تُحكِم الاسترجاع وتُحسِّن دقّة التوليد.

الاستنتاجات والأعمال المستقبلية

أظهرنا أنّ طول المقطع يؤثِّر بوضوح في جودة التمثيلات المُضمَّنة المُستخدمة في الاسترجاع، وأنّ تعزيز المُولِّد باختيار النتائج استناداً إلى درجات التشابه قد يكون أقلّ موثوقيّة. ومع ذلك، تبقى لملاحظاتنا أهميّة خاصّة عند التعامل مع الأسئلة والأجوبة المطوّلة في الوثائق التقنيّة، لا سيّما مع كثرة الاختصارات وتعدّد الفقرات المرتبطة بموضوع واحد. كأعمالٍ مستقبليّة، نودّ استخدام مقاييس إضافيّة (es2023ragas, chen2023benchmarking) لاختيار استراتيجيات الاسترجاع الأنسب، كما نهدف إلى تطوير أساليب ومقاييس تقييم تُلبّي متطلبات هذا النوع من الأسئلة.

الأسلوب

استيراد ملفات الأنماط

تعليمات التنسيق العامة

العناوين: المستوى الأول

العناوين: المستوى الثاني

العناوين: المستوى الثالث

الاقتباسات، الأشكال، الجداول، المراجع

الاستشهادات داخل النص

يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib وأن تتضمّن أسماء عائلة المؤلفين والسنة (مع استخدام “وآخرون” فيما يزيد على مؤلفَيْن). عندما يُذكَر المؤلفون ضمن الجملة، لا يوضع الاستشهاد بين قوسين، ويُستخدم \citet{} كما في: \citet{Hinton06}. أمّا إذا لم يُذكَروا ضمن النص فيُوضَع الاستشهاد بين قوسين باستخدام \citep{} كما في: \citep{Bengio+chapter2007}.

تُدرَج المراجع المقابلة أبجديّاً بحسب أسماء المؤلفين في قسم المراجع. وبالنسبة لتنسيق المراجع نفسها، فأيّ أسلوبٍ مقبول ما دام يُستخدم باتّساق.

الحواشي السفلية

الأشكال

الجداول

جميع الجداول يجب أن تكون مُحاذاة للوسط، نظيفة وواضحة. لا تُستخدم جداول مرسومة باليد. يجب أن يظهر رقم الجدول وعنوانه قبل الجدول نفسه. انظر الجدول [sample-table].

اترك مسافة سطر واحدة قبل عنوان الجدول، ومسافة سطر واحدة بعد عنوانه، ومسافة سطر واحدة بعد الجدول. يجب أن يكون عنوان الجدول بحروف صغيرة (ما عدا الكلمة الأولى والأسماء الخاصّة)، وتُرقَّم الجداول تسلسليّاً.

التدوين القياسي

في محاولة لتشجيع تدوينٍ موحّد، أدرجنا ملف التدوين من الكتاب المدرسي التعلّم العميق (goodfellow2016deep). استخدام هذا الأسلوب ليس إلزاميّاً ويمكن تعطيله عن طريق التعليق على math_commands.tex.

الأعداد والمصفوفات

المجموعات والرسوم البيانية

الفهرسة

التفاضل والتكامل

نظرية الاحتمالات والمعلومات

الدوال

التعليمات النهائية

إعداد ملفات بوست سكريبت أو بي دي إف

يُرجى إعداد ملفات بوست سكريبت أو PDF بحجم الورق “US Letter”، وليس — على سبيل المثال — “A4”. إنّ الخيار -t letter في dvips يُنتج ملفات بحجم US Letter.

فكّر في إنشاء ملفات PDF مباشرةً باستخدام pdflatex (خاصّةً إذا كنت مستخدماً لـ MiKTeX). وفي هذه الحالة، تُستبدَل صور EPS بصور PDF.

وإلّا، فأنشئ ملفات بوست سكريبت وPDF باستخدام الأوامر التالية:

dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf

الهوامش في LaTeX

بيان URM

يُقِرّ الكتّاب بأنّ على الأقلّ أحد المؤلفين الرئيسيين لهذا العمل يلبّي معايير URM لمسار الأوراق الصغيرة في ICLR 2024.

الملحق أ

الأوامر المستخدمة للنموذج اللغوي الكبير في تجاربنا هي على النحو الآتي:

أمر النظام: أجب عن الأسئلة استناداً إلى الفقرات المُقدَّمة هنا. لا تستخدم أي معلومات أخرى باستثناء ما يَرِد في الفقرات. اجعل الإجابات قصيرة قدر الإمكان. قدِّم الإجابة فقط، ولا حاجة إلى مقدّمة.
أمر المستخدم: “الفقرات: ” + context + “الأسئلة: ” + query

الملحق ب

الملحق ج - المواد التكميلية

نوفر مستودع Git مجهول يحتوي على:

شفرة مصدريّة مجهولة
جدول يربط التجارب بالفَرَضيّات (للنتائج الكميّة الموحَّدة)
تفاصيل التجارب عبر 42 استفساراً و7 فَرَضيّات

بالإضافة إلى ذلك، نوفر تفاصيل بخصوص الفَرَضيّات في الجدول [tab:observations] من خلال تقديم استفسارات نموذجيّة والنتائج المسترجعة والمُولَّدة.