```html ملاحظات حول بناء أنظمة RAG للوثائق الفنية

ملاحظات حول بناء أنظمة RAG للوثائق الفنية

Sumit Soman وَ Sujoy Roychowdhury

نظام LaTeX

مُلَخَّص

يطرح توليد المحتوى المعزز بالاسترجاع (RAG) للوثائق الفنية تحديات عدّة، حيث لا تلتقط التضمينات المعلومات الخاصة بالمجال بدقة كافية. نستعرض الأدبيات السابقة حول العوامل المؤثرة في أداء RAG، وننفيذ تجارب للكشف عن أفضل الممارسات والصعوبات المحتملة عند بناء أنظمة RAG مخصّصة للوثائق الفنية.

مقدمة

تتطلب الإجابة على الأسئلة المطوّلة استدعاء نماذج اللغة الكبيرة لتوليد استجابات بحجم فقرة. يواجه الاسترجاع الموجَّه للوثائق الفنية عدة تحديات (xu2023retrieval, toro2023dynamic). وقد قُيّمت العوامل المؤثرة في أداء الاسترجاع، بما في ذلك تضمين النص في سياقه، ونماذج اللغة الكبيرة، والمعايير المُستخدمة (chen2023understanding). انطلاقاً من ذلك، نجري تجارب على وثائق تتناول مصطلحات الاتصالات وشبكات البطاريات لفحص تأثير طول المقطع، والبحث المعتمد على الكلمات المفتاحية، وترتيب النتائج المسترجعة في خط أنابيب الاسترجاع الموجَّه.

الإعداد التجريبي

تعتمد تجاربنا على مواصفات الطبقة المتوسطة للتحكم في الوصول إلى الوسائط (MAC) والطبقة الفيزيائية (PHY) لشبكة IEEE اللاسلكية (9363693)، بالإضافة إلى معجم مصطلحات البطاريات الثابتة القياسي لـ IEEE (7552407). نُعالِج معجم التعريفات والوثيقة كاملةً بشكل منفصل، إذ تستند العديد من الأسئلة إلى التعريفات. نستخلص الأسئلة انطلاقاً من المعرفة المجالية، ونقدم تقريراً عن النتائج التجريبية لـ 42 استفساراً تمثيلياً عبر الوثائق. يمكن استخدام نماذج تضمين متعددة (reimers2019sentence)، ونختار MPNET (song2020mpnet) للوثيقة كاملةً – باستثناء الجداول والتعليقات. أمّا في حالة المعجم، فنقسم المصطلح والتعريف ونولد تضمينات منفصلة لكل منهما، إضافةً إلى تضمين الفقرة الكاملة التي تضم المصطلح والتعريف. على الرغم من مراجعة دراسات سابقة (soman2023observations) لنماذج أخرى في قطاع الاتصالات، اخترنا نموذج llama2-7b-chat (touvron2023llama) لكونه مجانياً ومرخّصاً للاستخدام التجاري. ثم نقيس أداء النموذج في تجاربنا على عدد من الأسئلة، مع استعراض الأسئلة المختارة لتأكيد ملاحظاتنا. وللرجوع إليه، تتوفر أوامر نموذج اللغة الكبير في الملحق [app:appA].

الملاحظات

في البداية، لاحظنا أن تضمين الجمل يفقد موثوقيته كلما ازداد طول المقطع. يوضح الرسم البياني لتقدير الكثافة النوية (KDE) لدرجات التشابه الجيبي الكلي للاختلافات في طول الجمل في الملحق [app:appB] هذا السلوك. أخذنا 10,970 جملة ودرسنا التشابه الزوجي بينها، فتبين وجود درجات تشابه مرتفعة في الجمل الطويلة نسبياً. وتشير توزيعيات التشابه الأعلى للأطوال الأكبر إلى وجود ارتباطات زائفة، وقد تحققنا منها يدوياً لبعض العينات. عندما يحتوي الاستعلام والوثيقة معاً على أكثر من 200 كلمة، يصبح توزيع التشابه ثنائي القمة، وفي حال تجاوز أحدهما الـ 200 كلمة فقط، يظهر ارتفاع خفيف لكن أقل وضوحاً عند القيم العليا للتشابه.

ملخص الملاحظات

تلخّص الجدول [tab:observations] فرضياتنا وملاحظاتنا الرئيسة. يمكن الاطلاع على استفسارات العينة ونتائجها في الملحق [app:appC]. نفترض أن:

من هذه الفرضيات، تؤكد H2 نتائج تحليل توزيع درجات التشابه، بينما تستند H7 إلى (chen2023understanding)، فيما استُخلصت البقية من تجاربنا لتحسين الأداء.

وجدنا أن الاسترجاع القائم على أعلى درجات التشابه لا يكون مفيداً دائماً. في الاستفسارات 1 و 2 و 5، عندما تتطابق عبارة الاستعلام مع نص المصطلح أو التعريف، تكون النتيجة الحاصلة على أعلى درجة استرجاع هي الصحيحة. أما في الاستفسار 3، فتظهر النتيجة الصحيحة في المرتبة الثانية باستخدام تضمينات التعريف، ولا تُسترجع في المرات الأخرى بسبب تكتل درجات التشابه. في الاستفسارين 4 و 6، لم تنجح استرجاعاتنا رغم الإيحاءات الإحصائية بغير ذلك. لذا فإن اختيار نتائج المسترجع استناداً إلى درجات التشابه قد لا يحسّن تلقائياً أداء المولد. نقيس أداء المولد على استفساراتنا انطلاقاً من أعلى \(k\) تضمينات مسترجعة للمصطلحات والتعريفات، حيث يوفر السياق الأوسع استجابات أفضل. وأما في حالة الاختصارات وتوسعاتها، فلم يضف المولد إضافات ذات قيمة ملحوظة.

لاسترجاع الوثيقة كاملةً، نقارن بين بحث التشابه بناءً على الجملة والفقرة بشكل منفصل. في الحالة الأولى، نسترجع الفقرة التي تنتمي إليها الجملة ونختار أعلى \(k\) فقرات متميزة وفقاً لتشابه جملها. ونجد أن البحث المبني على التشابه الجُملي مع استخدام الفقرات في التوليد يحقق أداءً أفضل في كل من الاسترجاع والتوليد. ذُكر في (chen2023understanding) أنّ ترتيب المعلومات المقدمة يؤثر على النتائج، لكننا لم نلحظ فروقات ملحوظة عند تبديل ترتيب الفقرات المسترجعة. نمطيات الفشل في توليد الإجابات غالباً ما تنجم عن استرجاع غير دقيق أو حقائق زائفة أو توليف خاطئ، كما أوضح (chen2023understanding).

نوصي باستخدام هذه الأساليب عند إعداد أنظمة الأسئلة والأجوبة، لا سيما للتفاعلات المطوّلة على الوثائق الفنية.

الاستنتاجات والأعمال المستقبلية

أظهرنا أن طول المقطع يؤثر على جودة التضمينات في أداة الاسترجاع، وأن تعزيز أداء المولد اعتماداً على درجات التشابه قد يكون غير موثوقٍ به. مع ذلك، فإن التعامل مع الاختصارات واستخدام عدد أكبر من الفقرات المرتبطة بالموضوع يجعل ملاحظاتنا ذات أهمية خاصة في سياق الأسئلة والأجوبة المطوّلة على الوثائق الفنية. في أعمال قادمة، نهدف إلى اعتماد مقاييس إضافية (es2023ragas, chen2023benchmarking) لاختيار استراتيجيات الاسترجاع، وتطوير أساليب ومقاييس تقييم للإجابة على الأسئلة اللاحقة.

الأسلوب

استرجاع ملفات النمط

تعليمات التنسيق العامة

العناوين: المستوى الأول

العناوين: المستوى الثاني

العناوين: المستوى الثالث

الاستشهادات، الأشكال، الجداول، المراجع

الاستشهادات داخل النص

يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib وتتضمن أسماء عائلات المؤلفين والسنة (مع استخدام صيغة “وآخرون” لأكثر من مؤلفين اثنين). عندما يُذكر المؤلفون أو النشر داخل الجملة، يُستخدم \citet{} دون قوسين (كما في “انظر (Hinton06) لمزيد من المعلومات.”). خلاف ذلك، يكون الاستشهاد بين قوسين باستخدام \citep{} (كما في “يعد التعلم العميق واعداً نحو الذكاء الاصطناعي (Bengio+chapter2007).”).

تُدرَج المراجع في نهاية الوثيقة بترتيب أبجدي لأسماء المؤلفين في قسم المراجع. وأي أسلوب تنسيق للمراجع مقبول بشرط الاتساق.

الحواشي السفلية

الأشكال

الجداول

ينبغي أن تكون جميع الجداول مركّزة ونظيفة وواضحة. لا تستخدم جداول مرسومة يدوياً. يجب أن يظهر رقم الجدول وعنوانه قبل الجدول. انظر الجدول [sample-table].

ضع مسافة سطر واحدة قبل عنوان الجدول، ومسافة سطر واحدة بعد العنوان، ومسافة سطر واحدة بعد الجدول. يكون عنوان الجدول بأحرف صغيرة (عدا الكلمة الأولى والأسماء الخاصة)؛ وتُرقم الجداول تسلسلياً.

التدوين الافتراضي

التعليمات النهائية

إعداد ملفات PostScript أو PDF

يرجى إعداد ملفات PostScript أو PDF بحجم الورق “US Letter”، وليس مثلاً “A4”. الخيار -t letter على dvips ينتج ملفات US Letter.

فكّر في إنتاج ملفات PDF مباشرة باستخدام pdflatex (خاصة لمستخدمي MiKTeX). ومع ذلك، ينبغي استبدال الأشكال البيانية EPS بأشكال PDF.

وإلا، يرجى إنتاج ملفات PostScript وPDF الخاصة بك باستخدام الأوامر التالية:

dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf

هوامش في LaTeX

بيان URM

يقر المؤلفون بأن أحدهم على الأقل ممثل لمعايير URM لمسار الأوراق الصغيرة في ICLR 2024.

الملحق أ

الأوامر المستخدمة لنموذج اللغة الكبير في تجاربنا هي كما يلي:

الملحق ب

الملحق C - المواد التكميلية

نوفر مستودع Git مجهول يحتوي على:

بالإضافة إلى ذلك، نقدم تفاصيل حول الفرضيات في الجدول [tab:observations] مع الاستفسارات النموذجية والنتائج المسترجعة والمولدة.

``` **التعديلات على LaTeX:** - تم التأكد من أن جميع المعادلات تظهر بصيغة \( ... \) (مثلاً: \(k\))، وهي الصيغة الصحيحة للمعادلات المضمنة في MathJax ولن تسبب أي خطأ في العرض. - لا توجد معادلات أخرى أو رموز رياضية تحتاج إلى تصحيح أو إضافة عناصر مفقودة. - جميع العناصر الأخرى (أوامر LaTeX، علامات الاستشهاد، إلخ) تظهر كنص عادي أو ضمن كود، ولا تتطلب تصحيحاً. - تمت مراجعة النص كاملاً والتأكد من عدم وجود أي أخطاء LaTeX أو عناصر ناقصة في المعادلات. **النتيجة:** النص كامل، لا توجد أخطاء LaTeX، والمعادلات ستُعرض بشكل صحيح.