مُلَخَّص

يطرح توليد المحتوى المُعزَّز بالاسترجاع (RAG) للوثائق الفنية تحدِّيات عدّة، إذ لا تلتقط التضميناتُ المعلوماتِ الخاصّة بالمجال بدقّة كافية. نستعرض الأدبيات السابقة حول العوامل المؤثِّرة في أداء RAG، ونُنفِّذ تجاربَ تكشف أفضل الممارسات والعثرات المحتملة عند بناء أنظمة RAG مُخصَّصة للوثائق الفنية.

مقدمة

تتطلّب الإجابةُ عن الأسئلة المطوَّلة استدعاءَ نماذجِ اللغة الكبيرة لتوليد استجاباتٍ بحجم فقرة. ويواجه الاسترجاعُ المُوجَّه للوثائق الفنية عدّة تحدِّيات (xu2023retrieval, toro2023dynamic). وقد قُيِّمت العواملُ المؤثِّرة في أداء الاسترجاع، بما في ذلك جودةُ التضمينات، ونماذجُ اللغة الكبيرة، ومقاييسُ التقييم (chen2023understanding). انطلاقاً من ذلك، نُجري تجاربَ على وثائق تغطّي مصطلحات الاتصالات ومعجمَ البطاريات الثابتة لفحص تأثير طول المقطع، والبحث المعتمد على الكلمات المفتاحية، وترتيب النتائج المسترجعة في خطِّ أنبوب RAG.

الإعداد التجريبي

تعتمد تجاربُنا على مواصفات الطبقة المتوسِّطة للتحكُّم في الوصول إلى الوسائط (MAC) والطبقة الفيزيائية (PHY) لشبكات IEEE اللاسلكية (9363693)، بالإضافة إلى معجم المصطلحات القياسي للبطاريات الثابتة الصادر عن IEEE (7552407). نُعالِج المعجمَ والوثيقةَ الكاملة بصورةٍ منفصلة، إذ تستندُ كثيرٌ من الأسئلة إلى التعريفات. نَستنبط الأسئلةَ بالاعتماد على المعرفة المجالية، ونُبلِّغ عن النتائج التجريبية لِـ42 استفساراً تمثيلياً عبر الوثائق.

يمكن استخدام نماذج تضمينٍ متعدِّدة (reimers2019sentence)، وقد اخترنا MPNET (song2020mpnet) لمعالجة الوثيقة الكاملة — مع استثناء الجداول والحواشي. أمّا في حالة المعجم، فنقسِّم «المصطلح» و«التعريف» ونُولِّد تضميناتٍ مستقلّةً لكلٍّ منهما، إضافةً إلى تضمين الفقرة الكاملة التي تحتوي المصطلحَ وتعريفَه. وعلى الرغم من استعراض دراساتٍ سابقة (soman2023observations) لنماذج أخرى في قطاع الاتصالات، اخترنا نموذج llama2-7b-chat (touvron2023llama) لكونه مجّانياً ومرخَّصاً للاستخدام التجاري. ثم نقيس أداءَ النموذج في تجاربنا على مجموعةٍ من الأسئلة، مع استعراض أمثلةٍ منتقاة لتأكيد ملاحظاتنا. وللمرجع، تتوفّر أوامر نموذج اللغة الكبير في الملحق أ.

الملاحظات

بدايةً، لاحظنا أنّ تضمين الجُمل يفقد موثوقيّتَه كلّما ازداد طولُ المقطع النصّي. ويُظهر الرسمُ البياني لتقدير الكثافة النووية (KDE) لدرجات التشابه الجيبي الكلّي عبر أطوال الجمل في الملحق ب هذا السلوك. أخذنا 10,970 جملة ودرسنا التشابهَ الزوجي بينها، فوجدنا درجاتِ تشابهٍ مرتفعةً للجُمل الأطول نسبياً. وتشير «توزيعات» التشابه الأعلى للأطوال الأكبر إلى وجود ارتباطاتٍ زائفة؛ وقد تحقّقنا من ذلك يدوياً على بعض العيّنات. عندما يحتوي الاستعلامُ والوثيقة معاً على أكثر من 200 كلمة، يصبح توزيع التشابه ثنائيَّ القِمّة؛ أمّا إنْ تجاوز أحدُهما فقط هذه العتبةَ، فيظهر ارتفاعٌ طفيف — لكن أقلّ وضوحاً — عند القيم العليا للتشابه.

ملخّص الملاحظات

يُلخِّص الجدول [tab:observations] فرضيّاتِنا وملاحظاتِنا الرئيسة. يمكن الاطّلاع على استفسارات العيّنة ونتائجها في الملحق ج. نفترض ما يلي:

فصلُ المصطلحات عن التعريفات يُحسِّن الدقّةَ الاسترجاعية (H1).
تتأثّر توزيعاتُ درجات التشابه بطول المقطع، ما يحدّ من موثوقيّتِها كمؤشِّرٍ وحيد للأداء (H2).
موقعُ الكلمات المفتاحية في النصّ يؤثِّر في جودة النتائج (H3).
الاسترجاعُ المعتمد على تشابه الجُمل يُفضي إلى استرجاعٍ وتوليدٍ أفضل (H4 و H5).
للتعامل مع الاختصارات وتوسّعاتها أثرٌ خاصّ في الأداء (H6).
إعادةُ ترتيب النتائج المسترجعة قد تُعزِّز فاعليةَ المولِّد (H7).

من بين هذه الفرضيّات، تدعم H2 تحليلَ توزيع درجات التشابه، بينما تستند H7 إلى (chen2023understanding)، أمّا بقيّةُ الفرضيات فاستخلصناها من تجارب تحسين الأداء لدينا.

وجدنا أنّ الاسترجاع القائم على أعلى درجات التشابه ليس مفيداً دائماً. في الاستفسارات 1 و2 و5، عندما تتطابقُ عبارةُ الاستعلام مع نصّ المصطلح أو التعريف، تكون النتيجةُ الأعلى درجةً هي الصحيحة. أمّا في الاستفسار 3، فتظهر النتيجةُ الصحيحة في المرتبة الثانية باستخدام تضمينات «التعريف»، ولا تُسترجَع في الحالات الأخرى بسبب تكتُّل درجات التشابه. وفي الاستفسارين 4 و6، لم تنجح الاسترجاعاتُ على الرغم من ارتفاع الدرجات. لذا فإنّ اختيار عناصر المسترجِع استناداً إلى درجات التشابه لا يُحسِّن تلقائياً أداءَ المولِّد.

نقيس أداءَ المولِّد على استفساراتنا انطلاقاً من أعلى \(k\) تضميناتٍ مُسترجَعة للمصطلحات والتعريفات، حيث يوفِّر السياقُ الأوسع إجاباتٍ أفضل. أمّا في حالة الاختصارات وتوسّعاتها، فلم يُضِف المولِّد قيمةً يُعتدُّ بها.

لاسترجاع الوثيقة كاملةً، نقارن بين بحث التشابه على مستوى الجُملة وعلى مستوى الفقرة. في الحالة الأولى، نسترجع الفقرةَ التي تنتمي إليها الجملة، ثم نختار أعلى \(k\) فقراتٍ متميّزة وفقاً لتشابه جُملها. ونجد أنّ البحثَ المبني على التشابه الجُملي مع استخدام الفقرات في التوليد يحقّق أداءً أفضل في الاسترجاع والتوليد معاً. ذُكر في (chen2023understanding) أنّ ترتيبَ المعلومات المقدَّمة يؤثِّر في النتائج، لكنّنا لم نلحظ فروقاً ملحوظةً عند تبديل ترتيب الفقرات المسترجعة. أنماطُ الإخفاق في توليد الإجابات تنجم غالباً عن استرجاعٍ غير دقيق، أو حقائقَ زائفة، أو توليفٍ غير موفَّق، كما أوضح (chen2023understanding).

نوصي بهذه الأساليب عند إعداد أنظمة الأسئلة والأجوبة، ولا سيّما للتفاعلات المطوَّلة على الوثائق الفنية.

الاستنتاجات والأعمال المستقبلية

أظهرنا أنّ طولَ المقطع يؤثِّر في جودة التضمينات على مستوى المسترجِع، وأنّ تحسين أداء المولِّد بالاعتماد المباشر على درجات التشابه قد لا يكون موثوقاً. ومع ذلك، فإنّ التعامل مع الاختصارات واستخدام عددٍ أكبر من الفقرات ذات الصلة يجعل ملاحظاتِنا مهمّةً بوجهٍ خاصّ في سياق الأسئلة والأجوبة المطوّلة على الوثائق الفنية. في أعمالٍ لاحقة، نهدف إلى اعتماد مقاييس إضافية (es2023ragas, chen2023benchmarking) لاختيار استراتيجيات الاسترجاع، وتطوير أساليبَ ومقاييسَ لتقييم الإجابات اللاحقة.

الأسلوب

اتبَعْنا نهجاً تجريبياً مقارناً، يُبدِّل مكوّنات خطّ أنبوب RAG (التضمين، الاسترجاع، ترتيب النتائج، التوليد) مع تثبيت باقي العوامل، لقياس الأثر الصافي لكلّ مكوّن على جودة الإجابة.

استرجاع ملفات النمط

إنْ كنتَ تُقدِّم عملاً بصيغة LaTeX، فاحرص على استخدام ملفات النمط المعتمدة للإخراج المستهدف، والاحتفاظ بإعدادات الهوامش، وحجم الورق، والخطوط، كما هي. تجنّب التعديلات اليدوية التي قد تُخلّ باتّساق التنسيق النهائي.

تعليمات التنسيق العامة

احرص على وضوح النصّ، وتجنّب الإكثار من التنسيق اليدوي داخل الفقرات. استخدِم العناوينَ والمستوياتَ الهرميةَ على نحوٍ متّسق، وراعِ قواعدَ ترقيم الأشكال والجداول والمراجع.

العناوين: المستوى الأول

العناوين: المستوى الثاني

العناوين: المستوى الثالث

الاستشهادات، الأشكال، الجداول، المراجع

الاستشهادات داخل النص

يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib وأن تتضمّن أسماء عائلات المؤلِّفين والسنة (مع استخدام صيغة «وآخرون» لأكثر من مؤلِّفَيْن). عندما يُذكَر المؤلِّف أو النشر داخل الجملة يُستخدم \citet{} دون أقواس، كما في: انظر \citet{Hinton06} لمزيدٍ من المعلومات. وفي غير ذلك يكون الاستشهاد بين أقواس باستخدام \citep{}، كما في: «يُعدّ التعلّم العميق واعداً نحو الذكاء الاصطناعي \citep{Bengio+chapter2007}».

تُدرَج المراجع في نهاية الوثيقة بترتيبٍ أبجديّ لأسماء المؤلِّفين ضمن قسم المراجع. وأيُّ أسلوبٍ لتنسيق المراجع مقبولٌ بشرط الاتّساق.

الحواشي السفلية

استخدِم الحواشيَ السفلية باعتدال لتوضيح نقاطٍ جانبية أو تعريف رموزٍ عند الحاجة، وتجنَّب تضمين مراجعاتٍ أو معادلاتٍ مطوّلة فيها.

الأشكال

يجب أن تكون الأشكالُ عاليةَ الدقّة، مع عناوينَ ومحاورَ ووسومٍ واضحة. اذكُرْ رقم الشكل وعنوانه أسفل الشكل، واذكرْه في النصّ قبل عرضه.

الجداول

ينبغي أن تكون جميع الجداول مركّزةً ونظيفةً وواضحة. تجنّب الجداول المرسومة يدوياً. يجب أن يظهر رقمُ الجدول وعنوانُه قبل الجدول. انظر الجدول [sample-table].

اتركْ مسافةَ سطرٍ واحدة قبل عنوان الجدول، ومسافةَ سطرٍ واحدة بعد العنوان، ومسافةَ سطرٍ واحدة بعد الجدول. يكون عنوانُ الجدول بأحرفٍ صغيرة (عدا الكلمة الأولى والأسماء الخاصّة)، وتُرقَّم الجداولُ تسلسلياً.

التدوين الافتراضي

احرص على اتّساق الرموز والاختصارات عبر المستند. عرِّفْ كلَّ رمزٍ عند ظهوره أوّلَ مرّة، واحتفِظ بجدول رموزٍ عند الحاجة في الملاحق.

التعليمات النهائية

راجِعْ المستند مراجعةً لغويةً وعلمية شاملة. تأكّد من سلامة الروابط الداخلية والخارجية، وصحّة الإحالات إلى الأشكال والجداول والملاحق.

إعداد ملفات PostScript أو PDF

يرجى إعداد ملفات PostScript أو PDF بحجم الورق «US Letter»، وليس مثلاً «A4». الخيار -t letter على dvips يُنتج ملفات «US Letter».

فكِّر في إنتاج ملفات PDF مباشرةً باستخدام pdflatex (لا سيّما لمستخدمي MiKTeX). ومع ذلك، ينبغي استبدال رسوم EPS بنُسَخ PDF.

وإلّا، يُرجى إنتاج ملفات PostScript وPDF الخاصة بك باستخدام الأوامر التالية:

dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf

هوامش في LaTeX

التزمْ بإعدادات الهوامش الافتراضية في قوالب النشر. تجنّب تغيير الهوامش يدوياً لضمان تطابق الإخراج مع متطلّبات المنصّة المستهدفة.

بيان URM

يُقرّ المؤلِّفون بأنّ أحدهم على الأقلّ يُمثِّل معايير URM لمسار الأوراق الصغيرة في ICLR 2024.

الملحق أ

الأوامر المستخدمة لنموذج اللغة الكبير في تجاربنا كما يلي:

أمر النظام: «أجِب عن الأسئلة استناداً إلى الفقرات المقدَّمة هنا فقط. لا تستخدم أيَّ معلوماتٍ أخرى. اجعل الإجابات موجزة، وقدِّم الإجابة دون مقدّمة».
أمر المستخدم: «الفقرات: » + context + « الأسئلة: » + query

الملحق ب

يحتوي هذا الملحقُ الرسومَ البيانية لتقدير الكثافة النووية (KDE) لدرجات التشابه الجيبي مقابل أطوال الجُمل، والتي تُظهِر زيادةً مصطنعةً في التشابه مع ازدياد الطول، وظهورَ توزيعاتٍ ثنائية القمّة عند تجاوز عتبة ~200 كلمة على مستوى الاستعلام والوثيقة معاً.

الملحق ج - المواد التكميلية

نوفر مستودع Git مجهول يحتوي على:

شيفرةٍ مصدريةٍ مجهولة
توزيعِ التجارب مقابل الفرضيّات (لنتائجٍ كميةٍ موحَّدة)
تفاصيلِ التجارب عبر 42 استفساراً و7 فرضيّات

بالإضافة إلى ذلك، نقدِّم تفاصيلَ حول الفرضيّات في الجدول [tab:observations] مع الاستفسارات النموذجية والنتائج المسترجعة والمولّدة.