ملاحظات حول بناء أنظمة RAG للوثائق الفنية

Sumit Soman وَ Sujoy Roychowdhury

latex

مُلَخَّص

يخلق التوليد المعزز بالاسترجاع (RAG) للوثائق الفنية تحديات، حيث إن التضمينات غالباً لا تلتقط المعلومات المتعلقة بالمجال بشكل كافٍ. نراجع الأعمال السابقة حول العوامل المهمة التي تؤثر على RAG ونجري تجارب لتسليط الضوء على أفضل الممارسات والتحديات المحتملة في بناء أنظمة RAG للوثائق الفنية.

مقدمة

تتضمن الإجابة على الأسئلة الطويلة توليد استجابات بحجم الفقرة من نماذج اللغة الكبيرة. يواجه الاسترجاع الموجه للوثائق الفنية عدة تحديات (xu2023retrieval, toro2023dynamic). تم تقييم العوامل التي تؤثر على أداء الاسترجاع، بما في ذلك الوثائق في سياقها، ونماذج اللغة الكبيرة والمقاييس (chen2023understanding). للبناء على هذا العمل، نجري تجارب على الوثائق الفنية مع مصطلحات الاتصالات والبطاريات لفحص تأثير طول القطعة، والبحث المعتمد على الكلمات الرئيسية وترتيب النتائج المسترجعة في خط أنابيب الاسترجاع الموجه.

الإعداد التجريبي

تعتمد تجاربنا على مواصفات الطبقة المتوسطة للتحكم في الوصول إلى الوسائط (MAC) والطبقة الفيزيائية (PHY) لشبكة IEEE اللاسلكية (9363693) ومعجم مصطلحات البطاريات الثابتة القياسي لـ IEEE (7552407). نقوم بمعالجة معجم التعريفات والوثيقة كاملة بشكل منفصل، حيث إن العديد من الأسئلة المتوقعة تستند إلى التعريفات. نستخرج الأسئلة استناداً إلى المعرفة المجالية ونقدم تقارير عن النتائج التجريبية لـ 42 استفساراً تمثيلياً عبر الوثائق. يمكن استخدام نماذج تضمين متعددة (reimers2019sentence)، ونستخدم MPNET (song2020mpnet) للوثيقة كاملة - باستثناء الجداول والتعليقات التوضيحية. بالنسبة للمعجم، نقسم المصطلح والتعريف ونولد تضمينات منفصلة لهما، بالإضافة إلى الفقرة الكاملة التي تحتوي على المصطلح المعرف والتعريف. لقد قامت الدراسات (soman2023observations) بمراجعة نماذج اللغة الكبيرة الأخرى لقطاع الاتصالات، ولكننا اخترنا نموذج llama2-7b-chat (touvron2023llama) لأنه مجاني ويمتلك ترخيصاً يتوافق مع الاستخدام التجاري. نقوم بتقييم عدة أسئلة ونقدم تقارير عن الأسئلة المختارة لتأكيد ملاحظاتنا. للرجوع إليها، يتم توفير الأوامر المستخدمة لنموذج اللغة الكبيرة في الملحق [app:appA].

الملاحظات

لاحظنا أولاً أن تضمين الجمل يصبح غير موثوق به مع زيادة حجم القطعة. يظهر الرسم البياني لتقدير الكثافة النوية (KDE) لدرجات التشابه الجيبي الكلي لأطوال الجمل المختلفة في الملحق [app:appB]. لقد أخذنا 10,970 جملة ودرسنا التشابه الزوجي لجميع الجمل. يُلاحظ تشابه عالٍ عندما يكون طول الجمل طويلاً نسبياً. تشير توزيعات التشابه الأعلى للأطوال الأكبر إلى تشابهات زائفة قمنا بالتحقق منها يدوياً لبعض العينات. وجدنا أنه عندما يحتوي كل من الاستعلام والوثيقة المستعلم عنها على أكثر من 200 كلمة، فإن توزيع التشابه يكون ثنائي القمة. عندما يحتوي أحدهما فقط على أكثر من 200 كلمة، هناك ارتفاع صغير ولكن أقل وضوحاً عند التشابهات العليا.

ملخص الملاحظات

يلخص الجدول [tab:observations] فرضياتنا والملاحظات الرئيسية - يتم توفير استفسارات العينة ونتائجها في الملحق [app:appC]. نفترض أن التقسيم بين التعريفات والمصطلحات يمكن أن يساعد في تحسين النتائج (H1)، وأن درجات التشابه مقياس جيد (H2)، وأن موقع الكلمات الرئيسية يؤثر على النتائج (H3)، وأن التشابه المعتمد على الجمل يؤدي إلى استرجاع وتوليد أفضل (H4 وH5)، وأن الإجابات للتعريفات المعتمدة على الاختصارات (H6) وترتيب النتائج المسترجعة يؤثر على أداء المولد (H7). من بين هذه، H2 هي نتيجة تجاربنا مع توزيعات درجات التشابه المشار إليها سابقاً وH7 مبنية على (chen2023understanding). أما البقية فهي مستخلصة من تجاربنا لتحسين النتائج.

وجدنا أن الاسترجاع بناءً على تحديد درجات التشابه ليس مفيداً دائماً. بالنسبة للاستفسارات 1، 2 و 5، عندما تكون عبارة الاستعلام موجودة في المصطلح أو التعريف، فإن الدرجة المسترجعة الأعلى تكون فعلاً الأعلى. بالنسبة للاستعلام 3، يتم استرجاع النتيجة الصحيحة في المركز الثاني باستخدام تضمين التعريف، لكن في الحالات الأخرى، لا يتم استرجاع النتيجة وتكون درجات التشابه متقاربة. بالنسبة للاستفسارات 4 و 6، لا نستطيع استرجاع النتيجة الصحيحة، رغم أن الدرجات تشير إلى غير ذلك. وبالتالي، قد يؤدي تحديد نتائج المسترجع بناءً على درجات التشابه إلى تعزيز أداء المولد الفرعي بشكل أمثل. نقوم بتقييم أداء المولد على استفساراتنا بناءً على النتائج المسترجعة. يتم ذلك باستخدام أعلى \(k\) تعريفات مسترجعة، والمصطلحات والتعريفات. يعطي السياق الأفضل استجابات مولدة أفضل. بالنسبة للاختصارات وتوسعاتها، لا يضيف المولد أي قيمة إضافية.

لاسترجاع الوثيقة الكاملة، نستكشف استعلام التشابه بواسطة الجملة والفقرة على حدة. في الحالة الأولى، نسترجع الفقرة التي تنتمي إليها الجملة ونأخذ أعلى \(k\) فقرات متميزة من الجمل الأكثر تشابهاً. نلاحظ أن النتائج بواسطة بحث التشابه المعتمد على الجملة واستخدام الفقرات للمولد يوفر أداء استرجاع وتوليد أفضل. يذكر المؤلفون في (chen2023understanding) أن ترتيب المعلومات المقدمة مهم، لكننا لم نلاحظ نتائج مختلفة عند تبديل الفقرات المسترجعة. نلاحظ أحياناً فشل استجابات المولد بسبب استرجاع غير صحيح، أو حقائق متوهمة أو توليف غير صحيح كما هو موضح في (chen2023understanding).

نوصي بمثل هذه الطرق لتعريف الأسئلة والأجوبة والأسئلة والأجوبة الطويلة.

الاستنتاجات والأعمال المستقبلية

لقد أظهرنا أن طول القطعة يؤثر على تضمينات أداة الاسترجاع، وأن تعزيز المولد بتحديد نتائج أداة الاسترجاع بناءً على درجات التشابه قد يكون غير موثوق. ومع ذلك، فإن استخدام الاختصارات وعدد كبير من الفقرات المتعلقة بالموضوع يجعل ملاحظاتنا ذات صلة خاصة بالأسئلة والأجوبة الطويلة على الوثائق الفنية. كأعمال مستقبلية، نود استخدام مقاييس (es2023ragas, chen2023benchmarking) لاختيار استراتيجيات الاسترجاع. كما أن الطرق ومقاييس التقييم للإجابة على الأسئلة اللاحقة ستكون موضع اهتمام.

الأسلوب

استرجاع ملفات النمط

تعليمات التنسيق العامة

العناوين: المستوى الأول

العناوين: المستوى الثاني

العناوين: المستوى الثالث

الاستشهادات، الأشكال، الجداول، المراجع

الاستشهادات داخل النص

يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib وتتضمن أسماء عائلات المؤلفين والسنة (مع استخدام بناء الجملة “وآخرون” لأكثر من مؤلفين اثنين). عندما يتم ذكر المؤلفين أو النشر داخل الجملة، يجب ألا يكون الاستشهاد بين قوسين باستخدام \citet{} (كما في “انظر (Hinton06) لمزيد من المعلومات.”). وإلا، يجب أن يكون الاستشهاد بين قوسين باستخدام \citep{} (كما في “تظهر التعلم العميق وعداً لتحقيق تقدم نحو الذكاء الاصطناعي (Bengio+chapter2007).”).

يجب أن تدرج المراجع المقابلة بترتيب أبجدي لأسماء المؤلفين، في قسم المراجع. بالنسبة لتنسيق المراجع نفسها، أي أسلوب مقبول طالما أنه مستخدم بشكل متسق.

الحواشي السفلية

الأشكال

الجداول

جميع الجداول يجب أن تكون مركزة، نظيفة، وواضحة. لا تستخدم جداول مرسومة باليد. يجب أن يظهر رقم الجدول وعنوانه قبل الجدول. انظر الجدول  [sample-table].

ضع مسافة سطر واحدة قبل عنوان الجدول، ومسافة سطر واحدة بعد عنوان الجدول، ومسافة سطر واحدة بعد الجدول. يجب أن يكون عنوان الجدول بأحرف صغيرة (ما عدا الكلمة الأولى والأسماء الخاصة)؛ ويتم ترقيم الجداول بشكل متسلسل.

التدوين الافتراضي

التعليمات النهائية

إعداد ملفات PostScript أو PDF

يرجى إعداد ملفات PostScript أو PDF بحجم الورق “US Letter”، وليس، على سبيل المثال، “A4”. خيار -t letter على dvips سينتج ملفات US Letter.

فكر في إنتاج ملفات PDF مباشرة باستخدام pdflatex (خاصة إذا كنت مستخدماً لـ MiKTeX). ومع ذلك، يجب استبدال الأشكال البيانية PDF بدلاً من أشكال EPS.

وإلا، يرجى إنتاج ملفات PostScript وPDF الخاصة بك باستخدام الأوامر التالية:

dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf

هوامش في LaTeX

بيان URM

يقر الكتاب بأن على الأقل أحد المؤلفين الرئيسيين لهذا العمل يلبي معايير URM لمسار الأوراق الصغيرة في ICLR 2024.

الملحق أ

الأوامر المستخدمة لنموذج اللغة الكبير في تجاربنا هي كما يلي:

الملحق ب

الملحق C - المواد التكميلية

نوفر مستودع Git مجهول يحتوي على

بالإضافة إلى ذلك، نقدم تفاصيل بخصوص الفرضيات في الجدول [tab:observations] من خلال تقديم استفسارات نموذجية والنتائج المسترجعة والمولدة.