latex
تطرح عملية توليد الاسترجاع المعزز (RAG) للوثائق الفنية تحديات، حيث إن التضمينات غالباً لا تلتقط المعلومات المتعلقة بالمجال بشكل كافٍ. نراجع الأعمال السابقة حول العوامل المهمة التي تؤثر على RAG ونجري تجارب لتسليط الضوء على أفضل الممارسات والتحديات المحتملة في بناء أنظمة RAG للوثائق الفنية.
تشمل الإجابة على الأسئلة الطويلة توليد استجابات بحجم الفقرة من نماذج اللغة الكبيرة. تواجه أنظمة (RAG) للوثائق الفنية تحديات عديدة (xu2023retrieval, toro2023dynamic). تم تقييم العوامل التي تؤثر على أداء الاسترجاع، بما في ذلك الوثائق في سياقها، ونماذج اللغة الكبيرة والمقاييس (chen2023understanding). للبناء على هذا العمل، نجري تجارب على وثائق فنية تتعلق بمصطلحات الاتصالات والبطاريات لفحص تأثير طول القطعة، والبحث المعتمد على الكلمات الرئيسية وترتيب النتائج المسترجعة في خط أنابيب (RAG).
تعتمد تجاربنا على مواصفات الطبقة الفيزيائية وطبقة التحكم في الوصول إلى الوسائط لشبكة IEEE اللاسلكية (9363693) ومعجم المصطلحات القياسية للبطاريات الثابتة لـ IEEE (7552407). نقوم بمعالجة معجم التعريفات والوثيقة كاملة بشكل منفصل، حيث أن العديد من الأسئلة المتوقعة تستند إلى التعريفات. نستخرج الأسئلة استناداً إلى المعرفة التخصصية ونقدم تقارير عن النتائج التجريبية لـ 42 استفساراً تمثيلياً عبر الوثائق. يمكن استخدام نماذج تضمين متعددة (reimers2019sentence)، ونستخدم MPNET (song2020mpnet) للوثيقة كاملة - باستثناء الجداول والتعليقات التوضيحية. بالنسبة للمعجم، نقسم المصطلح والتعريف ونولد تضمينات منفصلة لهما، بالإضافة إلى الفقرة الكاملة التي تحتوي على المصطلح المعرف والتعريف. قامت (soman2023observations) بمراجعة نماذج اللغة الكبيرة الأخرى لقطاع الاتصالات، لكننا اخترنا نموذج llama2-7b-chat (touvron2023llama) لأنه مجاني ويحتوي على ترخيص مناسب للاستخدام التجاري. نقيم عدة أسئلة ونقدم تقارير عن الأسئلة المختارة لتأكيد ملاحظاتنا. للإشارة، يتم توفير الأوامر المستخدمة لنموذج اللغة الكبير في الملحق [app:appA].
لاحظنا أولاً أن موثوقية تضمينات الجمل تصبح أقل مع زيادة حجم القطعة. يوضح الملحق [app:appB] في الشكل [fig:kde_chunk] رسم تقدير الكثافة النوية لدرجات التشابه الجيبي الكلي لأطوال الجمل المختلفة. نأخذ 10,970 جملة وننظر في التشابه الزوجي لجميع الجمل. يُلاحظ تشابه عالٍ عندما يكون طول الجمل طويلاً نسبياً. تشير توزيعات التشابه الأعلى للأطوال الأكبر إلى تشابهات زائفة قمنا بالتحقق منها يدوياً لبعض العينات. وجدنا أنه عندما يكون كل من الاستعلام والوثيقة المستعلم عنها يزيد عن 200 كلمة، يكون توزيع التشابه ثنائي الوضع. عندما يزيد أحدهما عن 200 كلمة، يوجد ارتفاع صغير ولكن أقل وضوحاً عند التشابهات الأعلى.
يلخص الجدول [tab:observations] فرضياتنا والملاحظات الرئيسية - يتم توفير استفسارات العينة ونتائجها في الملحق [app:appC]. نفترض أن التقسيم بين التعريفات والمصطلحات يمكن أن يساعد في تحسين النتائج (H1)، وأن درجات التشابه كمقياس جيد (H2)، وتأثير موقع الكلمات الرئيسية على النتائج (H3)، وأن التشابه المعتمد على الجملة يؤدي إلى استرجاع أفضل (H4) وتوليد (H5)، والإجابات للتعريفات المعتمدة على الاختصارات (H6) وتأثير ترتيب النتائج المسترجعة على أداء المولد (H7). من بين هذه، H2 هو نتيجة تجاربنا مع توزيعات درجات التشابه المشار إليها سابقاً وH7 مبني على (chen2023understanding). أما البقية فهي مستخلصة من تجاربنا لتحسين النتائج. لكل فرضية، نقدم عدد التجارب التي تدعم الادعاء وتلك التي لا تدعمه في العمود الأخير، جنباً إلى جنب مع استفسارات العينة.
وجدنا أن الاسترجاع بناءً على تحديد درجات التشابه ليس مفيداً دائماً. بالنسبة للاستفسارات 1، 2 و 5، عندما تكون عبارة الاستعلام موجودة في المصطلح أو التعريف، تكون الدرجة المسترجعة الأعلى. بالنسبة للاستفسار 3، يتم استرجاع النتيجة الصحيحة في المركز الثاني باستخدام تضمين التعريف، لكن في حالات أخرى، لا يتم استرجاع النتيجة وتكون درجات التشابه متقاربة. بالنسبة للاستفسارات 4 و 6، لا نستطيع استرجاع النتيجة الصحيحة، رغم أن الدرجات تشير إلى غير ذلك. وبالتالي، قد يؤدي تحديد النتائج المسترجعة بناءً على درجات التشابه إلى تعزيز أداء المولد الفرعي بشكل أمثل. نقيم أداء المولد على استفساراتنا بناءً على النتائج المسترجعة. يتم ذلك باستخدام أعلى \(k\) مسترجع من (أ) التعريفات، و(ب) المصطلحات والتعريفات. يعطي السياق الأفضل استجابات مولدة أفضل. بالنسبة للاختصارات وتوسعاتها، لا يضيف المولد أي قيمة إضافية.
لاسترجاع الوثيقة الكاملة، نستكشف البحث عن التشابه بواسطة الجملة والفقرة على حدة. في الحالة الأولى، نسترجع الفقرة التي تنتمي إليها الجملة ونأخذ أعلى \(k\) فقرات متميزة من الجمل الأكثر تشابهاً. نلاحظ أن النتائج بواسطة البحث عن التشابه المعتمد على الجملة واستخدام الفقرات للمولد يوفر أداء استرجاع وتوليد أفضل. يذكر المؤلفون في (chen2023understanding) أن ترتيب المعلومات المقدمة مهم، لكننا لم نلاحظ نتائج مختلفة عند تبديل الفقرات المسترجعة. نلاحظ أحياناً فشل استجابات المولد بسبب استرجاع غير صحيح، أو حقائق متوهمة أو توليف غير صحيح كما هو موضح في (chen2023understanding).
نوصي بمثل هذه الطرق لتعريف الأسئلة والأجوبة والأسئلة والأجوبة الطويلة.
لقد أظهرنا أن طول القطعة يؤثر على تضمينات أداة الاسترجاع، وأن تعزيز المولد بتحديد نتائج أداة الاسترجاع بناءً على درجات التشابه قد يكون غير موثوق. ومع ذلك، فإن استخدام الاختصارات وعدد كبير من الفقرات المتعلقة بموضوع معين يجعل ملاحظاتنا ذات صلة خاصة بالأسئلة والأجوبة الطويلة على الوثائق الفنية. كأعمال مستقبلية، نود استخدام مقاييس (es2023ragas, chen2023benchmarking) لاختيار استراتيجيات الاسترجاع. كما ستكون الطرق ومقاييس التقييم للإجابة على الأسئلة التالية موضوعاً يستحق الاهتمام.
يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib
وتتضمن أسماء عائلات المؤلفين والسنة (مع استخدام بناء “وآخرون” لأكثر من مؤلفين اثنين). عندما يتم ذكر المؤلفين أو النشر ضمن الجملة، يجب ألا يكون الاستشهاد بين قوسين باستخدام \citet{}
(كما في “انظر (Hinton06) للمزيد من المعلومات.”). وإلا، يجب أن يكون الاستشهاد بين قوسين باستخدام \citep{}
(كما في “تظهر التعلم العميق وعداً لتحقيق تقدم نحو الذكاء الاصطناعي (Bengio+chapter2007).”).
يجب أن تدرج المراجع المقابلة بترتيب أبجدي لأسماء المؤلفين، في قسم المراجع. بالنسبة لتنسيق المراجع نفسها، أي أسلوب مقبول طالما أنه مستخدم بشكل متسق.
جميع الجداول يجب أن تكون مركزة، نظيفة، وواضحة. لا تستخدم جداول مرسومة باليد. يجب أن يظهر رقم الجدول وعنوانه قبل الجدول نفسه. انظر الجدول [sample-table].
ضع مسافة سطر واحدة قبل عنوان الجدول، ومسافة سطر واحدة بعد عنوان الجدول، ومسافة سطر واحدة بعد الجدول. يجب أن يكون عنوان الجدول بأحرف صغيرة (ما عدا الكلمة الأولى والأسماء الخاصة)؛ ويتم ترقيم الجداول بشكل متسلسل.
في محاولة لتشجيع التدوين الموحد، قمنا بتضمين ملف التدوين من الكتاب المدرسي، التعلم العميق (goodfellow2016deep). استخدام هذا الأسلوب ليس إلزامياً ويمكن تعطيله عن طريق التعليق على math_commands.tex
.
يرجى إعداد ملفات بوست سكريبت أو بي دي إف بحجم الورق “US Letter”، وليس، على سبيل المثال، “A4”. خيار -t letter في dvips سينتج ملفات بحجم US Letter.
فكر في إنشاء ملفات بي دي إف مباشرة باستخدام pdflatex (خاصة إذا كنت مستخدماً لـ MiKTeX). ومع ذلك، يجب استبدال الصور بي دي إف بدلاً من صور EPS.
وإلا، يرجى إنشاء ملفات بوست سكريبت وبي دي إف باستخدام الأوامر التالية:
dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf
يقر الكتاب بأن على الأقل أحد المؤلفين الرئيسيين لهذا العمل يلبي معايير URM لمسار الأوراق الصغيرة في ICLR 2024.
الأوامر المستخدمة للنموذج اللغوي الكبير في تجاربنا هي كما يلي:
أمر النظام: أجب عن الأسئلة استناداً إلى الفقرات المقدمة هنا. لا تستخدم أي معلومات أخرى باستثناء تلك الموجودة في الفقرات. اجعل الإجابات قصيرة قدر الإمكان. فقط قدم الإجابة. لا مقدمة مطلوبة.
أمر المستخدم: “الفقرات: ”+context + “الأسئلة: ”+ query
نوفر مستودع Git مجهول يحتوي على:
شفرة مصدرية مجهولة
جدولة التجربة مقابل الفرضية (للنتائج الكمية الموحدة)
تفاصيل التجارب عبر 42 استفسار و 7 فرضيات
بالإضافة إلى ذلك، نوفر تفاصيل بخصوص الفرضيات في الجدول [tab:observations] من خلال تقديم استفسارات نموذجية والنتائج المسترجعة والمولدة.