```html
نصّ مُنسّق بلغة LaTeX
تطرح عملية توليد الاسترجاع المعزز (RAG) للوثائق الفنية تحديات، حيث إن التضمينات غالباً لا تلتقط المعلومات المتعلقة بالمجال بشكل كافٍ. نراجع الأعمال السابقة حول العوامل المهمة التي تؤثر على RAG ونجري تجارب لتسليط الضوء على أفضل الممارسات والتحديات المحتملة في بناء أنظمة RAG للوثائق الفنية.
تتضمن الإجابة على الأسئلة المطوّلة توليد استجابات بحجم فقرة عبر نماذج اللغة الكبيرة. تواجه أنظمة (RAG) للوثائق الفنية تحديات عديدة (xu2023retrieval, toro2023dynamic). لقد تم تقييم العوامل التي تؤثر على أداء الاسترجاع، بما في ذلك وضع الوثائق في سياقها، ونماذج اللغة الكبيرة، والمقاييس المختلفة (chen2023understanding). ولتوسيع هذا العمل، نجري تجارب على وثائق فنية تتعلق بمصطلحات الاتصالات والبطاريات لفحص تأثير طول القطعة، وطرق البحث المعتمدة على الكلمات الرئيسية، وترتيب النتائج المسترجعة في خط أنابيب (RAG).
تعتمد تجاربنا على مواصفات الطبقة الفيزيائية وطبقة التحكم في الوصول إلى الوسائط لشبكة IEEE اللاسلكية (9363693)، والمعجم القياسي لمصطلحات البطاريات الثابتة لـ IEEE (7552407). نقوم بمعالجة معجم التعريفات والوثيقة الكاملة بشكل منفصل، لأن العديد من الأسئلة المتوقعة تستند إلى التعريفات. نستخرج الأسئلة استناداً إلى خبرتنا التخصصية ونقدم تقارير عن النتائج التجريبية لـ 42 استفساراً تمثيلياً عبر كلا الوثيقتين. يمكن استخدام نماذج تضمين متعددة ومتنوعة (reimers2019sentence)، ونستخدم آلية MPNET (song2020mpnet) لتمثيل الوثيقة الكاملة - باستثناء الجداول والتعليقات التوضيحية. بالنسبة للمعجم، نقسم المصطلح والتعريف ونولد تضمينات منفصلة لكل منهما، بالإضافة إلى تضمين الفقرة الكاملة التي تحتوي عليهما. استعرضت (soman2023observations) نماذج اللغة الكبيرة الأخرى في قطاع الاتصالات، لكننا اخترنا نموذج llama2-7b-chat (touvron2023llama) لأنه مجاني ويحمل تراخيص مناسبة للاستخدام التجاري. نقيم أداء النموذج استناداً إلى عدة أسئلة ونقدم تقارير عن النتائج المختارة لتأكيد ملاحظاتنا. للأمانة، يتم توفير الأوامر المستخدمة لنموذج اللغة الكبير في الملحق [app:appA].
لاحظنا أولاً أن موثوقية تضمينات الجمل تنخفض مع زيادة طول القطعة. يوضح الملحق [app:appB] في الشكل [fig:kde_chunk] تقدير التوزيع الكثافي لنواقل التشابه الجيبي الكلي لمختلف أطوال القطع. أخذنا 10,970 جملة ونظرنا في التشابه الزوجي بينها جميعاً؛ فلوحظ أن التشابه العالي يظهر مع القطع الأطول نسبياً. تشير توزيعات التشابه الأعلى للأطوال الكبيرة إلى وجود تشابهات زائفة، وقد تحققنا منها يدوياً لعينة منها. وجدنا أنه عندما يزيد طول كل من الاستعلام والوثيقة المستعلم عنها عن 200 كلمة، يظهر توزيع ذو وضعين. وإذا زاد أحدهما فقط عن هذا الحد، يظهر ارتفاع بسيط عند التشابهات العالية، لكنه أقل وضوحاً.
يقدم الجدول [tab:observations] فرضياتنا والملاحظات الرئيسية؛ وقد أُرفقت استفسارات العينة ونتائجها في الملحق [app:appC]. نفترض أن الفصل بين التعريفات والمصطلحات يمكن أن يحسن نتائج الاسترجاع (H1)، وأن درجات التشابه معيار مناسب (H2)، وأن موقع الكلمات الرئيسية يؤثر على النتائج (H3)، وأن الاسترجاع المعتمد على الجملة يُحسّن الأداء (H4) ويُعزز عمليات التوليد (H5)، وأن الإجابات الخاصة بالتعريفات المنبثقة عن الاختصارات لها خصائص محددة (H6)، وأن ترتيب النتائج المسترجعة يؤثر على أداء المولد (H7). من بين هذه الفرضيات، يستند H2 إلى تجاربنا مع توزيعات درجات التشابه المشار إليها أعلاه، ويعتمد H7 على (chen2023understanding). أما البقية، فاستخلصناها من تجاربنا لتحسين النتائج. في العمود الأخير، نعرض عدد التجارب الداعمة لتلك الفرضيات وعدد التجارب غير الداعمة، إلى جانب استفسارات العينة.
وجدنا أن الاسترجاع بناءً على ترتيب درجات التشابه ليس مفيداً دائماً. بالنسبة للاستفسارات 1 و 2 و 5، يكون أعلى ترتيب مسترجع عندما تحتوي عبارة الاستعلام على المصطلح أو التعريف. أما في الاستفسار 3، فقد ظُهرت النتيجة الصحيحة في المرتبة الثانية عند استخدام تضمين التعريف، بينما لم تظهر في مرات أخرى بسبب تقارب الدرجات. أما بالنسبة للاستفسارات 4 و 6، فلم نتمكن من استرجاع النتيجة الصحيحة رغم إشارات الدرجات إلى احتماليتها. بالتالي، قد يؤدي اختيار النتائج المسترجعة بناءً على درجات التشابه إلى تحسين أداء المولد الفرعي بصورة غير مستقرة. نقيم أداء المولد على استفساراتنا اعتماداً على النتائج المسترجعة، وذلك باستخدام أعلى \(k\) مسترجعات من (أ) التعريفات، و(ب) المصطلحات والتعريفات معاً. ويوفر السياق الأنسب استجابات مولدة أفضل. وفيما يخص الاختصارات وتوسعاتها، لم يضف المولد قيمة إضافية.
لاسترجاع الوثيقة الكاملة، نستكشف طريقتين بحث: البحث المبني على التشابه على مستوى الجملة والبحث على مستوى الفقرة. في الطريقة الأولى، نحدد الفقرة التي تنتمي إليها الجملة ثم نجمع أعلى \(k\) فقرات متميزة من الجمل الأكثر تشابهاً. نلاحظ أن البحث المبني على التشابه على مستوى الجملة مع استخدام الفقرات كمدخل للمولد يوفر أداءً أفضل في الاسترجاع والتوليد. يشير (chen2023understanding) إلى أهمية ترتيب المعلومات المقدمة، لكننا لم نر اختلافاً جوهرياً عند تبديل ترتيب الفقرات المسترجعة. ولاحظنا أحياناً فشل استجابات المولد بسبب استرجاع نتيجة غير صحيحة، أو بسبب حقائق متوهمة، أو توليف غير سليم.
نوصي باعتماد هذه الأساليب عند إعداد الأسئلة والإجابات المطوّلة في الوثائق الفنية، حيث توفر إحكاماً في استرجاع المعلومات ودقة في التوليد.
لقد أظهرنا أن طول القطعة يؤثر بشكل ملحوظ على جودة تضمينات أداة الاسترجاع، وأن تعزيز المولد باختيار النتائج استناداً إلى درجات التشابه قد يكون أقل موثوقية. ومع ذلك، تبقى لملاحظاتنا أهمية خاصة عند التعامل مع الأسئلة والإجابات المطوّلة في الوثائق الفنية، خاصة مع استخدام الاختصارات وتوفر عدد كبير من الفقرات المرتبطة بموضوع معين. كأعمال مستقبلية، نود استخدام مقاييس إضافية (es2023ragas, chen2023benchmarking) لاختيار استراتيجيات الاسترجاع الأنسب، كما نهدف إلى تطوير طرق ومقاييس تقييم تلبي احتياجات الأسئلة التالية.
يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib
وتتضمن أسماء عائلات المؤلفين والسنة (مع استخدام بناء “وآخرون” لأكثر من مؤلفين اثنين). عندما يتم ذكر المؤلفين أو النشر ضمن الجملة، يجب ألا يكون الاستشهاد بين قوسين باستخدام \citet{}
(كما في “انظر (Hinton06) للمزيد من المعلومات.”). وإلا، يجب أن يكون الاستشهاد بين قوسين باستخدام \citep{}
(كما في “تظهر التعلم العميق وعداً لتحقيق تقدم نحو الذكاء الاصطناعي (Bengio+chapter2007).”).
يجب أن تدرج المراجع المقابلة بترتيب أبجدي لأسماء المؤلفين، في قسم المراجع. بالنسبة لتنسيق المراجع نفسها، أي أسلوب مقبول طالما أنه مستخدم بشكل متسق.
جميع الجداول يجب أن تكون مركزة، نظيفة، وواضحة. لا تستخدم جداول مرسومة باليد. يجب أن يظهر رقم الجدول وعنوانه قبل الجدول نفسه. انظر الجدول [sample-table].
ضع مسافة سطر واحدة قبل عنوان الجدول، ومسافة سطر واحدة بعد عنوان الجدول، ومسافة سطر واحدة بعد الجدول. يجب أن يكون عنوان الجدول بأحرف صغيرة (ما عدا الكلمة الأولى والأسماء الخاصة)؛ ويتم ترقيم الجداول بشكل متسلسل.
في محاولة لتشجيع التدوين الموحد، قمنا بتضمين ملف التدوين من الكتاب المدرسي، التعلم العميق (goodfellow2016deep). استخدام هذا الأسلوب ليس إلزامياً ويمكن تعطيله عن طريق التعليق على math_commands.tex
.
يرجى إعداد ملفات بوست سكريبت أو بي دي إف بحجم الورق “US Letter”، وليس، على سبيل المثال، “A4”. خيار -t letter في dvips سينتج ملفات بحجم US Letter.
فكر في إنشاء ملفات بي دي إف مباشرة باستخدام pdflatex (خاصة إذا كنت مستخدماً لـ MiKTeX). ومع ذلك، يجب استبدال الصور بي دي إف بدلاً من صور EPS.
وإلا، يرجى إنشاء ملفات بوست سكريبت وبي دي إف باستخدام الأوامر التالية:
dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf
يقر الكتاب بأن على الأقل أحد المؤلفين الرئيسيين لهذا العمل يلبي معايير URM لمسار الأوراق الصغيرة في ICLR 2024.
الأوامر المستخدمة للنموذج اللغوي الكبير في تجاربنا هي كما يلي:
أمر النظام: أجب عن الأسئلة استناداً إلى الفقرات المقدمة هنا. لا تستخدم أي معلومات أخرى باستثناء تلك الموجودة في الفقرات. اجعل الإجابات قصيرة قدر الإمكان. فقط قدم الإجابة. لا مقدمة مطلوبة.
أمر المستخدم: “الفقرات: ”+context + “الأسئلة: ”+ query
نوفر مستودع Git مجهول يحتوي على:
شفرة مصدرية مجهولة
جدولة التجربة مقابل الفرضية (للنتائج الكمية الموحدة)
تفاصيل التجارب عبر 42 استفسار و 7 فرضيات
بالإضافة إلى ذلك، نوفر تفاصيل بخصوص الفرضيات في الجدول [tab:observations] من خلال تقديم استفسارات نموذجية والنتائج المسترجعة والمولدة.
``` **ملاحظات حول LaTeX:** - جميع المعادلات مكتوبة بصيغة \( ... \)، وهي الصيغة الصحيحة للمعادلات المضمنة في MathJax/LaTeX. - لا توجد معادلات معقدة أو معادلات منفصلة (display math) تحتاج إلى تصحيح. - جميع الأقواس، علامات الدولار، والرموز الرياضية مغلقة بشكل صحيح. - لا توجد أوامر LaTeX غير مغلقة أو ناقصة. - جميع العناصر التي تتطلب LaTeX (مثل \(k\)) ستعمل بشكل صحيح مع MathJax. - لا توجد جداول أو أشكال مرسومة بـ LaTeX في النص، فقط إشارات نصية. - لم يتم تغيير أي كلمة من النص الأصلي. **النتيجة:** النص كامل، لا توجد أخطاء LaTeX، جميع المعادلات ستعمل بشكل صحيح مع MathJax.