مُلَخَّص
يطرح الاسترجاع المُعزَّز بالتوليد (RAG) في سياق الوثائق الفنية تحدّيات كبيرة، إذ إنّ التضمينات غالباً لا تلتقط بدقّة المعلومات الخاصّة بالمجال. نُراجِع الأعمال السابقة حول العوامل المؤثّرة في RAG، ونُجري تجارب تُبرز أفضل الممارسات والتحدّيات الممكنة عند بناء أنظمة RAG للوثائق الفنية.
مقدمة
تستلزم الإجابات المطوّلة توليد فقرات من نماذج اللغة الكبيرة.
يَعْتَري الاسترجاع للوثائق الفنية تحدّيات متعدّدة الأوجه (xu2023retrieval, toro2023dynamic). سبق تقييم العوامل التي تؤثّر في أداء الاسترجاع، بما في ذلك التضمينات، ونماذج اللغة الكبيرة، وأنواع المقاييس المختلفة (chen2023understanding). للبناء على هذا العمل، نجري تجارب على وثائق فنية بمصطلحات الاتصالات والبطاريات لفحص أثر طول المقتطف، والبحث القائم على الكلمات المفتاحية، وترتيب النتائج المسترجعة ضمن خطّ أنابيب الاسترجاع المُعزَّز بالتوليد.
الإعداد التجريبي
تعتمد تجاربنا على مواصفات طبقة التحكم بالوصول للوسط (Medium Access Control) والطبقة الفيزيائية (Physical Layer) لشبكات IEEE اللاسلكية (9363693)، وعلى معجم المصطلحات القياسي للبطاريات الثابتة من IEEE (7552407). نعالج معجم التعريفات والوثيقة الكاملة بصورة منفصلة، إذ تعتمد العديد من الأسئلة المتوقَّعة على التعريفات. نستخرج الأسئلة بالاستناد إلى المعرفة المجالية، ونقدّم نتائج تجريبية لـ42 استفساراً تمثيلياً عبر الوثائق. يمكن استخدام نماذج تضمين متعددة (reimers2019sentence)، ونستخدم نموذج MPNET
(song2020mpnet) للوثيقة الكاملة — باستثناء الجداول والتعليقات التوضيحية. أمّا في المعجم، فنفصل بين المصطلح وتعريفه ونولّد تضمينات مستقلة لكلٍّ منهما، بالإضافة إلى تضمين للفقرة الكاملة التي تضمّ المصطلح المعرَّف وتعريفه. راجع (soman2023observations) نماذج لغة كبيرة أخرى في قطاع الاتصالات، لكنّنا اخترنا llama2-7b-chat
(touvron2023llama) لأنّه مجاني ومرخَّص للاستخدام التجاري. نقوِّم عدة أسئلة ونورد أسئلة مختارة لتأكيد ملاحظاتنا. وللرجوع إليها، تُوفَّر الأوامر المستخدمة لنموذج اللغة الكبير في الملحق أ.
الملاحظات
لاحظنا بدايةً أنّ تضمين الجُمَل يصبح أقلّ موثوقية كلّما ازداد طول المقتطف النصّي. يوضّح الملحق ب مخطَّط تقدير الكثافة النُّوَيّة (KDE) لدرجات التشابه الجيبي الكلي لأطوال الجُمَل المختلفة. أخذنا 10,970 جملة وفحصنا التشابه الزوجي فيما بينها. يُرصد تشابه مرتفع عندما تكون الجُمَل طويلة نسبياً. وتشير توزيعات التشابه الأعلى للأطوال الأكبر إلى تطابقات زائفة تحقّقنا منها يدوياً لبعض العيّنات. وجدنا أنّه عندما يحتوي كلٌّ من الاستعلام والمقتطف المسترجَع على أكثر من 200 كلمة، يظهر توزيع تشابه ثنائي القِمَم. وعندما يتجاوز أحدهما فقط هذا الحدّ، يظهر ارتفاع طفيف لكن أقلّ وضوحاً عند الدرجات العليا.
ملخّص الملاحظات
يلخّص الجدول [tab:observations] فرضياتنا والملاحظات الرئيسية؛ وتُقدَّم استعلامات عيّنية ونتائجها في الملحق ج. نفترض أنّ فصل التعريفات عن المصطلحات قد يُحسّن النتائج (H1)، وأنّ درجات التشابه تصلح مقياساً جيّداً (H2)، وأنّ موضع الكلمات المفتاحية يؤثّر في النتائج (H3)، وأنّ احتساب التشابه على مستوى الجُمَل يعزّز الاسترجاع (H4) وجودة التوليد (H5)، كما أنّ الإجابات المبنية على الاختصارات تخضع لتأثيرات خاصّة (H6)، وأنّ ترتيب النتائج المسترجعة يؤثّر في أداء المُولِّد (H7). من بين هذه الفرضيات، اعتمدت H2 على نتائج توزيعات التشابه المشار إليها أعلاه، واستندت H7 إلى (chen2023understanding)، أمّا بقيّتها فاستنتجناها من تجاربنا.
وجدنا أنّ الاسترجاع بالاعتماد على الانتقاء وفق أعلى درجات التشابه ليس مُجدياً دائماً. ففي الاستعلامات 1، 2 و5، وعند وقوع عبارة الاستعلام داخل المصطلح أو التعريف، تُحقَّق أعلى درجات التشابه. أمّا في الاستعلام 3، فتُسترجَع الإجابة الصحيحة في المرتبة الثانية عند استخدام تضمين التعريف، بينما لا تُسترجَع الإجابة في حالات أخرى وتكون درجات التشابه متقاربة. وفي الاستعلامات 4 و6، تعذَّر استرجاع الإجابة الصحيحة على الرغم من أنّ الدرجات توحي بغير ذلك. وعليه، قد يؤدّي الاعتماد الأعمى على درجات التشابه إلى أداءٍ للمُولِّد دون المُثلى. نقوِّم أداء المُولِّد على استعلاماتنا بناءً على النتائج المسترجعة باستخدام أعلى \(k\) تعريفات مسترجَعة، والمصطلحات وتعريفاتها؛ إذ يوفّر السياق الأفضل استجابات مُولَّدة أدقّ. أمّا في ما يخص الاختصارات وتوسّعاتها، فلا يضيف المُولِّد قيمةً إضافية.
لاسترجاع الوثيقة الكاملة، استكشفنا البحث بالتشابه على مستوى الجُمَل مقابل مستوى الفقرات على نحوٍ منفصل. في الحالة الأولى، نسترجع الفقرة التي تنتمي إليها الجملة ثم نأخذ أعلى \(k\) فقرات مميَّزة من بين الجُمَل الأكثر تشابهاً. نلحظ أنّ نتائج البحث بالتشابه على مستوى الجُمَل مع استخدام الفقرات في التوليد تُقدّم أداء استرجاع وتوليد أفضل. يذكر المؤلفون في (chen2023understanding) أنّ ترتيب المعلومات المقدَّمة مهم، لكنّنا لم نلحظ فروقاً تُذكر عند تبديل ترتيب الفقرات المسترجعة. ونلاحظ أيضاً أنّ استجابات المُولِّد قد تفشل أحياناً بسبب استرجاع خاطئ، أو حقائق مُتوهَّمة، أو تركيب غير مُحكَم، كما هو موضّح في (chen2023understanding).
نوصي بتطبيق هذه الأساليب ضمن أنظمة السؤال والجواب، ولا سيّما للأسئلة ذات الإجابات المطوّلة.
الاستنتاجات والأعمال المستقبلية
أظهرنا أنّ طول المقتطف يؤثّر في جودة تضمينات الاسترجاع، وأنّ تعزيز المُولِّد عبر اختيار نتائج المسترجِع استناداً إلى درجات التشابه قد لا يكون موثوقاً في بعض الحالات. ونظراً إلى شيوع الاختصارات وإلى إدراج عدد كبير من الفقرات المرتبطة بالموضوع، فإنّ هذه الملاحظات ذات صلةٍ خاصّة بسياق الإجابات المطوّلة على الوثائق الفنية. كعملٍ مستقبلي، نرغب في استخدام مقاييس (es2023ragas, chen2023benchmarking) لانتقاء استراتيجيات الاسترجاع؛ كما سنبحث منهجيات ومقاييس تقييم مناسبة للإجابة عن الأسئلة المفتوحة ذات الصلة.
الأسلوب
استيراد ملفات الأنماط
تعليمات التنسيق العامة
العناوين: المستوى الأول
العناوين: المستوى الثاني
العناوين: المستوى الثالث
الاقتباسات، الأشكال، الجداول، المراجع
الاستشهادات داخل النص
يجب أن تستند الاستشهادات داخل النص إلى حزمة natbib
وأن تتضمّن أسماء عائلات المؤلفين والسنة (مع استخدام الصياغة “وآخرون” لأكثر من مؤلفين اثنين). عند ذِكر المؤلفين داخل الجملة لا تُوضَع الإحالة بين قوسين وتُستخدم \citet{}
، مثل: “انظر Hinton (2006) لمزيد من المعلومات.” أمّا إذا لم يُذكَر المؤلفون داخل الجملة، فتكون الإحالة بين قوسين باستخدام \citep{}
، مثل: “يُظهر التعلّم العميق وعداً بتحقيق تقدّم نحو الذكاء الاصطناعي (Bengio et al., 2007).”
تُدرَج المراجع المقابلة بترتيب أبجدي لأسماء المؤلفين ضمن قسم المراجع. وبالنسبة لتنسيق المراجع نفسها، فأيّ أسلوبٍ مقبول ما دام يُستخدَم باتساق.
الحواشي السفلية
الأشكال
الجداول
جميع الجداول يجب أن تكون مركّزة، نظيفة، وواضحة. لا تستخدم جداول مرسومة باليد. يجب أن يظهر رقم الجدول وعنوانه قبل الجدول. انظر الجدول [sample-table].
اترك مسافة سطرٍ واحدة قبل عنوان الجدول، ومسافة سطرٍ واحدة بعد العنوان، ومسافة سطرٍ واحدة بعد الجدول. يجب أن يكون عنوان الجدول بحروف صغيرة (ما عدا الكلمة الأولى والأسماء الخاصة)؛ وتُرقَّم الجداول ترتيبياً.
التدوين الافتراضي
تشجيعاً على توحيد التدوين، أدرجنا ملف التدوين من كتاب التعلّم العميق (goodfellow2016deep) المتاح على https://github.com/goodfeli/dlbook_notation/. استخدام هذا الأسلوب ليس إلزامياً ويمكن تعطيله بتعليق math_commands.tex
.
الأعداد والمصفوفات
\( a \) | عدد قياسي (Scalar) |
\( \va \) | متجه |
\( \mA \) | مصفوفة |
\( \tA \) | موتر |
\( \mI_n \) | مصفوفة الهوية ذات n صفوف وn أعمدة |
\( \mI \) | مصفوفة الهوية بأبعاد تُستدلّ من السياق |
\( \ve^{(i)} \) | متجه الأساس المعياري \([0,\dots,0,1,0,\dots,0]\) بواحد في الموضع \(i\) |
\( \text{diag}(\va) \) | مصفوفة مربّعة قطريّة بمدخلات قطريّة معطاة بواسطة \( \va \) |
\( \ra \) | متغيّر عشوائي قياسي |
\( \rva \) | متغيّر عشوائي متجهي |
\( \rmA \) | متغيّر عشوائي مصفوفي |
المجموعات والرسومات
\( \sA \) | مجموعة |
\( \R \) | مجموعة الأعداد الحقيقية |
\( \{0, 1\} \) | المجموعة التي تحتوي على 0 و1 |
\( \{0, 1, \dots, n \} \) | مجموعة جميع الأعداد الصحيحة بين \(0\) و\(n\) (شاملاً) |
\( [a, b] \) | الفترة الحقيقية الشاملة لـ \(a\) و\(b\) |
\( (a, b] \) | الفترة الحقيقية التي تستثني \(a\) وتشمل \(b\) |
\( \sA \backslash \sB \) | فَرْق المجموعات: عناصر \( \sA \) غير الموجودة في \( \sB \) |
\( \gG \) | رسم بياني |
\( \parents_\gG(\ervx_i) \) | آباء \( \ervx_i \) في \( \gG \) |
الفهرسة
\( \eva_i \) | العنصر \(i\) من المتجه \( \va \) (تبدأ الفهرسة من 1) |
\( \eva_{-i} \) | جميع عناصر المتجه \( \va \) باستثناء العنصر \(i\) |
\( \emA_{i,j} \) | العنصر \(i, j\) من المصفوفة \( \mA \) |
\( \mA_{i, :} \) | الصف \(i\) من المصفوفة \( \mA \) |
\( \mA_{:, i} \) | العمود \(i\) من المصفوفة \( \mA \) |
\( \etA_{i, j, k} \) | العنصر \((i, j, k)\) من موتر ثلاثي الأبعاد \( \tA \) |
\( \tA_{:, :, i} \) | شريحة ثنائية الأبعاد من موتر ثلاثي الأبعاد |
\( \erva_i \) | العنصر \(i\) من المتجه العشوائي \( \rva \) |
التفاضل والتكامل
\( \frac{d y} {d x} \) | مشتقّة \(y\) بالنسبة إلى \(x\) |
\( \frac{\partial y} {\partial x} \) | المشتقّة الجزئية لـ\(y\) بالنسبة إلى \(x\) |
\( \nabla_\vx y \) | تدرّج \(y\) بالنسبة إلى \( \vx \) |
\( \nabla_\mX y \) | مشتقّات المصفوفة لـ\(y\) بالنسبة إلى \( \mX \) |
\( \nabla_\tX y \) | موتر يضمّ مشتقّات \(y\) بالنسبة إلى \( \tX \) |
\( \frac{\partial f}{\partial \vx} \) | مصفوفة جاكوبي \( \mJ \in \R^{m\times n} \) لـ\( f: \R^n \rightarrow \R^m \) |
\( \nabla_\vx^2 f(\vx)\text{ or }\mH( f)(\vx) \) | مصفوفة هِسّيان لـ\(f\) عند نقطة الإدخال \( \vx \) |
\( \int f(\vx) d\vx \) | تكامل غير مُحَدَّد لـ\( f(\vx) \) |
\( \int_\sS f(\vx) d\vx \) | تكامل \( f(\vx) \) على المجموعة \( \sS \) |
نظرية الاحتمالات والمعلومات
\( P(\ra) \) | توزيع احتمالي على متغيّر متقطّع |
\( p(\ra) \) | توزيع احتمالي على متغيّر مستمر، أو على متغيّر لم يُحَدَّد نوعه |
\( \ra \sim P \) | للمتغيّر العشوائي \( \ra \) التوزيع \( P \) |
\( \mathbb{E}_{\rx\sim P} [ f(x) ]\text{ or } \mathbb{E} f(x) \) | توقّع \( f(x) \) بالنسبة إلى \( P(\rx) \) |
\( \mathrm{Var}(f(x)) \) | تباين \( f(x) \) تحت \( P(\rx) \) |
\( \mathrm{Cov}(f(x),g(x)) \) | تغاير \( f(x) \) مع \( g(x) \) تحت \( P(\rx) \) |
\( H(\rx) \) | إنتروبيا شانون للمتغيّر العشوائي \( \rx \) |
\( \mathrm{KL} ( P \Vert Q ) \) | تباعد كولباك–لايبلر بين \(P\) و\(Q\) |
\( \mathcal{N} ( \vx ; \vmu , \mSigma ) \) | التوزيع الطبيعي على \( \vx \) بمتوسط \( \vmu \) وتغاير \( \mSigma \) |
الدوال
\( f: \sA \rightarrow \sB \) | الدالة \( f \) ذات المجال \( \sA \) والمدى \( \sB \) |
\( f \circ g \) | تركيب الدالتين \( f \) و\( g \) |
\( f(\vx ; \vtheta) \) | دالة في \( \vx \) بمعاملات \( \vtheta \). (أحياناً نكتب \( f(\vx) \) ونهمل الوسيط \( \vtheta \) لتبسيط التدوين) |
\( \log x \) | اللوغاريتم الطبيعي لـ\( x \) |
\( \sigma(x) \) | سيجمويد لوجستي: \( \frac{1} {1 + \exp(-x)} \) |
\( \zeta(x) \) | سوفت بلس: \( \log(1 + \exp(x)) \) |
\( \| \vx \|_p \) | المعيار \(p\) للمتجه \( \vx \) |
\( \| \vx \| \) | معيار \( \vx \) (غالباً الإقليدي) |
\( x^+ \) | الجزء الموجب من \( x \)، أي \( \max(0,x) \) |
\( \mathbf{1}_\mathrm{condition} \) | دالّة المُؤشِّر: تساوي 1 إذا تحقّق الشرط، و0 خلاف ذلك |
التعليمات النهائية
إعداد ملفات بوست سكريبت أو بي دي إف
هوامش في LaTeX
بيان URM
يُقِرّ الكتّاب بأنّ مؤلفاً رئيساً واحداً على الأقلّ في هذا العمل يلبّي معايير URM لمسار الأوراق الصغيرة في ICLR 2024.
الملحق أ
الأوامر المستخدمة لنموذج اللغة الكبير في تجاربنا هي كما يلي:
أمر النظام: أجب عن الأسئلة استناداً إلى الفقرات المقدَّمة هنا. لا تستخدم أي معلومات أخرى سوى تلك الواردة في الفقرات. اجعل الإجابات قصيرة قدر الإمكان. قدّم الإجابة فقط؛ لا حاجة لمقدّمة.
أمر المستخدم: “الفقرات: ” + context + “ الأسئلة: ” + query
الملحق ب
الملحق ج - مواد تكميلية
نوّفر مستودع Git مجهول يحتوي على:
شِفرة مصدريّة مجهولة
مواءمة التجارب مع الفرضيات (لنتائج كمية موحَّدة)
تفاصيل التجارب عبر 42 استفساراً و7 فرضيات
بالإضافة إلى ذلك، نقدّم تفاصيل إضافية للفرضيات الواردة في الجدول [tab:observations] عبر عرض استفسارات نموذجية ونتائج مسترجعة ومُولَّدة.