latex
تَخْلُق تَوْلِيدِ الاِسْتِرْجاع المُعَزِّز (RAG) لِلوَثائِق الفَنِّيَّةِ تَحَدِّياتٍ حَيْثُ أَنَّ التَضْمِينات لا تَلْتَقِط غالِباً المَعْلُوماتِ المُتَعَلِّقَةِ بِالمَجال. نُراجِع الفُنُونِ السابِقَةِ لِلعَوامِل المُهِمَّةِ الَّتِي تُؤَثِّر عَلَى RAG وَنُجْرَى تَجارِبِ لَتَسْلِيط الضَوْء عَلَى أَفْضَلَ المُمارَساتِ وَالتَحَدِّياتِ المُحْتَمَلَةِ لِبِناءِ أَنْظِمَةِ RAG لِلوَثائِق الفَنِّيَّةِ.
تَتَضَمَّن الإِجابَةَ عَلَى الأَسْئِلَةِ طَوِيلَةٍ الشَكْلِ تَوْلِيدِ اِسْتِجابات بِحَجْمِ الفَقْرَةِ مِن نَماذِجَ اللُغَةِ الكَبِيرَةِ. تَحَدِّياتٍ الاِسْتِرْجاع المُوَجَّهِ لِلوَثائِق الفَنِّيَّةِ لَها عِدَّةٍ تَحَدِّياتٍ (xu2023retrieval, toro2023dynamic). تَمَّ تَقْيِيمِ العَوامِلُ الَّتِي تُؤَثِّر عَلَى أَداءِ الاِسْتِرْجاع، بِما فِي ذٰلِكَ الوَثائِقِ فِي سِياقِها، نَماذِجَ اللُغَةِ الكَبِيرَةِ وَالمَقايِيس (chen2023understanding). لِمَزِيدٍ مِن البِناءِ عَلَى هٰذا العَمَلِ، نُجْرِي تَجارِبِ عَلَى الوَثائِقِ الفَنِّيَّةِ مَعَ مُصْطَلَحاتٍ الاِتِّصالاتِ وَالبَطّارِيّات لِفَحْصٍ تَأْثِيرِ طُولِ القِطْعَةَ، البَحْثِ المَبْنِيَّ عَلَى الكَلِماتُ الرَئِيسِيَّةِ وَالرُتَب (التَسَلْسُل) لِلنَتائِجِ المسترجعه فِي خَطِّ أَنابِيبِ الاِسْتِرْجاع المُوَجَّهِ.
تَعْتَمِد تَجارِبنا عَلَى مُواصَفاتِ الطَبَقَةِ المُتَوَسِّطَةِ لِلتَحَكُّمِ فِي الوُصُولِ إِلَى الوَسائِط (MAC) وَالطَبَقَة الفِيزيائِيَّة (PHY) لِشَبَكَةِ IEEE اللاسِلْكِيَّة (9363693) وَمُعْجَم مُصْطَلَحاتٍ البَطّارِيّات الثابِتَةِ القِياسِيَّ لِ IEEE (7552407). نَقُوم بِمُعالَجَةِ مُعْجَم التَعْرِيفات وَالوَثِيقَة كامِلَةٍ بِشَكْلٍ مُنْفَصِل، حَيْثُ أَنَّ العَدِيدَ مِن الأَسْئِلَةِ المُتَوَقَّعَةِ تَسْتَنِد إِلَى التَعْرِيفات. نَحْنُ نَسْتَخْرِج الأَسْئِلَةِ اِسْتِناداً إِلَى المَعْرِفَةِ المجاليه وَنَقْدَم تَقارِيرَ عَن النَتائِجِ التَجْرِيبِيَّة لِ 42 اِسْتِفْساراً تَمْثِيلِيّا عَبْرَ الوَثائِقِ. يُمْكِن اِسْتِخْدامِ نَماذِجَ تَضْمِينِ مُتَعَدِّدَةِ (reimers2019sentence)، نَحْنُ نَسْتَخْدِم MPNET (song2020mpnet) لِلوَثِيقَة بِأَكْمَلِها - بِاِسْتِثْناءِ الجَداوِل وَالتَعْلِيقات التوضيحيه. بِالنِسْبَةِ لِلمُعْجَم، نُقَسِّم المُصْطَلَحِ وَالتَعْرِيف وَنُولَد تَضْمِينات مُنْفَصِلَةٍ لَهُما، بِالإِضافَةِ إِلَى الفَقْرَةِ الكامِلَةِ الَّتِي تَحْتَوِي عَلَى المُصْطَلَحِ المعرف وَالتَعْرِيف. لَقَد قامَت الدِراساتِ (soman2023observations) بِمُراجَعَةِ نَماذِجَ اللُغَةِ الكَبِيرَةِ الأُخْرَى لِقِطاعِ الاِتِّصالاتِ، وَلٰكِنَّنا اِخْتَرْنا نَمُوذَجَ llama2-7b-chat (touvron2023llama) لِأَنَّهُ مَجّانِيّ وَيَمْتَلِك تَرْخِيصا يَتَوافَق مَعَ الاِسْتِخْدامِ التِجارِيِّ. نَقُوم بِتَقْيِيم عِدَّةٍ أَسْئِلَةٍ وَنَقْدَم تَقارِيرَ عَن الأَسْئِلَةِ المُخْتارَة لِتَأْكِيدِ مُلاحَظاتنا. لِلرُجُوع إِلَيها، يَتِمّ تَوْفِيرِ الأَوامِرَ المُسْتَخْدَمَةِ لَنَمُوذَج اللُغَةِ الكَبِيرَةِ فِي المُلْحَقِ [app:appA].
لَقَد لاحَظْنا أَوَّلاً أَنَّ تَضْمِينِ الجَمَل يُصْبِح غَيْرِ مَوْثُوقٌ بِهِ مَعَ زِيادَةِ حَجْمِ القِطْعَةَ. يُظْهِر الرَسْمُ البَيانِيّ لَتَقْدِير الكَثافَةِ النَوَوِيَّةِ (KDE) لَدَرَجات التَشابُه الجَيْبِيّ التمامي لَأَطْوال الجَمَل المُخْتَلِفَةِ فِي المُلْحَقِ [app:appB]. لَقَد قُمْنا بِأَخْذِ 10,970 جُمْلَةِ وَنَظَرنا فِي التَشابُه الزَوْجِيِّ لِجَمِيعِ الجَمَل. يُلاحِظ تُشابِه عالِي عِنْدَما يَكُون طُولِ الجَمَل طَوِيلاً نِسْبِيّاً. تُشِير تَوْزِيعات التَشابُه الأَعْلَى لِلأَطْوال الأَكْبَرُ إِلَى تَشابُهات زائِفه الَّتِي قُمْنا بِالتَحَقُّق مِنها يَدَوِيّاً لِبَعْضِ العَيْنات. وَجَدْنا أَنَّهُ عِنْدَما تَكُون كُلِّ مِن الاِسْتِعْلام وَالوَثِيقَة المستعلم عَنها تَحْتَوِي عَلَى أَكْثَرَ مِن 200 كَلِمَةً، فَإِنَّ تَوْزِيعِ التَشابُه يَكُون ثُنائِيٍّ القِمَّةِ. عِنْدَما تَكُون أَحَدّاهُما تَحْتَوِي عَلَى أَكْثَرَ مِن 200 كَلِمَةً، هُناكَ اِرْتِفاعِ صَغِيرٍ وَلٰكِن أَقَلَّ وُضُوحاً عِنْدَ التَشابُهات العُلْيا.
يُوجَز الجَدْوَلُ [tab:observations] فَرَضِيّاتنا وَالمُلاحَظاتِ الرَئِيسِيَّةِ - يَتِمّ تَوْفِيرِ اِسْتِفْسارات العَيِّنَةُ وَنَتائِجِها فِي المُلْحَقِ [app:appC]. نَفْتَرِض أَنَّ التَقْسِيم عَلَى التَعْرِيفِ وَالمُصْطَلَحات يُمْكِن أَنَّ يُساعِد فِي تَحْسِينِ النَتائِجِ (H1)، دَرَجاتٍ التَشابُه كَمِقْياس جَيِّدٍ (H2)، مَوْقِعِ الكَلِماتُ الرَئِيسِيَّةِ يُؤَثِّر عَلَى النَتائِجِ (H3)، التَشابُه المَبْنِيَّ عَلَى الجَمَل يُؤَدِّي إِلَى اِسْتِرْجاعِ أَفْضَلَ (H4) وَمَوْلِد (H5)، الإِجاباتِ لِلتَعْرِيفات المَبْنِيَّةُ عَلَى الاِخْتِصارات (H6) وَتَأْثِيرِ تَرْتِيبَ النَتائِجِ المسترجعه عَلَى أَداءِ المُوَلِّدِ (H7). مِن بَيِّنَ هٰذِهِ، H2 هِيَ نَتِيجَةَ تَجارِبنا مَعَ تَوْزِيعات دَرَجاتٍ التَشابُه المُشارِ إِلَيها سابِقاً وH7 مَبْنِيَّةٌ عَلَى (chen2023understanding). الآخَرُونَ مُشْتَقُّونَ مِن تَجارِبنا لِتَحْسِينِ النَتائِجِ.
وَجَدْنا أَنَّ الاِسْتِرْجاع بِواسِطَةِ التَحْدِيدِ عَلَى دَرَجاتٍ التَشابُه لَيِسَ مُفِيداً. بِالنِسْبَةِ لِلاِسْتِفْسارات 1، 2 وَ 5، عِنْدَما يَكُون عِبارَةٌ الاِسْتِعْلام مَوْجُودَةٌ فِي المُصْطَلَحِ أَو التَعْرِيفِ، فَإِنَّ الدَرَجَةِ المسترجعه الأَعْلَى تَكُون أَعْلَى. بِالنِسْبَةِ لِلاِسْتِعْلام 3، يَتِمّ اِسْتِرْجاعِ النَتِيجَةُ الصَحِيحَةِ فِي المَرْكَزِ الثانِي بِاِسْتِخْدامِ تَضْمِينِ التَعْرِيفِ، وَلٰكِن فِي الحالاتِ الأُخْرَى، لا يَتِمّ اِسْتِرْجاعِ النَتِيجَةُ وَتَكُون دَرَجاتٍ التَشابُه قَرِيبَةٌ. بِالنِسْبَةِ لِلاِسْتِفْسارات 4 وَ 6، لا نَسْتَطِيع اِسْتِرْجاعِ النَتِيجَةُ الصَحِيحَةِ، عَلَى الرَغْمِ مِن أَنَّ الدَرَجاتِ تُشِير إِلَى خِلافٍ ذٰلِكَ. وَبِالتالِي، يُمْكِن أَنَّ يُؤَدِّي التَحْدِيدِ عَلَى نَتائِجِ المسترجع بِناءَ عَلَى دَرَجاتٍ التَشابُه إِلَى تَعْزِيزِ المُوَلِّدِ الفَرْعِيِّ الأَمْثَلُ. نَقُوم بِتَقْيِيم أَداءِ المُوَلِّدِ عَلَى اِسْتِفْساراتنا بِناءَ عَلَى النَتائِجِ المسترجعه. يَتِمّ ذٰلِكَ بِاِسْتِخْدامِ أَعْلَى \(k\) تَعْرِيفات مسترجعه، وَالمُصْطَلَحات وَالتَعْرِيفات. يُعْطِي السِياقِ الأَفْضَلِ اِسْتِجابات مَوْلِده أَفْضَلَ. بِالنِسْبَةِ لِلاِخْتِصارات وَتَوْسِيعاتها، لا يُضِيف المُوَلِّدِ أَيّ قِيمَةَ إِضافِيَّةً.
لِلاِسْتِرْجاع عَلَى الوَثِيقَةِ الكامِلَةِ، نَسْتَكّ Explore اِسْتِعْلام التَشابُه بِواسِطَةِ الجُمْلَةُ وَالفَقْرَةُ عَلَى حِدَّةِ. فِي السابِقِ، نَسْتَرْجِع الفَقْرَةِ الَّتِي تَنْتَمِي إِلَيها الجُمْلَةُ وَنَأْخُذ أَعْلَى \(k\) فَقَراتٌ مُتَمَيِّزَةٍ مِن الجَمَل المُتَشابِهَةَ الأَعْلَى. نُلاحِظ أَنَّ النَتائِجِ بِواسِطَةِ بَحَثَ التَشابُه المَبْنِيَّ عَلَى الجُمْلَةُ وَاِسْتِخْدامِ الفَقَرات لِلمَوْلِد يُوَفِّر أَداءِ اِسْتِرْجاعِ وَمَوْلِد أَفْضَلَ. يُذْكَر المُؤَلِّفُونَ فِي (chen2023understanding) أَنَّ تَرْتِيبَ المَعْلُوماتِ المُقَدَّمَةِ يَكُون مُهِمّاً، وَلٰكِنَّنا لَم نُلاحِظ نَتائِجِ مُخْتَلِفَةٍ عِنْدَ تَبْدِيلَ الفَقَرات المسترجعه. نُلاحِظ أَحْياناً فَشَلِ اِسْتِجابات المُوَلِّدِ بِسَبَبِ اِسْتِرْجاعِ غَيْرِ صَحِيحٌ، حَقائِقَ متوهمه أَو توليف غَيْرِ صَحِيحٌ كَما هُوَ مُوَضِّح فِي (chen2023understanding).
نُوصَى بِمِثْلِ هٰذِهِ الطُرُقِ لَتَعْرِيف الأَسْئِلَةِ وَالأَجْوِبَة وَالأَسْئِلَة وَالأَجْوِبَة طَوِيلَةٍ الشَكْلِ.
لَقَد أَظْهَرَنا أَنَّ طُولِ القِطْعَةَ يُؤَثِّر عَلَى تَضْمِينات أَداةٌ الاِسْتِرْجاع، وَأَنَّ تَعْزِيزِ المُوَلِّدِ بِتَحْدِيدِ نَتائِجِ أَداةٌ الاِسْتِرْجاع بِناءَ عَلَى دَرَجاتٍ التَشابُه قَد يَكُون غَيْرِ مَوْثُوقٌ. وَمَعَ ذٰلِكَ، فَإِنَّ اِسْتِخْدامِ الاِخْتِصارات وَعَدَدٌ كَبِيرٍ مِن الفَقَرات المُتَعَلِّقَةِ بِمَوْضُوعِ يَجْعَل مُلاحَظاتنا ذاتِ صِلَةٍ خاصَّةٍ بِالأَسْئِلَة وَالأَجْوِبَة طَوِيلَةٍ الشَكْلِ عَلَى الوَثائِقِ الفَنِّيَّةِ. كَأَعْمال مُسْتَقْبَلِيَّةٍ، نَوَدّ اِسْتِخْدامِ مَقايِيسِ (es2023ragas, chen2023benchmarking) لِاِخْتِيارِ إِسْتراتِيجِيّاتِ الاِسْتِرْجاع. كَما أَنَّ الطُرُقِ وَمَقايِيس التَقْيِيم لِلإِجابَة عَلَى الأَسْئِلَةِ اللاحِقَةِ سَتَكُون مَوْضِعَ اِهْتِمامَ.
يَجِب أَنَّ تَسْتَنِد الاِسْتِشْهادات داخِلَ النَصِّ إِلَى حَزْمه natbib
وَتَتَضَمَّن أَسْماءَ عائِلاتِ المُؤَلِّفِينَ وَالسُنَّةِ (مَعَ اِسْتِخْدامِ بِناءَ الجُمْلَةُ “وَآخَرُونَ” لِأَكْثَرِ مِن مُؤَلِّفِينَ اِثْنَيْنِ). عِنْدَما يَتِمّ ذَكَرَ المُؤَلِّفِينَ أَو النَشْرِ داخِلَ الجُمْلَةُ، يَجِب أَلّا يَكُون الاِسْتِشْهادِ بَيِّنَ قَوْسَيْنِ بِاِسْتِخْدامِ \citet{}
(كَما فِي “أَنْظُر (Hinton06) لِمَزِيدٍ مِن المَعْلُوماتِ.”). وَإِلّا، يَجِب أَنَّ يَكُون الاِسْتِشْهادِ بَيِّنَ قَوْسَيْنِ بِاِسْتِخْدامِ \citep{}
(كَما فِي “تُظْهِر التَعَلُّمِ العَمِيقِ وَعْداً لِتَحْقِيقِ تَقَدَّمَ نَحْوَ الذَكاء الاِصْطِناعِيِّ (Bengio+chapter2007).”).
يَجِب أَنَّ تُدْرِج المَراجِعِ المُقابَلَةِ بِتَرْتِيب أَبْجَدَيَّ لَأَسْماء المُؤَلِّفِينَ، فِي قِسْمِ المَراجِعِ. بِالنِسْبَةِ لِتَنْسِيقِ المَراجِعِ نَفْسِها، أَيّ أُسْلُوبِ مَقْبُولٍ طالَما أَنَّهُ مُسْتَخْدَمٌ بِشَكْلٍ مُتَّسِق.
جَمِيعِ الجَداوِل يَجِب أَنَّ تَكُون مُرَكَّزَةً، نَظِيفَةٍ، وَواضِحَةٍ. لا تُسْتَخْدَم جَداوِلِ مَرْسُومَةً بِاليَدِ. يَجِب أَنَّ يُظْهِر رَقْمِ الجَدْوَلُ وَعُنْوانُهُ قِبَلَ الجَدْوَلُ. أَنْظُر الجَدْوَلُ [sample-table].
ضع مَسافَةِ سَطَّرَ واحِدٍ قِبَلَ عُنْوانِ الجَدْوَلُ، مَسافَةِ سَطَّرَ واحِدٍ بُعْدَ عُنْوانِ الجَدْوَلُ، وَمَسافَة سَطَّرَ واحِدٍ بُعْدَ الجَدْوَلُ. يَجِب أَنَّ يَكُون عُنْوانِ الجَدْوَلُ بِأَحْرُفٍ صَغِيرَةٌ (ما عَدا الكَلِمَةِ الأُولَى وَالأَسْماءَ الخاصَّةِ)؛ وَيَتِمّ تَرْقِيم الجَداوِل بِشَكْلٍ مُتَتالِي.
يُرْجَى إِعْدادِ مِلَفّاتِ PostScript أَو PDF بِحَجْمِ الوَرَقِ “US Letter”، وَلِيس، عَلَى سَبِيلِ المِثالِ، “A4”. خِيارَ -t letter عَلَى dvips سَيُنْتَج مِلَفّاتِ US Letter.
فِكْرِ فِي إِنْتاجِ مِلَفّاتِ PDF مُباشَرَةً بِاِسْتِخْدامِ pdflatex (خاصَّةٍ إِذا كُنْتُ مُسْتَخْدَماً لِ MiKTeX). وَمَعَ ذٰلِكَ، يَجِب اِسْتِبْدالِ الأَشْكال البَيانِيَّةِ PDF بَدَلاً مِن أَشْكالِ EPS.
وَإِلّا، يُرْجَى إِنْتاجِ مِلَفّاتِ PostScript وPDF الخاصَّةِ بَك بِاِسْتِخْدامِ الأَوامِرَ التالِيَةِ:
dvips mypaper.dvi -t letter -Ppdf -G0 -o mypaper.ps
ps2pdf mypaper.ps mypaper.pdf
يُقِرّ الكِتابِ بِأَنَّ عَلَى الأَقَلِّ أَحَدُ المُؤَلِّفِينَ الرَئِيسِيَّيْنِ لِهٰذا العَمَلِ يُلَبِّي مَعايِيرِ URM لَمَسار الأَوْراقِ الصَغِيرَةِ فِي ICLR 2024.
الأَوامِرَ المُسْتَخْدَمَةِ لَنَمُوذَج اللُغَةِ الكَبِيرِ فِي تَجارِبنا هِيَ كَما يَلِي:
أَمْرٌ النِظامِ: أَجِب عَن الأَسْئِلَةِ اِسْتِناداً إِلَى الفَقَرات المُقَدَّمَةِ هُنا. لا تُسْتَخْدَم أَيّ مَعْلُوماتٍ أُخْرَى بِاِسْتِثْناءِ تِلْكَ المَوْجُودَةِ فِي الفَقَرات. أَجْعَل الإِجاباتِ قَصِيرَةٍ قَدْرَ الإِمْكانِ. فَقَط قَدَّمَ الإِجابَةَ. لا مُقَدِّمَةِ مَطْلُوبَةٌ.
أَمْرٌ المُسْتَخْدِمُ: “الفَقَرات: ”+context + “الأَسْئِلَةِ: ”+ query
نُوَفِّر مُسْتَوْدَع Git مَجْهُولٌ يَحْتَوِي عَلَى
شَفْره مَصْدَرٌ مَجْهُولَةِ
تَبْوِيب تَجْرِبَةِ مُقابِلَ فَرْضِيَّةَ (لِنَتائِجِ كَمِّيَّةِ مُوَحَّدَةٍ)
تَفاصِيلَ التَجارِبِ عَبْرَ 42 اِسْتِفْسار وَ 7 فَرَضِيّات
بِالإِضافَةِ إِلَى ذٰلِكَ، نُقَدِّم تَفاصِيلَ بِخُصُوصِ الفرضيات فِي الجَدْوَلُ [tab:observations] مِن خِلالَ تَقْدِيمِ اِسْتِفْسارات نَمُوذَجِيَّةٍ وَالنَتائِجِ المسترجعه وَالمُوَلِّدَة.