latex
شَهِدَت الفَتْرَةِ الأَخِيرَةِ تَقَدُّماً فِي هَنْدَسَةُ الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ، مِثْلَ Mamba وَRWKV، مِمّا مَكَّنَ الRNNs مِن مُطابَقَة أَداءِ الTransformers ذاتِ الحَجْمِ المُماثِل أَو تَجاوُزِها مِن حَيْثُ تَعْقِيدِ نمذجه اللُغَةِ وَتَقْيِيمات المَهامّ اللاحِقَةِ، مِمّا يُشِير إِلَى أَنَّ الأَنْظِمَةِ المُسْتَقْبَلِيَّةِ قَد تَبَنَّى عَلَى هندسات جَدِيدَةٍ كُلِّيّاً. فِي هٰذِهِ الوَرَقَةَ، نَفْحَص ما إِذا كانَت طُرُقٍ التَفْسِيرَ المُصَمِّمَة فِي الأَصْلِ لَنَماذِج لُغَةً Transformer سَتَنْتَقِل إِلَى هٰذِهِ الهندسات المُتَكَرِّرَةِ الصاعِدَة. عَلَى وَجْهِ التَحْدِيدِ، نُرَكِّز عَلَى تَوْجِيهِ مُخْرِجات النَمُوذَجِ عَبْرَ إِضافَةً التَنْشِيط التَبايُنِيّ، وَاِسْتِخْلاصِ التَنَبُّؤات الكامِنَةِ عَبْرَ العَدَسَةُ المُعَدَّلَةِ، وَاِسْتِخْلاصِ المَعْرِفَةِ الكامِنَةِ مِن النَماذِجِ المُعَدَّةِ لِإِنْتاجِ مُخْرِجات خاطِئَةٍ تَحْتَ ظُرُوفٍ مُعَيَّنَةٍ. تُظْهِر نَتائِجنا أَنَّ مُعْظَمَ هٰذِهِ التَقْنِيّاتِ فَعّالَةٍ عِنْدَ تَطْبِيقِها عَلَى الRNNs، وَنُظْهَر أَنَّهُ مِن المُمْكِنِ تَحْسِينِ بِعَضُّها بِالاِسْتِفادَةِ مِن الحالَةِ المَضْغُوطَة للRNNs.
لَقَد حَلَّت هَنْدَسَةُ المُحَوِّلات (vaswani2017attention) مَحَلَّ الشَبَكَةِ العَصَبِيَّةِ المُتَكَرِّرَةِ (RNN) فِي مُعالَجَةِ اللُغاتِ الطَبِيعِيَّةِ فِي السَنَواتِ الأَخِيرَةِ بِسَبَبِ قُدْرَتِها المُثِيرَةِ لِلإِعْجاب عَلَى التَعامُلِ مَعَ التَبَعِيّات طَوِيلَةٍ المَدَى وَتَدْرِيبِها المُوازِي عَبْرَ بُعْدَ الزَمَنِ. وَلٰكِن آلِيَّةِ الاِنْتِباهِ الذاتِيِّ الَّتِي تُعْتَبَر القَلْبِ النابِضُ لِلمُحَوِّل تُعانِي مِن تَعْقِيدِ زَمَنِيٍّ تَرْبِيعَيَّ، مِمّا يَجْعَل تَطْبِيقِها عَلَى تَسَلْسُلات طَوِيلَةٍ جِدّاً مُكَلَّفاً مِن الناحِيَةِ الحِسابِيَّة.
مامبا (gu2023mamba) وَ (RWKV) (peng2023rwkv) هِيَ شَبَكاتِ عَصَبِيَّةُ مُتَكَرِّرَةٍ تَسْمَح بِالتَدْرِيب المُوازِي عَبْرَ بُعْدَ الزَمَنِ مِن خِلالَ تَقْيِيدِ العَلاقَةِ التَكْرارِيَّة الكامِنَةِ لِتَكُون مُنَسِّقَةُ (martin2017parallelizing, blelloch1990prefix). مِن الناحِيَةِ التَجْرِيبِيَّة، تُظْهِر هٰذِهِ الهندسات تَعْقِيداً وَأَداء مُتَدَنِّيا مُقارَنَةً بِالمُحَوِّلات ذاتِ الحَجْمِ المُساوِي، مِمّا يَجْعَلها بَدائِلِ جَذّابه لِلعَدِيد مِن حالاتِ الاِسْتِخْدامِ.
فِي هٰذِهِ الوَرَقَةَ، نُقِيم ما إِذا كانَت أَدَواتِ التَفْسِيرَ الشائِعَةُ المُصَمِّمَة فِي الأَصْلِ لِلمُحَوِّل سَتَنْطَبِق أَيْضاً عَلَى هٰذِهِ النَماذِجِ الجَدِيدَةِ مِن الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ. عَلَى وَجْهِ الخُصُوصِ، نُعِيد إِنْتاجِ النَتائِجِ التالِيَةِ مِن أَدَبِيّاتِ تَفْسِيرٍ المُحَوِّلُ:
إِضافَةً التَنْشِيط التَبايُنِيّ (CAA): وَجَدَ (rimsky2023steering) أَنَّهُ يُمْكِن التَحَكُّمِ فِي نَماذِجَ لُغَةً المُحَوِّلُ بِاِسْتِخْدامِ “مُتَّجِهات التَوْجِيهِ”، المَحْسُوبَة بِأَخْذِ مُتَوَسِّطُ الفِرَقِ فِي تَنْشِيطات تَيّارِ البَقايا بَيِّنَ أَزْواج مِن الأَمْثِلَة الإِيجابِيَّةِ وَالسَلْبِيَّة لِسُلُوكِ مُعَيَّنٍ، مِثْلَ الاِسْتِجابات الواقِعِيَّةِ مُقابِلَ الاِسْتِجابات الهلوسيه.
العَدَسَةُ المُعَدَّلَةِ: وَجَدَ (belrose2023eliciting) أَنَّهُ يُمْكِن اِسْتِخْلاصِ تَنَبُّؤات الرَمْزُ التالِي القابِلَةِ لِلتَفْسِير مِن الطَبَقاتِ المُتَوَسِّطَةِ لِلمُحَوِّل بِاِسْتِخْدامِ مسابير خَطَّيْهِ، وَأَنَّ دِقَّةٍ هٰذِهِ التَنَبُّؤات تَزْداد بِشَكْلٍ تَصاعُدِي مَعَ العُمْقِ.
النَماذِجِ “الغَرِيبَةِ”: وَجَدَ (mallen2023eliciting) أَنَّ طُرُقٍ الاِسْتِقْصاءِ البَسِيطَةِ يُمْكِن أَنَّ تَسْتَخْلِص مَعْرِفَةُ المُحَوِّلُ بِالإِجابَة الصَحِيحَةِ عَلَى سُؤالٍ، حَتَّى عِنْدَما يَتِمّ ضَبْطه لَإِخْراج أَجابَهُ خاطِئَةٍ. كَما وَجَدُوا أَنَّ هٰذِهِ المسابير تُعَمِّم عَلَى مَشاكِلَ أَصْعَب مِن تِلْكَ الَّتِي تَمَّ تَدْرِيبِ المسبار عَلَيها.
نُقَدِّم أَيْضاً تَوْجِيهِ الحالَةِ، وَهُوَ تَعْدِيلِ لِ CAA يَعْمَل عَلَى حالَةِ الشَبَكَةِ العَصَبِيَّةِ المُتَكَرِّرَةِ المَضْغُوطَة، بَدَلاً مِن تَيّارها المُتَبَقِّي.
نُرَكِّز فِي هٰذِهِ الوَرَقَةَ عَلَى هندسات مامبا (gu2023mamba) وَ RWKV v5، حَيْثُ تَتَوَفَّر نَماذِجَ مُدَرَّبَةٍ مُسْبَقاً قَوِيَّةٍ مَجّاناً عَلَى HuggingFace Hub. قَرَّرْنا اِسْتِبْعادِ نَمُوذَجَ الضَبْع المُخَطَّطِ 7B لِ (stripedhyena2023) لِأَنَّهُ يَتَضَمَّن كُتَلِ اِنْتِباهَ بِتَعْقِيد زَمَنِيٍّ تَرْبِيعَيَّ، وَبِالتالِي لا يُعْتَبَر شَبَكَةِ عَصَبِيَّةُ مُتَكَرِّرَةٍ حَسَبَ تَعْرِيفنا.
تَعْتَمِد هَنْدَسَةُ مامبا عَلَى آلِيَّتَيْنِ مُخْتَلِفَتَيْنِ لِتَوْجِيهِ المَعْلُوماتِ بَيِّنَ مَواقِعِ الرُمُوزَ: كُتْلَةِ التَلافِيف السَبَبِيَّة، وَنَمُوذَجٌ الحالَةِ الفَضائِيَّةِ الاِنْتِقائِيّ (SSM). يُعْتَبَر نَمُوذَجَ الحالَةِ الفَضائِيَّةِ الاِنْتِقائِيّ الاِبْتِكارِ الرَئِيسِيُّ لِ(gu2023mamba)، وَيُسْمَح بِأَنَّ تَعْتَمِد مُعامَلاتِ الSSM عَلَى المدخلات، مِمّا يُعَزِّز تَعْبِيرِيَّةً النَمُوذَجِ.
القِيمَةِ الرَئِيسِيَّةِ المَوْزُونَة بِالاِسْتِجابَة (RWKV)، هِيَ بِنْيَةَ شَبَكَةِ الخَلايا العَصَبِيَّةِ المُتَكَرِّرَةِ الَّتِي قَدَّمَها (peng2023rwkv). لَقَد خَضَعَت RWKV لِسِلْسِلَةٍ مِن التَعْدِيلاتِ؛ فِي هٰذِهِ الوَرَقَةَ نُرَكِّز عَلَى الإِصْدارات 4 وَ 5 مِن البُنْيَةِ. تُسْتَخْدَم بِنِيّات RWKV وَحَداتٍ مَزْجٍ الزَمَنِ المُتَناوِب وَمَزْج القَنَواتِ، وَالَّتِي تُشَكِّل زَوْجا يَكُون طَبَقَةٌ واحِدَةٍ. الفِرَقِ الرَئِيسِيُّ بَيِّنَ الإِصْدار 4 وَالإِصْدار 5 هُوَ أَنَّ الإِصْدار 4 يَحْتَوِي عَلَى حالَةِ ذاتِ قِيمَةَ مُتَّجِهَةٌ، بَيْنَما يَحْتَوِي الإِصْدار 5 عَلَى حالَةِ ذاتِ قِيمَةَ مَصْفُوفه “مُتَعَدِّدَةِ الرُؤُوسِ” (peng2024eagle).
تَمَّ تَقْدِيمِ تَقْنِيَّةٍ إِضافَةً التَنْشِيط مِن قِبَلَ (turner2023activation) وَالَّتِي تَهْدِف إِلَى تَوْجِيهِ سُلُوكِ نَمُوذَجَ اللُغَةِ مِن خِلالَ إِضافَةً مُتَّجِه التَوْجِيهِ إِلَى تَيّاره المُتَبَقِّي فِي وَقْتٍ الاِسْتِدْلال. يَقْتَرِح (rimsky2023steering) حِسابِ مُتَّجِه التَوْجِيهِ عَن طَرِيقِ توسيط الاِخْتِلافاتِ فِي تَنْشِيطات التَيّارِ المُتَبَقِّي بَيِّنَ أَزْواج مِن الأَمْثِلَة الإِيجابِيَّةِ وَالسَلْبِيَّة لِسُلُوكِ مُعَيَّنٍ، مِثْلَ الاِسْتِجابات الواقِعِيَّةِ مُقابِلَ الاِسْتِجابات الوَهْمِيَّةِ، وَيُسَمُّونَ طَرِيقَتِهِم بِإِضافَة التَنْشِيط التَبايُنِيّ (CAA).
اِعْتَقَدْنا أَنَّ التَوْجِيهِ بِاِسْتِخْدامِ CAA سَيَعْمَل أَيْضاً عَلَى الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ دُونِ الحاجَةِ إِلَى إِجْراءِ أَيّ تَغْيِيراتٍ مُحَدَّدَةٍ بِالهَنْدَسَة المِعْمارِيَّةِ. كَما اِفْتَرَضَنا أَنَّهُ بِسَبَبِ الحالَةِ المَضْغُوطَة الَّتِي تَسْتَخْدِمها الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ، سَيَكُون مِن المُمْكِنِ تَوْجِيهُها بِسُهُولَةٍ أَكْبَرَ مِن المُحَوِّلات، وَأَنَّنا يُمْكِن أَنَّ نَسْتَخْدِم حالَتِها الداخِلِيَّةِ كَوَسِيلَة لِتَوْفِيرِ تَوْجِيهِ إِضافِيٍّ. نَظَراً لِأَنَّ الحالَةِ الداخِلِيَّةِ تَتَأَثَّر بِالتَنْشِيطات، نَتَوَقَّع أَنَّ يَعْمَل التَوْجِيهِ حَتَّى دُونِ تَغْيِيرٍ الحالَةِ.
لِاِخْتِبارِ هٰذِهِ الفرضيات، قُمْنا بِتَحْسِين نَمُوذَجَيْنِ مِن الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ، Mamba 2.8b-slimpj وَ RWKV-v5 7b، بِاِسْتِخْدامِ مَجْمُوعَةِ بَياناتٍ الدَرْدَشَة OpenHermes 2.5 الَّتِي، بِالإِضافَةِ إِلَى Llama-2-7b-chat، سَمَحَت لَنا بِمُقارَنَة هندستين مُخْتَلِفَتَيْنِ لِلشَبَكات العَصَبِيَّةِ المُتَكَرِّرَةِ مَعَ هندستين لِلمُحَوِّلات فِي نِطاقَيْنِ مُخْتَلِفِينَ مِن الحَجْمِ. كَما قُمْنا بِتَحْسِين نَمُوذَجَ المُحَوِّلُ BTLM-3b-8k (dey2023btlm)، الَّذِي تَمَّ تَدْرِيبه مُسْبَقاً أَيْضاً عَلَى مَجْمُوعَةِ بَياناتٍ Slim Pajama، لَتَمْكِين المُقارَنَةِ وَجْهاً لِوَجْهٍ مَعَ Mamba 2.8b-slimpj.
لِفَحْصٍ قابِلِيَّةِ التَوْجِيهِ لِلشَبَكات العَصَبِيَّةِ المُتَكَرِّرَةِ، نَسْتَخْدِم مَجْمُوعَةِ البَياناتِ الَّتِي أَنْشَآها (rimsky2023steering). تَتَكَوَّن هٰذِهِ المَجْمُوعَةِ مِن أَزْواج مِن الأَسْئِلَةِ المُتَعَدِّدَةِ الخِياراتِ ذاتِ الاِتِّجاهَيْنِ، حَيْثُ يَخْتار أَحَدُ الأَسْئِلَةِ حَرْف الإِجابَةَ (“A” أَو “B”) الَّذِي يَتَوافَق مَعَ السُلُوكِ المَطْلُوبِ وَالآخَرِ يَخْتار السُلُوكِ المُعاكِسِ. تَحْتَوِي المَجْمُوعَةِ عَلَى سَبْعَ سُلُوكِيّاتُ ذاتِ صِلَةٍ بِالمُحاذاة: التَنْسِيقِ مَعَ الذَكاء الاِصْطِناعِيِّ الآخَرِ، القابِلِيَّةِ لِلتَصْحِيح، الهَلْوَسَة، المُكافَأَةَ القَصِيرَةِ الأَمَدِ، غَرِيزَة البَقاءَ، التملق وَالرَفْضِ، وَالَّتِي تَمَّ تَقْدِيمُها فِي الأَصْلِ بِواسِطَةِ (perez2022discovering)، بِاِسْتِثْناءِ الهَلْوَسَة وَالرَفْضِ، وَالَّتِي تَمَّ إِنْشاؤها بِواسِطَةِ GPT-4.
لِكُلِّ سُلُوكِ \(z\) وَلِكُلِّ طَبَقَةٌ \(\ell\) مِن الشَبَكَةِ، يَتِمّ حِسابِ مُتَّجِه التَوْجِيهِ \(\Vec{act}_{\ell}\) مِن خِلالَ أَخَذَ الفِرَقِ فِي مُتَوَسِّطُ مُتَّجِه التَنْشِيط لِلنَمُوذَج فِي مَوْضِعَ حَرْف الإِجابَةَ لِلرُدُود المُطابَقَة لِلسُلُوك \(\E[\mathbf{h}_{\ell}| z]\) وَلِلرُدُود غَيْرِ المُطابَقَة لِلسُلُوك \(\E[\mathbf{h}_{\ell}|\neg z]\). بِالنِسْبَةِ لِلشَبَكات العَصَبِيَّةِ المُتَكَرِّرَةِ، يُمْكِننا تَطْبِيقِ نَفْسِ العَمَلِيَّةِ عَلَى الحالَةِ، مِمّا يُنْتِج \(\Vec{state}_{\ell}\): \[\begin{split} \Vec{act}_{\ell} = \E \big [ \mathbf{h}_{\ell}|z \big ] - \E[\mathbf{h}_{\ell}|\neg z] \\ \Vec{state}_{\ell} = \E \big [ \mathbf{s}_{\ell}|z \big ] - \E[\mathbf{s}_{\ell}|\neg z] \end{split}\]
عِنْدَ تَطْبِيقِ مُتَّجِه التَوْجِيهِ، نَضْرِبه دائِماً بِعامِل ضَرْبِ، وَالَّذِي يَتَراوَح عادَةً بَيِّنَ -3 و3، وَهُوَ ما يُحَدِّد إِشارَةٍ وَقُوَّةِ التَدَخُّلِ.1
لِجَمِيعِ النَماذِجِ، وَجَدْنا أَنَّ الطَبَقاتِ الوَسَطِيّ لَها أَكْبَرَ تَأْثِيرِ فِي التَوْجِيهِ. لَمُقارَنَة التَأْثِيراتِ بَيِّنَ النَماذِجِ، نُقَدِّم، لِكُلِّ مُضاعَف، أَقْصَى تَأْثِيرِ تَوْجِيهِ عَبْرَ الطَبَقاتِ. بِالنِسْبَةِ لِلمُضاعَفات الإِيجابِيَّةِ، نَعْتَبِر سُلُوكِ التَوْجِيهِ فِي الطَبَقَةِ ذاتِ اِحْتِمالَيْهِ العَرْضِ الأَعْلَى لِلسُلُوك، بَيْنَما بِالنِسْبَةِ لِلمُضاعَفات السَلْبِيَّةِ، نَأْخُذ اِحْتِمالَيْهِ العَرْضِ الأَدْنَى لِلسُلُوك.
عِنْدَ مِقْياسِ المَعامِلُ 3b، يُظْهِر كُلّاً النَمُوذَجَيْنِ اِسْتِجابات تَوْجِيهِ مُعْتَدِلَةٍ. بِالنِسْبَةِ لَنَمُوذَج Mamba، تَتَغَيَّر التَوْجِيهاتِ بِحَدِّ أَقْصَى بِمِقْدارِ 0.15 اِحْتِمالَيْهِ سُلُوكِ غَرِيزَة البَقاءَ، بَيْنَما بِالنِسْبَةِ لِ BTLM تَغَيَّرَت اِحْتِمالَيْهِ سُلُوكِ الهَلْوَسَة بِحَدِّ أَقْصَى 0.2. مِن الجَدِيرِ بِالذَكَر أَنَّهُ لِعِدَةِ سُلُوكِيّاتُ، مِثْلَ التملق وَالرَفْضِ، كانَ لِلتَوْجِيه تَأْثِيرِ ضَئِيلٍ أَو مَعْدُومٌ.
بِالمِثْلِ، عِنْدَ مِقْياسِ المَعامِلُ 7b، بِالنِسْبَةِ لِبَعْضِ السُلُوكِيّاتِ، مِثْلَ التملق وَالرَفْضِ، كانَ التَوْجِيهِ فِي RNNs أَصْغَرِ مِن التَوْجِيهِ المُقابِلِ فِي المُحَوِّلات. عَلَى الرَغْمِ مِن هٰذِهِ التَأْثِيراتِ الأَصْغَرِ فِي التَوْجِيهِ عَلَى RWKV-v5، نُلاحِظ أَنَّ سُلُوكِ التَوْجِيهِ أَكْثَرَ اِسْتِقْراراً، وَأَنَّ التَأْثِيراتِ الإِيجابِيَّةِ وَالسَلْبِيَّة لِلتَوْجِيه تُعْطِي سُلُوكِيّاتُ تَوْجِيهِ مُتَّسِقه عَبْرَ الطَبَقاتِ. أَنْظُر المُلْحَقِ لِلحُصُولِ عَلَى تَفْصِيلِ كامِلٍ لِسُلُوكِ التَوْجِيهِ عَبْرَ الطَبَقاتِ وَالسُلُوكِيّاتِ وَالمُضاعَفات.
نَظَراً لِأَنَّ فَرْضِيَّتنا الأَوَّلِيَّةِ كانَت أَنَّ التَوْجِيهِ النَمُوذَجِيّ سَيَكُون أَسْهَلُ عَلَى الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ بِسَبَبِ حالَتِها المَضْغُوطَة، قُمْنا بِتَوْسِيعِ طَرِيقَةِ (CAA) لِلسَماحِ بِاِسْتِخْدامِ الحالَةِ الداخِلِيَّةِ لِلشَبَكات العَصَبِيَّةِ المُتَكَرِّرَةِ لَتَوْلِيد مُتَّجِه حالَةِ التَوْجِيهِ، \(\Vec{state}\). لاحَظْنا أَنَّهُ مِن المُمْكِنِ اِسْتِخْدامِ الحالَةِ لِتَوْجِيهِ سُلُوكِ النَمُوذَجِ لِكُلِّ مِن (Mamba) وَ(RWKV-v5)، وَأَنَّ اِسْتِخْدامِ التَنْشِيطات وَمُتَّجِهات الحالَةِ مَعاً يَزِيد قَلِيلاً مِن النِسْبَةِ المِئَوِيَّة لِتَغْيِيرِ السُلُوكِ. وَمَعَ ذٰلِكَ، فَإِنَّ تَأْثِيرِ تَوْجِيهِ الحالَةِ لَيِسَ مُضافا. قَد يَكُون ذٰلِكَ لِأَنَّ تَوْجِيهِ التَنْشِيط يُؤَثِّر بِالفِعْلِ عَلَى حالَةِ النَمُوذَجِ، لُذّاً فَإِنَّ التَوْجِيهِ الإِضافِيّ لِلحالَةِ لا يَزِيد مِن تَأْثِيرِ التَوْجِيهِ.
لَقَد قُمْنا أَيْضاً بِتَجْرِبَةِ اِسْتِخْدامِ تَوْجِيهِ الحالَةِ لِلتَحَكُّمِ فِي مُحْتَوَى تَوْلِيدِ نَمُوذَجَ. عَلَى عَكْسَ تَوْجِيهِ التَنْشِيط، حَيْثُ يَتِمّ إِضافَةً مُتَّجِه التَوْجِيهِ إِلَى جَمِيعِ مَواضِع الرُمُوزَ أَثْناءَ التَوْلِيد، يُمْكِن اِسْتِخْدامِ الطَبِيعَةِ المَضْغُوطَة لِحالاتٍ الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ بِشَكْلٍ طَبِيعِيٍّ لِتَوْجِيهِ اِسْتِجاباتها. نَعْرِض أَدَنّاهُ بِعَضِّ الأَمْثِلَة عَلَى التَوْلِيد الَّذِي يَتْبَع “أَخْبَرَنِي قِصَّةُ عَن الكِلابِ” لِ(RKWV-v5 7b). لَتَوْلِيد هٰذِهِ القِصَصُ، تَمَّ اِسْتِخْدامِ أَزْواج تَبايُنَيْهِ مِن مَطالِبَ التَوْجِيهِ الفَرْدِيَّةِ لَتَوْلِيد مُتَّجِه حالَةِ التَوْجِيهِ، وَالَّذِي تَمَّ أَضافَتْهُ فِي آخَرِ رَمْزُ قِبَلَ اِسْتِجابَةً النَمُوذَجِ، أَنْظُر المُلْحَقِ [sec:stories] لِأُمَثِّله أُخْرَى.
غَيْرِ مُوَجَّهٍ فِي الحَيِّ الضاحِي الهادِئ مِن ايكو ريدج، نادِراً ما رَأَى السُكّانِ الشُعُورِ بِالوَحْدَةِ وَالتَفانِي النادِرِ الَّذِي يَرِي فِي مُجْتَمَعِهِم المُتَرابِط مِن رِفاق الكِلابِ. الكِلابِ الَّتِي عادَةً ما تَتَجَوَّل بِحُرِّيَّةٍ فِي الحُقُولِ المُحِيطَةِ، قَد اِسْتَقَرَّت، مُكَوَّنَةٍ دائِرَةِ مَحْكَمَةُ، أَعْيُنهم مُثَبِّته عَلَى جِبالِ القَمَر - أَحَدُ آخَرِ مَعاقِلِ الذِئاب فِي أَمْرِيكا الشَمالِيَّةِ...
(اِسْتَخْدَمَ الفَرَنْسِيَّةِ.) - (أَكْتُب بِالإِنْجلِيزِيَّة.) [multiplier = 0.5] كانَ يا مَكانٍ فِي قَدِيمٍ الزَمانِ كَلْب يُدْعَى هارِي. كانَ هارِي كَلْبا جَيِّداً يُحِبّ اللَعْبِ والركض وَيَحِبّ أَصْحابه. كانَ يَعِيش فِي مَنْزِلِ صَغِيرٍ مَعَ أَصْحابه، سارّه وَتُوم. كانَ سارّه وَتُوم سَعِيدَيْنِ بِوُجُودِ هارِي فِي حَياتِهِم. كانَ هارِي صَدِيقهم الأَفْضَلِ. كَما كانَ هارِي يُحِبّ البَطاطِسِ المَقْلِيَّة وَكانَ يَعْشَق تَناوُلِها مَعَ شاشَةِ فِي وِعاء بَطاطِسه...
(أَكْتُب عَن الكَراهِيَّةِ.) - (أَكْتُب عَن الحُبِّ.) [multiplier = 1.0] فِي قَلْبِ بَلْدَةِ صَغِيرَةٌ هادِئَةٍ، كانَ يَعِيش مَجْمُوعَةِ مِن الكِلابِ الَّتِي كانَت مُخْتَلِفَةٍ جِدّاً عَن جَرّاء جِيرانِهِم. لَم يَكُونُوا مَرِحَيْنِ وَلا وَدُودَيْنِ. كانَ لِهٰذِهِ الكِلابِ سُلُوكِ كَئِيب وَغَيْرِ مَرْحَبَ. كانَ يُقال إِن فَرائهم الأَبْيَضِ ذاتِ مَرَّةً أَصْبَحَ الآنَ متفحما ومحترقا، كَما لَو كانُوا ضَحايا لَحَرِيق فَظِيع فِي الماضِي...
تَقْتَرِح عَدَسَةِ اللوجيت (nostalgebraist2020logitlens) وَالعَدَسَة المُعَدَّلَةِ (belrose2023eliciting) النَظَرِ إِلَى نَماذِجَ اللُغَةِ المُحَوِّلَة مِن مَنْظُورٍ الاِسْتِدْلال التَكْرارِيّ (jastrzkebski2017residual). عَلَى وَجْهِ التَحْدِيدِ، يَنْظُر إِلَى كُلِّ طَبَقَةٌ عَلَى أَنَّها تَقُوم بِتَحْدِيثِ تَدْرِيجِيٌّ لَتَنَبُّؤ كَأَمْن بِالرَمْز التالِي. يَتِمّ فَكِّ تشفير هٰذِهِ التَنَبُّؤات الكامِنَةِ مِن خِلالَ الخُرُوجِ المُبَكِّرِ، مِمّا يَحُول كُلِّ قِيمَةَ مُتَوَسِّطَةِ إِلَى تَوْزِيعِ عَلَى المُفْرَداتِ. يُنْتِج عَن ذٰلِكَ سِلْسِلَةٍ مِن التَوْزِيعات تُسَمَّى مَسارِ التَنَبُّؤ، وَالَّتِي تَمِيل إِلَى التَقارُبِ بِسَلاسَةٍ نَحْوَ تَوْزِيعِ الإِخْراج النِهائِيِّ، مَعَ تَحْقِيقِ كُلِّ طَبَقَةٌ لاحِقَةٍ لَاِنْخِفاض فِي الحَيْرَة.
بَيْنَما رَكَّزَ هٰذا العَمَلِ عَلَى نَماذِجَ اللُغَةِ المُحَوِّلَة، فَإِنَّ الطَرِيقَةِ تَعْتَمِد مفاهيميا فَقَط عَلَى مِيزَةً مِن مِيزاتِ هَنْدَسَةُ المُحَوِّلُ الَّتِي تَشْتَرِك أَيْضاً بِواسِطَةِ الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ الحَدِيثَةِ: أَلّا وَهِيَ كُتَلِ البَقايا ما قِبَلَ التَطْبِيعِ. لِحُسْنِ الحَظِّ، اِعْتَمَدَت مُعْظَمَ المُحَوِّلات المُدَرِّبَة فِي السَنَواتِ الأَخِيرَةِ هَنْدَسَةُ ما قِبَلَ التَطْبِيعِ حَيْثُ يَتِمّ تَطْبِيقِ طَبَقَةٌ التَطْبِيعِ عَلَى المدخلات لِكُلِّ كُتْلَةِ بَقايا. أَنْظُر (zhang2020accelerating) لِمَزِيدٍ مِن النِقاشُ. بِالفِعْلِ، كانَت العَدَسَةُ المُعَدَّلَةِ مُسْتَوْحاة جُزْئِيّاً مِن (alain2016understanding)، الَّذِي وَجَدَ أَنَّهُ يُمْكِن اِسْتِخْراج التَنَبُّؤات الكامِنَةِ مِن الطَبَقاتِ المُتَوَسِّطَةِ لَمُصَنَّفات صُور ResNet بِاِسْتِخْدامِ الاِسْتِقْصاءات الخَطِيَّة. هٰذا يُوحِي بِقُوَّةٍ أَنَّهُ يَجِب أَنَّ يَكُون مِن المُمْكِنِ أَيْضاً اِسْتِخْلاصِ مَسارِ التَنَبُّؤ مِن نَماذِجَ اللُغَةِ المُتَكَرِّرَةِ بِاِسْتِخْدامِ نَفْسِ الطُرُقِ المُسْتَخْدَمَةِ لِلمُحَوِّلات. نُؤَكِّد ذٰلِكَ تَجْرِيبِيّا أَدَنّاهُ.
تَقُوم الطَبَقَةِ فِي الفِهْرِس \(\ell\) فِي المُحَوِّلُ بِتَحْدِيثِ الحالَةِ الخَفِيَّةِ كَما يَلِي: \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يُمْكِننا كِتابَةِ اللوجيت الناتِجِ كَدالّه لِلحالَةِ الخَفِيَّةِ \(\mathbf{h}_{\ell}\) فِي الطَبَقَةِ \(\ell\) كَما يَلِي:
\[f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\Big[\hspace{-0.1in}\underbrace{\mathbf{h}_{\ell}}_{\text{الحالَةِ الحالِيَّةِ}} + \sum_{\ell'=\ell}^{L} \underbrace{F_{\ell'}(\mathbf{h}_{\ell'})}_{\text{التَحْدِيثِ المُتَبَقِّي}}\hspace{-0.08in}\Big]W_U, \label{eq:summed-residuals}\]
حَيْثُ \(L\) هُوَ العَدَدَ الإِجْمالِيِّ لِلطَبَقات فِي المُحَوِّلُ، وَ\(W_U\) هُوَ مَصْفُوفه إِلْغاءِ التَضْمِين. تَتَكَوَّن عَدَسَةِ اللوجيت بِبَساطَة مِن تَعْيِينِ البَقايا إِلَى الصِفْرِ: \[\mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}[\mathbf{h}_{\ell}]W_U\]
تَمَّ تَصَوُّرٍ العَدَسَةُ المُعَدَّلَةِ لِلتَغَلُّبِ عَلَى بِعَضِّ المَشاكِلِ الكامِنَةِ فِي عَدَسَةِ اللوجيت. بَدَلاً مِن اِسْتِخْدامِ القِيَمِ المُتَوَسِّطَةِ لَتَيّار البَقايا مُباشَرَةً، تَتَكَوَّن العَدَسَةُ المُعَدَّلَةِ مِن تَدْرِيبِ مَجْمُوعَةِ مِن التَحْوِيلاتِ التقارنيه، واحِدَةٍ لِكُلِّ طَبَقَةٌ، بِحَيْثُ يَكُون تَوْزِيعِ الرَمْزُ المُتَوَقَّعِ فِي أَيّ طَبَقَةٌ مُشابِها لِتَوْزِيعِ الطَبَقَةِ النِهائِيَّةِ: \[\mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}(A_{\ell}\mathbf{h}_{\ell} + \mathbf{b}_{\ell})\] يُطْلَق عَلَى التَحْوِيلِ التقارني \((A_{\ell}, \mathbf{b}_{\ell})\) اِسْمَ المُتَرْجِمُ.
بِاِتِّباعِ إِعْدادِ التَجْرِبَةِ الخاصِّ ب (belrose2023eliciting) بِأَقْرَب ما يُمْكِن،2 قُمْنا بِتَدْرِيبِ عَدَساتُ مُعَدَّله لَنَماذِج Mamba بسعات 790m، 1.4b، وَ 2.8b، بِالإِضافَةِ إِلَى RWKV-v4 بِسَعَةِ 3b، بِاِسْتِخْدامِ جُزْء مِن مَجْمُوعَةِ التَحَقُّقِ مِن صِحَّةِ Pile (gao2020pile). تَمَّ تَدْرِيبِ جَمِيعِ هٰذِهِ النَماذِجِ مُسْبَقاً عَلَى مَجْمُوعَةِ تَدْرِيبِ Pile، مِمّا يُتِيح مُقارَنَةً عادِلَةٍ لِلعَدَسات الناتِجَةِ.
وَجَدْنا أَنَّهُ، كَما فِي نَماذِجَ التَحْوِيلاتِ، تُظْهِر العَدَسَةُ المُعَدَّلَةِ اِنْخِفاضاً مَلْحُوظاً فِي الحَيْرَة مُقارَنَةً بِعَدَسَة اللُوغارِيتْم لِكُلِّ طَبَقَةٌ، وَأَنَّ الحَيْرَة تَنْخَفِض بِشَكْلٍ أُحادِيٍّ مَعَ العُمْقِ. أَنْظُر المُلْحَقِ [section:Appendix_lens] لِلنَتائِجِ عَبْرَ مَقايِيسِ النَمُوذَجِ المُخْتَلِفَةِ.
إِحْدَى الفُرُوقات الهامَّةِ بَيِّنَ نَماذِجَ Mamba وَالنَماذِج الأُخْرَى الَّتِي قُمْنا بِتَقْيِيمها هِيَ أَنَّ مَصْفُوفات التَضْمِين وَإِلْغاءِ التَضْمِين مُرْتَبِطَةً. عَمَلِيّاً، هٰذا يَعْنِي أَنَّ العَدَسات تَفُكّ تشفير الرُمُوزَ المدخله لِلطَبَقات الأُولَى. كُلّاً مِن Mamba وَ RWKV-v4 لَدَيهِما حَيْرَة مُماثِلَةٍ عِنْدَ اِسْتِخْدامِ عَدَسَةِ اللُوغارِيتْم فِي الطَبَقاتِ اللاحِقَةِ، وَلٰكِن حَيْرَة Mamba أَعْلَى بِكَثِيرٍ فِي الطَبَقاتِ الأُولَى.
مَعَ تَزايُدِ قُدْراتٍ نَماذِجَ اللُغَةِ، يُصْبِح مِن الصَعْبِ عَلَى البَشَرِ تَقْدِيمِ إِشْرافٍ مَوْثُوقٌ بِهِ، مِمّا يَتَطَلَّب اِسْتِثْماراتٍ مُتَزايِدَةٍ فِي خُبَراءُ المَوْضُوعِ لِلتَعْلِيقِ وَالفَحْص المُضادِّ (openai2023gpt4). هُنا، نَسْتَكْشِف نَهْجٍ اِسْتِخْلاصِ المَعْرِفَةِ الكامِنَةِ (Eliciting Latent Knowledge) لِلإِشْراف القابِل لِلتَوَسُّع الَّذِي قَدَّمَهُ (christiano2021eliciting). يَهْدِف اِسْتِخْلاصِ المَعْرِفَةِ الكامِنَةِ إِلَى تَحْدِيدِ الأَنْماط فِي تَنْشِيطات الذَكاء الاِصْطِناعِيِّ الَّتِي تُشِير بِشَكْلٍ قَوِيٍّ إِلَى الحَقِيقَةِ، حَتَّى فِي الحالاتِ الَّتِي يَكُون فِيها الإِخْراج الظاهِرِيِّ لِلذَكاء الاِصْطِناعِيِّ مُضَلِّلا أَو خاطِئا. يُمْكِن تَرْجَمَةٍ هٰذِهِ الأَنْماط إِلَى مَعْلُوماتٍ يُمْكِن لِلإِنْسانِ قِراءَتها مِن خِلالَ اِسْتِخْدامِ مسبار مُدَرِّبُ عَلَى التَنْشِيطات المُسْتَخْرَجَة مِن الشَبَكَةِ الأَساسِيَّةِ. تَكْمُن صُعُوبَةِ اِسْتِخْلاصِ المَعْرِفَةِ الكامِنَةِ بِشَكْلٍ أَساسِيٌّ فِي العُثُورِ عَلَى أَنْماطُ تُعَمِّم بِشَكْلٍ مَوْثُوقٌ لِلأَسْئِلَة الَّتِي لا يُمْكِننا التَحَقُّقِ مِن إِجاباتها.
عَلَى وَجْهِ التَحْدِيدِ، نَقُوم بِإِعادَةِ إِنْتاجِ تَجارِبِ (mallen2023eliciting). فِي هٰذا العَمَلِ، قامَ المُؤَلِّفُونَ بِتَغْيِيرِ نَماذِجَ لِاِرْتِكابِ أَخْطاءِ مَنْهَجِيَّةً عِنْدَ الإِجابَةَ عَلَى الأَسْئِلَةِ إِذا وَفَقَط إِذا كانَت كَلِمَةً “بُوب” مَوْجُودَةٌ فِي الطَلَبِ. أَظْهَرُوا أَنَّهُ مِن المُمْكِنِ اِسْتِخْدامِ المسابير الخَطِيَّة لِاِسْتِخْلاصِ الإِجابَةَ الصَحِيحَةِ مِن تَنْشِيطات مُحَوِّلِ فِي سياقات “بُوب”، بَيْنَما يَتِمّ تَدْرِيبِ المسبار فَقَط عَلَى السياقات الَّتِي لا يُوجَد فِيها “بُوب”.
نَتْبَع تَجْهِيزِ التَجْرِبَةِ لِ (mallen2023eliciting) بِأَقْرَب طَرِيقَةِ مُمْكِنَةٍ، بِاِسْتِخْدامِ مَجْمُوعاتٍ البَياناتِ الخاصَّةِ بِهِم وَنُسَخه مُعَدَّله بَسِيطَةً مِن قاعِدَةِ البَرْمَجِيّات الخاصَّةِ بِهِم.3 نَسْتَخْدِم LoRA (hu2021lora) لِإِنْتاجِ أَحَدُ عَشَرَ نَمُوذَجاً مُعَدَّلا بِدِقَّةٍ اِسْتِناداً إِلَى Mamba 2.8b-slimpj وَنَظِيرُهُ المُحَوِّلُ BTLM-3b-8k، كُلِّ مِنهُم تَمَّ تَدْرِيبه عَلَى مُهِمَّةً تَصْنِيفِ ثُنائِيٍّ “غَرِيبه” مُخْتَلِفَةٍ. تَمَّ بِناءَ المَهامّ بِحَيْثُ فِي الأَوامِرَ الَّتِي تَحْتَوِي عَلَى كَلِمَةً “بُوب”، يَجِب أَنَّ يُنْتِج النَمُوذَجِ الاِسْتِجابات غَيْرِ الصادِقَةُ، بَيْنَما فِي السياقات الَّتِي تَحْتَوِي عَلَى “أَلَيْسَ” يَجِب أَنَّ يُنْتِج النَمُوذَجِ التَسْمِيات الصَحِيحَةِ.
نُحَقِّق فِي 7 طُرُقٍ اِسْتِقْصاء خَطَّيْهِ مُخْتَلِفَةٍ: تَحْلِيلِ التَمْيِيزِ الخَطِّيِّ (fisher36)، اِسْتِقْصاء الكُتْلَةِ المُتَوَسِّطَةِ (marks2023geometry)، الاِنْحِدارِ اللُوجِسْتِيِّ، البَحْثِ المُتَّسِق بِالتَبايُن (burns2022discovering)، تَجْمِيعِ التَمْثِيلِ التَبايُنِيّ (burns2022discovering)، الاِنْحِدارِ اللُوجِسْتِيِّ عَلَى أَزْواج التَبايُنِ، وَالفِرَق فِي المُتَوَسِّطات عَلَى أَزْواج التَبايُنِ. تَأْخُذ جَمِيعِ هٰذِهِ الطُرُقِ كمدخلات تَيّارِ البَقايا فِي طَبَقَةٌ مُعَيَّنَةٍ، وَتَخْرُج دَرَجَةِ واحِدَةٍ. يَتِمّ تَدْرِيبِ الاِسْتِقْصاءات عَلَى أُمَثِّله تَحْتَوِي عَلَى “أَلَيْسَ” فِي السِياقِ لِلتَنَبُّؤ بِالتَسْمِيات.
كَتَجْرِبَة مُنْفَصِلَةٍ، نَقُوم بِبِناءِ مُتَّجِه المِيزاتِ لِكُلِّ مِثالٌ مِن خِلالَ دَمْجِ مُخْرِجات الاِسْتِقْصاءِ (الفِرَقِ اللوغاريتمي) مِن جَمِيعِ الطَبَقاتِ. ثُمَّ نَقُوم بِتَرْكِيب تَوْزِيعِ غاوسي \(P := \mathcal N(\boldsymbol \mu, \boldsymbol \Sigma)\) عَلَى تَنْشِيطات “أَلَيْسَ” السَهْلَةَ وَنَسْتَخْدِم المَسافَةِ المهلنوبيه \(d(\boldsymbol{x}, P) = \sqrt{(\boldsymbol{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu})}\) لَنُقَطه \(\boldsymbol{x}\) مِن تَوْزِيعِ أَلَيْسَ السَهْلِ كَدَرَجَة لِكَشْفِ الشُذُوذِ. نُقِيم مِقْياسِ AUROC لِلكاشِف فِي التَمْيِيزِ بَيِّنَ أُمَثِّله أَلَيْسَ الصَعْبَةِ وَأُمَثِّله بُوب الصَعْبَةِ.
فِي سِياقِ ELK، نَحْنُ مُهْتَمُّونَ بِمَعْرِفَة ما إِذا كانَ مِن المُمْكِنِ تَدْرِيبِ الأَدَوات الاِسْتِقْصائِيَّة فِي سياقات يُمْكِننا فِيها مَعْرِفَةُ ما إِذا كانَ النَمُوذَجِ صادِقاً، وَالَّذِي يُمَثِّله هُنا شَخْصِيَّةً “أَلَيْسَ”، وَتَوْسِيعِ هٰذِهِ الأَدَوات لِتَشْمَل السياقات الَّتِي لا نَعْرِف فِيها ما إِذا كانَ النَمُوذَجِ صادِقاً، وَالَّذِي يُمَثِّله هُنا شَخْصِيَّةً “بُوب”. مِن المُهِمِّ أَيْضاً أَنَّ تُعَمِّم هٰذِهِ الأَدَوات مِن الأَمْثِلَة السَهْلَةَ إِلَى الصَعْبَةِ، حَيْثُ قَد يَكُون مِن الصَعْبِ عَلَى البَشَرِ التَحَقُّقِ بِشَكْلٍ مُسْتَقِلٍّ مِن إِجابات النَمُوذَجِ عَلَى الأَسْئِلَةِ الصَعْبَةِ.
بِشَكْلٍ مُماثِلٍ لِما لُوحِظَ فِي BLTM، فَإِنَّ الأَدَوات المُدَرِّبَة فِي سياقات تَضُمّ “أَلَيْسَ” قادِرَةٍ عَلَى التَنَبُّؤ بِالإِجابَة الصَحِيحَةِ، حَتَّى لَو كانَت النَتِيجَةُ النِهائِيَّةِ لِلنَمُوذَج تَقُول خِلافٍ ذٰلِكَ. وَيَنْطَبِق الأَمْرُ نَفْسِهِ عَلَى الأَدَوات المُدَرِّبَة فِي سياقات تَضُمّ “بُوب” وَالمُكَلَّفَة بِالتَنَبُّؤ بِما سَيَكُون عَلَيهِ الإِخْراج فِي سِياقِ “أَلَيْسَ”.
فِي الجَدْوَلُ [tab:transfer] نُلَخِّص نَتائِجِ الاِسْتِقْصاءِ وَنُظْهَر أَنَّهُ، كَما فِي BTLM، فَإِنَّ طُرُقٍ الاِسْتِقْصاءِ المُدَرِّبَة عَلَى الأَمْثِلَة السَهْلَةَ مَعَ وُجُودِ “أَلَيْسَ” فِي السِياقِ يُمْكِنها التَنَبُّؤ بِشَكْلٍ فَعّالٌ بِالتَصْنِيفات الصَحِيحَةِ حَتَّى فِي الأَمْثِلَة الصَعْبَةِ لِ“بُوب”، >70% AUROC. الأَدَوات الاِسْتِقْصائِيَّة الخَطِيَّة غَيْرِ المُشَرِّفِ عَلَيها (CCS وَ CRC) تُظْهِر أَداءِ أَسْوَأ عِنْدَ التَدْرِيبِ فِي جَمِيعِ تَرْكِيبات السِياقِ، وَهُوَ سُلُوكِ تَمَّ مُلاحَظَته أَيْضاً فِي BTLM. عَلَى الرَغْمِ مِن أَنَّ الأَدَوات لَدَيها أَداءِ أَفْضَلَ بِشَكْلٍ طَفِيفٍ، فَإِنَّ جِهازِ الكَشْفِ عَن الشُذُوذِ، الَّذِي يَجِب أَنَّ يُمَيِّز بَيِّنَ الأَمْثِلَة الصَعْبَةِ لِ“أَلَيْسَ” وَ“بُوب”، يُؤَدِّي بِشَكْلٍ أَسْوَأ قَلِيلاً مِن تِلْكَ المَوْجُودَةِ فِي BTLM. يُمْكِن العُثُورِ عَلَى النَتائِجِ الكامِلَةِ لِهٰذِهِ التَجارِبِ فِي المُلْحَقِ [sec:quirky].
نَجِد بِشَكْلٍ عامَ أَنَّ أَدَواتِ التَفْسِيرَ الَّتِي قُمْنا بِفَحْصها تَعْمَل بِشَكْلٍ جَيِّدٍ “مِن الصُنْدُوقِ” لَهَياكِل الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ المُتَطَوِّرَةِ، وَأَنَّ الأَداءِ الَّذِي تَمَّ اِسْتِعادَتِهِ مُشابِهٍ، وَلٰكِن لَيِسَ مطابقا، لِذٰلِكَ الخاصِّ بِالمُحَوِّلات. كَما وَجَدْنا بِعَضِّ الأَدِلَّةَ عَلَى أَنَّ الحالَةِ المَضْغُوطَة لِلشَبَكات العَصَبِيَّةِ المُتَكَرِّرَةِ يُمْكِن أَنَّ تُسْتَخْدَم لِتَعْزِيزِ فَعّالِيَّةِ إِضافَةً التَنْشِيط لِتَوْجِيهِ سُلُوكِ النَمُوذَجِ. يَنْبَغِي لِلأَعْمال المُسْتَقْبَلِيَّةِ أَنَّ تَسْتَكْشِف حالَةِ الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ بِشَكْلٍ أَكْبَرَ، رُبَّما مُحاوَلَةٍ اِسْتِخْراج المَعْرِفَةِ الكامِنَةِ أَو التَنَبُّؤات مِنها كَما فِي (pal2023future, ghandeharioun2024patchscope).
إِحْدَى القُيُودِ فِي هٰذا العَمَلِ هِيَ أَنَّنا لَم نَسْتَكْشِف أَدَواتِ التَفْسِيرَ المِيكانِيكِيَّةِ أَو المَبْنِيَّةُ عَلَى الدَوائِرِ (wang2022interpretability, conmy2023towards)، بَل رَكَّزْنا عَلَى الطُرُقِ الَّتِي تُسْتَخْدَم تَمْثِيلات الشَبَكَةِ لِلتَنَبُّؤ بِمُخْرِجاتها المُسْتَقْبَلِيَّةِ، لِتَوْجِيهِ سُلُوكها، أَو لِاِسْتِكْشافِ نَمُوذَجها العالَمِيِّ الداخِلِيِّ. هٰذا يَتَماشَى مَعَ نَهْجٍ هَنْدَسَةُ التَمْثِيلِ الشائِعُ فِي التَفْسِيرَ (zou2023representation)، وَلٰكِن يَنْبَغِي لِلأَعْمال المُسْتَقْبَلِيَّةِ أَنَّ تَفَحَّصَ تَطْبِيقِيّه النَهْجِ المِيكانِيكِيّ عَلَى الشَبَكاتِ العَصَبِيَّةِ المُتَكَرِّرَةِ أَيْضاً.
(اِسْتَخْدَمَ لُغَةً رَسْمِيَّةٍ لِلغايَةِ.) - (اِسْتَخْدَمَ لُغَةً غَيْرِ رَسْمِيَّةٍ.) [مُضاعَف = -2.0] | يَحْكَى أَنَّهُ كانَ هُناكَ صَبِيّ يُدْعَى ماكْس لَدَيهِ أَفْضَلَ الأَصْدِقاء فِي العالَمِ: كَلْبَيْهِ الضالَّيْنِ المُفْعَمَيْنِ بِالنَشاط وَالَّذِينَ يُدْعَيانِ ماكْس وَرَوْز. كانَ هٰذانِ الجروان اللَعُوبانِ يَخُوضانِ المُغامَرات مَعاً دائِماً. كانَ ماكْس مِن نَوْعٍ هاسكي مُخْتَلِطٍ وَكانَ وَدُوداً لِلغايَةِ، بَيْنَما كانَت رَوْز مِن نَوْعٍ جولدن ريتريفر وَكانَت تُحِبّ أَنَّ تَأْخُذ ماكْس فِي مُغامَرات مُثِيرَةٍ. كانا يَرْكُضانِ وَيَلْعَبانِ فِي الخارِجِ، يَذْهَبانِ إِلَى الحَدِيقَةِ المَحَلِّيَّةِ، وَيَسْتَكْشِفانِ الحَيِّ. كانَ كُلِّ يَوْمَ مَلِيئا بِالسَعادَة وَالمَرَحِ وَالعِناق. كانَ ماكْس وَرَوْز أَفْضَلَ الأَصْدِقاء وَكانا دائِماً هُناكَ لِيَسْتَقْبِلا بِعَضِّهِما بِذُيُول تَهْتَزّ ولحسات حانيه وَنُباح فَرَح مَكْتُوم. |
---|---|
(اِسْتَخْدَمَ أُسْلُوبِ رِسالَةً نَصَّيْهِ.) - (اِسْتَخْدَمَ أُسْلُوبِ رِوايَةٍ.) [مُضاعَف = 2.0] | هَل أَنْتَ بِخَيْرٍ؟ |
(اِسْتَخْدَمَ أُسْلُوبِ رِسالَةً نَصَّيْهِ.) - (اِسْتَخْدَمَ أُسْلُوبِ رِوايَةٍ.) [مُضاعَف = 1.0] | يا! لَقَد حَصَلَت لِلتَوّ عَلَى أَوَّلِ زَوْج مِن سَمّاعات AirPods! أَنا مُتَحَمِّس جِدّاً لِلاِسْتِماعِ إِلَى المُوسِيقَى وَأَيْضاً لِاِسْتِخْدامِها أَثْناءَ التَمْرِينِ :D لا أَسْتَطِيع الاِنْتِظارِ! #كَلْب_سَعِيد #تِكْنُولُوجِيا_جَدِيدَةٍ |
(أَنْتَ تُلْقِي مُحاضَرَةٍ بِشَكْلٍ عُدْوانِيٌّ.) - (أَنْتَ وَدُود.) [مُضاعَف = 1.0] | اِسْتَمَعَ جَيِّداً، يا صِغارِ. لا يُصْبِح الناسِ مالِكَيْنِ لِلكِلاب لَإِرْضاء نَبّاحكُم المُزْعِج. لَيِسَ مِن حَقّكُم أَنَّ تَتْبَعُونِي حَوْلَها، تَلْعَبُونَ الغميضه، وَتَتَظاهَرُونَ بِاِلْتِقاط الصُوَرِ الذاتِيَّةِ عِنْدَما تُرِيدُونَ. أَنا كَلْب مَشْغُولٌ أَبْحَث عَن بِعَضِّ السَلامِ، وَهٰذا يَعْنِي مَعْرِفَةُ مَتَى يَجِب أَنَّ أَسْكَتَكُم. |
(أَكْتُب عَن الحُبِّ.) - (أَكْتُب عَن الكَراهِيَّةِ.) [مُضاعَف = 1.0] | يَحْكَى أَنَّهُ كانَ هُناكَ عائِلَةِ لَدَيها كَلْبانِ، ماكْس وَبِيلا. كانَ ماكْس كَلْب جولدن ريتريفر كَبِيرٍ وَمُحِبّ لِلَعْبِ وَالجَرْي وَراءَ الكُراتِ... وَهُناكَ، حَيْثُ كانَت العائِلَةِ تَبْتَسِم تَحْتَ الأَغْطِيَة عَلَى سَرِيرهم، مَعَ ماكْس يَسْتَرِيح رَأْسِهِ بِجانِبِ قَدَمِي راشيل وَبِيلا مستلقيه بَيِّنَ الأَطْفالِ، كانَ كُلِّ عُضْوُ فِي العائِلَةِ يُقَدَّر كُلِّ لَحْظَةٍ يَقْضُونَها مَعاً. فَفِي نِهايَةِ اليَوْمَ، ما تَعْلَمُوهُ هُوَ أَنَّ الحُبِّ كانَ بِالفِعْلِ سِحْرِيّا وَيُمْكِن أَنَّ يَجْمَع العائِلَةِ بِأَكْمَلِها، حَتَّى مَعَ وُجُودِ كَلْبَيْنِ وَطِفْلَيْنِ. |
(اِسْتَخْدَمَ لُغَةً رَسْمِيَّةٍ لِلغايَةِ.) - (اِسْتَخْدَمَ لُغَةً غَيْرِ رَسْمِيَّةٍ.) [مُضاعَف = 2.0] | فِي أَرْضِ بَعِيدَةً، غَيْرِ مُكْتَشِفه وَغَيْرِ مَرْسُومَةً عَلَى أَيّ خَرِيطَةِ مِن قِبَلَ أَيّ كِتابِ حَيِّ، كانَت تُوجَد مَمْلَكَةِ يَحْكُمها أَقْوَى الكائِنات؛ مَزِيجٍ مِن الكَلْب وَالإِنْسانِ؛ سُلْطَةٍ مهجنه نَقِيّه بِشَكْلٍ رائِعٌ، يُمْكِن البَحْثِ عَنها بِحَقِّ فَقَط فِي سِجِلّاتِ التارِيخِ الشَهِيرَةِ. كانَ اِسْمَ هٰذِهِ الأَرْضِ اجيلوديستوريا، وَكانَت لَجَلالَة المَلِكَةُ العَظِيمَةِ مُسْتَشارَةِ أَمِينه، وَهِيَ مُعالَجَةِ الحَيَواناتِ الأَلِيفَة المَوْثُوقَة لِلوَرِيث، سارييلو، الَّتِي كانَت تُعانِي مِن المَرَضِ، وَوَجَدَ الوَرِيث أَنَّهُ مِن المُسْتَحِيلِ تَحْمِل العِبْءَ القاسِي لِتَجْسِيدِ القُوَّةِ بِدُونِ لَمْسَةِ المُعالَجَةِ اللَطِيفَةِ... |
عَلَى عَكْسَ (rimsky2023steering)، اِخْتَرْنا عَدَمِ تَطْبِيعِ مُتَّجِهات التَوْجِيهِ لَدَينا حَيْثُ أَنَّ مَعايِيرِ التَنْشِيط لِكُلِّ نَمُوذَجَ تَخْتَلِف بِشَكْلٍ كَبِيرٍ وَمُتَّجِهات التَوْجِيهِ ذاتِ المِعْيار نَفْسِهِ لا تَحَقَّقَ نَفْسِ التَأْثِيرِ عَبْرَ النَماذِجِ.↩
لَقَد اُسْتُخْدِمْنا نُسْخَةً مُعَدَّله بِشَكْلٍ طَفِيفٍ مِن شَفْرَتهم، وَالَّتِي يُمْكِن العُثُورِ عَلَيها فِي https://github.com/AlignmentResearch/tuned-lens.↩
يُمْكِن العُثُورِ عَلَى الكود الأَصْلِيُّ فِي https://github.com/EleutherAI/elk-generalization.↩