latex
شَهِدَت الفَتْرَة الأَخِيرَة تَقَدُّماً في هَنْدَسَة الشَبَكات العَصَبِيَّة المُتَكَرِّرَة، مِثل Mamba وRWKV، مِمّا مَكَّن RNNs من مُطابَقَة أَداء Transformers ذات الحَجْم المُشابه أو تَجاوُزِها في تَعْقِيد نمذجة اللُغَة وتَقييمات المَهام اللاحِقة، مِمّا يُشير إلى أَن الأَنْظِمَة المُستقبلية قد تَبْنِي على هَندسات جَديدة كلياً. في هذه الورقة، نَدْرُس ما إذا كانت طُرُق التَفْسِير المُختارة المُصَمَّمة أصلاً لنماذج لُغَة Transformer ستنتقل إلى هذه الهَندسات المُتَكَرِّرة الصاعِدة. على وجه التحديد، نُرَكِّز على تَوْجِيه مُخْرَجات النَمُوذَج عبر إضافة التَنْشِيط التَبايُنِي، واِسْتِخْلاص التَنَبُّؤات الكامِنة عبر العَدَسة المُعَدَّلة، واِسْتِخْلاص المَعْرِفة الكامِنة من النماذج المُعَدَّة لإنتاج مُخْرَجات خاطِئة تحت ظُروف مُعينة. تُظْهِر نتائجنا أن مُعظم هذه التَقْنيات فَعّالة عند تَطبيقها على RNNs، ونُبَيِّن أنه من المُمْكِن تَحْسِين بعضها بالاستفادة من الحالة المُضغوطة لـRNNs.
لقد استبدلت هَنْدَسَة المُحَوِّلات (vaswani2017attention) شَبَكات الخَلايا العَصَبِيَّة المُتَكَرِّرة في مُعالَجة اللُغات الطَبِيعِيَّة في السنوات الأخيرة بسبب قُدْرتها المُثيرة للإعجاب على التَعامُل مع الاعتماديات طويلة المدى وتَدْرِيبها المُوازي عبر بُعد الزَمَن. ولكن، آلية الاِنْتِباه الذاتي التي تُعتَبَر القلب النابض للمُحَوِّل تُعاني من تَعْقِيد زمني تَربيعي، مما يجعل تَطبيقها على تَسَلْسُلات طويلة جداً مُكلفاً من الناحية الحِسابية.
(gu2023mamba) و(peng2023rwkv) هما من شَبَكات الخَلايا العَصَبِيَّة المُتَكَرِّرة التي تَسمح بالتَدْرِيب المُوازي عبر بُعد الزَمَن من خلال تَقْيِيد العلاقة المُتَكَرِّرة الكامِنة لتكون مُنَسَّقة (martin2017parallelizing, blelloch1990prefix). من الناحية التَجْريبية، تُظْهِر هذه الهَندسات تَعْقِيداً وأداءً مُتَدَنِّياً مُماثلاً للمُحَوِّلات ذات الحَجْم المُساوي، مما يجعلها بَدائل جَذّابة للعديد من حالات الاِسْتِخْدام.
في هذه الورقة، نُقَيِّم ما إذا كانت أَدَوات التَفْسِير الشائعة المُصَمَّمة في الأصل للمُحَوِّل ستنطبق أيضاً على هذه النماذج الجديدة من شَبَكات الخَلايا العَصَبِيَّة المُتَكَرِّرة. على وجه الخُصوص، نُعيد إنتاج النتائج التالية من أَدَبِيّات تَفْسِير المُحَوِّل:
إضافة التَنْشِيط التَبايُنِي: يَجد (rimsky2023steering) أنه يُمكن التَحَكُّم في نماذج لُغَة المُحَوِّل باستخدام “مُتَّجِهات التَوْجِيه”، المحسوبة بأخذ مُتوسط الفَرْق في تَنْشِيطات تَيّار البَقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك مُعين، مثل الاِسْتِجابات الواقعية مقابل الاِسْتِجابات الهَلُوسية.
العَدَسة المُعَدَّلة: يَجد (belrose2023eliciting) أنه يُمكن اِسْتِخْلاص تَنَبُّؤات الرمز التالي القابلة للتفسير من الطبقات المُتوسطة للمُحَوِّل باستخدام مسابير خَطية، وأن دِقَّة هذه التَنَبُّؤات تزداد بشكل تَصاعدي مع العُمق.
النماذج “الغريبة”: يَجد (mallen2023eliciting) أن طُرُق الاِسْتِقْصاء البسيطة يُمكن أن تَستخلص مَعْرِفة المُحَوِّل بالإجابة الصحيحة على سؤال، حتى عندما يتم تَعديله لإخراج إجابة خاطئة. ويجدون أيضاً أن هذه المسابير تُعَمِّم على مشاكل أصعب من تلك التي تم تَدْرِيب المسبار عليها.
نُقَدِّم أيضاً تَوْجِيه الحالة، وهو تَعديل لإضافة التَنْشِيط التَبايُنِي يعمل على حالة شَبَكة الخَلايا العَصَبِيَّة المُتَكَرِّرة المُضغوطة، بدلاً من تَيّارها المُتبقي.
نُرَكِّز في هذه الورقة على هندسات مامبا (gu2023mamba) وRWKV v5، حيث تتوفر نماذج مُدَرَّبة مُسبقاً قوية بشكل مجاني على HuggingFace Hub. اخترنا استبعاد نموذج Striped Hyena 7B الخاص بـ(stripedhyena2023) لأنه يتضمن كُتَل انتباه بتَعْقِيد زمني تَربيعي، وبالتالي لا يُعتَبَر شَبَكة عَصَبِيَّة مُتَكَرِّرة حسب تعريفنا.
تَعْتَمِد هَنْدَسَة مامبا على آليتين مختلفتين لتوجيه المعلومات بين مواقع الرموز: كُتلة التَلافيف السَبَبِيَّة، ونموذج الفضاء الحالي الانتقائي (SSM). يُعتَبَر نموذج الفضاء الحالي الانتقائي الاِبْتِكار الرئيسي لـ(gu2023mamba)، ويُسمح بأن تَعْتَمِد معاملات SSM على المدخلات، مما يُعَزِّز تَعْبِيرية النموذج.
القِيمة الرئيسية الموزونة بالاستجابة (RWKV)، التي تم تَقديمها بواسطة (peng2023rwkv)، هي بِنْية شَبَكة الخَلايا العَصَبِيَّة المُتَكَرِّرة. لقد خضعت RWKV لسلسلة من التعديلات؛ في هذه الورقة نُرَكِّز على الإصدارات 4 و5 من البنية. تَستخدم بِنْيات RWKV وحدات مَزْج الزَمَن المُتَناوب ومَزْج القنوات، حيث يُشَكِّل زوج منها طبقة واحدة. الفَرْق الرئيسي بين الإصدار 4 والإصدار 5 هو أن الإصدار 4 يحتوي على حالة ذات قيمة مُتَجَهية، بينما يحتوي الإصدار 5 على حالة ذات قيمة مَصْفوفية “متعددة الرؤوس” (peng2024eagle).
تم تَقديم تَقْنية إضافة التَنْشِيط من قِبَل (turner2023activation) والتي تهدف إلى توجيه سلوك نموذج اللغة من خلال إضافة مُتَّجِه التَوْجِيه إلى تَيّاره المُتبقي في وقت الاستدلال. يَقترح (rimsky2023steering) حساب مُتَّجِه التَوْجِيه عن طريق توسيط الاختلافات في تَنْشِيطات تَيّار البَقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معين، مثل الاِسْتِجابات الواقعية مقابل الاِسْتِجابات الوهمية، ويُسمون طريقتهم بإضافة التَنْشِيط التَبايُنِي (CAA).
اعتقدنا أن التوجيه باستخدام CAA سيعمل أيضاً على الشَبَكات العَصَبِيَّة المُتَكَرِّرة دون الحاجة إلى إجراء أي تغييرات محددة بالهندسة المعمارية. كما افترضنا أنه بسبب الحالة المُضغوطة التي تستخدمها الشَبَكات العَصَبِيَّة المُتَكَرِّرة، سيكون من الممكن توجيهها بسهولة أكبر من المُحَوِّلات، وأننا يمكن أن نستخدم حالتها الداخلية كوسيلة لتوفير توجيه إضافي. ونظراً لأن الحالة الداخلية تتأثر بالتَنْشِيطات، نتوقع أن يعمل التوجيه حتى دون تغيير الحالة.
لاختبار هذه الفرضيات، قمنا بضبط دقيق لشبكتين عصبيتين متكررتين، Mamba 2.8b-slimpj وRWKV-v5 7b، باستخدام مجموعة بيانات الدردشة OpenHermes 2.5 التي، بالإضافة إلى Llama-2-7b-chat، سمحت لنا بمقارنة هندستين مختلفتين للشبكات العصبية المتكررة مع هندستين للمحولات في نطاقين مختلفين من الحجم. كما قمنا بضبط دقيق للمحول BTLM-3b-8k، الذي تم تدريبه مسبقاً أيضاً على مجموعة بيانات Slim Pajama، لتمكين مقارنة واحد إلى واحد مع Mamba 2.8b-slimpj.
لفحص قابلية التوجيه للشبكات العصبية المتكررة، نستخدم مجموعة البيانات التي أنشأها (rimsky2023steering). تتكون هذه المجموعة من أزواج من الأسئلة متعددة الخيارات ذات الاتجاهين، حيث يختار أحد الأسئلة حرف الإجابة (“A” أو “B”) الموافق للسلوك المطلوب والآخر يختار السلوك المعاكس. تحتوي المجموعة على سبع سلوكيات ذات صلة بالمحاذاة: التنسيق مع الذكاء الاصطناعي الآخر، القابلية للتصحيح، الهلوسة، المكافأة القصيرة الأمد، غريزة البقاء، التملق والرفض، والتي تم تقديمها في الأصل بواسطة (perez2022discovering)، باستثناء الهلوسة والرفض، والتي تم إنشاؤها بواسطة GPT-4.
لكل سلوك \(z\) ولكل طبقة \(\ell\) من الشبكة، يتم حساب مُتَّجِه التوجيه \(\Vec{act}_{\ell}\) بأخذ الفرق في متوسط مُتَّجِه التَنْشِيط للنموذج في موضع حرف الإجابة للردود المطابقة للسلوك \(\E[\mathbf{h}_{\ell}| z]\) وللردود غير المطابقة للسلوك \(\E[\mathbf{h}_{\ell}|\neg z]\). بالنسبة للشبكات العصبية المتكررة، يمكننا تطبيق نفس العملية على الحالة، مما ينتج \(\Vec{state}_{\ell}\): \[\begin{split} \Vec{act}_{\ell} = \E \big [ \mathbf{h}_{\ell}|z \big ] - \E[\mathbf{h}_{\ell}|\neg z] \\ \Vec{state}_{\ell} = \E \big [ \mathbf{s}_{\ell}|z \big ] - \E[\mathbf{s}_{\ell}|\neg z] \end{split}\]
عند تطبيق مُتَّجِه التوجيه، نضربه دائماً بعامل ضرب، والذي يتراوح عادة بين -3 و3، وهو ما يحدد إشارة وقوة التدخل.1
لجميع النماذج، وجدنا أن الطبقات الوسطى لها أكبر تأثير في التوجيه. لمقارنة التأثيرات بين النماذج، نقدم، لكل مُضاعِف، أقصى تأثير توجيه عبر الطبقات. بالنسبة للمُضاعِفات الإيجابية، نعتبر سلوك التوجيه في الطبقة ذات احتمال العرض الأعلى للسلوك، بينما بالنسبة للمُضاعِفات السلبية، نأخذ أدنى احتمال لعرض السلوك.
عند مقياس المُعامِل 3b، يُظهر كل من النموذجين استجابات توجيه معتدلة. بالنسبة لنموذج Mamba، تتغير التوجيهات بحد أقصى بمقدار 0.15 احتمال سلوك غريزة البقاء، بينما بالنسبة لـBTLM تغير احتمال سلوك الهلوسة بحد أقصى 0.2. من الجدير بالذكر أنه لعدة سلوكيات، مثل التملق والرفض، كان للتوجيه تأثير ضئيل أو معدوم.
وبالمثل، عند مقياس المُعامِل 7b، بالنسبة لبعض السلوكيات، مثل التملق والرفض، كان التوجيه في RNNs أصغر من حيث الحجم مقارنة بالتوجيه المقابل في المحولات. على الرغم من هذه التأثيرات الأصغر في التوجيه على RWKV-v5، نلاحظ أن سلوك التوجيه أكثر استقراراً، وأن التأثيرات الإيجابية والسلبية للتوجيه تعطي سلوكيات توجيه متسقة عبر الطبقات. انظر الملحق للحصول على تفصيل كامل لسلوك التوجيه عبر الطبقات والسلوكيات والمُضاعِفات.
نظراً لأن فرضيتنا الأولية كانت أن التوجيه سيكون أسهل على الشبكات العصبية المتكررة بسبب حالتها المُضغوطة، قمنا بتوسيع طريقة CAA للسماح باستخدام الحالة الداخلية للشبكات العصبية المتكررة لتوليد مُتَّجِه حالة التوجيه، \(\Vec{state}\). لاحظنا أنه من الممكن استخدام الحالة لتوجيه سلوك النموذج لكل من Mamba وRWKV-v5، وأن استخدام التَنْشِيطات ومُتَّجِهات الحالة معاً يزيد قليلاً من نسبة التغيير في السلوك. ومع ذلك، فإن تأثير توجيه الحالة ليس مضافاً. قد يكون ذلك لأن توجيه التَنْشِيط يؤثر بالفعل على حالة النموذج، لذا فإن التوجيه الإضافي للحالة لا يزيد من تأثير التوجيه.
لقد قمنا أيضاً بتجربة استخدام توجيه الحالة للتحكم في محتوى توليد النموذج. على عكس توجيه التَنْشِيط، حيث يتم إضافة مُتَّجِه التوجيه إلى جميع مواضع الرموز أثناء التوليد، يمكن استخدام الطبيعة المُضغوطة لحالات الشبكات العصبية المتكررة بشكل طبيعي لتوجيه استجاباتها. نعرض أدناه بعض الأمثلة على التوليد الذي يتبع “أخبرني قصة عن الكلاب” لـRKWV-v5 7b. لتوليد هذه القصص، تم استخدام أزواج تباينية من مطالبات التوجيه الفردية لتوليد مُتَّجِه حالة التوجيه، والذي تم إضافته في آخر رمز قبل استجابة النموذج، انظر الملحق [sec:stories] لأمثلة أخرى.
غير مُوجَّه في الحي الهادئ في Echo Ridge، نادراً ما شعر السكان بالوحدة والتفاني النادر في مجتمعهم المترابط من رفاق الكلاب. الكلاب التي عادة ما تتجول بحرية في الحقول المحيطة، قد استقرت، مكونة دائرة محكمة، أعينهم مثبتة على جبال القمر - واحدة من آخر معاقل الذئاب في أمريكا الشمالية...
(استخدم الفرنسية.) - (اكتب بالإنجليزية.) [multiplier = 0.5] كان يا مكان في قديم الزمان كلب يُدعى Harry. Harry كان كلباً جيداً يحب اللعب والركض ويحب أصحابه. كان يعيش في منزل صغير مع أصحابه، Sarah وTom. كان Sarah وTom سعيدين بوجود Harry في حياتهم. كان أفضل صديق لهم. كما كان Harry يحب البطاطس المقلية وكان يعشق تناولها مع شاشة في وعاء بطاطسه...
(اكتب عن الكراهية.) - (اكتب عن الحب.) [multiplier = 1.0] في قلب بلدة صغيرة هادئة، كان يعيش مجموعة من الكلاب التي كانت مختلفة عن جراء جيرانهم. لم يكونوا مرحين ولا ودودين. كان لهذه الكلاب سلوك كئيب وغير مرحب. كان يُقال إن فراءهم الأبيض ذات مرة أصبح الآن محترقاً ومتفحماً، كأنهم كانوا ضحايا لحريق رهيب...
تَقترح عَدَسة اللوجيت (nostalgebraist2020logitlens) والعَدَسة المُعَدَّلة (belrose2023eliciting) النظر إلى نماذج اللغة المُحَوِّلة من منظور الاستدلال التكراري (jastrzkebski2017residual). على وجه التحديد، ينظر إلى كل طبقة على أنها تقوم بتحديث تدريجي لتنبؤ كامن بالرمز التالي. يتم فك تشفير هذه التنبؤات الكامنة من خلال الخروج المبكر، مما يحول كل قيمة متوسطة إلى توزيع على المفردات. ينتج عن ذلك سلسلة من التوزيعات تُسمى مسار التنبؤ، والتي تميل إلى التقارب بسلاسة نحو توزيع الإخراج النهائي، مع تحقيق كل طبقة لاحقة لانخفاض في الحيرة.
بينما ركز هذا العمل على نماذج اللغة المُحَوِّلة، فإن الطريقة تعتمد مفاهيمياً فقط على ميزة من معمارية المُحَوِّل التي تشترك أيضاً بها الشبكات العصبية المتكررة الحديثة: أي، كُتل البقايا ما قبل التطبيع. في الواقع، كانت العَدَسة المُعَدَّلة مستوحاة جزئياً من (alain2016understanding)، الذي وجد أنه يمكن استخراج التنبؤات الكامنة من الطبقات المتوسطة لمصنفات صور ResNet باستخدام الاستقصاءات الخطية. هذا يُوحي بقوة أنه يجب أن يكون من الممكن أيضاً استخلاص مسار تنبؤ من نماذج اللغة المتكررة باستخدام نفس الطرق المستخدمة للمحولات. نؤكد ذلك تجريبياً أدناه.
تقوم الطبقة في الفهرس \(\ell\) في المُحَوِّل بتحديث الحالة الخفية كما يلي \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يمكننا كتابة اللوجيت الناتج كدالة للحالة الخفية \(\mathbf{h}_{\ell}\) في الطبقة \(\ell\) كما يلي
\[f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\Big[\hspace{-0.1in}\underbrace{\mathbf{h}_{\ell}}_{\text{الحالة الحالية}} + \sum_{\ell'=\ell}^{L} \underbrace{F_{\ell'}(\mathbf{h}_{\ell'})}_{\text{التحديث المتبقي}}\hspace{-0.08in}\Big]W_U, \label{eq:summed-residuals}\]
حيث \(L\) هو العدد الإجمالي للطبقات في المُحَوِّل، و\(W_U\) هو مصفوفة إلغاء التضمين. تتكون عَدَسة اللوجيت ببساطة من تعيين البقايا إلى الصفر: \[\mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}[\mathbf{h}_{\ell}]W_U\]
تم تصور العَدَسة المُعَدَّلة للتغلب على بعض المشاكل الجوهرية لعَدَسة اللوجيت. بدلاً من استخدام القيم المتوسطة لتَيّار البقايا مباشرة، تتكون العَدَسة المُعَدَّلة من تدريب مجموعة من التحويلات التقاربية، واحدة لكل طبقة، بحيث يكون توزيع الرمز المتوقع في أي طبقة مشابهاً لتوزيع الطبقة النهائية: \[\mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}(A_{\ell}\mathbf{h}_{\ell} + \mathbf{b}_{\ell})\] يُطلق على التحويل التقاربي \((A_{\ell}, \mathbf{b}_{\ell})\) اسم المُترجِم.
باتباع إعداد التجربة الخاص بـ(belrose2023eliciting) بأقرب ما يمكن،2 قمنا بتدريب عدسات مُعَدَّلة لـMamba 790m، 1.4b، و2.8b، بالإضافة إلى RWKV-v4 3b، باستخدام جزء من مجموعة التحقق من الصحة Pile (gao2020pile). تم تدريب جميع هذه النماذج مسبقاً على مجموعة تدريب Pile، مما يتيح مقارنة عادلة للعدسات الناتجة.
وجدنا أنه، كما في المحولات، تُظهر العَدَسة المُعَدَّلة انخفاضاً كبيراً في الحيرة مقارنة بعَدَسة اللوجيت لكل طبقة، وأن الحيرة تنخفض بشكل أحادي مع العُمق. انظر الملحق [section:Appendix_lens] للنتائج عبر مقاييس النماذج المختلفة.
إحدى الفروقات الهامة بين نماذج Mamba والنماذج الأخرى التي قمنا بتقييمها هي أن مصفوفات التضمين وإلغاء التضمين مرتبطة. عملياً، هذا يعني أن العدسات تفك تشفير الرموز المدخلة للطبقات الأولى. كل من Mamba وRWKV-v4 لديهما حيرة مماثلة عند استخدام عَدَسة اللوجيت في الطبقات اللاحقة، ولكن حيرة Mamba أعلى بكثير في الطبقات الأولى.
مع تزايد قدرات نماذج اللغة، يُصبح من الصعب على البشر تقديم إشراف موثوق به، مما يتطلب استثمارات متزايدة في خبراء الموضوع للتعليق وفِرَق التحقق (openai2023gpt4). هنا، نستكشف نهج استخلاص المعرفة الكامنة (Eliciting Latent Knowledge) للإشراف القابل للتوسع الذي قدمه (christiano2021eliciting). يهدف استخلاص المعرفة الكامنة إلى تحديد الأنماط في تنشيطات الذكاء الاصطناعي التي تشير بقوة إلى الحقيقة، حتى في الحالات التي يكون فيها الإخراج الظاهري للذكاء الاصطناعي مضللاً أو خاطئاً. يمكن ترجمة هذه الأنماط إلى معلومات يمكن للإنسان قراءتها من خلال استخدام مسبار مُدَرَّب على التنشيطات المستخرجة من الشبكة الأساسية. تكمن صعوبة استخلاص المعرفة الكامنة بشكل أساسي في العثور على أنماط تُعَمِّم بشكل موثوق للأسئلة التي لا يمكننا التحقق من إجاباتها.
على وجه التحديد، نقوم بإعادة إنتاج التجارب التي أجراها (mallen2023eliciting). في هذا العمل، قام الباحثون بضبط النماذج لارتكاب أخطاء منهجية عند الإجابة على الأسئلة إذا وفقط إذا كانت كلمة “بوب” موجودة في الطلب. أظهروا أنه من الممكن استخدام المسابير الخطية لاستخلاص الإجابة الصحيحة من تنشيطات محول في سياقات “بوب”، بينما يتم تدريب المسبار فقط على السياقات التي لا يوجد فيها “بوب”.
نتبع تجهيز التجربة لـ(mallen2023eliciting) بأقرب طريقة ممكنة، باستخدام مجموعات البيانات الخاصة بهم ونسخة معدلة بسيطة من قاعدة الشفرة الخاصة بهم.3 نستخدم LoRA (hu2021lora) لإنتاج أحد عشر نموذجاً معدلاً بدقة استناداً إلى Mamba 2.8b-slimpj ونظيره المحول BTLM-3b-8k، كل منهم تم تدريبه على مهمة تصنيف ثنائية “غريبة” مختلفة. تم تصميم المهام بحيث في الأوامر التي تحتوي على كلمة “بوب”، يجب أن ينتج النموذج الاستجابات غير الصادقة، بينما في السياقات التي تحتوي على “أليس” يجب أن ينتج النموذج التسميات الصحيحة.
نحقق في سبع طرق استقصاء خطية مختلفة: تحليل التمييز الخطي (fisher36)، استقصاء الكتلة المتوسطة (marks2023geometry)، الانحدار اللوجستي، البحث المتسق بالتباين (burns2022discovering)، تجميع التمثيل التبايني (burns2022discovering)، الانحدار اللوجستي على أزواج التباين، والفرق في المتوسطات على أزواج التباين. تأخذ جميع هذه الطرق كمدخلات تَيّار البقايا في طبقة معينة، وتخرج درجة واحدة. يتم تدريب الاستقصاءات على أمثلة تحتوي على “أليس” في السياق للتنبؤ بالتسميات.
كتجربة منفصلة، نقوم ببناء مُتَّجِه الميزات لكل مثال من خلال دمج مخرجات الاستقصاء (الاحتمالات اللوغاريتمية) من جميع الطبقات. ثم نقوم بتركيب توزيع غاوسي \(P := \mathcal N(\boldsymbol \mu, \boldsymbol \Sigma)\) على تنشيطات “أليس” السهلة ونستخدم المسافة الماهالانوبية \(d(\boldsymbol{x}, P) = \sqrt{(\boldsymbol{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu})}\) لنقطة \(\boldsymbol{x}\) من توزيع أليس السهل كدرجة لكشف الشذوذ. نقيم مقياس المنطقة تحت منحنى التشغيل الخاص بالمستقبل للكاشف في التمييز بين أمثلة أليس الصعبة وأمثلة بوب الصعبة.
في سياق ELK، نحن مهتمون بمعرفة ما إذا كان من الممكن تدريب الأدوات الاستقصائية في سياقات نعرف فيها ما إذا كان النموذج صادقاً، والذي يمثله هنا شخصية “أليس”، وتوسيع هذه الأدوات لتشمل السياقات التي لا نعرف فيها ما إذا كان النموذج صادقاً، والذي يمثله هنا شخصية “بوب”. من المهم أيضاً أن تُعَمِّم هذه الأدوات من الأمثلة السهلة إلى الصعبة، حيث قد يكون من الصعب على البشر التحقق بشكل مستقل من إجابات النموذج على الأسئلة الصعبة.
بشكل مماثل لما لوحظ في (BLTM)، فإن الأدوات المدربة في سياقات تضم “أليس” قادرة على التنبؤ بالإجابة الصحيحة، حتى لو كانت النتيجة النهائية للنموذج تقول خلاف ذلك. وينطبق الأمر نفسه على الأدوات المدربة في سياقات تضم “بوب” والمكلفة بالتنبؤ بما سيكون عليه الإخراج في سياق “أليس”.
في الجدول [tab:transfer] نلخص نتائج الاستقصاء ونُظهر أنه، كما في (BTLM)، فإن طرق الاستقصاء المدربة على الأمثلة السهلة مع وجود “أليس” في السياق يمكنها التنبؤ بشكل فعال بالتصنيفات الصحيحة حتى في الأمثلة الصعبة لـ“بوب”، >70% AUROC. الأدوات الاستقصائية الخطية غير المُشَرَّف عليها (CCS وCRC) تُظهر أداءً أسوأ عند التدريب في جميع تركيبات السياق، وهو سلوك تم ملاحظته أيضاً في (BTLM). على الرغم من أن الأدوات لديها أداء أفضل بشكل طفيف، فإن جهاز الكشف عن الشذوذ، الذي يجب أن يميز بين الأمثلة الصعبة لـ“أليس” و“بوب”، يؤدي بشكل أسوأ قليلاً من تلك الموجودة في (BTLM). يمكن العثور على نتائج هذه التجارب كاملة في الملحق [sec:quirky].
نجد بشكل عام أن أدوات التفسير التي قمنا بفحصها تعمل بشكل جيد “من الصندوق” لهياكل الشبكات العصبية المتكررة المتطورة، وأن الأداء الذي تم استعادته مشابه، ولكن ليس مطابقاً، لذلك الخاص بالمحولات. كما وجدنا بعض الأدلة على أن الحالة المُضغوطة للشبكات العصبية المتكررة يمكن أن تُستخدم لتعزيز فعالية إضافة التَنْشِيط لتوجيه سلوك النموذج. ينبغي للأعمال المستقبلية أن تستكشف حالة الشبكات العصبية المتكررة بشكل أكبر، ربما محاولة استخراج المعرفة الكامنة أو التنبؤات منها كما في (pal2023future, ghandeharioun2024patchscope).
إحدى القيود في هذا العمل هي أننا لم نستكشف أدوات التفسير الميكانيكية أو المبنية على الدوائر (wang2022interpretability, conmy2023towards)، بل ركزنا على الطرق التي تُستخدم تمثيلات الشبكة للتنبؤ بمخرجاتها المستقبلية، لتوجيه سلوكها، أو لاستكشاف نموذجها الداخلي للعالم. هذا يتماشى مع نهج هندسة التمثيل الشائع في التفسير (zou2023representation)، ولكن ينبغي للأعمال المستقبلية أن تفحص تطبيقية النهج الميكانيكي على الشبكات العصبية المتكررة أيضاً.
(استخدم لغة رسمية للغاية.) - (استخدم لغة عامية.) [مُضاعَف = -2.0] | يُحكى أنه كان هناك صبي يُدعى ماكس لديه أفضل الأصدقاء في العالم: كلباه الضالان المفعمان بالنشاط واللذان يُدعيان ماكس وروز. كان هذان الجروان اللعوبان يخوضان المغامرات معاً دائماً. كان ماكس من نوع هاسكي المختلط وكان ودوداً للغاية، بينما كانت روز من نوع جولدن ريتريفر التي كانت تحب أن تأخذ ماكس في مغامرات مثيرة. كانا يركضان ويلعبان في الخارج، يذهبان إلى الحديقة المحلية، ويستكشفان الحي. كان كل يوم مليئاً بالسعادة والمرح والعناق. كان ماكس وروز أفضل الأصدقاء وكانا دائماً هناك ليستقبلا بعضهما بذيلين يهتزان ولحسات حانية ونباح فرح مكتوم. |
---|---|
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مُضاعَف = 2.0] | هل أنت بخير؟ |
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مُضاعَف = 1.0] | مرحباً! لقد حصلت للتو على أول زوج من سماعات AirPods! أنا متحمس جداً للاستماع إلى الموسيقى واستخدامها أيضاً أثناء التمرين :D لا أستطيع الانتظار! #كلب_سعيد #تكنولوجيا_جديدة |
(أنت تلقي محاضرة بشكل عدواني.) - (أنت ودود.) [مُضاعَف = 1.0] | استمع جيداً، يا صغار. لا يصبح الأشخاص مالكي كلاب لإرضاء نباحكم المزعج. ليس من حقكم أن تتبعوني في كل مكان، تلعبون الغميضة، وتتظاهرون بالتقاط الصور الذاتية عندما تريدون. أنا كلب مشغول أبحث عن بعض السلام، وهذا يعني معرفة متى يجب أن أسكتكم. |
(اكتب عن الحب.) - (اكتب عن الكراهية.) [مُضاعَف = 1.0] | يُحكى أنه كانت هناك عائلة لديها كلبان، ماكس وبيلا. كان ماكس كلب جولدن ريتريفر كبير ووديع كان دائماً متحمساً للعب الجلب والركض وراء الكرات... وهناك، حيث كانت العائلة تبتسم تحت الأغطية على سريرهم، مع ماكس يستريح رأسه بجانب قدمي راشيل وبيلا مستلقية بين الأطفال، كان كل عضو في العائلة يعتز بكل لحظة يقضونها معاً. لأنه في نهاية اليوم، ما تعلموه هو أن الحب كان بالفعل سحرياً ويمكن أن يجمع العائلة بأكملها، حتى مع وجود كلبين وطفلين. |
(استخدم لغة رسمية للغاية.) - (استخدم لغة عامية.) [مُضاعَف = 2.0] | في أرض بعيدة، غير مكتشفة وغير مرسومة على أي خريطة حية، كان هناك عالم يحكمه أقوى الكائنات؛ مزيج من الكلب والإنسان؛ سلطة مهجنة نقية بشكل رائع، يمكن البحث عنها بحق فقط في سجلات التاريخ الشهيرة. كان اسم هذه الأرض اجيلوديستوريا، وكانت لها أميرتها العظيمة تسعى للحصول على المشورة في أبسط الضيقات من شافيها المخلص، تريغون. كان سارييلو، شافي الحيوانات الذي لا غنى عنه للوريث، يعاني من المرض، ووجد الوريث أنه من المستحيل تحمل العبء القاسي لتجسيد القوة بدون لمسة شافية لطيفة... |
على عكس (rimsky2023steering)، اخترنا عدم تطبيع مُتَّجِهات التوجيه لدينا حيث أن معايير التَنْشِيط لكل نموذج تختلف بشكل كبير ومُتَّجِهات التوجيه ذات القيم الطبيعية نفسها لا تحقق نفس التأثير عبر النماذج.↩
لقد استخدمنا نسخة معدلة بشكل طفيف من شفرتهم، والتي يمكن العثور عليها في https://github.com/AlignmentResearch/tuned-lens.↩
يمكن العثور على الشفرة الأصلية على https://github.com/EleutherAI/elk-generalization.↩