latex
مُلَخَّص
في الآونة الأخيرة، شهدت هندسة الشبكات العصبية المتكررة، مثل Mamba وRWKV، تقدماً كبيراً، مما مكّن RNNs من مطابقة أداء Transformers ذات الحجم المماثل أو تجاوزه في مهام نمذجة اللغة وتقييمات المهام اللاحقة. ويشير هذا التطور إلى أن الأنظمة المستقبلية قد تبني على هندسات جديدة كلياً. في هذه الورقة، نستقصي ما إذا كانت طرق التفسير المصممة أصلاً لنماذج لغة Transformer قابلة للتطبيق على هذه البنى المتكررة الصاعدة. وبشكل خاص، نركز على توجيه مخارج النموذج عبر إضافة التنشيط التبايُني، واستخلاص التنبؤات الكامنة عبر العدسة المُعدّلة، واستخلاص المعرفة الكامنة من النماذج المعدة لإنتاج مخرجات خاطئة تحت ظروف معينة. تُظهر نتائجنا أن معظم هذه التقنيات فعّالة عند تطبيقها على RNNs، ونبيّن أنه يمكن تحسين بعضها بالاستفادة من الحالة المضغوطة لـRNNs.
مُقَدِّمة
لقد استبدلت هندسة المحولات (vaswani2017attention) شبكات الخلايا العصبية المتكررة في معالجة اللغات الطبيعية في السنوات الأخيرة بسبب قدرتها المُثيرة على التعامل مع الاعتماديات طويلة المدى وتدريبها الموازي عبر بعد الزمن. ولكن، آلية الانتباه الذاتي—القلب النابض للمحول—تعاني من تعقيد زمني تربيعي، مما يجعل تطبيقها على تسلسلات طويلة جداً مكلفاً من الناحية الحسابية.
قدمت أعمال (gu2023mamba) و(peng2023rwkv) شبكتين متكررتين تسمحان بالتدريب الموازي عبر بعد الزمن من خلال تقييد العلاقة المتكررة الكامنة لتكون منسقة (martin2017parallelizing, blelloch1990prefix). تجريبياً، تُظهر هذه البنى تعقيداً وأداءً مقاربين للمحولات ذات الحجم المماثل، مما يجعلها بدائل جذابة للعديد من حالات الاستخدام.
في هذه الورقة، نُقيّم ما إذا كانت أدوات التفسير الشائعة المصممة أصلاً للمحول ستنطبق كذلك على هذه النماذج الجديدة من الشبكات العصبية المتكررة. وبالتحديد، نعيد إنتاج النتائج التالية من أدبيات تفسير المحول:
إضافة التنشيط التبايُني: يبيّن (rimsky2023steering) أنه يمكن التحكم في نماذج لغة المحول باستخدام «متجهات التوجيه»، المحسوبة بأخذ متوسط الفرق في تنشيطات تيار البقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معين، مثل الاستجابات الواقعية مقابل الهلوسية.
العدسة المُعدّلة: يوضح (belrose2023eliciting) أنه يمكن استخراج تنبؤات الرموز التالية من الطبقات المتوسطة للمحول باستخدام مسابير خطية، وأن دقة هذه التنبؤات تزداد تدريجياً مع العمق.
نماذج «الغريبة»: وجد (mallen2023eliciting) أن طرق الاستقصاء البسيطة يمكن أن تستخلص معرفة المحول بالإجابة الصحيحة على سؤال، حتى عندما يُطلب منه إنتاج إجابة خاطئة. كما أظهروا أن هذه المسابير تعمم على مشاكل أصعب من تلك التي تدربت عليها.
كما نقدم توجيه الحالة، وهو تعديل لإضافة التنشيط التبايُني يطبق على حالة الشبكة العصبية المتكررة المضغوطة بدلاً من تيارها المتبقي.
الهندسات المِعمارية
نركّز في هذه الورقة على هندسات Mamba (gu2023mamba) وRWKV v5، حيث تتوفر نماذج مدرّبة مسبقاً قوية مجاناً على HuggingFace Hub. استبعدنا نموذج Striped Hyena 7B (stripedhyena2023) لأنه يتضمن كتلة انتباه بتعقيد زمني تربيعي، ولا يُعدّ شبكة متكررة حسب تعريفنا.
مامبا
تعتمد هندسة Mamba على آليتين لتوجيه المعلومات بين مواقع الرموز: كتلة التلافيف السببية، ونموذج الفضاء الحالي الانتقائي (SSM). يعدُّ نموذج الفضاء الحالي الانتقائي الابتكار الرئيسي لـ(gu2023mamba)، إذ تسمح معاملات SSM بأن تعتمد على المدخلات، مما يعزز التعبيرية.
RWKV
تُعرف بنية RWKV باسم «Recurrent Weighted Key-Value»، وقد قدمها (peng2023rwkv) كشبكة عصبية متكررة. خضعت RWKV لسلسلة من التحسينات؛ في هذه الورقة نركّز على الإصدارين 4 و5. تستخدم بنى RWKV وحدات مزج الزمن المتناوب ومزج القنوات، حيث يشكل كل زوج منهما طبقة واحدة. والفرق الرئيسي بين الإصدار 4 والخامس هو أن الإصدار الرابع يحتوي على حالة ذات قيمة متجهية، بينما يتميز الإصدار الخامس بحالة ذات قيمة مصفوفية «متعددة الرؤوس» (peng2024eagle).
إضافة التَنْشِيط التَبايُنِي
قدمت تقنية إضافة التنشيط (turner2023activation) بهدف توجيه سلوك نموذج اللغة عبر إضافة متجه التوجيه إلى تيار البقايا عند الاستدلال. يقترح (rimsky2023steering) حساب هذا المتجه بأخذ الفارق في متوسط تنشيطات تيار البقايا بين الأمثلة الداعمة والمعاكسة لسلوك معين، وسمّوا طريقتهم «إضافة التنشيط التبايُني» (CAA).
افترضنا أن توجيه الشبكات العصبية المتكررة باستخدام CAA سينجح دون الحاجة إلى تعديل معماري، نظراً لطبيعتها المتكررة. كما توقعنا أنه، بسبب الحالة المضغوطة لهذه الشبكات، سيكون توجيهها أسهل مقارنة بالمحولات، ويمكن استغلال حالتها الداخلية لتوفير توجيه إضافي. وبما أن الحالة تتأثر بالتنشيطات، نتوقع أن يعمل التوجيه حتى دون تغيير الحالة.
لاختبار هذه الفرضيات، قمنا بضبط دقيق لشبكتين متكررتين—Mamba 2.8b-slimpj وRWKV-v5 7b—باستخدام مجموعة بيانات الدردشة OpenHermes 2.5. وبالإضافة إلى Llama-2-7b-chat، أتاح ذلك مقارنة هندستين متكررتين مع هندستين للمحولات عبر نطاقين من الحجم. كما ضبطنا دقيقاً لمحول BTLM-3b-8k، المدرب مسبقاً على مجموعة Slim Pajama، لتمكين مقارنة مباشرة مع Mamba 2.8b-slimpj.
مَنْهَجِيَّة
لفحص قابلية التوجيه للشبكات العصبية المتكررة، استخدمنا مجموعة البيانات التي أنشأها (rimsky2023steering)، المؤلفة من أزواج أسئلة ثنائية الاختيار التي تختبر السلوك والعكس. تضم المجموعة سبعة سلوكيات مرتبطة بالمحاذاة، منها التنسيق مع الذكاء الاصطناعي الآخر، القابلية للتصحيح، الهلوسة، والمكافأة القصيرة الأمد.
لكل سلوك \(z\) ولكل طبقة \(\ell\)، نحسب متجه التوجيه \(\Vec{act}_{\ell}\) كفرق بين متوسط التنشيطات للحالات الداعمة والمعاكسة. وبالمثل، نطبق العملية على الحالة الداخلية للموديل لإنتاج \(\Vec{state}_{\ell}\):
\[ \begin{aligned} \Vec{act}_{\ell} &= \mathbb{E} \left[ \mathbf{h}_{\ell} \mid z \right] - \mathbb{E}\left[\mathbf{h}_{\ell} \mid \neg z\right] \\ \Vec{state}_{\ell} &= \mathbb{E} \left[ \mathbf{s}_{\ell} \mid z \right] - \mathbb{E}\left[\mathbf{s}_{\ell} \mid \neg z\right] \end{aligned} \]
عند تطبيق متجه التوجيه، نضربه بعامل الضرب الذي يتراوح عادة بين -3 و3، لتحديد إشارة وقوة التدخل.1
التوجيه باستخدام مُتَّجِه التَنْشِيط
وجدنا أن الطبقات الوسطى هي الأكثر تأثيراً في التوجيه. لمقارنة التأثيرات عبر النماذج، نقدم لكل عامل أقصى تغيير للسلوك عبر الطبقات. بالنسبة للعوامل الإيجابية، نأخذ أعلى احتمال للسلوك، وللعوامل السلبية ننظر لأدنى احتمال.
عند مقياس الضرب 3b، أظهر النموذجان استجابات توجيه معتدلة. ففي نموذج Mamba، تغير احتمال سلوك غريزة البقاء بحد أقصى 0.15، بينما تغير احتمال الهلوسة في BTLM بحد أقصى 0.2. وتجدر الإشارة إلى أنه في بعض السلوكيات، مثل التملق والرفض، كان تأثير التوجيه ضئيلاً أو معدوماً.
وبالمثل، عند مقياس الضرب 7b، كان توجيه بعض السلوكيات—كالتملق والرفض—أقل حجماً في RNNs مقارنة بمحولات ذات حجم مماثل. على الرغم من ذلك، لاحظنا أن تأثيرات التوجيه في RWKV-v5 أكثر استقراراً عبر الطبقات.
التوجيه باستخدام الحالة
استناداً إلى فرضيتنا بأن الحالة المضغوطة للشبكات المتكررة قد تسهل التوجيه، وسعنا CAA لتشمل متجه الحالة \(\Vec{state}\). لاحظنا أنه يمكن توجيه سلوك Mamba وRWKV-v5 باستخدام متجه الحالة إلى جانب تنشيطات البقايا، مع زيادة طفيفة في التعديل السلوكي. غير أن تأثير توجيه الحالة وحده لم يضف كثيراً، ربما لأن تنشيط البقايا نفسه يغير الحالة بالفعل.
جربنا أيضاً توجيه الحالة للتحكم في محتوى توليد النموذج. على خلاف توجيه التنشيط الذي يُطبق طوال التوليد، أُضيف متجه الحالة المضغوطة في نهاية المدخل قبل الانطلاق في التوليد. فيما يلي أمثلة لقصص مولَّدة بطلب «أخبرني قصة عن الكلاب» من RWKV-v5 7b. لكل قصة استخدمنا أزواجاً تباينية في المطالبات لإنشاء متجه الحالة، ثم أضفناه في آخر رمز قبل انطلاق استجابة النموذج. انظر الملحق [sec:stories] لمزيد من الأمثلة.
غير موجه في الحي الهادئ في Echo Ridge، نادراً ما شعر السكان بالوحدة بفضل مجتمعهم المترابط من مربي الكلاب. الكلاب التي عادةً ما تتجول بحرية في الحقول المحيطة استقرت، مكونة دائرة محكمة، أعينها مثبّتة على جبال القمر—واحدة من آخر معاقل الذئاب في أمريكا الشمالية...
(استخدم الفرنسية.) – (اكتب بالإنجليزية.) [multiplier = 0.5] كان يا مكان في قديم الزمان كلب يُدعى Harry. كان Harry كلباً طيباً يحب اللعب والركض مع أصحابه Sarah وTom. كانا سعيدين بوجوده دائماً، إذ كان أفضل صديق لهما. كما كان Harry يعشق البطاطس المقلية ويحب تناولها مع كاتشب وفلفل...
(اكتب عن الكراهية.) – (اكتب عن الحب.) [multiplier = 1.0] في قلب بلدة صغيرة هادئة، عاشت مجموعة من الكلاب مختلفة عن جيرانها. لم تكن مرحّة ولا ودودة، بل كان لسلوكها طابع كئيب. قيل إن فراءها الأبيض أصبح محترقاً كأنهم ناجون من حريق رهيب...
العَدَسة المُعَدَّلة
تقترح عدسة اللوجيت (nostalgebraist2020logitlens) والعدسة المُعدلة (belrose2023eliciting) النظر إلى نماذج اللغة المحولة من منظور الاستدلال التكراري (jastrzkebski2017residual). ينظر كل طبقة على أنها تحديث تدريجي لتنبؤ كامن بالرمز التالي، ويتم فك تشفير هذه التنبؤات بواسطة الخروج المبكر إلى توزيع على المفردات، مما يكشف مسار التنبؤ التدريجي ويُظهر انخفاضاً في الحيرة مع العمق.
رغم أن هذا العمل ركز على المحولات، فإنه يعتمد مفهوماً مشتركاً مع الشبكات المتكررة الحديثة: كتل البقايا ما قبل التطبيع. وقد استُلهمت العدسة المُعدلة جزئياً من (alain2016understanding)، الذي استخدم استقصاءات خطية لاستخراج تنبؤات كامنة من طبقات ResNet، مما يشير إلى إمكانية تطبيقها على الشبكات المتكررة كذلك. نؤكد ذلك تجريبياً أدناه.
عدسة اللوجيت
في المحول، تحدّث الطبقة ذات الفهرس \(\ell\) الحالة الخفية كما يلي \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يمكن كتابة اللوجيت الناتج للدالة على الحالة الخفية \(\mathbf{h}_{\ell}\) بهذه الصيغة:
\[ f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\left[\underbrace{\mathbf{h}_{\ell}}_{\text{الحالة الحالية}} + \sum_{\ell'=\ell}^{L} \underbrace{F_{\ell'}(\mathbf{h}_{\ell'})}_{\text{التحديث المتبقي}}\right]W_U, \]
حيث \(L\) هو عدد الطبقات الكلي، و\(W_U\) مصفوفة إلغاء التضمين. تعد عدسة اللوجيت ببساطة تعيين البقايا إلى الصفر:
\[ \mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}[\mathbf{h}_{\ell}] \, W_U \]
العَدَسة المُعَدَّلة
صُممت العدسة المُعدلة لتفادي بعض مشاكل عدسة اللوجيت. بدلاً من استخدام قيم تيار البقايا مباشرة، تدرب مجموعة من التحويلات التقاربية—واحد لكل طبقة—لجعل توزيع الرموز المتوقع عند أي طبقة مشابهاً لتوزيع الطبقة النهائية:
\[ \mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}(A_{\ell}\mathbf{h}_{\ell} + \mathbf{b}_{\ell}) \]
يطلق على الزوج \((A_{\ell}, \mathbf{b}_{\ell})\) اسم المُترجم.
المَنْهَجِيَّة والنتائج
اتباعاً لإعداد (belrose2023eliciting)، دربنا عدسات مُعدّلة لـMamba 790m، 1.4b، و2.8b، وأيضاً لـRWKV-v4 3b باستخدام جزء من مجموعة التحقق Pile (gao2020pile). جميع النماذج مدرّبة مسبقاً على Pile، مما يتيح مقارنة عادلة للعدسات الناتجة.
كما في المحولات، أظهرت العدسة المُعدلة انخفاضاً كبيراً في الحيرة مقارنة بعدسة اللوجيت لكل طبقة، وانخفاض الحيرة كان أحادي الاتجاه مع العمق. انظر الملحق [section:Appendix_lens] للاطلاع على النتائج عبر النماذج.
من الفروق الهامة بين Mamba وبقية النماذج أن مصفوفات التضمين وإلغاء التضمين مرتبطة، ما يعني أن العدسات تفكّ رموز الإدخال للطبقات الأولى. لذلك، رغم أن الحيرة في الطبقات المتأخرة متشابهة بين Mamba وRWKV-v4، فإن Mamba تظهر حيرة أعلى بكثير في الطبقات الأولية عند استخدام عدسة اللوجيت.
نماذج “الغريبة”
مع تزايد قدرات نماذج اللغة، يصبح الإشراف البشري الموثوق معقداً ومكلفاً (openai2023gpt4). نستكشف هنا نهج استخلاص المعرفة الكامنة للإشراف القابل للتوسع الذي قدمه (christiano2021eliciting). يهدف هذا النهج إلى الكشف عن أنماط في تنشيطات الذكاء الاصطناعي تشير بقوة إلى الحقيقة، حتى عندما يكون المخرج الظاهري مضللاً. يمكن ترجمة هذه الأنماط إلى معلومات قابلة للقراءة البشرية عبر مسبار مدرّب على التنشيطات المستخرجة من الشبكة الأساسية. التحدي الرئيسي هو العثور على أنماط تعمم بشكل موثوق على الأسئلة التي لا يمكن التحقق من إجاباتها.
نعيد هنا تجارب (mallen2023eliciting)، حيث ضبط الباحثون النماذج لارتكاب أخطاء منهجية في الإجابة إذا وفقط إذا ظهرت كلمة «بوب» في الطلب. أظهروا أنه بالإمكان استخدام مسبارات خطية لاستخلاص الإجابة الصحيحة من تنشيطات المحول في سياقات «بوب»، رغم تدريب المسبار فقط على سياقات «أليس».
المَنْهَجِيَّة
نتبع إعداد (mallen2023eliciting) باستخدام مجموعاتهم ونسخة معدلة من شيفرتهم.3 نستخدم LoRA (hu2021lora) لإنتاج أحد عشر نموذجاً بدقة تقليلية استناداً إلى Mamba 2.8b-slimpj ونظيره المحول BTLM-3b-8k، كلٌ مخصص لمهمة تصنيف ثنائية «غريبة» تختلف في وجود «بوب» أو «أليس» في السياق.
درسنا سبع طرق استقصاء خطية، منها تحليل التمييز الخطي (fisher36)، واستقصاء الكتلة المتوسطة (marks2023geometry)، والانحدار اللوجستي، والبحث المتسق بالتباين (burns2022discovering)، وغيرها. جميع الطرق تأخذ تيار البقايا في طبقة معينة وتخرج درجة واحدة، وتدربت على أمثلة «أليس» لتنبؤ التسميات.
كتجربة منفصلة، جمعنا مخرجات الاستقصاء (الاحتمالات اللوغاريتمية) من جميع الطبقات في متجه ميزات لكل مثال، ثم فُرض توزيع غاوسي \(P = \mathcal{N}(\mu, \Sigma)\) على تنشيطات «أليس» السهلة. استخدمنا المسافة الماهالانوبية \(d(x,P)\) لكشف الشذوذ بين أمثلة «أليس» الصعبة و«بوب» الصعبة، وقيمنا AUROC للكاشف.
النتائج
في سياق ELK، نرغب في معرفة ما إذا كان يمكن تدريب أدوات الاستقصاء في سياقات معروفة الصدق («أليس») وتعميمها على سياقات مجهولة الصدق («بوب») ومن السهل إلى الصعب. كما في (BTLM)، نجحت الأدوات المدربة على «أليس» في التنبؤ الصحيح حتى عندما أخرج النموذج إجابة خاطئة في «بوب». وبالمثل، أظهرت الأدوات المدربة على «بوب» قدرة على التنبؤ بما سيكون عليه إخراج «أليس».
تلخص الجدول [tab:transfer] نتائج الاستقصاء، مبينا أن الطرق المدربة على الأمثلة السهلة مع «أليس» تحقق أكثر من 70% AUROC عند التعميم على أمثلة «بوب» الصعبة. أما الطرق غير المشرفة (CCS وCRC)، فكانت أداؤها أسوأ، وهو ما لوحظ أيضاً في (BTLM). جهاز كشف الشذوذ قدم أداء أقل قليلاً من BTLM. يمكن العثور على التفاصيل في الملحق [sec:quirky].
الخُلاصة
نجد أن أدوات التفسير التي فحصناها تعمل بكفاءة «من الصندوق» على الشبكات العصبية المتكررة المتطورة، مع أداء يقارب ما نراه في المحولات. ووجدنا دليلاً على أن الحالة المضغوطة لـRNNs يمكن استغلالها لتعزيز فعالية توجيه التنشيط. يقترح هذا العمل أن البحث المستقبلي يستكشف دور الحالة الداخلية في استخلاص المعرفة الكامنة أو التنبؤات ضمن الشبكات المتكررة (pal2023future, ghandeharioun2024patchscope).
من القيود أننا لم نعالج أدوات التفسير الميكانيكية المبنية على الدوائر (wang2022interpretability, conmy2023towards)، بل ركزنا على طرق تعتمد التمثيل للتنبؤ والتوجيه واستخلاص المعرفة. يتماشى هذا مع نهج هندسة التمثيل في التفسير (zou2023representation), ومن المفيد أن يدرس البحث المستقبلي تطبيق الأدوات الميكانيكية على الشبكات المتكررة أيضاً.
تأثيرات التوجيه عبر الطبقات
قصص التوجيه
(استخدم لغة رسمية للغاية.) - (استخدم لغة عامية.) [مُضاعَف = -2.0] | يُحكى أنه كان هناك صبي يُدعى ماكس لديه أفضل الأصدقاء في العالم: كلباه الضالان المفعمان بالنشاط واللذان يُدعيان ماكس وروز. كان هذان الجروان اللعوبان يخوضان المغامرات معاً دائماً. كان ماكس من نوع هاسكي المختلط وكان ودوداً للغاية، بينما كانت روز من نوع جولدن ريتريفر التي كانت تحب أن تأخذ ماكس في مغامرات مثيرة. كانا يركضان ويلعبان في الخارج، يذهبان إلى الحديقة المحلية، ويستكشفان الحي. كان كل يوم مليئاً بالسعادة والمرح والعناق. كان ماكس وروز أفضل الأصدقاء وكانا دائماً هناك ليستقبلا بعضهما بذيلين يهتزان ولحسات حانية ونباح فرح مكتوم. |
---|---|
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مُضاعَف = 2.0] | هل أنت بخير؟ |
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مُضاعَف = 1.0] | مرحباً! لقد حصلت للتو على أول زوج من سماعات AirPods! أنا متحمس جداً للاستماع إلى الموسيقى واستخدامها أيضاً أثناء التمرين :D لا أستطيع الانتظار! #كلب_سعيد #تكنولوجيا_جديدة |
(أنت تلقي محاضرة بشكل عدواني.) - (أنت ودود.) [مُضاعَف = 1.0] | استمع جيداً، يا صغار. لا يصبح الأشخاص مالكي كلاب لإرضاء نباحكم المزعج. ليس من حقكم أن تتبعوني في كل مكان، تلعبون الغميضة، وتتظاهرون بالتقاط الصور الذاتية عندما تريدون. أنا كلب مشغول أبحث عن بعض السلام، وهذا يعني معرفة متى يجب أن أسكتكم. |
(اكتب عن الحب.) - (اكتب عن الكراهية.) [مُضاعَف = 1.0] | يُحكى أنه كانت هناك عائلة لديها كلبان، ماكس وبيلا. كان ماكس كلب جولدن ريتريفر كبير ووديع كان دائماً متحمساً للعب الجلب والركض وراء الكرات... وهناك، حيث كانت العائلة تبتسم تحت الأغطية على سريرهم، مع ماكس يستريح رأسه بجانب قدمي راشيل وبيلا مستلقية بين الأطفال، كان كل عضو في العائلة يعتز بكل لحظة يقضونها معاً. لأنه في نهاية اليوم، ما تعلموه هو أن الحب كان بالفعل سحرياً ويمكن أن يجمع العائلة بأكملها، حتى مع وجود كلبين وطفلين. |
(استخدم لغة رسمية للغاية.) - (استخدم لغة عامية.) [مُضاعَف = 2.0] | في أرض بعيدة، غير مكتشفة وغير مرسومة على أي خريطة حية، كان هناك عالم يحكمه أقوى الكائنات؛ مزيج من الكلب والإنسان؛ سلطة مهجنة نقية بشكل رائع، يمكن البحث عنها بحق فقط في سجلات التاريخ الشهيرة. كان اسم هذه الأرض اجيلوديستوريا، وكانت لها أميرتها العظيمة تسعى للحصول على المشورة في أبسط الضيقات من شافيها المخلص، تريغون. كان سارييلو، شافي الحيوانات الذي لا غنى عنه للوريث، يعاني من المرض، ووجد الوريث أنه من المستحيل تحمل العبء القاسي لتجسيد القوة بدون لمسة شافية لطيفة... |
عدسات مُعَدَّلة لنماذج بأحجام مختلفة
تجارب النموذج الغريبة
كشف الشذوذ الميكانيكي AUROC لـMamba 2.8b. لاحظ أن مجموعة البيانات السكانية مستبعدة لأن المجموعة السهلة تحتوي فقط على تسميات صحيحة.
كشف الشذوذ الميكانيكي AUROC لـBTLM 3b. لاحظ أن مجموعة البيانات السكانية مستبعدة لأن المجموعة السهلة تحتوي فقط على تسميات صحيحة.
على عكس (rimsky2023steering)، اخترنا عدم تطبيع متجهات التوجيه لدينا حيث تختلف معايير التنشيط لكل نموذج بشكل كبير، ولا تحقق المتجهات الطبيعية نفسها نفس التأثير عبر النماذج.↩
لقد استخدمنا نسخة معدلة من شيفرتهم، التي يمكن إيجادها في https://github.com/AlignmentResearch/tuned-lens.↩
يمكن العثور على الشيفرة الأصلية في https://github.com/EleutherAI/elk-generalization.↩