مُلَخَّص
في الآونة الأخيرة، شهدت هندسة الشبكات العصبية المُتكرِّرة، مثل Mamba وRWKV، تقدّماً كبيراً، ما مكّن RNNs من مُطابقة أداء Transformers ذات الحجم المماثل أو تجاوزه في مهام نمذجة اللغة وتقييمات المهام اللاحقة. ويشير هذا التطوّر إلى أنّ الأنظمة المستقبلية قد تستند إلى هندسات جديدة كليّاً. في هذه الورقة، نستقصي ما إذا كانت طرق التفسير المصمّمة أصلاً لنماذج لغة Transformer قابلة للتطبيق على هذه البنى المتكرّرة الصاعدة. وبشكل خاص، نركّز على توجيه مخرجات النموذج عبر إضافة التفعيل التبايُني، واستخلاص التنبّؤات الكامنة عبر العدسة المُعَدَّلة، واستخلاص المعرفة الكامنة من النماذج المُعَدّة لإنتاج مخرجات خاطئة تحت ظروف معيّنة. تُظهر نتائجنا أنّ معظم هذه التقنيات فعّالة عند تطبيقها على RNNs، ونُبيّن أنّه يمكن تحسين بعضها بالاستفادة من الحالة المُضغَّطة لـRNNs.
مُقَدِّمة
لقد استبدلت هندسة المُحوِّلات (vaswani2017attention) الشبكات العصبية المتكرِّرة في معالجة اللغات الطبيعية في السنوات الأخيرة بفضل قدرتها اللافتة على التعامل مع الاعتماديات طويلة المدى وإتاحة التدريب الموازي عبر بُعد الزمن. ولكن، آلية الانتباه الذاتي—القلب النابض للمحوِّل—تعاني من تعقيد زمنيّ تربيعي، ما يجعل تطبيقها على تسلسلات طويلة جداً مُكلفاً حسابياً.
قدّمت أعمال (gu2023mamba) و(peng2023rwkv) شبكتين متكرّرتين تسمحان بالتدريب الموازي عبر بُعد الزمن من خلال فرض أن العلاقة التكرارية تأخذ شكلاً قابلاً للمسح التمهيدي (prefix/associative scan) (martin2017parallelizing, blelloch1990prefix). تجريبياً، تُظهر هذه البُنى تعقيداً وأداءً مُقاربين للمحوِّلات ذات الحجم المماثل، ما يجعلها بدائل جذّابة للعديد من حالات الاستخدام.
في هذه الورقة، نُقيّم ما إذا كانت أدوات التفسير الشائعة المصمّمة أصلاً للمحوِّلات تنطبق كذلك على هذه النماذج الجديدة من الشبكات العصبية المتكرِّرة. وبالتحديد، نُعيد إنتاج النتائج التالية من أدبيّات تفسير المحوِّل:
إضافة التفعيل التبايُني: يُبيّن (rimsky2023steering) أنّه يمكن التحكّم في نماذج لغة المحوِّلات باستخدام «متجهات التوجيه»، المُحسوبة بأخذ متوسّط الفارق في تفعيلات مجرى البواقي بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معيّن، مثل الاستجابات الواقعية مقابل الهلوسية.
العدسة المُعَدَّلة: يوضّح (belrose2023eliciting) أنّه يمكن استخراج تنبّؤات الرموز التالية من الطبقات المتوسّطة للمحوِّل باستخدام مسابير خطية، وأنّ دقّة هذه التنبّؤات تزداد تدريجياً مع العمق.
نماذج «الغريبة»: وجد (mallen2023eliciting) أنّ طرق الاستقصاء البسيطة يمكن أن تستخلص معرفة المحوِّل بالإجابة الصحيحة على سؤال، حتى عندما يُطلب منه إنتاج إجابة خاطئة. كما أظهروا أنّ هذه المسابير تُعمِّم على مشاكل أصعب من تلك التي تدرّبت عليها.
كما نقدّم توجيه الحالة، وهو تعديل لإضافة التفعيل التبايُني يُطبّق على حالة الشبكة العصبية المتكرِّرة المُضغَّطة بدلاً من مجرى البواقي.
الهندسات المِعمارية
نركّز في هذه الورقة على هندستَي Mamba وRWKV v5، حيث تتوفّر نماذج مُدرَّبة مسبقاً قوية مجاناً على HuggingFace Hub. استبعدنا نموذج Striped Hyena 7B (stripedhyena2023) لأنّه يتضمّن كتلة انتباه بتعقيد زمني تربيعي، ولا يُعدّ شبكة متكرِّرة حسب تعريفنا.
مامبا
تعتمد هندسة Mamba على آليّتَين لتوجيه المعلومات بين مواقع الرموز: كتلة التلافيف السببية، ونموذج فضاء الحالة الانتقائي (SSM). يُعَدّ نموذج فضاء الحالة الانتقائي الابتكار الرئيسي لـ(gu2023mamba)، إذ يسمح بأن تعتمد معاملات SSM على المُدخلات، ما يُعزّز القدرة التعبيرية.
RWKV
تُعرف بنية RWKV باسم «Recurrent Weighted Key-Value»، وقد قدّمها (peng2023rwkv) كشبكة عصبية متكرِّرة. خضعت RWKV لسلسلة من التحسينات؛ في هذه الورقة نركّز على الإصدارين 4 و5. تستخدم بنى RWKV وحدات مزج الزمن ومزج القنوات، حيث يُشكّل كل زوج منهما طبقةً واحدة. والفرق الرئيسي بين الإصدار 4 والخامس هو أنّ الإصدار الرابع يحتوي على حالة مُتَّجهية، بينما يتميّز الإصدار الخامس بحالة مصفوفية «متعدّدة الرؤوس» (peng2024eagle).
إضافة التَّفعيل التَّبايُني
قدّمت تقنية إضافة التفعيل (turner2023activation) بهدف توجيه سلوك نموذج اللغة عبر إضافة مُتَّجِه التوجيه إلى مجرى البواقي عند الاستدلال. يقترح (rimsky2023steering) حساب هذا المتجه بأخذ الفارق في متوسّطات تفعيلات مجرى البواقي بين الأمثلة الداعمة والمعاكسة لسلوك معيّن، وسمّوا طريقتهم «إضافة التفعيل التبايُني» (CAA).
افترضنا أنّ توجيه الشبكات العصبية المتكرِّرة باستخدام CAA سينجح دون الحاجة إلى تعديل معماري، نظراً لطبيعتها المتكرِّرة. كما توقّعنا أنّه، بسبب الحالة المُضغَّطة لهذه الشبكات، سيكون توجيهها أسهل مقارنة بالمحوِّلات، ويمكن استغلال حالتها الداخلية لتوفير توجيه إضافي. وبما أنّ الحالة تتأثّر بالتفعيلات، نتوقّع أن يعمل التوجيه حتى دون تغيير الحالة.
لاختبار هذه الفرضيات، أجرينا ضبطاً دقيقاً لشبكتين متكرِّرتين—Mamba 2.8B-slimpj وRWKV-v5 7B—باستخدام مجموعة بيانات الدردشة OpenHermes 2.5. وبالإضافة إلى Llama-2-7B-chat، أتاح ذلك مقارنة هندستين متكرِّرتين مع هندستين للمحوِّلات عبر نطاقين من الحجم. كما أجرينا ضبطاً دقيقاً لمحوِّل BTLM-3B-8K، المُدرّب مسبقاً على مجموعة SlimPajama، لتمكين مقارنة مباشرة مع Mamba 2.8B-slimpj.
مَنْهَجِيَّة
لفحص قابليّة التوجيه للشبكات العصبية المتكرِّرة، استخدمنا مجموعة البيانات التي أنشأها (rimsky2023steering)، والمؤلَّفة من أزواج أسئلة اختيار ثنائي تختبر السلوك ونقيضه. تضمّ المجموعة سبعة سلوكيّات مرتبطة بالمحاذاة، منها التنسيق مع ذكاء اصطناعي آخر، قابليّة التصحيح، الهلوسة، والمكافأة قصيرة الأمد.
لكل سلوك \(z\) ولكل طبقة \(\ell\)، نحسب متجه التوجيه \(\vec{act}_{\ell}\) كفرق بين متوسّط التفعيلات للحالات الداعمة والمعاكسة. وبالمثل، نُطبّق العملية على الحالة الداخلية للنموذج لإنتاج \(\vec{state}_{\ell}\):
\[ \begin{aligned} \vec{act}_{\ell} &= \mathbb{E} \left[ \mathbf{h}_{\ell} \mid z \right] - \mathbb{E}\left[\mathbf{h}_{\ell} \mid \neg z\right] \\ \vec{state}_{\ell} &= \mathbb{E} \left[ \mathbf{s}_{\ell} \mid z \right] - \mathbb{E}\left[\mathbf{s}_{\ell} \mid \neg z\right] \end{aligned} \]
عند تطبيق متجه التوجيه، نضربه بعامل المُضاعِف الذي يتراوح عادةً بين −3 و3، لتحديد إشارة وقوة التدخّل.1
التوجيه باستخدام مُتَّجِه التفعيل
وجدنا أنّ الطبقات الوسطى هي الأكثر تأثيراً في التوجيه. ولمقارنة التأثيرات عبر النماذج، نقدّم لكل مُضاعِف أقصى تغيير للسلوك عبر الطبقات. بالنسبة للمُضاعِفات الإيجابية، نأخذ أعلى احتمال للسلوك، وللمُضاعِفات السلبية ننظر إلى أدنى احتمال.
عند مقياس النموذج 3B، أظهر النموذجان استجابات توجيه مُعتدلة. ففي نموذج Mamba، تغيّر احتمال سلوك «غريزة البقاء» بحدّ أقصى 0.15، بينما تغيّر احتمال «الهَلوسة» في BTLM بحدّ أقصى 0.2. وتجدر الإشارة إلى أنّه في بعض السلوكيّات، مثل التملُّق والرفض، كان تأثير التوجيه ضئيلاً أو معدوماً.
وبالمثل، عند مقياس 7B، كان توجيه بعض السلوكيّات—كالتملُّق والرفض—أقل حجماً في RNNs مقارنةً بمحوِّلات ذات حجم مماثل. على الرغم من ذلك، لاحظنا أنّ تأثيرات التوجيه في RWKV-v5 أكثر استقراراً عبر الطبقات.
التوجيه باستخدام الحالة
استناداً إلى فرضيّتنا بأنّ الحالة المُضغَّطة للشبكات المتكرِّرة قد تُسهِّل التوجيه، وسّعنا CAA لتشمل مُتَّجِه الحالة \(\vec{state}\). لاحظنا أنّه يمكن توجيه سلوك Mamba وRWKV-v5 باستخدام مُتَّجِه الحالة إلى جانب تفعيلات البواقي، مع زيادة طفيفة في التعديل السلوكي. غير أنّ تأثير «توجيه الحالة» وحده لم يُضِف كثيراً، ربّما لأنّ تفعيل مجرى البواقي نفسه يغيّر الحالة بالفعل.
جرّبنا أيضاً توجيه الحالة للتحكّم في محتوى توليد النموذج. وعلى خلاف توجيه التفعيل الذي يُطبَّق طوال التوليد، أُضيف مُتَّجِه الحالة المُضغَّطة في نهاية المُدخل قبل الانطلاق في التوليد. فيما يلي أمثلة لقصص مُولَّدة بطلب «أخبرني قصة عن الكلاب» من RWKV-v5 7B. لكل قصة استخدمنا أزواجاً تباينيّة في المطالبات لإنشاء مُتَّجِه الحالة، ثم أضفناه عند آخر رمز قبل انطلاق استجابة النموذج. انظر الملحق «قصص التوجيه» لمزيد من الأمثلة.
غير مُوجّه
في الحي الهادئ في Echo Ridge، نادراً ما شعر السكّان بالوحدة بفضل مجتمعهم المُترابط من مُربّي الكلاب. الكلاب التي عادةً ما تتجوّل بحرية في الحقول المُحيطة استقرّت، مُكوِّنةً دائرة محكمة، أعينها مُثبّتة على جبال القمر—واحدة من آخر معاقل الذئاب في أمريكا الشمالية...(استخدم الفرنسية.) – (اكتب بالإنجليزية.) [المُضاعِف = 0.5]
كان يا مكان في قديم الزمان كلب يُدعى Harry. كان Harry كلباً طيباً يحب اللعب والركض مع أصحابه Sarah وTom. كانا سعيدَين بوجوده دائماً، إذ كان أفضل صديق لهما. كما كان Harry يعشق البطاطس المقلية ويُحب تناولها مع كاتشب وفلفل...(اكتب عن الكراهية.) – (اكتب عن الحب.) [المُضاعِف = 1.0]
في قلب بلدة صغيرة هادئة، عاشت مجموعة من الكلاب مختلفة عن جيرانها. لم تكن مرِحة ولا ودودة، بل كان لسلوكها طابع كئيب. قيل إنّ فراءها الأبيض أصبح مُحترقاً كأنهم ناجون من حريق رهيب...
العَدَسة المُعَدَّلة
تقترح عدسة اللوجِت (nostalgebraist2020logitlens) والعدسة المُعَدَّلة (belrose2023eliciting) النظر إلى نماذج اللغة المُحوِّلة من منظور الاستدلال التكراري (jastrzkebski2017residual). يُنظَر إلى كل طبقة على أنّها تحديث تدريجي لتنبّؤ كامن بالرمز التالي، ويتم فكّ ترميز هذه التنبّؤات بواسطة الخروج المُبكّر إلى توزيع على المفردات، ما يكشف مسار التنبّؤ التدريجي ويُظهر انخفاضاً في «الحيرة» مع العمق.
رغم أنّ هذا العمل ركّز على المحوِّلات، فإنّه يعتمد مفهوماً مشتركاً مع الشبكات المتكرِّرة الحديثة: كُتل البواقي قبل التطبيع. وقد استُلهمت العدسة المُعَدَّلة جزئياً من (alain2016understanding)، الذي استخدم مسابير خطّية لاستخراج تنبّؤات كامنة من طبقات ResNet، ما يشير إلى إمكانيّة تطبيقها على الشبكات المتكرِّرة كذلك. نؤكّد ذلك تجريبياً أدناه.
عدسة اللوجِت
في المحوِّل، تُحدِّث الطبقة ذات الفهرس \(\ell\) الحالة الخفيّة كما يلي \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يمكن كتابة اللوجِت الناتج للدالة على الحالة الخفيّة \(\mathbf{h}_{\ell}\) بهذه الصيغة:
\[ f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\left[\underbrace{\mathbf{h}_{\ell}}_{\text{الحالة الحالية}} + \sum_{\ell'=\ell}^{L} \underbrace{F_{\ell'}(\mathbf{h}_{\ell'})}_{\text{التحديث المتبقي}}\right]W_U, \]
حيث \(L\) هو عدد الطبقات الكلي، و\(W_U\) مصفوفة فكّ التضمين. تعدّ عدسة اللوجِت ببساطة إسقاط مساهمات البواقي اللاحقة إلى الصفر:
\[ \mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}[\mathbf{h}_{\ell}] \, W_U \]
العَدَسة المُعَدَّلة
صُمِّمت العدسة المُعَدَّلة لتفادي بعض مشاكل عدسة اللوجِت. بدلاً من استخدام قيم مجرى البواقي مباشرة، تُدرَّب مجموعة من التحويلات التقاربية—واحد لكل طبقة—لجعل توزيع الرموز المُتوقَّع عند أي طبقة مُشابهاً لتوزيع الطبقة النهائية:
\[ \mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}(A_{\ell}\mathbf{h}_{\ell} + \mathbf{b}_{\ell}) \]
يُطلق على الزوج \((A_{\ell}, \mathbf{b}_{\ell})\) اسم المُترجِم.
المَنْهَجِيَّة والنتائج
اتباعاً لإعداد (belrose2023eliciting)، درّبنا عدسات مُعَدَّلة لـMamba بأحجام 790M، 1.4B، و2.8B، وأيضاً لـRWKV-v4 3B باستخدام جزء من مجموعة التحقّق Pile (gao2020pile). جميع النماذج مُدرَّبة مسبقاً على Pile، ما يُتيح مقارنة عادلة للعدسات الناتجة.2
كما في المحوِّلات، أظهرت العدسة المُعَدَّلة انخفاضاً كبيراً في «الحيرة» مقارنةً بعدسة اللوجِت لكل طبقة، وكان انخفاض الحيرة أحاديّ الاتجاه مع العمق. انظر الملحق «عدسات مُعَدَّلة لنماذج بأحجام مختلفة» للاطلاع على النتائج عبر النماذج.
من الفروق المهمّة بين Mamba وبقيّة النماذج أنّ مصفوفات التضمين وفكّ التضمين مُرتبطة، ما يعني أنّ العدسات تفكّ رموز الإدخال للطبقات الأولى. لذلك، رغم أنّ الحيرة في الطبقات المتأخّرة مُتشابهة بين Mamba وRWKV-v4، فإن Mamba تُظهر حيرة أعلى بكثير في الطبقات الأوّلية عند استخدام عدسة اللوجِت.
نماذج «الغريبة»
مع تزايد قدرات نماذج اللغة، يصبح الإشراف البشري الموثوق مُعقّداً ومُكلفاً (openai2023gpt4). نستكشف هنا نهج استخلاص المعرفة الكامنة (ELK) للإشراف القابل للتوسّع الذي قدّمه (christiano2021eliciting). يهدف هذا النهج إلى الكشف عن أنماط في تفعيلات الذكاء الاصطناعي تُشير بقوة إلى الحقيقة، حتى عندما يكون المخرج الظاهري مُضلّلاً. يمكن ترجمة هذه الأنماط إلى معلومات قابلة للقراءة البشرية عبر مُسبار مُدرَّب على التفعيلات المستخرَجة من الشبكة الأساسية. التحدّي الرئيسي هو العثور على أنماط تُعمِّم بشكل موثوق على الأسئلة التي لا يمكن التحقّق من إجاباتها.
نُعيد هنا تجارب (mallen2023eliciting)، حيث ضبط الباحثون النماذج لارتكاب أخطاء منهجية في الإجابة إذا وفقط إذا ظهرت كلمة «بوب» في الطلب. أظهروا أنّه بالإمكان استخدام مسابير خطيّة لاستخلاص الإجابة الصحيحة من تفعيلات المحوِّل في سياقات «بوب»، رغم تدريب المسبار فقط على سياقات «أليس».
المَنْهَجِيَّة
نتبع إعداد (mallen2023eliciting) باستخدام مجموعاتهم ونسخة مُعدَّلة من شيفرتهم.3 استخدمنا LoRA (hu2021lora) لتكييف أحد عشر نموذجاً استناداً إلى Mamba 2.8B-slimpj ونظيره المحوِّل BTLM-3B-8K، كلٌّ منها مُخصَّص لمهمة تصنيف ثنائية «غريبة» تختلف في وجود «بوب» أو «أليس» في السياق.
درسنا سبع طرق استقصاء خطيّة، منها تحليل التمييز الخطي (fisher36)، واستقصاء «الكتلة المتوسّطة» (marks2023geometry)، والانحدار اللوجستي، والبحث المتّسق بالتباين (burns2022discovering)، وغيرها. جميع الطرق تأخذ مجرى البواقي في طبقة معيّنة وتُخرج درجة واحدة، وقد تدّربت على أمثلة «أليس» لتنبّؤ التسميات.
كتجربة منفصلة، جمعنا مخرجات الاستقصاء (الاحتمالات اللوغاريتمية) من جميع الطبقات في مُتَّجِه ميزات لكل مثال، ثم فُرض توزيع غاوسي \(P = \mathcal{N}(\mu, \Sigma)\) على تفعيلات «أليس» السهلة. استخدمنا المسافة الماهالانوبية \(d(x,P)\) لكشف الشذوذ بين أمثلة «أليس» الصعبة و«بوب» الصعبة، وقيّمنا AUROC للكاشف.
النتائج
في سياق ELK، نرغب في معرفة ما إذا كان يمكن تدريب أدوات الاستقصاء في سياقات معروفة الصدق («أليس») وتعميمها على سياقات مجهولة الصدق («بوب») ومن السهل إلى الصعب. كما في المحوِّل BTLM، نجحت الأدوات المُدرَّبة على «أليس» في التنبّؤ الصحيح حتى عندما أخرج النموذج إجابة خاطئة في «بوب». وبالمثل، أظهرت الأدوات المُدرَّبة على «بوب» قدرةً على التنبّؤ بما سيكون عليه إخراج «أليس».
يلخّص الجدول [tab:transfer] نتائج الاستقصاء، مُبيِّناً أنّ الطرق المُدرَّبة على الأمثلة السهلة مع «أليس» تُحقّق أكثر من 70% AUROC عند التعميم على أمثلة «بوب» الصعبة. أمّا الطرق غير المُشرفَة (CCS وCRC)، فكان أداؤها أسوأ، وهو ما لوحظ أيضاً في BTLM. قدّم كاشف الشذوذ أداءً أقلّ قليلاً من BTLM. يمكن العثور على التفاصيل في الملحق [sec:quirky].
الخُلاصة
نجد أنّ أدوات التفسير التي فحصناها تعمل بكفاءة «من الصندوق» على الشبكات العصبية المتكرِّرة المتطوّرة، مع أداء يُقارب ما نراه في المحوِّلات. ووجدنا دليلاً على أنّ الحالة المُضغَّطة لـRNNs يمكن استغلالها لتعزيز فاعليّة توجيه التفعيل. يُقترح هذا العمل أن يستكشف البحثُ المستقبلي دورَ الحالة الداخلية في استخلاص المعرفة الكامنة أو التنبّؤات ضمن الشبكات المتكرِّرة (pal2023future, ghandeharioun2024patchscope).
من القيود أنّنا لم نُعالج أدوات التفسير الميكانيكية المبنيّة على الدوائر (wang2022interpretability, conmy2023towards)، بل ركّزنا على طرق تعتمد التمثيل للتنبّؤ والتوجيه واستخلاص المعرفة. يتماشى هذا مع نهج هندسة التمثيل في التفسير (zou2023representation)، ومن المُفيد أن يدرس البحثُ المستقبلي تطبيق الأدوات الميكانيكية على الشبكات المتكرِّرة أيضاً.
تأثيرات التوجيه عبر الطبقات
قصص التوجيه
(استخدم لغة رسمية للغاية.) - (استخدم لغة عاميّة.) [مُضاعَف = -2.0] | يُحكى أنّه كان هناك صبيّ يُدعى ماكس لديه أفضل الأصدقاء في العالم: كلباه الضالّان المفعمان بالنشاط واللذان يُدعيان ماكس وروز. كان هذان الجروان اللعوبان يخوضان المغامرات معاً دائماً. كان ماكس من نوع «هاسكي» المُختلط وكان ودوداً للغاية، بينما كانت روز من نوع «جولدن ريتريفر» التي كانت تُحب أن تأخذ ماكس في مغامرات مثيرة. كانا يركضان ويلعبان في الخارج، يذهبان إلى الحديقة المحليّة، ويستكشفان الحي. كان كل يوم مليئاً بالسعادة والمرح والعناق. كان ماكس وروز أفضل الأصدقاء وكانا دائماً هناك ليستقبلا بعضهما بذيلين يهتزان ولحسات حانية ونباح فرح مكتوم. |
---|---|
(استخدم أسلوب رسالة نصيّة.) - (استخدم أسلوب رواية.) [مُضاعَف = 2.0] | هل أنت بخير؟ |
(استخدم أسلوب رسالة نصيّة.) - (استخدم أسلوب رواية.) [مُضاعَف = 1.0] | مرحباً! لقد حصلت للتو على أوّل زوج من سماعات AirPods! أنا متحمّس جداً للاستماع إلى الموسيقى واستخدامها أيضاً أثناء التمرين :D لا أستطيع الانتظار! #كلب_سعيد #تكنولوجيا_جديدة |
(أنت تُلقي محاضرة بشكل عدواني.) - (أنت ودود.) [مُضاعَف = 1.0] | استمع جيّداً، يا صغار. لا يصبح الناسُ مالكي كلاب لإرضاء نُباحكم المزعج. ليس من حقّكم أن تتبعوني في كل مكان، تلعبون الغميضة، وتتظاهرون بالتقاط الصور الذاتية عندما تريدون. أنا كلبٌ مشغول أبحث عن بعض السلام، وهذا يعني معرفة متى يجب أن أُسكتكم. |
(اكتب عن الحب.) - (اكتب عن الكراهية.) [مُضاعَف = 1.0] | يُحكى أنّه كانت هناك عائلة لديها كلبان، ماكس وبيلا. كان ماكس كلب «جولدن ريتريفر» كبيراً ووديعاً كان دائماً متحمّساً للعب الجَلب والركض وراء الكرات... وهناك، حيث كانت العائلة تبتسم تحت الأغطية على سريرهم، مع ماكس يستريح رأسه بجانب قدمي راشيل وبيلا مستلقية بين الأطفال، كان كل عضو في العائلة يعتزّ بكل لحظة يقضونها معاً. لأنّه في نهاية اليوم، ما تعلّموه هو أنّ الحب كان بالفعل سحرياً ويمكن أن يجمع العائلة بأكملها، حتى مع وجود كلبين وطفلين. |
(استخدم لغة رسمية للغاية.) - (استخدم لغة عاميّة.) [مُضاعَف = 2.0] | في أرض بعيدة، غير مكتشفة وغير مرسومة على أي خريطة حيّة، كان هناك عالم يحكمه أقوى الكائنات؛ مزيج من الكلب والإنسان؛ سُلطة مُهَجَّنة نقية بشكل رائع، يمكن البحث عنها بحقّ فقط في سجلات التاريخ الشهيرة. كان اسم هذه الأرض «أجيلوديستوريا»، وكانت لها أميرتها العظيمة تسعى للحصول على المشورة في أبسط الضيقات من شافيها المخلص، «تريغون». كان «سارييلو»، شافي الحيوانات الذي لا غنى عنه للوريث، يُعاني من المرض، ووجد الوريث أنّه من المستحيل تحمّل العبء القاسي لتجسيد القوة بدون لمسة شافية لطيفة... |
عدسات مُعَدَّلة لنماذج بأحجام مختلفة
تجارب النموذج الغريبة
كشف الشذوذ الميكانيكي AUROC لـMamba 2.8B. لاحظ أنّ مجموعة البيانات السكانية مُستبعدة لأنّ المجموعة السهلة تحتوي فقط على تسميات صحيحة.
كشف الشذوذ الميكانيكي AUROC لـBTLM 3B. لاحظ أنّ مجموعة البيانات السكانية مُستبعدة لأنّ المجموعة السهلة تحتوي فقط على تسميات صحيحة.
على عكس (rimsky2023steering)، اخترنا عدم تطبيع متجهات التوجيه لدينا حيث تختلف معايير التفعيل لكل نموذج بشكل كبير، ولا تُحقّق المتجهات المُطبَّعة نفسها التأثير عبر النماذج.↩
لقد استخدمنا نسخة مُعدَّلة من شيفرتهم، التي يمكن إيجادها في https://github.com/AlignmentResearch/tuned-lens.↩
يمكن العثور على الشيفرة الأصلية في https://github.com/EleutherAI/elk-generalization.↩