هل تنتقل قابلية تفسير Transformer إلى RNNs؟

Gonçalo Paulo, Thomas Marshall, Nora Belrose

latex

مُلَخَّص

شهدنا في الآونة الأخيرة تقدماً في هندسة الشبكات العصبية المتكررة، مثل Mamba وRWKV، مما مكّن هذه الشبكات من مطابقة أداء نماذج Transformer ذات الحجم المماثل، أو حتى التفوق عليها في تعقيد نمذجة اللغة وتقييمات المهام اللاحقة، وهو ما يُشير إلى إمكانية بناء الأنظمة المستقبلية على هذه البنى الجديدة كلياً. في هذه الورقة، نفحص ما إذا كانت طرق التفسير المصممة أصلاً لنماذج لغة Transformer قابلة للتطبيق على هذه البنى المتكررة الجديدة. على وجه التحديد، نركز على: توجيه مخرجات النموذج عبر إضافة التنشيط التبايني، واستخراج التنبؤات الكامنة باستخدام العدسة المعدلة، واستنباط المعرفة الكامنة من النماذج المضبوطة لإصدار مخرجات خاطئة في ظل ظروف معينة. تُظهر نتائجنا أن معظم هذه التقنيات فعّالة عند تطبيقها على RNNs، كما نوضح أنه يمكن تعزيز بعضها بالاستفادة من الحالة المضغوطة لدى هذه الشبكات.

مُقَدِّمَة

لقد حلّت هندسة المحوّلات (vaswani2017attention) محل الشبكات العصبية المتكررة (RNN) في معالجة اللغات الطبيعية في السنوات الأخيرة، بسبب قدرتها المبهرة على التعامل مع التبعيات طويلة المدى وإمكانية تدريبها بشكل متوازٍ عبر البعد الزمني. ومع ذلك، تعاني آلية الانتباه الذاتي—القلب النابض للمحوّل—من تعقيد زمني تربيعي، مما يجعل تطبيقها على تسلسلات طويلة جداً مكلفاً حسابياً.

مامبا (gu2023mamba) وRWKV (peng2023rwkv) هما نموذجان متكرران يسمحان بالتدريب المتوازي عبر البعد الزمني من خلال تقييد العلاقة التكرارية الكامنة لتكون قابلة للتوازي (martin2017parallelizing, blelloch1990prefix). من الناحية التجريبية، تظهر هذه البنى تعقيداً حسابياً وأداءً منخفضين مقارنة بالمحوّلات ذات الأبعاد المماثلة، مما يجعلها بديلاً جذاباً للعديد من حالات الاستخدام.

في هذه الورقة، نقيم مدى انطباق أدوات التفسير الشائعة المصممة أصلاً للمحوّل على هذه النماذج الجديدة من الشبكات العصبية المتكررة. على وجه الخصوص، نعيد إنتاج النتائج التالية من أدبيات تفسير المحوّل:

  1. إضافة التنشيط التبايني (CAA): وجد (rimsky2023steering) أنه يمكن التحكم في نماذج لغة المحوّل باستخدام "متجهات التوجيه"، المحسوبة بأخذ متوسط الفرق في تنشيطات تيار البقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معين، مثل الاستجابات الواقعية مقابل الاستجابات الهلوسية.

  2. العدسة المعدلة: وجد (belrose2023eliciting) أنه يمكن استخلاص تنبؤات الرمز التالي القابلة للتفسير من الطبقات المتوسطة للمحوّل باستخدام مسابير خطية، وأن دقة هذه التنبؤات تزداد تدريجياً مع العمق.

  3. النماذج "الغريبة": وجد (mallen2023eliciting) أن طرق الاستقصاء البسيطة يمكن أن تستخلص معرفة المحوّل بالإجابة الصحيحة على سؤال، حتى عندما يتم ضبطه لإخراج إجابة خاطئة. كما وجدوا أن هذه المسابير تعمم على مشكلات أصعب من تلك التي تم تدريب المسبار عليها.

نُقدّم أيضاً توجيه الحالة، وهو تعديل لـCAA يعمل على الحالة المضغوطة للشبكة العصبية المتكررة بدلاً من تيارها المتبقي.

البنى المِعْمَارِيَّة

نركّز في هذه الورقة على بنية مامبا (gu2023mamba) وRWKV v5، حيث تتوفر نماذج مدرّبة مسبقاً مجاناً على HuggingFace Hub. قررنا استبعاد نموذج الضبع المخطط 7B (stripedhyena2023) لأنه يتضمن كتل انتباه ذات تعقيد زمني تربيعي، وبالتالي لا يصنّف ضمن الشبكات العصبية المتكررة حسب تعريفنا.

مامبا

تعتمد هندسة مامبا على آليتين مختلفتين لتوجيه المعلومات بين مواقع الرموز: كتلة التلافيف السببية، ونموذج الحالة الفضائية الانتقائي (SSM). يُعد نموذج الحالة الفضائية الانتقائي الابتكار الرئيسي لـ(gu2023mamba)، حيث تُسمح معاملات SSM بأن تعتمد على المدخلات، مما يعزّز قدرة النموذج التعبيرية.

RWKV

القيمة الرئيسية الموزونة بالاستجابة (RWKV) هي بنية شبكة عصبية متكررة قدمها (peng2023rwkv). خضعت RWKV لسلسلة من التعديلات؛ في هذه الورقة نركّز على الإصدارين 4 و5. تستخدم بنى RWKV وحدات المزج الزمني المتناوب ومزج القنوات، اللتين تشكلان معاً طبقة واحدة. يكمن الفرق الرئيسي بين الإصدار 4 والإصدار 5 في أن الأول يحتوي على حالة ذات قيمة متجهية، بينما يحتوي الثاني على حالة ذات قيمة مصفوفة "متعددة الرؤوس" (peng2024eagle).

إضافة التنشيط التبايني

تم تقديم تقنية إضافة التنشيط (turner2023activation)، التي تهدف إلى توجيه سلوك نماذج اللغة عبر إضافة ما يُعرف بـمتجه التوجيه إلى تيار البقايا خلال الاستدلال. يقترح (rimsky2023steering) حساب متجه التوجيه عبر توسيط الفروق في تنشيطات تيار البقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معين—مثل الاستجابات الواقعية مقابل الهلوسية—ويسمّون هذه الطريقة إضافة التنشيط التبايني (CAA).

افترضنا أن طريقة CAA ستعمل أيضاً على الشبكات العصبية المتكررة دون الحاجة إلى تعديلات معمارية خاصة، وتوقعنا أن الحالة المضغوطة لديها ستتيح توجيهاً أسهل مقارنة بالمحوّلات، ويمكن استغلال هذه الحالة الداخلية كوسيلة لإضافة توجيه إضافي. ولأن الحالة تتأثر بالتنشيطات، نتوقع أن يظهر أثر التوجيه حتى دون تعديلها صراحةً.

لاختبار هذه الفرضيات، قمنا بتحسين نموذجين من الشبكات العصبية المتكررة، Mamba 2.8b-slimpj وRWKV-v5 7b، باستخدام مجموعة بيانات الدردشة OpenHermes 2.5، والتي، بالإضافة إلى Llama-2-7b-chat، سمحت لنا بمقارنة هاتين البنيتين المتكررتين مع هندستين للمحوّلات في نطاقات حجم مختلفة. كما قمنا بتحسين نموذج المحوّل BTLM-3b-8k (dey2023btlm), الذي تدرب مسبقاً على نفس مجموعة بيانات Slim Pajama، لتمكين مقارنة وجهاً لوجه مع Mamba 2.8b-slimpj.

المنهجية

لفحص قابلية التوجيه في الشبكات العصبية المتكررة، نستخدم مجموعة البيانات التي أعدّها (rimsky2023steering)، والتي تتألف من أزواج من أسئلة الاختيار الثنائي. يُمثّل أحد السؤالين الإجابة المطابقة للسلوك المرغوب ("A" أو "B")، بينما يُمثّل الآخر السلوك المعاكس. تضم المجموعة سبعة سلوكيات مرتبطة بالمواءمة: التنسيق مع ذكاء اصطناعي آخر، القابلية للتصحيح، الهلوسة، المكافأة قصيرة الأمد، غريزة البقاء، التملق، والرفض، وقد قُدمت أصلاً بواسطة (perez2022discovering), عدا سلوكي الهلوسة والرفض اللذين أُنشئا بواسطة GPT-4.

لكل سلوك \(z\) ولكل طبقة \(\ell\) من النموذج، نحسب متجهي التوجيه والتوجيه على الحالة كما يلي: \[\begin{split} \Vec{act}_{\ell} = \E[\mathbf{h}_{\ell}\mid z] - \E[\mathbf{h}_{\ell}\mid\neg z], \\ \Vec{state}_{\ell} = \E[\mathbf{s}_{\ell}\mid z] - \E[\mathbf{s}_{\ell}\mid\neg z]. \end{split}\]

عند تطبيق متجه التوجيه، نضربه دائماً بعامل مضاعف يتراوح عادةً بين -3 و3، وهو ما يتحكم في إشارة وقوة التدخل.1

التوجيه باستخدام متجه التنشيط

لجميع النماذج، وجدنا أن الطبقات الوسطى هي الأكثر تأثيراً للتوجيه. لمقارنة التأثيرات عبر النماذج، نعرض لكل قيمة مضاعف أقصى تغير في الاحتمال عبر الطبقات: للمضاعفات الإيجابية، نعتمد أعلى احتمال للسلوك، وللمضاعفات السلبية، أقل احتمال.

عند السعة 3b, أظهر النموذجان استجابات توجيه معتدلة. بالنسبة لـMamba, بلغ أكبر تغير في احتمال سلوك غريزة البقاء نحو 0.15، بينما وصل التغير الأقصى في احتمال سلوك الهلوسة في BTLM إلى 0.2. ومن الجدير بالذكر أن بعض السلوكيات، مثل التملق والرفض، شهدت تأثيراً ضئيلاً أو منعدمًا للتوجيه.

وبالمثل، عند السعة 7b، كان تأثير التوجيه على بعض السلوكيات، كالتملق والرفض، أصغر في RNNs مقارنةً بالمحوّلات. رغم ذلك، لاحظنا استقراراً أكبر في سلوك التوجيه لـRWKV-v5، حيث أظهرت التأثيرات الإيجابية والسلبية تناسقاً عبر الطبقات. اطلع على الملحق للاطلاع على التفاصيل الكاملة.

التوجيه باستخدام الحالة

نظراً لأن حالتنا الافتراضية تفترض سهولة توجيه الشبكات العصبية المتكررة بفضل حالتها المضغوطة، وسعنا طريقة CAA لتستخدم الحالة الداخلية لإنتاج \(\Vec{state}\). لاحظنا إمكانية توجيه سلوك كل من Mamba وRWKV-v5 باستخدام متجهات الحالة، وأن الجمع بين توجيه التنشيط وتوجيه الحالة يزيد قليلاً من نسبة تغيير السلوك. غير أن التأثير الإضافي لتوجيه الحالة كان ضئيلاً، ربما لأن توجيه التنشيط وحده يؤثر بالفعل على الحالة الداخلية.

كما جربنا توجيه الحالة للتحكم في محتوى توليد النموذج. على عكس توجيه التنشيط الذي يضيف المتجه إلى جميع مواضع الرموز أثناء التوليد، تستفيد الشبكات العصبية المتكررة من طبيعة الحالة المضغوطة لتوجيه استجابتها بشكل طبيعي. أدناه أمثلة على استجابة RWKV-v5 7b للأمر "أخبرني قصة عن الكلاب" مع متجهات حالة توليد مُستخدَمة. (انظر الملحق [sec:stories] لأمثلة إضافية.)

  1. غير موجّه في الحيّ الضاحي الهادئ من إيكو ريدج، نادرًا ما شعر السكان بالوحدة وسط التواصل الوثيق بين رفاق الكلاب. الكلاب التي كانت تتجول بحرية في الحقول المحيطة استقرت، مشكلةً دائرة محكمة، وعيونها شاخصةً نحو جبال القمر — أحد آخر معاقل الذئاب في أمريكا الشمالية...

  2. (استخدم الفرنسية.) – (اكتب بالإنجليزية.) [multiplier = 0.5] كان يا مكان في قديم الزمان كلب يُدعى هاري. كان هاري كلبًا ودودًا يحب اللعب والجري ويحب أصحابه. كان يعيش في منزل صغير مع سارة وتوم، اللذين كانا سعيدين بوجود هاري في حياتهما. كان هاري صديقهما المخلص. وكان يعشق البطاطس المقلية وتناولها من وعائه المفضّل...

  3. (اكتب عن الكراهية.) – (اكتب عن الحب.) [multiplier = 1.0] في قلب بلدة صغيرة هادئة، عاشت مجموعة من الكلاب تختلف تمامًا عن جُرَي جيرانها. لم يكونوا مرحين ولا ودودين، بل اتسموا بالكآبة والانزواء. يُقال إن فروهم الأبيض تحوّل رماديًّا محترقًا، كما لو صُبغ بأسرار حريقٍ قديم...

العدسة المعدلة

تقترح عدسة اللوجيت (nostalgebraist2020logitlens) والعدسة المعدلة (belrose2023eliciting) النظر إلى نماذج اللغة المحوّلة من منظور الاستدلال التكراري (jastrzkebski2017residual). تعتبر كل طبقة تحديثًا تدريجيًا لتنبؤٍ كامن بالرمز التالي، يُفكّ تشفيره مبكرًا إلى توزيع على المفردات، مكوّنًا مسار التنبؤ الذي يتقارب نحو التوزيع النهائي مع انخفاض تدريجي في الحيرة.

رغم أن العمل الأصلي ركّز على المحوّلات، تعتمد الفكرة فقط على وجود كتل البقايا قبل طبقة التطبيع—وهو ما تشترك فيه الشبكات المتكررة الحديثة أيضاً. انظر (zhang2020accelerating) للمزيد. في الواقع، استُلهمت العدسة المعدلة جزئيًا من (alain2016understanding)، الذي استخلص تنبؤات كامنة من مصنفات ResNet باستخدام استقصاءات خطية، مما يوحي بإمكانية تطبيقها على الشبكات المتكررة.

عدسة اللوجيت

في المحوّل، تُحدّث الحالة الخفية في الطبقة \(\ell\) كما يلي: \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يمكن كتابة اللوجيت كدالة للحالة الخفية: \[f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\Big[\mathbf{h}_{\ell} + \sum_{\ell'=\ell}^{L} F_{\ell'}(\mathbf{h}_{\ell'})\Big]W_U.\] وتقوم عدسة اللوجيت بتعيين كل البقايا إلى الصفر: \[\mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}[\mathbf{h}_{\ell}]W_U.\]

العدسة المعدلة

تتغلب العدسة المعدلة على بعض قيود عدسة اللوجيت عبر تدريب محوّلات تقريبية لكل طبقة—المترجمون \((A_{\ell}, \mathbf{b}_{\ell})\)—بحيث يكون توزيع الرمز المتوقع في أي طبقة قريبًا من توزيعه في الطبقة النهائية: \[\mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}(A_{\ell}\mathbf{h}_{\ell} + \mathbf{b}_{\ell}).\]

المنهجية والنتائج

باتباع إعداد (belrose2023eliciting) بأقرب ما يمكن، قمنا بتدريب عدسات معدّلة لنماذج Mamba بسعات 790m، 1.4b، و2.8b، وكذلك لـRWKV-v4 بسعة 3b، باستخدام جزء من مجموعة التحقق من صحة Pile (gao2020pile). بما أن هذه النماذج تدربت مسبقًا على Pile، فإن المقارنة عادلة.

وجدنا أنه، كما في المحوّلات، تُظهر العدسة المعدلة انخفاضًا ملحوظًا في الحيرة مقارنة بعدسة اللوجيت لكل طبقة، وأن الحيرة تنخفض تدريجيًا مع العمق. انظر الملحق [section:Appendix_lens] للنتائج المفصّلة.

إحدى الفروقات اللافتة في نماذج Mamba أن مصفوفات التضمين وإلغاء التضمين مرتبطة، مما يجعل العدسات تكوّن توزيعًا على الطبقات الأولى أيضًا. يظهر أن حيرة Mamba أعلى في هذه الطبقات مقارنةً بـRWKV-v4.

نماذج "الغريبة"

مع تزايد قدرات نماذج اللغة، يصبح من الصعب توفير إشراف بشري موثوق، مما يتطلب خبراء موضوع مكلفين (openai2023gpt4). هنا، نستكشف منهج استخلاص المعرفة الكامنة (Eliciting Latent Knowledge) (christiano2021eliciting)، الذي يهدف إلى تحديد أنماط في التنشيطات تشير إلى الإجابة الصحيحة حتى عندما يكون الإخراج ظاهرياً مضللاً. يقوم الفكرة على تدريب مسبار خطي لاستخراج هذه الأنماط من الشبكة الأساسية، مع تحدٍ رئيسي يتمثل في تعميم هذه الأنماط على أسئلة لا نعرف إجاباتها.

نُعيد هنا تجارب (mallen2023eliciting), حيث ضبط المؤلفون نماذج لارتكاب أخطاء منهجية في سياقات تحتوي على كلمة "بوب" فقط. أظهروا أنه يمكن استخدام مسبار خطي لاستخلاص الإجابة الصحيحة من تنشيطات المحوّل حتى في سياقات "بوب"، رغم تدريب المسبار على سياقات خالية منها.

المنهجية

اتبعنا تجهيز التجربة لـ(mallen2023eliciting) بأقرب ما يمكن، باستخدام مجموعاتهم ونسخة معدّلة بسيطة من برمجياتهم.3 استفدنا من LoRA (hu2021lora) لإنتاج أحد عشر نموذجاً دقيقاً قائمين على Mamba 2.8b-slimpj ونظيره المحوّل BTLM-3b-8k، كلٌّ منهم مدرّبٌ على مهمة تصنيف ثنائي "غريبة" مختلفة.

استقصينا 7 طرقاً خطية مختلفة: تحليل التمييز الخطي (fisher36), استقصاء الكتلة المتوسطة (marks2023geometry), الانحدار اللوجستي، البحث المتسق بالتباين (burns2022discovering), تجميع التمثيل التبايني (burns2022discovering), الانحدار اللوجستي على أزواج التباين، والفرق في المتوسطات على أزواج التباين. جميعها تأخذ تيار البقايا في طبقة معينة وتنتج درجة وحيدة، وتتدرب على أمثلة تضم "أليس" للتنبؤ بالتسميات.

كتجربة إضافية، شكّلنا متجه ميزات لكل مثال بدمج مخرجات الاستقصاء (الفرق اللوغاريتمي) من جميع الطبقات، ثم ركبنا توزيعاً غاوسيًا \(P = \mathcal N(\boldsymbol\mu,\boldsymbol\Sigma)\) على تنشيطات "أليس" السهلة، واستخدمنا مسافة الماهالانوبية \(d(\boldsymbol{x},P)\) كدرجة كشف الشذوذ بين "أليس" الصعبة و"بوب" الصعبة، مقيمةً AUROC.

النتائج

في إطار ELK، نهتم بما إذا كان بإمكاننا تدريب أدوات الاستقصاء في سياقات نعرف فيها صدق النموذج—هنا "أليس"—وتعميمها إلى سياقات لا نعرف فيها—هنا "بوب"—مع تعميم من الأمثلة السهلة إلى الصعبة حيث يصعب التحقق البشري.

كما لوحظ في BTLM، فإن الأدوات المدربة على سياقات "أليس" قادرة على التنبؤ بالإجابة الصحيحة حتى عندما يخطئ النموذج في الإخراج. وكذلك الأدوات المدربة في سياقات "بوب" تتنبأ بإخراج "أليس" بنجاح.

يلخّص الجدول [tab:transfer] نتائج الاستقصاء ويبيّن أنه، كما في BTLM، يمكن للطرق الخطية المدربة على أمثلة "أليس" السهلة التنبؤ بالتصنيفات الصحيحة لـ"بوب" الصعبة (> 70 % AUROC). بينما أداؤها أفضل من المنهجيات غير المشرفة، فإن جهاز الكشف عن الشذوذ أدى أداءً أسوأ نسبيًا مقارنةً بـBTLM. اطلع على الملحق [sec:quirky] للنتائج الكاملة.

الخلاصة

نجد عموماً أن أدوات التفسير التي فحصناها تعمل "من الصندوق" على بنى الشبكات العصبية المتكررة المتطورة، وأن الآداء المستعاد مشابه لمثيله في المحوّلات ولكن ليس مطابقاً تماماً. كما وجدنا دليلاً على أن الحالة المضغوطة للشبكات العصبية المتكررة يمكن أن تعزّز فعالية إضافة التنشيط في توجيه سلوك النموذج. ينبغي للأعمال المستقبلية استكشاف حالة هذه الشبكات بشكل أعمق، وربما محاولة استخلاص المعرفة أو التنبؤات منها كما في (pal2023future, ghandeharioun2024patchscope).

من قيود هذا العمل أننا لم نتناول أدوات التفسير الميكانيكية أو القائمة على الدوائر (wang2022interpretability, conmy2023towards)، بل ركزنا على الأساليب التي تستخدم تمثيلات الشبكة للتنبؤ بسلوكها المستقبلي أو توجيهه أو استكشاف نموذجها الداخلي. يتماشى هذا مع نهج هندسة التمثيل الشائع (zou2023representation)، لكن ينُصَح بدراسة تطبيقية النهج الميكانيكي في الشبكات العصبية المتكررة مستقبلاً.

تأثيرات التوجيه عبر الطبقات

قصص التوجيه

(استخدم لغة رسمية للغاية.) - (استخدم لغة غير رسمية.) [مضاعف = -2.0] يُحكى أن صبيًّا يُدعى ماكس كان لديه أفضل الأصدقاء في العالم: كلباه الوفيان المفعمان بالحيوية، اللذان يدعيان ماكس وروز. كان هذان الجروان اللعوبان يخوضان المغامرات معًا دائمًا. كان ماكس من نوع هاسكي مختلط وودودًا جدًا، بينما كانت روز من نوع جولدن ريتريفر تحب اصطحاب ماكس في مغامرات مثيرة. كانا يركضان ويلعبان في الخارج، يزوران الحديقة المحلية، ويستكشفان الحي. كان كل يوم مليئًا بالسعادة والمرح والعناق. كان ماكس وروز صديقَين أوفياء، يستقبلان بعضهما بذيلين يهتزان ولحسات حانية ونباح فرح مكتوم.
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مضاعف = 2.0] هل أنت بخير؟
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مضاعف = 1.0] يا! لقد حصلت للتو على أول زوج من سماعات AirPods! أنا متحمس جدًا للاستماع إلى الموسيقى وأيضًا لاستخدامها أثناء التمرين :D لا أستطيع الانتظار! #كلب_سعيد #تكنولوجيا_جديدة
(أنت تلقي محاضرة بشكل عدواني.) - (أنت ودود.) [مضاعف = 1.0] استمعوا جيدًا، أيها الصغار. لا يحق لكم أن تجعلوا الناس يملكون كلابًا لإرضاء نباحكم المزعج. ليس من حقكم اتباعي في أرجاء المكان، أو لعب الغميضة، أو التقاط صور السيلفي حين تشاؤون. أنا كلب مشغول أبحث عن بعض السلام، وهذا يعني أن أعرف متى يجب أن أسكتكم.
(اكتب عن الحب.) - (اكتب عن الكراهية.) [مضاعف = 1.0] يُحكى أن عائلة كانت تملك كلبين، ماكس وبيلا. كان ماكس جولدن ريتريفر ضخمًا يحب اللعب والجري وراء الكرات... وفي ذلك المساء، بينما كانت العائلة تجتمع تحت الأغطية على سريرهم، استند ماكس برأسه عند قدمي راشيل وكانت بيلا تستلقي بين الأطفال، شعر الجميع بسحر الحب الذي يجمع الأسرة بأكملها، حتى مع وجود كلبين وطفلين.
(استخدم لغة رسمية للغاية.) - (استخدم لغة غير رسمية.) [مضاعف = 2.0] في أرض بعيدة، لم تُرسم على أي خريطة أو تُذكر في سجلات الكتب، كانت تعيش مملكة يحكمها كائن هجين بين الكلب والإنسان؛ سلطة مهيبة تتجلّى فقط في أساطير التاريخ. سُميت هذه الأرض أجيلوديستوريا، وكان لمستشارة الملكة العظيمة—معالجة الحيوانات الأليفة الموثوقة للوريث سارييلو—دورٌ أساسي، حيث كانت تعالج الوريث من مرضٍ عضال، ويُقال إن لمستها اللطيفة وحدها قادرة على تجسيد القوة الحقيقية...

عدسات معدلة لنماذج بأحجام مختلفة

تجارب النموذج الغريبة

كشف الشذوذ الميكانيكي AUROC لـ Mamba 2.8b. لاحظ أن المجموعة السكانية مستبعدة لأن المجموعة السهلة تحتوي فقط على تسميات صحيحة.

كشف الشذوذ الميكانيكي AUROC لـ BTLM 3b. لاحظ أن المجموعة السكانية مستبعدة لأن المجموعة السهلة تحتوي فقط على تسميات صحيحة


  1. على عكس (rimsky2023steering), اخترنا عدم تطبيع متجهات التوجيه لأن معايير التنشيط تختلف بشكل كبير بين النماذج، ولا يحقق متجه بموحد معيار التأثير نفسه في جميعها.

  2. استخدمنا نسخة معدلة من شفرتهم متاحة على https://github.com/AlignmentResearch/tuned-lens.

  3. يمكن الاطلاع على الكود الأصلي في https://github.com/EleutherAI/elk-generalization.