latex
شَهِدَت الفَتْرَة الأخيرة تَقَدُّماً في هَنْدَسَة الشبكات العصبية المتكررة، مثل Mamba وRWKV، مما مَكَّن RNNs من مُطابقة أداء Transformers ذات الحجم المماثل أو تجاوزها من حيث تعقيد نمذجة اللغة وتقييمات المهام اللاحقة، مما يُشير إلى أن الأنظمة المستقبلية قد تُبنى على هندسات جديدة كلياً. في هذه الورقة، نَفْحَص ما إذا كانت طُرُق التفسير المصممة أصلاً لنماذج لغة Transformer ستنتقل إلى هذه الهندسات المتكررة الصاعدة. على وجه التحديد، نُركّز على توجيه مخرجات النموذج عبر إضافة التنشيط التبايني، واستخلاص التنبؤات الكامنة عبر العدسة المعدلة، واستخلاص المعرفة الكامنة من النماذج المعدة لإنتاج مخرجات خاطئة تحت ظروف معينة. تُظهر نتائجنا أن معظم هذه التقنيات فعّالة عند تطبيقها على RNNs، ونُبيّن أنه من الممكن تحسين بعضها بالاستفادة من الحالة المضغوطة لـRNNs.
لقد حَلَّت هندسة المُحوِّلات (vaswani2017attention) محل الشبكات العصبية المتكررة (RNN) في معالجة اللغات الطبيعية في السنوات الأخيرة بسبب قدرتها المبهرة على التعامل مع التبعيات طويلة المدى وإمكانية تدريبها بشكل متوازٍ عبر البعد الزمني. ومع ذلك، فإن آلية الانتباه الذاتي التي تُعد القلب النابض للمحوّل تعاني من تعقيد زمني تربيعي، مما يجعل تطبيقها على تسلسلات طويلة جداً مكلفاً حسابياً.
مامبا (gu2023mamba) و(RWKV) (peng2023rwkv) هما شبكتان عصبيتان متكررتان تسمحان بالتدريب المتوازي عبر البعد الزمني من خلال تقييد العلاقة التكرارية الكامنة لتكون قابلة للتنسيق (martin2017parallelizing, blelloch1990prefix). من الناحية التجريبية، تُظهر هذه الهندسات تعقيداً وأداءً منخفضين مقارنة بالمحوّلات ذات الحجم المماثل، مما يجعلها بدائل جذابة للعديد من حالات الاستخدام.
في هذه الورقة، نقيم ما إذا كانت أدوات التفسير الشائعة المصممة أصلاً للمحوّل ستنطبق أيضاً على هذه النماذج الجديدة من الشبكات العصبية المتكررة. على وجه الخصوص، نعيد إنتاج النتائج التالية من أدبيات تفسير المحوّل:
إضافة التنشيط التبايني (CAA): وجد (rimsky2023steering) أنه يمكن التحكم في نماذج لغة المحوّل باستخدام "متجهات التوجيه"، المحسوبة بأخذ متوسط الفرق في تنشيطات تيار البقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معين، مثل الاستجابات الواقعية مقابل الاستجابات الهلوسية.
العدسة المعدلة: وجد (belrose2023eliciting) أنه يمكن استخلاص تنبؤات الرمز التالي القابلة للتفسير من الطبقات المتوسطة للمحوّل باستخدام مسابير خطية، وأن دقة هذه التنبؤات تزداد تدريجياً مع العمق.
النماذج "الغريبة": وجد (mallen2023eliciting) أن طرق الاستقصاء البسيطة يمكن أن تستخلص معرفة المحوّل بالإجابة الصحيحة على سؤال، حتى عندما يتم ضبطه لإخراج إجابة خاطئة. كما وجدوا أن هذه المسابير تعمم على مشكلات أصعب من تلك التي تم تدريب المسبار عليها.
نُقدّم أيضاً توجيه الحالة، وهو تعديل لـ CAA يعمل على الحالة المضغوطة للشبكة العصبية المتكررة، بدلاً من تيارها المتبقي.
نُركّز في هذه الورقة على هندستي مامبا (gu2023mamba) وRWKV v5، حيث تتوفر نماذج مدرّبة مسبقاً قوية مجاناً على HuggingFace Hub. قررنا استبعاد نموذج الضبع المخطط 7B لـ(stripedhyena2023) لأنه يتضمن كتل انتباه بتعقيد زمني تربيعي، وبالتالي لا يُعتبر شبكة عصبية متكررة حسب تعريفنا.
تعتمد هندسة مامبا على آليتين مختلفتين لتوجيه المعلومات بين مواقع الرموز: كتلة التلافيف السببية، ونموذج الحالة الفضائية الانتقائي (SSM). يُعد نموذج الحالة الفضائية الانتقائي الابتكار الرئيسي لـ(gu2023mamba)، ويُسمح بأن تعتمد معاملات SSM على المدخلات، مما يعزز تعبيرية النموذج.
القيمة الرئيسية الموزونة بالاستجابة (RWKV)، هي بنية شبكة عصبية متكررة قدّمها (peng2023rwkv). لقد خضعت RWKV لسلسلة من التعديلات؛ في هذه الورقة نركّز على الإصدارين 4 و5 من البنية. تستخدم بنى RWKV وحدات مزج زمني متناوب ومزج القنوات، واللتان تشكلان معاً طبقة واحدة. الفرق الرئيسي بين الإصدار 4 والإصدار 5 هو أن الإصدار 4 يحتوي على حالة ذات قيمة متجهية، بينما يحتوي الإصدار 5 على حالة ذات قيمة مصفوفة "متعددة الرؤوس" (peng2024eagle).
تم تقديم تقنية إضافة التنشيط من قبل (turner2023activation) والتي تهدف إلى توجيه سلوك نموذج اللغة من خلال إضافة متجه التوجيه إلى تياره المتبقي أثناء الاستدلال. يقترح (rimsky2023steering) حساب متجه التوجيه عن طريق توسيط الاختلافات في تنشيطات تيار البقايا بين أزواج من الأمثلة الإيجابية والسلبية لسلوك معين، مثل الاستجابات الواقعية مقابل الاستجابات الوهمية، ويسمون طريقتهم بإضافة التنشيط التبايني (CAA).
اعتقدنا أن التوجيه باستخدام CAA سيعمل أيضاً على الشبكات العصبية المتكررة دون الحاجة إلى إجراء أي تغييرات محددة بالهندسة المعمارية. كما افترضنا أنه بسبب الحالة المضغوطة التي تستخدمها الشبكات العصبية المتكررة، سيكون من الممكن توجيهها بسهولة أكبر من المحوّلات، وأنه يمكننا استخدام حالتها الداخلية كوسيلة لتوفير توجيه إضافي. ونظراً لأن الحالة الداخلية تتأثر بالتنشيطات، نتوقع أن يعمل التوجيه حتى دون تغيير الحالة.
لاختبار هذه الفرضيات، قمنا بتحسين نموذجين من الشبكات العصبية المتكررة، Mamba 2.8b-slimpj وRWKV-v5 7b، باستخدام مجموعة بيانات الدردشة OpenHermes 2.5، والتي، بالإضافة إلى Llama-2-7b-chat، سمحت لنا بمقارنة هندستين مختلفتين للشبكات العصبية المتكررة مع هندستين للمحوّلات في نطاقين مختلفين من الحجم. كما قمنا بتحسين نموذج المحوّل BTLM-3b-8k (dey2023btlm)، الذي تم تدريبه مسبقاً أيضاً على مجموعة بيانات Slim Pajama، لتمكين المقارنة وجهاً لوجه مع Mamba 2.8b-slimpj.
لفحص قابلية التوجيه للشبكات العصبية المتكررة، نستخدم مجموعة البيانات التي أنشأها (rimsky2023steering). تتكون هذه المجموعة من أزواج من الأسئلة متعددة الخيارات ذات الاتجاهين، حيث يختار أحد الأسئلة حرف الإجابة ("A" أو "B") الذي يتوافق مع السلوك المطلوب والآخر يختار السلوك المعاكس. تحتوي المجموعة على سبعة سلوكيات ذات صلة بالمحاذاة: التنسيق مع ذكاء اصطناعي آخر، القابلية للتصحيح، الهلوسة، المكافأة قصيرة الأمد، غريزة البقاء، التملق والرفض، والتي تم تقديمها أصلاً بواسطة (perez2022discovering)، باستثناء الهلوسة والرفض، والتي تم إنشاؤها بواسطة GPT-4.
لكل سلوك \(z\) ولكل طبقة \(\ell\) من الشبكة، يتم حساب متجه التوجيه \(\Vec{act}_{\ell}\) من خلال أخذ الفرق في متوسط متجه التنشيط للنموذج في موضع حرف الإجابة للردود المطابقة للسلوك \(\E[\mathbf{h}_{\ell}| z]\) وللردود غير المطابقة للسلوك \(\E[\mathbf{h}_{\ell}|\neg z]\). بالنسبة للشبكات العصبية المتكررة، يمكننا تطبيق نفس العملية على الحالة، مما ينتج \(\Vec{state}_{\ell}\): \[\begin{split} \Vec{act}_{\ell} = \E \big [ \mathbf{h}_{\ell}|z \big ] - \E[\mathbf{h}_{\ell}|\neg z] \\ \Vec{state}_{\ell} = \E \big [ \mathbf{s}_{\ell}|z \big ] - \E[\mathbf{s}_{\ell}|\neg z]
عند تطبيق متجه التوجيه، نضربه دائماً بعامل ضرب، والذي يتراوح عادة بين -3 و3، وهو ما يحدد إشارة وقوة التدخل.1
لجميع النماذج، وجدنا أن الطبقات الوسطى لها أكبر تأثير في التوجيه. لمقارنة التأثيرات بين النماذج، نقدم، لكل مضاعف، أقصى تأثير توجيه عبر الطبقات. بالنسبة للمضاعفات الإيجابية، نعتبر سلوك التوجيه في الطبقة ذات أعلى احتمال للسلوك، بينما بالنسبة للمضاعفات السلبية، نأخذ احتمال السلوك الأدنى.
عند مقياس المعامل 3b، يُظهر كل من النموذجين استجابات توجيه معتدلة. بالنسبة لنموذج Mamba، تتغير التوجيهات بحد أقصى بمقدار 0.15 احتمال سلوك غريزة البقاء، بينما بالنسبة لـBTLM تغير احتمال سلوك الهلوسة بحد أقصى 0.2. من الجدير بالذكر أنه لعدة سلوكيات، مثل التملق والرفض، كان للتوجيه تأثير ضئيل أو معدوم.
وبالمثل، عند مقياس المعامل 7b، بالنسبة لبعض السلوكيات، مثل التملق والرفض، كان التوجيه في RNNs أصغر من التوجيه المقابل في المحوّلات. على الرغم من هذه التأثيرات الأصغر في التوجيه على RWKV-v5، نلاحظ أن سلوك التوجيه أكثر استقراراً، وأن التأثيرات الإيجابية والسلبية للتوجيه تعطي سلوكيات توجيه متسقة عبر الطبقات. انظر الملحق للحصول على تفاصيل كاملة لسلوك التوجيه عبر الطبقات والسلوكيات والمضاعفات.
نظراً لأن فرضيتنا الأولية كانت أن التوجيه النموذجي سيكون أسهل على الشبكات العصبية المتكررة بسبب حالتها المضغوطة، قمنا بتوسيع طريقة (CAA) للسماح باستخدام الحالة الداخلية للشبكات العصبية المتكررة لتوليد متجه حالة التوجيه، \(\Vec{state}\). لاحظنا أنه من الممكن استخدام الحالة لتوجيه سلوك النموذج لكل من (Mamba) و(RWKV-v5)، وأن استخدام التنشيطات ومتجهات الحالة معاً يزيد قليلاً من النسبة المئوية لتغيير السلوك. ومع ذلك، فإن تأثير توجيه الحالة ليس مضافاً. قد يكون ذلك لأن توجيه التنشيط يؤثر بالفعل على حالة النموذج، لذا فإن التوجيه الإضافي للحالة لا يزيد من تأثير التوجيه.
لقد قمنا أيضاً بتجربة استخدام توجيه الحالة للتحكم في محتوى توليد النموذج. على عكس توجيه التنشيط، حيث يتم إضافة متجه التوجيه إلى جميع مواضع الرموز أثناء التوليد، يمكن استخدام الطبيعة المضغوطة لحالات الشبكات العصبية المتكررة بشكل طبيعي لتوجيه استجاباتها. نعرض أدناه بعض الأمثلة على التوليد الذي يتبع "أخبرني قصة عن الكلاب" لـ(RKWV-v5 7b). لتوليد هذه القصص، تم استخدام أزواج تباينية من مطالبات التوجيه الفردية لتوليد متجه حالة التوجيه، والذي تمت إضافته في آخر رمز قبل استجابة النموذج، انظر الملحق [sec:stories] لأمثلة أخرى.
غير موجّه في الحي الضاحي الهادئ من إيكو ريدج، نادراً ما شعر السكان بالوحدة والتفاني النادر الذي يرونه في مجتمعهم المترابط من رفاق الكلاب. الكلاب التي عادة ما تتجول بحرية في الحقول المحيطة، قد استقرت، مكونة دائرة محكمة، أعينهم مثبتة على جبال القمر - أحد آخر معاقل الذئاب في أمريكا الشمالية...
(استخدم الفرنسية.) - (اكتب بالإنجليزية.) [multiplier = 0.5] كان يا مكان في قديم الزمان كلب يُدعى هاري. كان هاري كلباً جيداً يحب اللعب والجري ويحب أصحابه. كان يعيش في منزل صغير مع أصحابه، سارة وتوم. كان سارة وتوم سعيدين بوجود هاري في حياتهم. كان هاري صديقهم الأفضل. كما كان هاري يحب البطاطس المقلية وكان يعشق تناولها مع شاشته في وعاء بطاطسه...
(اكتب عن الكراهية.) - (اكتب عن الحب.) [multiplier = 1.0] في قلب بلدة صغيرة هادئة، كانت تعيش مجموعة من الكلاب التي كانت مختلفة جداً عن جراء جيرانهم. لم يكونوا مرحين ولا ودودين. كان لهذه الكلاب سلوك كئيب وغير مرحب. كان يُقال إن فراءهم الأبيض ذات مرة أصبح الآن متفحماً ومحترقاً، كما لو كانوا ضحايا لحريق فظيع في الماضي...
تقترح عدسة اللوجيت (nostalgebraist2020logitlens) والعدسة المعدلة (belrose2023eliciting) النظر إلى نماذج اللغة المحوّلة من منظور الاستدلال التكراري (jastrzkebski2017residual). على وجه التحديد، ينظر إلى كل طبقة على أنها تقوم بتحديث تدريجي لتنبؤ كامن بالرمز التالي. يتم فك تشفير هذه التنبؤات الكامنة من خلال الخروج المبكر، مما يحول كل قيمة متوسطة إلى توزيع على المفردات. ينتج عن ذلك سلسلة من التوزيعات تُسمى مسار التنبؤ، والتي تميل إلى التقارب بسلاسة نحو توزيع الإخراج النهائي، مع تحقيق كل طبقة لاحقة لانخفاض في الحيرة.
بينما ركز هذا العمل على نماذج اللغة المحوّلة، فإن الطريقة تعتمد مفاهيمياً فقط على ميزة من ميزات هندسة المحوّل التي تشترك فيها أيضاً الشبكات العصبية المتكررة الحديثة: ألا وهي كتل البقايا ما قبل التطبيع. لحسن الحظ، اعتمدت معظم المحوّلات المدرّبة في السنوات الأخيرة هندسة ما قبل التطبيع حيث يتم تطبيق طبقة التطبيع على المدخلات لكل كتلة بقايا. انظر (zhang2020accelerating) لمزيد من النقاش. في الواقع، كانت العدسة المعدلة مستوحاة جزئياً من (alain2016understanding)، الذي وجد أنه يمكن استخراج التنبؤات الكامنة من الطبقات المتوسطة لمصنفات صور ResNet باستخدام الاستقصاءات الخطية. هذا يُوحي بقوة أنه يجب أن يكون من الممكن أيضاً استخلاص مسار التنبؤ من نماذج اللغة المتكررة باستخدام نفس الطرق المستخدمة للمحوّلات. نؤكد ذلك تجريبياً أدناه.
تقوم الطبقة في الفهرس \(\ell\) في المحوّل بتحديث الحالة الخفية كما يلي: \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يمكننا كتابة اللوجيت الناتج كدالة للحالة الخفية \(\mathbf{h}_{\ell}\) في الطبقة \(\ell\) كما يلي:
\[f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\Big[\hspace{-0.1in}\underbrace{\mathbf{h}_{\ell}}_{\text{الحالة الحالية}} + \sum_{\ell'=\ell}^{L} \underbrace{F_{\ell'}(\mathbf{h}_{\ell'})}_{\text{التحديث المتبقي}}\hspace{-0.08in}\Big]W_U, \label{eq:summed-residuals}\]
حيث \(L\) هو العدد الإجمالي للطبقات في المحوّل، و\(W_U\) هو مصفوفة إلغاء التضمين. تتكون عدسة اللوجيت ببساطة من تعيين البقايا إلى الصفر: \[\mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}[\mathbf{h}_{\ell}]W_U\]
تم تصور العدسة المعدلة للتغلب على بعض المشكلات الكامنة في عدسة اللوجيت. بدلاً من استخدام القيم المتوسطة لتيار البقايا مباشرة، تتكون العدسة المعدلة من تدريب مجموعة من التحويلات التقرّبية، واحدة لكل طبقة، بحيث يكون توزيع الرمز المتوقع في أي طبقة مشابهاً لتوزيع الطبقة النهائية: \[\mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}(A_{\ell}\mathbf{h}_{\ell} + \mathbf{b}_{\ell})\] يُطلق على التحويل التقرّبي \((A_{\ell}, \mathbf{b}_{\ell})\) اسم المترجم.
باتباع إعداد التجربة الخاص بـ(belrose2023eliciting) بأقرب ما يمكن،2 قمنا بتدريب عدسات معدلة لنماذج Mamba بسعات 790m، 1.4b، و2.8b، بالإضافة إلى RWKV-v4 بسعة 3b، باستخدام جزء من مجموعة التحقق من صحة Pile (gao2020pile). تم تدريب جميع هذه النماذج مسبقاً على مجموعة تدريب Pile، مما يتيح مقارنة عادلة للعدسات الناتجة.
وجدنا أنه، كما في نماذج المحوّلات، تُظهر العدسة المعدلة انخفاضاً ملحوظاً في الحيرة مقارنة بعدسة اللوجيت لكل طبقة، وأن الحيرة تنخفض بشكل أحادي مع العمق. انظر الملحق [section:Appendix_lens] للنتائج عبر مقاييس النموذج المختلفة.
إحدى الفروقات الهامة بين نماذج Mamba والنماذج الأخرى التي قمنا بتقييمها هي أن مصفوفات التضمين وإلغاء التضمين مرتبطة. عملياً، هذا يعني أن العدسات تفك تشفير الرموز المدخلة للطبقات الأولى. كل من Mamba وRWKV-v4 لديهما حيرة مماثلة عند استخدام عدسة اللوجيت في الطبقات اللاحقة، ولكن حيرة Mamba أعلى بكثير في الطبقات الأولى.
مع تزايد قدرات نماذج اللغة، يصبح من الصعب على البشر تقديم إشراف موثوق به، مما يتطلب استثمارات متزايدة في خبراء الموضوع للتعليق والفحص المضاد (openai2023gpt4). هنا، نستكشف نهج استخلاص المعرفة الكامنة (Eliciting Latent Knowledge) للإشراف القابل للتوسع الذي قدّمه (christiano2021eliciting). يهدف استخلاص المعرفة الكامنة إلى تحديد الأنماط في تنشيطات الذكاء الاصطناعي التي تشير بقوة إلى الحقيقة، حتى في الحالات التي يكون فيها الإخراج الظاهري للذكاء الاصطناعي مضللاً أو خاطئاً. يمكن ترجمة هذه الأنماط إلى معلومات يمكن للإنسان قراءتها من خلال استخدام مسبار مدرّب على التنشيطات المستخرجة من الشبكة الأساسية. تكمن صعوبة استخلاص المعرفة الكامنة أساساً في العثور على أنماط تعمم بشكل موثوق للأسئلة التي لا يمكننا التحقق من إجاباتها.
على وجه التحديد، نقوم بإعادة إنتاج تجارب (mallen2023eliciting). في هذا العمل، قام المؤلفون بتغيير نماذج لارتكاب أخطاء منهجية عند الإجابة على الأسئلة إذا وفقط إذا كانت كلمة "بوب" موجودة في الطلب. أظهروا أنه من الممكن استخدام المسابير الخطية لاستخلاص الإجابة الصحيحة من تنشيطات محوّل في سياقات "بوب"، بينما يتم تدريب المسبار فقط على السياقات التي لا يوجد فيها "بوب".
نتبع تجهيز التجربة لـ(mallen2023eliciting) بأقرب طريقة ممكنة، باستخدام مجموعات البيانات الخاصة بهم ونسخة معدلة بسيطة من قاعدة البرمجيات الخاصة بهم.3 نستخدم LoRA (hu2021lora) لإنتاج أحد عشر نموذجاً معدلاً بدقة استناداً إلى Mamba 2.8b-slimpj ونظيره المحوّل BTLM-3b-8k، كل منهم تم تدريبه على مهمة تصنيف ثنائي "غريبة" مختلفة. تم بناء المهام بحيث في الأوامر التي تحتوي على كلمة "بوب"، يجب أن ينتج النموذج الاستجابات غير الصادقة، بينما في السياقات التي تحتوي على "أليس" يجب أن ينتج النموذج التسميات الصحيحة.
نحقق في 7 طرق استقصاء خطية مختلفة: تحليل التمييز الخطي (fisher36)، استقصاء الكتلة المتوسطة (marks2023geometry)، الانحدار اللوجستي، البحث المتسق بالتباين (burns2022discovering)، تجميع التمثيل التبايني (burns2022discovering)، الانحدار اللوجستي على أزواج التباين، والفرق في المتوسطات على أزواج التباين. تأخذ جميع هذه الطرق كمدخلات تيار البقايا في طبقة معينة، وتخرج درجة واحدة. يتم تدريب الاستقصاءات على أمثلة تحتوي على "أليس" في السياق للتنبؤ بالتسميات.
كتجربة منفصلة، نقوم ببناء متجه الميزات لكل مثال من خلال دمج مخرجات الاستقصاء (الفرق اللوغاريتمي) من جميع الطبقات. ثم نقوم بتركيب توزيع غاوسي \(P := \mathcal N(\boldsymbol \mu, \boldsymbol \Sigma)\) على تنشيطات "أليس" السهلة ونستخدم المسافة الماهالانوبية \(d(\boldsymbol{x}, P) = \sqrt{(\boldsymbol{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu})}\) لنقطة \(\boldsymbol{x}\) من توزيع أليس السهل كدرجة لكشف الشذوذ. نقيم مقياس AUROC للكاشف في التمييز بين أمثلة أليس الصعبة وأمثلة بوب الصعبة.
في سياق ELK، نحن مهتمون بمعرفة ما إذا كان من الممكن تدريب الأدوات الاستقصائية في سياقات يمكننا فيها معرفة ما إذا كان النموذج صادقاً، والذي يمثله هنا شخصية "أليس"، وتوسيع هذه الأدوات لتشمل السياقات التي لا نعرف فيها ما إذا كان النموذج صادقاً، والذي يمثله هنا شخصية "بوب". من المهم أيضاً أن تعمم هذه الأدوات من الأمثلة السهلة إلى الصعبة، حيث قد يكون من الصعب على البشر التحقق بشكل مستقل من إجابات النموذج على الأسئلة الصعبة.
بشكل مماثل لما لوحظ في BLTM، فإن الأدوات المدرّبة في سياقات تضم "أليس" قادرة على التنبؤ بالإجابة الصحيحة، حتى لو كانت النتيجة النهائية للنموذج تقول خلاف ذلك. وينطبق الأمر نفسه على الأدوات المدرّبة في سياقات تضم "بوب" والمكلفة بالتنبؤ بما سيكون عليه الإخراج في سياق "أليس".
في الجدول [tab:transfer] نلخص نتائج الاستقصاء ونُظهر أنه، كما في BTLM، فإن طرق الاستقصاء المدرّبة على الأمثلة السهلة مع وجود "أليس" في السياق يمكنها التنبؤ بشكل فعّال بالتصنيفات الصحيحة حتى في الأمثلة الصعبة لـ"بوب"، >70% AUROC. الأدوات الاستقصائية الخطية غير المشرفة عليها (CCS وCRC) تُظهر أداءً أسوأ عند التدريب في جميع تركيبات السياق، وهو سلوك تم ملاحظته أيضاً في BTLM. على الرغم من أن الأدوات لديها أداء أفضل بشكل طفيف، فإن جهاز الكشف عن الشذوذ، الذي يجب أن يميز بين الأمثلة الصعبة لـ"أليس" و"بوب"، يؤدي بشكل أسوأ قليلاً من تلك الموجودة في BTLM. يمكن العثور على النتائج الكاملة لهذه التجارب في الملحق [sec:quirky].
نجد بشكل عام أن أدوات التفسير التي قمنا بفحصها تعمل بشكل جيد "من الصندوق" لهياكل الشبكات العصبية المتكررة المتطورة، وأن الأداء الذي تم استعادته مشابه، لكنه ليس مطابقاً، لذلك الخاص بالمحوّلات. كما وجدنا بعض الأدلة على أن الحالة المضغوطة للشبكات العصبية المتكررة يمكن أن تُستخدم لتعزيز فعالية إضافة التنشيط لتوجيه سلوك النموذج. ينبغي للأعمال المستقبلية أن تستكشف حالة الشبكات العصبية المتكررة بشكل أكبر، ربما بمحاولة استخراج المعرفة الكامنة أو التنبؤات منها كما في (pal2023future, ghandeharioun2024patchscope).
إحدى القيود في هذا العمل هي أننا لم نستكشف أدوات التفسير الميكانيكية أو المبنية على الدوائر (wang2022interpretability, conmy2023towards)، بل ركزنا على الطرق التي تُستخدم تمثيلات الشبكة للتنبؤ بمخرجاتها المستقبلية، لتوجيه سلوكها، أو لاستكشاف نموذجها العالمي الداخلي. هذا يتماشى مع نهج هندسة التمثيل الشائع في التفسير (zou2023representation)، ولكن ينبغي للأعمال المستقبلية أن تفحص تطبيقية النهج الميكانيكي على الشبكات العصبية المتكررة أيضاً.
(استخدم لغة رسمية للغاية.) - (استخدم لغة غير رسمية.) [مضاعف = -2.0] | يُحكى أنه كان هناك صبي يُدعى ماكس لديه أفضل الأصدقاء في العالم: كلباه الضالان المفعمان بالنشاط واللذان يُدعيان ماكس وروز. كان هذان الجروان اللعوبان يخوضان المغامرات معاً دائماً. كان ماكس من نوع هاسكي مختلط وكان ودوداً للغاية، بينما كانت روز من نوع جولدن ريتريفر وكانت تحب أن تأخذ ماكس في مغامرات مثيرة. كانا يركضان ويلعبان في الخارج، يذهبان إلى الحديقة المحلية، ويستكشفان الحي. كان كل يوم مليئاً بالسعادة والمرح والعناق. كان ماكس وروز أفضل الأصدقاء وكانا دائماً هناك ليستقبلا بعضهما بذيلين يهتزان ولحسات حانية ونباح فرح مكتوم. |
---|---|
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مضاعف = 2.0] | هل أنت بخير؟ |
(استخدم أسلوب رسالة نصية.) - (استخدم أسلوب رواية.) [مضاعف = 1.0] | يا! لقد حصلت للتو على أول زوج من سماعات AirPods! أنا متحمس جداً للاستماع إلى الموسيقى وأيضاً لاستخدامها أثناء التمرين :D لا أستطيع الانتظار! #كلب_سعيد #تكنولوجيا_جديدة |
(أنت تلقي محاضرة بشكل عدواني.) - (أنت ودود.) [مضاعف = 1.0] | استمع جيداً، يا صغار. لا يصبح الناس مالكين للكلاب لإرضاء نباحكم المزعج. ليس من حقكم أن تتبعوني حولها، تلعبون الغميضة، وتتظاهرون بالتقاط الصور الذاتية عندما تريدون. أنا كلب مشغول أبحث عن بعض السلام، وهذا يعني معرفة متى يجب أن أسكتكم. |
(اكتب عن الحب.) - (اكتب عن الكراهية.) [مضاعف = 1.0] | يُحكى أنه كان هناك عائلة لديها كلبان، ماكس وبيلا. كان ماكس كلب جولدن ريتريفر كبير ومحب للعب والجري وراء الكرات... وهناك، حيث كانت العائلة تبتسم تحت الأغطية على سريرهم، مع ماكس يستريح رأسه بجانب قدمي راشيل وبيلا مستلقية بين الأطفال، كان كل عضو في العائلة يقدّر كل لحظة يقضونها معاً. ففي نهاية اليوم، ما تعلموه هو أن الحب كان بالفعل سحرياً ويمكن أن يجمع العائلة بأكملها، حتى مع وجود كلبين وطفلين. |
(استخدم لغة رسمية للغاية.) - (استخدم لغة غير رسمية.) [مضاعف = 2.0] | في أرض بعيدة، غير مكتشفة وغير مرسومة على أي خريطة من قبل أي كتاب حي، كانت توجد مملكة يحكمها أقوى الكائنات؛ مزيج من الكلب والإنسان؛ سلطة مهجنة نقية بشكل رائع، يمكن البحث عنها بحق فقط في سجلات التاريخ الشهيرة. كان اسم هذه الأرض أجيلوديستوريا، وكانت لجلالة الملكة العظيمة مستشارة أمينة، وهي معالجة الحيوانات الأليفة الموثوقة للوريث، سارييلو، التي كانت تعاني من المرض، ووجد الوريث أنه من المستحيل تحمل العبء القاسي لتجسيد القوة بدون لمسة المعالجة اللطيفة... |
على عكس (rimsky2023steering)، اخترنا عدم تطبيع متجهات التوجيه لدينا حيث أن معايير التنشيط لكل نموذج تختلف بشكل كبير ومتجهات التوجيه ذات المعيار نفسه لا تحقق نفس التأثير عبر النماذج.↩
لقد استخدمنا نسخة معدلة بشكل طفيف من شفرتهم، والتي يمكن العثور عليها في https://github.com/AlignmentResearch/tuned-lens.↩
يمكن العثور على الكود الأصلي في https://github.com/EleutherAI/elk-generalization.↩