مُتَّجِهات التوجيه والتنشيط

لكل سلوك \(z\) ولكل طبقة \(\ell\) من الشبكة، نُعرِّف مُتَّجَه التوجيه \(\Vec{act}_{\ell}\) بأخذ الفرق بين متوسّط مُتَّجَه التنشيط الخاص بالنموذج عند موضع رمز الإجابة للردود المُطابقة للسلوك \(\mathbb{E}[\mathbf{h}_{\ell}\,|\, z]\) ونظيره للردود غير المطابقة للسلوك \(\mathbb{E}[\mathbf{h}_{\ell}\,|\, \neg z]\). أمّا في الشبكات العصبيّة المُتكرِّرة، فيمكن تطبيق الإجراء نفسه على الحالة، مُنتِجًا \(\Vec{state}_{\ell}\):

\[ \begin{aligned} \Vec{act}_{\ell} &= \mathbb{E}\big[\mathbf{h}_{\ell}\,\big|\, z\big] - \mathbb{E}\big[\mathbf{h}_{\ell}\,\big|\, \neg z\big], \\ \Vec{state}_{\ell} &= \mathbb{E}\big[\mathbf{s}_{\ell}\,\big|\, z\big] - \mathbb{E}\big[\mathbf{s}_{\ell}\,\big|\, \neg z\big]. \end{aligned} \]

ديناميات مسار البواقي وعدسة اللوجيت

تُحدِّث الطبقة ذات الفهرس \(\ell\) في المُحوِّل الحالةَ الخفيّة كما يلي: \(\mathbf{h}_{\ell+1} = \mathbf{h}_{\ell} + F_{\ell}(\mathbf{h}_{\ell})\). يمكننا كتابة اللوجيت الناتج دالّةً في الحالة الخفيّة \(\mathbf{h}_{\ell}\) في الطبقة \(\ell\) على النحو الآتي:

\[ f(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\!\left[\underbrace{\mathbf{h}_{\ell}}_{\text{الحالة الحاليّة}} + \sum_{\ell'=\ell}^{L} \underbrace{F_{\ell'}(\mathbf{h}_{\ell'})}_{\text{التحديثات المُتبقّية}}\right] W_U, \]

حيث \(L\) هو العدد الإجماليّ للطبقات في المُحوِّل، و\(W_U\) هي مصفوفة فكّ التضمين. وتتكوّن عدسة اللوجيت ببساطة من تصفير مساهمة التحديثات المُتبقّية:

\[ \mathrm{LogitLens}(\mathbf{h}_{\ell}) = \mathrm{LayerNorm}\big[\mathbf{h}_{\ell}\big]\, W_U. \]

العدسة المُضبَّطة (Tuned Lens)

صُمِّمَت العدسة المُضبَّطة لتجاوز بعض المشكلات الكامنة في عدسة اللوجيت. وبدلًا من استخدام قيم مسار البواقي مباشرةً، تُدرَّب مجموعة من التحويلات التقريبيّة، واحدة لكل طبقة، بحيث يُشابِه توزيعُ الرمز المتوقَّع في أيّ طبقة التوزيعَ في الطبقة النهائيّة:

\[ \mathrm{TunedLens}_{\ell}(\mathbf{h}_{\ell}) = \mathrm{LogitLens}\!\big(A_{\ell}\,\mathbf{h}_{\ell} + \mathbf{b}_{\ell}\big), \] ويُطلق على التحويل التقريبيّ \((A_{\ell}, \mathbf{b}_{\ell})\) اسم المُترجِم.

كشف الشذوذ بمسافة ماهالانوبية

كتجربة منفصلة، نُشيِّد مُتَّجَه ميزات لكل مثال عبر ضمّ مخرجات المِسبار (فروق اللوجيت) من جميع الطبقات. ثم نُلائم توزيعًا غاوسيًّا \(P := \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})\) على تنشيطات «أليس» السهلة، ونستخدم المسافة الماهالانوبية \(d(\boldsymbol{x}, P) = \sqrt{(\boldsymbol{x} - \boldsymbol{\mu})^{\mathsf{T}} \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu})}\) للنقطة \(\boldsymbol{x}\) نسبةً إلى هذا التوزيع درجةً لكشف الشذوذ. ونُقيِّم مقياس AUROC لتمييز أمثلة «أليس» الصعبة من أمثلة «بوب» الصعبة.

ملاحظة: حوفِظ على تراكيب LaTeX كما هي مع تصحيح الرمز \(\mathbb{E}\) للتوقّعات، وتخفيف الصياغة لتكون أدقّ علميًّا وأسلس عربيًّا.