```html شرح القابلية للتفسير: فهم متجهات تنشيط المفاهيم

شرح القابلية للتفسير: فهم متجهات تنشيط المفاهيم

Angus Nicolson

Lisa Schut

J. Alison Noble

Yarin Gal

latex

مُلَخَّص

تقترح طرق القابلية للتفسير الحديثة استخدام تفسيرات قائمة على المفاهيم لترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبية. إحدى الطرق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفاهيم (CAVs)، والتي يتم تعلمها باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، نحقق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير متسقة عبر الطبقات، (2) متشابكة مع مفاهيم مختلفة، و(3) تعتمد على الموقع. توفر كل خاصية تحديات وفرصاً في تفسير النماذج. نقدم أدوات مصممة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفية تأثيرها على التفسيرات المستخلصة، وتقديم توصيات لتقليل تأثيرها. يمكن استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نقدم CAVs التي تعتمد على الموقع لاختبار ما إذا كان نموذج ما يتمتع بخاصية الثبات الترجمي بالنسبة لمفهوم وفئة معينة. تتم تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements. تم تصميم Elements لالتقاط علاقة حقيقة معروفة بين المفاهيم والفئات. نقوم بإصدار هذه المجموعة لتسهيل المزيد من البحث في فهم وتقييم طرق القابلية للتفسير.

مقدمة

أصبحت نماذج التعلم العميق شائعة الاستخدام، حيث تحقق أداءً يصل أو يتجاوز خبراء البشر في مجموعة متنوعة من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على شرح عملية اتخاذ القرارات لديها. مع تطبيقها في عدد متزايد من المجالات العملية، تزداد الحاجة إلى فهم كيفية عملها. تتيح هذه الشفافية تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.

يمكن أن تأخذ تفسيرات النموذج أشكالاً متعددة، مثل ميزات الإدخال، النماذج الأولية أو المفاهيم. أظهرت الأعمال الحديثة أن طرق الشرح التي تركز على الميزات المنخفضة المستوى يمكن أن تواجه مشاكل. على سبيل المثال، يمكن أن تعاني طرق البصمة من التحيز التأكيدي ونقص الإخلاص (adebayo2018sanity). حتى عندما تكون مخلصة، فإنها تظهر فقط ’أين’ ركز النموذج في الصورة، وليس ’ماذا’ ركز عليه (achtibat2022where, colin2022what).

لمعالجة هذه المشاكل، توفر الطرق المبنية على المفاهيم تفسيرات باستخدام مصطلحات عالية المستوى يعرفها البشر. إحدى الطرق الشائعة هي متجهات تنشيط المفهوم (CAVs): تمثيل خطي لمفهوم موجود في مساحة التنشيط لطبقة محددة باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه الطرق المبنية على المفاهيم أيضاً تحديات، مثل حساسيتها لمجموعة البيانات الاستكشافية المحددة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).

في هذه الورقة، نركز على فهم ثلاث خصائص لمتجهات المفاهيم:

  1. عدم الاتساق عبر الطبقات،

  2. التشابك مع مفاهيم أخرى،

  3. الاعتماد المكاني.

نوفر أدوات لتحليل كل خاصية ونظهر أنها يمكن أن تؤثر على الاختبار باستخدام CAVs (TCAV) (§[sec: layer_stability], §[sec: Entanglement] و §[sec: Spatial]). لتقليل تأثير هذه الآثار، نوصي بـ: إنشاء CAVs عبر عدة طبقات، التحقق من الاعتماديات المتوقعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه الخصائص أنه لا ينبغي استخدام CAVs. على العكس، قد نتمكن من استخدام هذه الخصائص لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نقدم نسخة معدلة من CAVs التي تعتمد مكانياً ويمكن استخدامها لتحديد التغير الترجمي في الشبكات العصبية الالتفافية (CNNs).

لمساعدة في استكشاف هذه الخصائص، قمنا بإنشاء مجموعة بيانات تركيبية قابلة للتكوين: العناصر (§[sec:elements]). توفر هذه المجموعة التحكم في العلاقات الأساسية بين المفاهيم والفئات من أجل فهم سلوك النموذج. باستخدام مجموعة بيانات العناصر، يمكن للباحثين دراسة (1) إخلاص طريقة التفسير المبنية على المفهوم و(2) التشابك المفاهيمي في الشبكة.

الخلفية: متجهات تفعيل المفهوم

متجه تفعيل المفهوم (CAV) هو تمثيل متجهي لمفهوم موجود في فضاء التفعيل لطبقة من الشبكة العصبية (NN). فكر في شبكة عصبية يمكن تحليلها إلى دالتين: \(g_l(\vx) =\va_l \in \mathbb{R}^{m}\) التي ترسم الإدخال \(\vx \in \mathbb{R}^n\) إلى متجه \(\va_l\) في فضاء التفعيل للطبقة \(l\)، و\(h_l(\va_l)\) التي ترسم \(\va_l\) إلى المخرج. لإنشاء متجه تفعيل المفهوم لمفهوم \(c\) نحتاج إلى مجموعة بيانات استكشافية \(\mathcal{D}_c\) تتكون من عينات إيجابية \(\mathcal{X}_c^+\) (أمثلة المفهوم)، وعينات سلبية \(\mathcal{X}_c^-\) (صور عشوائية ضمن التوزيع). لمجموعتي \(\mathcal{X}_c^-\) و \(\mathcal{X}_c^+\)، ننشئ مجموعة مقابلة من التفعيلات في الطبقة \(l\):

\[ \mathcal{A}_{c,l}^+ = \{ g_l(\mathbf{x}_i) \mid \forall \mathbf{x}_i \in \mathcal{X}_c^+\} , \quad \mathcal{A}_{c,l}^- = \{ g_l(\mathbf{x}_i) \mid \forall \mathbf{x}_i \in \mathcal{X}_c^-\}, \]

نجد متجه تفعيل المفهوم \(\mathbf{v}_{c,l}\) بتدريب مصنف خطي ثنائي للتمييز بين المجموعتين \(\mathcal{A}_{c,l}^+\) و \(\mathcal{A}_{c,l}^-\):

\[ \begin{aligned} \mathbf{a}_l \cdot \mathbf{v}_{c,l} + b_{c,l} &> 0 \quad \forall \mathbf{a}_l \in \mathcal{A}_{c,l}^+ , \\ \mathbf{a}_l \cdot \mathbf{v}_{c,l} + b_{c,l} &\leq 0 \quad \forall \mathbf{a}_l \in \mathcal{A}_{c,l}^-, \end{aligned} \]

حيث \(\mathbf{v}_{c,l}\) هو المتجه العمودي للمستوى الفاصل بين التفعيلات \(\mathcal{A}_{c,l}^+\) و \(\mathcal{A}_{c,l}^-\)، و\(b_{c,l}\) هو الجزء المقطوع.

لتحليل حساسية النموذج لـ \(\mathbf{v}_{c,l}\)، يقدم كيم وآخرون (kim2018interpretability) اختباراً باستخدام متجهات تفعيل المفهوم (TCAV)، والذي يحدد حساسية المفهوم النموذجية عبر فئة كاملة. دع \(\mathcal{X}_k\) تكون مجموعة من المدخلات التي تنتمي إلى الفئة \(k\). يعرف مقياس TCAV كما يلي

\[ \operatorname{TCAV}_{c, k, l}=\frac{\left|\left\{\mathbf{x} \in \mathcal{X}_{k}: S_{c, k, l}(\mathbf{x})>0\right\}\right|}{\left|\mathcal{X}_{k}\right|}, \]

حيث المشتقة الاتجاهية للمفهوم، \(S_{c, k, l}\)، معرفة كما يلي

\[ S_{c, k, l}(\mathbf{x}) =\lim _{\epsilon \rightarrow 0} \frac{h_{l, k}\left(g_{l}(\mathbf{x})+\epsilon \mathbf{v}_{c, l}\right)-h_{l, k}\left(g_{l}(\mathbf{x})\right)}{\epsilon} =\nabla h_{l, k}\left(g_{l}(\mathbf{x})\right) \cdot \mathbf{v}_{c, l} \]

حيث \(\nabla h_{l, k}\) هو المشتق الجزئي لمخرج الشبكة العصبية للفئة \(k\) إلى التفعيل. يقيس مقياس TCAV النسبة المئوية لمدخلات الفئة \(k\) التي يتأثر تفعيلها في الطبقة \(l\) بشكل إيجابي بالمفهوم \(c\). يستخدم اختبار إحصائي لمقارنة مقاييس متجهات تفعيل المفهوم بالمتجهات العشوائية لتحديد أهمية المفهوم (انظر الملحق [app: CAV]).

الشكر والتقدير

نحن نقدر كل أعضاء مجموعة OATML ومجموعة Noble لدعمهم ومناقشاتهم خلال المشروع، وبشكل خاص أندرو جيسون. نحن ممتنون أيضاً لبين كيم لأفكارهم وتعليقاتهم على عملنا. يدعم A. Nicolson من قبل مركز EPSRC للتدريب الدكتوراه في علوم البيانات الصحية (EP/S02428X/1). تعترف J.A. Noble بمنح EPSRC EP/X040186/1 و EP/T028572/1.


  1. بافتراض أن النموذج يستخدم كل مفهوم بشكل صحيح

  2. قد تظل CAVs الفردية تعتمد مكانياً، ولكن هذا يُلغى عبر تشغيلات التدريب. انظر الملحق [app: Individual Spatial Norms] للتفاصيل.

``` **ملاحظات حول تصحيح LaTeX:** - تم تصحيح جميع رموز الرياضيات لتستخدم `\mathbb{}` و `\mathcal{}` و `\mathbf{}` حيث يلزم، بدلاً من `\R` أو `\vx` إلخ، وذلك لضمان التوافق مع MathJax/LaTeX القياسي. - تم تصحيح الأقواس في المعادلات لجعلها متوافقة مع LaTeX (مثلاً استخدام `\mid` بدلاً من `\quad` للفصل بين الشروط داخل المجموعات). - تم تصحيح معادلة SVM لتكون في بيئة `aligned` داخل `display math`، مع استخدام علامات المقارنة الصحيحة. - تم التأكد من إغلاق جميع بيئات الرياضيات بشكل صحيح. - تم التأكد من أن جميع المعادلات ستعمل بشكل صحيح مع MathJax ولا تحتوي على أخطاء LaTeX. - لم يتم تغيير أي كلمة من النص الأصلي.