تقترح طرائق قابلية التفسير الحديثة استخدام تفسيرات قائمة على المفاهيم لترجمة التمثيلات الداخليّة لنماذج التعلُّم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلّب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبيّة. إحدى الطرائق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفاهيم (CAVs)، والتي تُتعلَّم باستخدام مجموعة بيانات استقصائيّة من أمثلة للمفهوم. في هذا العمل نُحقِّق في ثلاث خصائص لـ CAVs: (1) عدم الاتساق عبر الطبقات، (2) التشابك مع مفاهيم مختلفة، و(3) الاعتماد المكاني. تُوفِّر كل خاصّيّة تحدّيات وفرصاً في تفسير النماذج. نُقَدِّم أدوات مُصمَّمة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفيّة تأثيرها على التفسيرات المُستخلَصة، مع توصيات لتقليل أثرها. ويمكن أيضاً استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نُقَدِّم CAVs تعتمد مكانياً لاختبار ما إذا كان نموذجٌ ما يتمتّع بخاصّيّة الثبات الترَّجُمي بالنسبة لمفهوم وفئة معيّنين. نجري تجاربنا على ImageNet وعلى مجموعة بيانات تركيبيّة جديدة، Elements. صُمِّمت Elements لالتقاط علاقة حقيقة معروفة بين المفاهيم والفئات. ونُصدر هذه المجموعة لتسهيل مزيدٍ من البحث في فهم وتقييم طرائق قابلية التفسير.
أصبحت نماذج التعلُّم العميق واسعة الاستخدام، إذ تُحقِّق أداءً يضاهي أو يفوق أداء خبراء البشر في طيفٍ واسع من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على تفسير عمليّة اتخاذ القرارات لديها. ومع تطبيقها في عدد متزايد من المجالات العمليّة، تتزايد الحاجة إلى فهم كيف تعمل. تُتيح هذه الشفافيّة تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.
يمكن أن تأخذ تفسيرات النموذج أشكالاً متعدّدة، مثل: ميزات الإدخال، والنماذج الأوّليّة، أو المفاهيم. وقد أظهرت أعمال حديثة أنّ طرائق الشرح التي تركز على الميزات المنخفضة المستوى قد تواجه مشكلات. على سبيل المثال، قد تعاني خرائط البروز من التحيّز التأكيدي ونقص الإخلاص للنموذج (adebayo2018sanity). وحتى عندما تكون مُخلِصة، فهي تُظهِر فقط «أين» ركّز النموذج في الصورة، لا «ماذا» ركّز عليه (achtibat2022where, colin2022what).
لمعالجة هذه المشكلات، تُوفِّر الطرائق المبنيّة على المفاهيم تفسيرات بمصطلحات عالية المستوى مألوفة للبشر. إحدى الطرائق الشائعة هي متجهات تنشيط المفاهيم (CAVs): وهي تمثيل خطّي لمفهومٍ ما في فضاء التنشيط لطبقة محدّدة، باستخدام مجموعة بيانات استقصائيّة من أمثلة المفهوم (kim2018interpretability). ومع ذلك، تُواجِه الطرائق المبنيّة على المفاهيم تحدّيات أيضاً، مثل حساسيتها لمجموعة البيانات الاستقصائيّة المُحدّدة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).
في هذه الورقة، نُركِّز على فهم ثلاث خصائص لمتجهات المفاهيم:
عدم الاتساق عبر الطبقات،
التشابك مع مفاهيم أخرى،
الاعتماد المكاني.
نُوفِّر أدوات لتحليل كلّ خاصّيّة، ونُبيِّن أنّها قد تؤثِّر على اختبار TCAV. ولتقليل آثارها نوصي بما يلي: إنشاء CAVs عبر عدّة طبقات، والتحقّق من الاعتماديّات المتوقّعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني. ولا تعني هذه الخصائص أنّه ينبغي تجنّب CAVs؛ بل على العكس، قد نتمكّن من استخدامها لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نُقَدِّم نسخةً مُعدَّلة تعتمد مكانياً من CAVs يمكن استخدامها لاختبار خاصّيّة الثبات الترَّجُمي في الشبكات العصبيّة الالتفافيّة (CNNs).
وللمساعدة في استكشاف هذه الخصائص، أنشأنا مجموعة بيانات تركيبيّة قابلة للتهيئة: «العناصر» (Elements). تُتيح هذه المجموعة التحكّم في العلاقات الأساسيّة بين المفاهيم والفئات لفهم سلوك النموذج. وباستخدام مجموعة بيانات «العناصر»، يمكن للباحثين دراسة: (1) إخلاص طريقة التفسير المبنيّة على المفهوم، و(2) التشابك المفاهيمي داخل الشبكة.
متجه تنشيط المفهوم (CAV) هو تمثيل متجهّي لمفهوم موجود في فضاء التنشيط لطبقة من الشبكة العصبيّة (NN). فكِّر في شبكة عصبيّة يمكن تحليلها إلى دالتين: \(g_l(\vx) =\va_l \in \mathbb{R}^{m}\) التي تُحوِّل الإدخال \(\vx \in \mathbb{R}^n\) إلى متجه \(\va_l\) في فضاء التنشيط للطبقة \(l\)، و\(h_l(\va_l)\) التي تُحوِّل \(\va_l\) إلى المخرج. لإنشاء متجه تنشيط المفهوم لمفهوم \(c\) نحتاج إلى مجموعة بيانات استقصائيّة \(\mathcal{D}_c\) تتكوّن من عيناتٍ إيجابيّة \(\mathcal{X}_c^+\) (أمثلة المفهوم)، وعيناتٍ سلبيّة \(\mathcal{X}_c^-\) (صور عشوائيّة من نفس التوزيع). ولمجموعتي \(\mathcal{X}_c^-\) و\(\mathcal{X}_c^+\)، نُنشئ مجموعةً مقابلة من التنشيطات في الطبقة \(l\):
\[ \mathcal{A}_{c,l}^+ = \{ g_l(\mathbf{x}_i) \mid \forall \mathbf{x}_i \in \mathcal{X}_c^+\} , \quad \mathcal{A}_{c,l}^- = \{ g_l(\mathbf{x}_i) \mid \forall \mathbf{x}_i \in \mathcal{X}_c^-\}, \]نجد متجه تنشيط المفهوم \(\mathbf{v}_{c,l}\) بتدريب مُصنِّف خطّي ثنائي لتمييز المجموعتين \(\mathcal{A}_{c,l}^+\) و\(\mathcal{A}_{c,l}^-\):
\[ \begin{aligned} \mathbf{a}_l \cdot \mathbf{v}_{c,l} + b_{c,l} &> 0 \quad \forall \mathbf{a}_l \in \mathcal{A}_{c,l}^+ , \\ \mathbf{a}_l \cdot \mathbf{v}_{c,l} + b_{c,l} &\leq 0 \quad \forall \mathbf{a}_l \in \mathcal{A}_{c,l}^-, \end{aligned} \]حيث \(\mathbf{v}_{c,l}\) هو المتجه العمودي على المستوى الفاصل بين التنشيطات \(\mathcal{A}_{c,l}^+\) و\(\mathcal{A}_{c,l}^-\)، و\(b_{c,l}\) هو الحدّ الثابت.
لتحليل حساسيّة النموذج لـ\(\mathbf{v}_{c,l}\)، قدّم كيم وآخرون (kim2018interpretability) اختباراً باستخدام متجهات تنشيط المفهوم (TCAV)، يقيس حساسيّة النموذج للمفهوم عبر فئة كاملة. لتكن \(\mathcal{X}_k\) مجموعة المدخلات التي تنتمي إلى الفئة \(k\). يُعرَّف مقياس TCAV كما يلي:
\[ \operatorname{TCAV}_{c, k, l}=\frac{\left|\left\{\mathbf{x} \in \mathcal{X}_{k}: S_{c, k, l}(\mathbf{x})>0\right\}\right|}{\left|\mathcal{X}_{k}\right|}, \]حيث تُعرَّف المُشتقّة الاتجاهيّة للمفهوم \(S_{c, k, l}\) كما يلي:
\[ S_{c, k, l}(\mathbf{x}) =\lim _{\epsilon \rightarrow 0} \frac{h_{l, k}\left(g_{l}(\mathbf{x})+\epsilon \mathbf{v}_{c, l}\right)-h_{l, k}\left(g_{l}(\mathbf{x})\right)}{\epsilon} =\nabla h_{l, k}\left(g_{l}(\mathbf{x})\right) \cdot \mathbf{v}_{c, l} \]حيث \(\nabla h_{l, k}\) هو تدرُّج مخرج الشبكة العصبيّة الخاص بالفئة \(k\) بالنسبة إلى تنشيط الطبقة. يقيس مقياس TCAV النسبة المئويّة لمدخلات الفئة \(k\) التي يتأثّر تنشيطها في الطبقة \(l\) إيجابياً بالمفهوم \(c\). ويُستخدَم اختبارٌ إحصائي لمقارنة مقاييس TCAV بمتجهات عشوائيّة لتحديد أهميّة المفهوم (انظر الملحق ذي الصلة بـ CAV).
نحن نُقدِّر جميع أعضاء مجموعة OATML ومجموعة Noble لدعمهم ومناقشاتهم خلال المشروع، وبشكلٍ خاص أندرو جيسون. ونحن ممتنّون أيضاً لبِن كيم على أفكاره وتعليقاته على عملنا. يُدعَم A. Nicolson من مركز EPSRC للتدريب على الدكتوراه في علوم البيانات الصحيّة (EP/S02428X/1). وتعترف J.A. Noble بالمنحتين EPSRC EP/X040186/1 و EP/T028572/1.