شرح القابلية للتفسير: فهم متجهات تنشيط المفاهيم

Angus Nicolson

Lisa Schut

J. Alison Noble

Yarin Gal

latex

مُلَخَّص

تقترح طرق القابلية للتفسير الحديثة استخدام تفسيرات قائمة على المفاهيم لترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبية. إحدى الطرق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفاهيم (CAVs)، والتي يتم تعلمها باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، نحقق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير متسقة عبر الطبقات، (2) متشابكة مع مفاهيم مختلفة، و(3) تعتمد على الموقع. توفر كل خاصية تحديات وفرصاً في تفسير النماذج. نقدم أدوات مصممة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفية تأثيرها على التفسيرات المستخلصة، وتقديم توصيات لتقليل تأثيرها. يمكن استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نقدم CAVs التي تعتمد على الموقع لاختبار ما إذا كان نموذج ما يتمتع بخاصية الثبات الترجمي بالنسبة لمفهوم وفئة معينة. تتم تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements. تم تصميم Elements لالتقاط علاقة حقيقة معروفة بين المفاهيم والفئات. نقوم بإصدار هذه المجموعة لتسهيل المزيد من البحث في فهم وتقييم طرق القابلية للتفسير.

مقدمة

أصبحت نماذج التعلم العميق شائعة الاستخدام، حيث تحقق أداءً يصل أو يتجاوز خبراء البشر في مجموعة متنوعة من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على شرح عملية اتخاذ القرارات لديها. مع تطبيقها في عدد متزايد من المجالات العملية، تزداد الحاجة إلى فهم كيفية عملها. تتيح هذه الشفافية تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.

يمكن أن تأخذ تفسيرات النموذج أشكالاً متعددة، مثل ميزات الإدخال، النماذج الأولية أو المفاهيم. أظهرت الأعمال الحديثة أن طرق الشرح التي تركز على الميزات المنخفضة المستوى يمكن أن تواجه مشاكل. على سبيل المثال، يمكن أن تعاني طرق البصمة من التحيز التأكيدي ونقص الإخلاص (adebayo2018sanity). حتى عندما تكون مخلصة، فإنها تظهر فقط ’أين’ ركز النموذج في الصورة، وليس ’ماذا’ ركز عليه (achtibat2022where, colin2022what).

لمعالجة هذه المشاكل، توفر الطرق المبنية على المفاهيم تفسيرات باستخدام مصطلحات عالية المستوى يعرفها البشر. إحدى الطرق الشائعة هي متجهات تنشيط المفهوم (CAVs): تمثيل خطي لمفهوم موجود في مساحة التنشيط لطبقة محددة باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه الطرق المبنية على المفاهيم أيضاً تحديات، مثل حساسيتها لمجموعة البيانات الاستكشافية المحددة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).

في هذه الورقة، نركز على فهم ثلاث خصائص لمتجهات المفاهيم:

  1. عدم الاتساق عبر الطبقات،

  2. التشابك مع مفاهيم أخرى،

  3. الاعتماد المكاني.

نوفر أدوات لتحليل كل خاصية ونظهر أنها يمكن أن تؤثر على الاختبار باستخدام CAVs (TCAV) (§[sec: layer_stability], §[sec: Entanglement] و §[sec: Spatial]). لتقليل تأثير هذه الآثار، نوصي بـ: إنشاء CAVs عبر عدة طبقات، التحقق من الاعتماديات المتوقعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه الخصائص أنه لا ينبغي استخدام CAVs. على العكس، قد نتمكن من استخدام هذه الخصائص لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نقدم نسخة معدلة من CAVs التي تعتمد مكانياً ويمكن استخدامها لتحديد التغير الترجمي في الشبكات العصبية الالتفافية (CNNs).

لمساعدة في استكشاف هذه الخصائص، قمنا بإنشاء مجموعة بيانات تركيبية قابلة للتكوين: العناصر (§[sec:elements]). توفر هذه المجموعة التحكم في العلاقات الأساسية بين المفاهيم والفئات من أجل فهم سلوك النموذج. باستخدام مجموعة بيانات العناصر، يمكن للباحثين دراسة (1) إخلاص طريقة التفسير المبنية على المفهوم و(2) التشابك المفاهيمي في الشبكة.

الخلفية: متجهات تفعيل المفهوم

متجه تفعيل المفهوم (CAV) هو تمثيل متجهي لمفهوم موجود في فضاء التفعيل لطبقة من الشبكة العصبية (NN). فكر في شبكة عصبية يمكن تحليلها إلى دالتين: \(g_l(\vx) =\va_l \in \R^{m}\) التي ترسم الإدخال \(\vx \in \R^n\) إلى متجه \(\va_l\) في فضاء التفعيل للطبقة \(l\)، و\(h_l(\va_l)\) التي ترسم \(\va_l\) إلى المخرج. لإنشاء متجه تفعيل المفهوم لمفهوم \(c\) نحتاج إلى مجموعة بيانات استكشافية \(\D_c\) تتكون من عينات إيجابية \(\X_c^+\) (أمثلة المفهوم)، وعينات سلبية \(\X_c^-\) (صور عشوائية ضمن التوزيع). لمجموعتي \(\X_c^-\) و \(\X_c^+\)، ننشئ مجموعة مقابلة من التفعيلات في الطبقة \(l\): \[\A_{c,l}^+ = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^+\} , \text{ و} \ \A_{c,l}^- = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^-\},\] نجد متجه تفعيل المفهوم \(\vcl\) بتدريب مصنف خطي ثنائي للتمييز بين المجموعتين \(\A_{c,l}^+\) و \(\A_{c,l}^-\): \[\label{eq:svm} \al \cdot \vcl + b_{c,l} > 0 \quad \forall \al \in \A_{c,l}^+ , \text{ و } \al \cdot \vcl + b_{c,l} \leq 0 \quad \forall \al \in \A_{c,l}^-,\] حيث \(\vcl\) هو المتجه العمودي للمستوى الفاصل بين التفعيلات \(\A_{c,l}^+\) و \(\A_{c,l}^-\)، و\(b_{c,l}\) هو الجزء المقطوع.

لتحليل حساسية النموذج لـ \(\vcl\)، يقدم كيم وآخرون (kim2018interpretability) اختباراً باستخدام متجهات تفعيل المفهوم (TCAV)، والذي يحدد حساسية المفهوم النموذجية عبر فئة كاملة. دع \(\X_k\) تكون مجموعة من المدخلات التي تنتمي إلى الفئة \(k\). يعرف مقياس TCAV كما يلي \[\operatorname{TCAV}_{c, k, l}=\frac{\left|\left\{\vx \in \X_{k}: S_{c, k, l}(\vx)>0\right\}\right|}{\left|\X_{k}\right|},\] حيث المشتقة الاتجاهية للمفهوم، \(S_{c, k, l}\)، معرفة كما يلي \[S_{c, k, l}(\vx) =\lim _{\epsilon \rightarrow 0} \frac{h_{l, k}\left(g_{l}(\vx)+\epsilon \vv_{c, l}\right)-h_{l, k}\left(g_{l}(\vx)\right)}{\epsilon} =\nabla h_{l, k}\left(g_{l}(\vx)\right) \cdot \vcl\] حيث \(\nabla h_{l, k}\) هو المشتق الجزئي لمخرج الشبكة العصبية للفئة \(k\) إلى التفعيل. يقيس مقياس TCAV النسبة المئوية لمدخلات الفئة \(k\) التي يتأثر تفعيلها في الطبقة \(l\) بشكل إيجابي بالمفهوم \(c\). يستخدم اختبار إحصائي لمقارنة مقاييس متجهات تفعيل المفهوم بالمتجهات العشوائية لتحديد أهمية المفهوم (انظر الملحق [app: CAV]).

فرضيات المتجهات المفاهيمية الموجهة

لكي نستخدم طرق التفسير المبنية على المتجهات المفاهيمية الموجهة في الممارسة العملية، من المهم فهم كيفية عملها. لذلك، ندرس ثلاث خصائص للمتجهات المفاهيمية الموجهة وتأثيراتها على نتائج المتجهات المفاهيمية الموجهة. نركز على هذه الفرضيات لأنها توفر رؤية حول تمثيلات الشبكة وعن المعنى المشفر بواسطة متجهات المفهوم.

نصوغ كل خاصية من خلال فرضية صفرية، والتي نقدم دليلاً لرفضها لاحقاً في الورقة. في النص التالي، نستخدم التنسيق concept للدلالة على مفهوم.

الاتساق

بشكل عام، نريد فهم سلوك النموذج. ومع ذلك، تفسر متجهات المفاهيم المنشطة (CAVs) ما إذا كان النموذج حساساً لمفهوم في طبقة محددة. في الواقع، قد يكون تحليل جميع الطبقات غير عملي حسابياً، وليس من الواضح أي الطبقات يجب اختيارها. لذلك، نستكشف في الفرضية الأولى العلاقة بين المتجهات المنشأة لمفهوم ما في طبقات مختلفة. تذكر أن درجات TCAV تعتمد على المشتقة الاتجاهية: كيف يتغير مخرج النموذج لتغيير لا نهائي صغير للتنشيطات في اتجاه متجه مفهومي منشط. من خلال تعديل التنشيطات في اتجاه متجه مفهومي منشط، نستكشف ما إذا كان بإمكان متجهين مفهوميَين منشطين موجودين في طبقات مختلفة أن يكون لهما نفس التأثير على مخرجات النموذج. نشير إلى هذه الخاصية باسم الاتساق.

افترض أن لدينا دالة \(f(\cdot)\) ترسم التنشيطات من الطبقة \(l_1\) إلى التنشيطات في الطبقة \(l_2\)، حيث \(l_1<l_2\). المتجهات المفاهيمية، \(\vclo\) و \(\vclt\) متسقة إذا ولكل مدخل \(\vx\) والتنشيطات المقابلة \(\va_{l_1}\) و \(\va_{l_2}\)، \(f(\va_{l_1} + \vclo) = \va_{l_2} + \vclt\).

إذا كان متجهان مفهوميَان منشطان متسقين، فإن لهما نفس التأثير اللاحق على النموذج عندما يتم تعديل التنشيطات في اتجاههما، أي، على الرغم من أنهما في طبقات مختلفة، فإن لهما تأثيراً مكافئاً على مخرجات النموذج وبالتالي يعطيهما النموذج نفس المعنى. فرضيتنا الأولى هي:

الفرضية الصفرية 1 (NH1): تمثيلات المتجه المفهومي متسقة عبر الطبقات

في §[sec: layer_stability] نستكشف هذه الفرضية رسمياً، ونقوم بتقييمات تجريبية على مجموعات بيانات العناصر وImageNet (Deng2009ImageNet). نظهر نظرياً الشروط التي يجب أن تحققها \(\vclt\) و \(\va_{l_1}\) لكي يكون المتجهان \(\vclo\) و \(\vclt\) متسقين عندما تكون \(f\) إما وحدة خطية معتدلة (ReLU) أو دالة سيجمويد.

متجهات المفاهيم المتشابكة

فكر في المعنى المشفر بواسطة متجه المفهوم. نقوم بتسمية متجه المفهوم باستخدام التسمية المقابلة لمجموعة البيانات التجريبية. على سبيل المثال، قد يتم تسمية متجه المفهوم بـ striped أو red. هذا يفترض ضمنياً أن التسمية هي وصف كامل ودقيق للمعلومات المشفرة بواسطة المتجه. عملياً، قد يمثل متجه المفهوم عدة مفاهيم – على سبيل المثال، استمراراً للمثال أعلاه، قد يشفر المتجه كلاً من striped و red في نفس الوقت. نشير إلى هذه الظاهرة باسم “تشابك المفاهيم”. من الناحية الرياضية، نصيغ هذا على النحو التالي. متجه المفهوم \(\vcl\) أكثر تشابهاً مع التنشيطات المقابلة للصور التي تحتوي على المفهوم من التنشيطات للصور التي لا تحتوي على المفهوم، أي أنه يلبي \[\va_{c,l}^+ \cdot \vcl > \va_{c,l}^- \cdot \vcl \quad \forall \va_{c,l}^+ \in \A_{c,l}^+, \va_{c,l}^- \in \A_{c,l}^-.\]

افترض أن لدينا المفاهيم \(c_1\) و \(c_2\)، مع مجموعات بيانات تجريبية \(\D_{c_1}\) و \(\D_{c_2}\)، على التوالي. لكل مجموعة بيانات تجريبية، نجد مجموعات التنشيط: \(\A_{c_1,l} = \{A_{c_1,l}^+ \cup A_{c_1,l}^- \}\) و \(\A_{c_2,l} = \{ \A_{c_2,l}^+ \cup \A_{c_2,l}^- \}\).

متجه المفهوم لمفهوم ما متشابك مع مفهوم آخر إذا وفقط إذا \[\label{eqn: entangled definition} \begin{aligned} &\textcolor{blue}{\va_{c_2,l}^+} \cdot \textcolor{red}{\vv_{c_1,l}} > \textcolor{blue}{\va_{c_2,l}^-} \cdot \textcolor{red}{\vv_{c_1,l}} &\forall \textcolor{blue}{\va_{c_2,l}^+} \in \textcolor{blue}{\A_{c_2,l}^+} , \textcolor{blue}{\va_{c_2,l}^-} \in \textcolor{blue}{\A_{c_2,l}^-} \end{aligned}\]

فرضيتنا الثانية تستكشف تشابك المفاهيم:

الفرضية الصفرية 2 (NH2): يمثل متجه المفهوم المفهوم المقابل فقط لتسميته في مجموعة البيانات التجريبية الخاصة به

إذا كانت المفاهيم متشابكة، فلن يكون من الممكن فصل حساسية النموذج لمفهوم واحد عن حساسيته للمفاهيم المتعلقة – وبالتالي، إذا قمنا بقياس درجة TCAV لـ \(c_1\)، فسنخلط دون علم تأثير \(c_2\).

في §[sec: Entanglement] نقدم أداة تصور لاستكشاف تشابك CAV ونناقش كيف يمكن أن يؤثر ذلك على TCAV.

الاعتماد المكاني

في هذا القسم، نستكشف تأثير الاعتماد المكاني على المفاهيم. لنفترض أن \(\D_{c, \mu_1}\) و \(\D_{c,\mu_2}\) تمثلان مجموعتي بيانات تحتويان على نفس المفهوم ولكن في مواقع مختلفة \(\mu_1 \neq \mu_2\). على سبيل المثال، قد تحتوي \(\D_{c, \mu_1}\) على أمثلة للمفهوم striped on the left في الصورة، و \(\D_{c,\mu_2}\) على أمثلة للمفهوم striped on the right في الصورة. كما في السابق، نقوم ببناء تمثيلات كامنة \(\A_{c,l,\mu_1}\) و \(\A_{c,l,\mu_2}\) لمجموعتي البيانات \(\D_{c, \mu_1}\) و \(\D_{c, \mu_2}\) على التوالي. ليكن \(\vcl\) هو متجه المفهوم الذي تم العثور عليه باستخدام مجموعة البيانات الاستكشافية \(\D_{c, \mu_1}\).

ليكن \(\va_{l, i}\) هي التنشيطات المقابلة للمدخل \(\vx_i\) في الطبقة \(l\)، وليكن \(\mu_{c,i}\) هو موقع المفهوم \(c\) في \(\vx_i\). تمتلك طبقة تمثيلاً مكانياً معتمداً لمفهوم إذا وفقط إذا \[\exists \phi: \forall \vx_i \in \mathbb{X}_c^+, \phi(\va_{l, i}) = \mu_{c,i}\]

قد يكون الاعتماد المكاني للتنشيط في شبكة عصبية ناتجاً عن تصميم الهندسة، إجراء التدريب و/أو مجموعة بيانات التدريب. في الشبكات العصبية الالتفافية، هو نتيجة طبيعية لمجال الاستقبال لمرشحات الالتفاف التي تحتوي على مناطق مختلفة من المدخل. إذا كانت الشبكة العصبية تمتلك تنشيطات مكانياً معتمدة وكانت مجموعة البيانات الاستكشافية تمتلك اعتماداً مكانياً، فقد يكون من الممكن إنشاء متجه مفهوم مع اعتماد مكاني.

متجه المفهوم \(\vv_{c,l}\) معتمد مكانياً بالنسبة للمواقع إذا وفقط إذا \[\label{eqn: concept vector spatial dependence} \begin{aligned} &\textcolor{red}{\va_{c,l,\mu_1}^+} \cdot \vv_{c,l} > \textcolor{blue}{\va_{c,l,\mu_2}^+} \cdot \vv_{c,l} &\forall \textcolor{red}{\va_{c,l,\mu_1}^+} \in \textcolor{red}{\A_{c,l,\mu_1}^+}, \textcolor{blue}{\va_{c,l,\mu_2}^+} \in \textcolor{blue}{\A_{c,l,\mu_2}^+}. \end{aligned}\]

إذا كان متجه التنشيط المفاهيمي معتمداً مكانياً، فبناءً على التعريف أعلاه، فهو أكثر تشابهاً مع التنشيطات من الصور التي تحتوي على المفهوم في موقع محدد. هذا يعني أن متجه التنشيط المفاهيمي يمثل ليس فقط تسمية المفهوم، ولكن تسمية المفهوم في موقع محدد، مثل الأشياء المخططة على اليمين من الصورة، بدلاً من الأشياء المخططة بشكل عام. كما فعلنا للخصائص الأخرى، نقترح فرضية ونسعى لرفضها لاحقاً في الورقة:

الفرضية الباطلة 3 (NH3): لا يمكن أن تكون متجهات التنشيط المفاهيمي معتمدة مكانياً

نرفض هذه الفرضية في §[sec: Spatial] من خلال تحليل كيفية تأثير موقع المفهوم في مجموعة البيانات الاستكشافية على الاعتماد المكاني لمتجهات المفهوم. رفض NH3 يحفز تقديم متجهات التنشيط المفاهيمي المعتمدة مكانياً (§ [sec: Spatial])، والتي يمكن استخدامها لاختبار ما إذا كان النموذج متغير الترجمة بالنسبة لمفهوم وفئة محددة.

العناصر: مجموعة بيانات اصطناعية قابلة للتهيئة

لاستكشاف هذه الفرضيات، نقدم مجموعة بيانات اصطناعية جديدة: العناصر. في هذه المجموعة، يمكننا التحكم في: (1) مجموعة البيانات التدريبية وتعريفات الفئات، مما يتيح لنا التأثير على خصائص النموذج، مثل ارتباط المفاهيم في فضاء التضمين, و(2) مجموعة البيانات الاختبارية، مما يتيح لنا اختبار خصائص متجه المفهوم، مثل الاعتماد المكاني لمتجه المفهوم. نقوم بمزيد من التفصيل حول هذه المزايا في الملحق [app: Elements].

كل صورة تحتوي على \(n\) عناصر، حيث يتم تعريف العنصر بسبع خصائص: اللون، السطوع، الحجم، الشكل، النسيج، تحول النسيج، والإحداثيات داخل الصورة. يمكن تهيئة المجموعة بتغيير التركيبة المسموح بها للخصائص لكل عنصر. يتم إعطاء النطاقات والتكوينات المستخدمة لكل خاصية في الملحق [app: Elements].

الأعمال ذات الصلة

الارتباط والتشابك بين المفاهيم

يناقش تشن وآخرون (Chen2020ConceptWF) كيف يمكن أن تكون متجهات المفاهيم مرتبطة، مما يجعل من الصعب إنشاء متجه يمثل مفهوماً واحداً فقط. بينما يركز عملهم على فك الارتباط بين المفاهيم أثناء التدريب، نحن نركز على تحليل تأثير المفاهيم المرتبطة بعد التدريب ونوضح كيف يمكن أن تؤدي إلى تفسيرات مضللة (§[sec: Entanglement]). يستخدم فونغ وفيدالدي (fong2018net2vec) تشابه الجيب التمام لإظهار أن التشابه بين المفاهيم يختلف بناءً على طريقة إنشاء المتجه. في عملنا، نستخدم أيضاً تشابه الجيب التمام لمقارنة متجهات المفاهيم. الاختلاف يكمن في تركيزنا على متجهات التحليل العنقودي والرؤى التي تقدمها حول مجموعة البيانات والنموذج.

الاعتماد المكاني

يصف بيسكيوني وباورز (Biscione2021Invariant) كيف أن الشبكات العصبية الالتفافية ليست مترجمة بشكل طبيعي ولكن يمكن أن تتعلم أن تكون كذلك (تحت ظروف معينة على مجموعة البيانات). هذا الاكتشاف يتحدى الافتراض الشائع بأن الشبكات العصبية الالتفافية تمتلك ترجمة طبيعية. من خلال متجهات التحليل العنقودي المعتمدة مكانياً، نظهر الترجمة بالنسبة لمفهوم وفئة محددة، بدلاً من ذلك بشكل عام، مما يوفر معلومات أكثر تفصيلاً عن النموذج.

ما هي تمثيلات المفاهيم التي ينطبق عليها تحليلنا؟

تمثل معظم طرق التفسير المبنية على المفاهيم المفاهيم كـ متجهات في فضاء التنشيط لشبكة عصبية مدربة (kim2018interpretability, fong2018net2vec, bolei2018ibd, ghorbani2019automating, zhang2020invertible, ramaswamy2022elude, fel2023craft). ومع ذلك، تستخدم بعض الطرق المبنية على المفاهيم تمثيلات مختلفة: الخلايا العصبية الفردية (bau2017network)، مناطق فضاء التنشيط (crabbe2022) أو المفاهيم غير الخطية (bai2022concept, li2023emergent). يتركز عملنا على خصائص متجهات المفاهيم.

كيف يكون عملنا ذا صلة عملياً؟

لتقديم رؤية حول متى قد تكون الخصائص المختلفة ذات صلة، قمنا بمراجعة أوراق الرؤية الحاسوبية التي تستخدم متجهات التحليل العنقودي في (1) تطبيقات عالية الأهمية مثل التصوير الطبي (بما في ذلك سرطان الجلد، آفات الجلد، سرطان الثدي، وعلم الأنسجة (Yan2023SkinCancer, Furbock2022Breast, Pfau2020Robust))، و(2) بحوث الرؤية الحاسوبية على النماذج المدربة باستخدام مجموعات بيانات معروفة (Krizhevsky2009CIFAR, Tsung2014COCO, Wah2011CUB,Zhou2017Places, Sagawa2020Waterbirds, Deng2009ImageNet). يمكن العثور على جدول ملخص في الملحق [app: related work]. وجدنا أن الأوراق التالية كان يمكن أن تستفيد من تقييم: الاتساق (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Lucieri2020Oninterp)، التشابك (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Graziani2020Concept, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust)، والاعتماد المكاني (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust). نقدم مثالاً مفصلاً، باستخدام تطبيق تشخيص سرطان الجلد (Yan2023SkinCancer)، في § [sec: Recommendations] والملحق [app: Example UseCase].

مجموعات البيانات

بينما تم تقديم العديد من مجموعات البيانات لتقييم طرق التفسير، فإنها تختلف عن مجموعة البيانات الخاصة بنا في بعض الطرق الرئيسية. هناك ثلاثة جوانب نهتم بها:

  1. هل يتم تمثيل المفهوم في الشبكة؟

  2. هل يتم استخدام المفهوم لتنبؤ الشبكة؟

  3. كيف تمثل الشبكة المفاهيم المرتبطة؟

تسمح مجموعات البيانات الحالية فقط بالاطلاع على (1)، بينما تتيح لنا مجموعة البيانات الخاصة بنا تحليل (2) و(3) أيضاً. تقدم طريقة تقييم التفسير (yang2019) عناصر في صور المشاهد. بينما تستفيد من استخدام الصور الحقيقية والمفاهيم المعقدة (الكلب أو غرفة النوم)، فإنها تواجه أيضاً تحديات. أحد العيوب هو أن الاعتماد على الصور الحقيقية يجعل من الصعب إنشاء علاقة الحقيقة الأساسية بين المفاهيم وتنبؤات الفئة أو معرفة التشابهات بين المفاهيم. وبالتالي، لا تعطينا رؤية في (2) أو (3). مجموعة البيانات الاصطناعية في يه وآخرون (yeh2020completeness) هي الأقرب إلى مجموعة البيانات الخاصة بنا ولكن تم تصميمها لاكتشاف المفهوم، حيث تتميز الصور بأن كل عنصر يتوافق مع مفهوم واحد (الشكل). في مجموعة البيانات الخاصة بنا، يحتوي كل عنصر على مفاهيم متعددة، مما يتيح لنا إنشاء ارتباطات بينها. نركز على دقة التفسير من خلال التأكد من أن المفاهيم يجب أن تُستخدم بشكل صحيح من قبل النموذج لتحقيق دقة عالية. لذا، بالنسبة لنموذج دقيق، لدينا فهم حقيقي لكيفية استخدام كل مفهوم. يمكن العثور على مراجعة أدبية موسعة في الملحق [app: related work].

النتائج: استكشاف خصائص متجه المفهوم

نستكشف الفرضيات حول الاتساق (NH1)، التشابك (NH2)، والاعتماد المكاني (NH3) في § [sec: layer_stability]، § [sec: Entanglement] و § [sec: Spatial]، على التوالي. نقوم بتنفيذ التجارب باستخدام متجهات المفهوم المشروطة على مجموعات بيانات العناصر وImageNet. يمكن العثور على تفاصيل التنفيذ في الملحق [app: implementation].

استقرار متجهات المفهوم عبر الطبقات

النظرية

نبدأ بفحص NH1، والذي ينص على أن المتجهات المميزة للسيارات ذاتية القيادة متسقة عبر الطبقات، أي أن \(f(\va_{l_1} + \vv_{c, l_2}) = \va_{l_2} + \vv_{c, l_2}\). لنفترض أن \(\hat{\va}_{l_1}\) و \(\hat{\va}_{l_2}\) هما اضطرابات خطية للتنشيطات في الطبقتين \(l_1\) و \(l_2\) على التوالي: \[\begin{aligned} \hat{\va}_{l_1} &= \va_{l_1} + \vclo \\ \hat{\va}_{l_2} &= \va_{l_2} + \vclt = f(\va_{l_1}) + \vclt\end{aligned}\] نريد أن نفحص إذا كان \(\vclo\) و \(\vclt\) لهما نفس التأثير على التنشيطات (وبالتالي على النموذج)، أي إذا كان: \[\label{eqn: consistent cavs} \begin{aligned} f(\hat{\va}_{l_1}) &= \hat{\va}_{l_2} \\ f(\va_{l_1} + \vclo) &= f(\va_{l_1}) + \vclt. \end{aligned}\] لنفترض أننا وجدنا \(\vclo\) ونود أن نجد \(\vclt\) الذي يلبي المعادلة [eqn: consistent cavs]. إذا كانت \(f\) تحافظ على جمع الناقلات، كما في طبقة خطية، فإنه يصح أن: \[\begin{aligned} f(\va_{l_1}) + f(\vclo) &= f(\va_{l_1}) + \vclt \\ \vclt &= f(\vclo). \end{aligned}\] وبالتالي، من الممكن أن يكون لدينا ناقلات متسقة عبر الطبقات إذا كانت \(f\) تحافظ على جمع الناقلات و \(\vclt = f(\vclo)\). بدلاً من ذلك، إذا لم تحافظ \(f\) على جمع الناقلات، لا يمكننا تبسيط المعادلة [eqn: consistent cavs] و لناقل معين \(\vv_{c, l_1}\): \[\label{eqn: consistency vcl2} \vv_{c, l_2} = f(\va_{l_1} + \vv_{c, l_1}) - f(\va_{l_1}).\] إذا كان \(\vclt\) يعتمد على \(\va_{l_1}\)، فلا يوجد \(\vclt\) بحيث تكون المعادلة [eqn: consistent cavs] صحيحة لجميع \(\va_{l_1}\). بمعنى آخر، لا يوجد ناقل في الطبقة \(l_2\) له نفس التأثير على التنشيطات كناقل في الطبقة \(l_1\) لجميع المدخلات إلى النموذج.

وظائف ReLU و sigmoid هي تنشيطات شائعة في الشبكات العصبية. باستخدام المعادلة [eqn: consistency vcl2]، لأي مدخل \(i\)، إذا \[\begin{aligned} \label{eqn: ReLU conditions} & f=\text{ReLU}: \quad a_{l_1,i} + v_{l_1,i} > 0, \ a_{l_1,i} \leq 0, \text{ أو } a_{l_1,i} + v_{l_1,i} \leq 0, \ a_{l_1,i} > 0 \\ \label{eqn: sigmoid conditions} & f=\text{sigmoid}: \quad v_{l_1,i} \neq 0\end{aligned}\] فلا يوجد \(\vclt\) متسق، أي أنه مستحيل أن يكون لدينا ناقلات متسقة تحت هذه الشروط. البراهين لـ [eqn: ReLU conditions,eqn: sigmoid conditions] متوفرة في الملحق [app: consistency proof]. بعد ذلك، نوضح أننا لا نستطيع العثور على ناقلات متسقة عملياً.

التجارب

هدفنا هو استقصاء السؤال: هل المتجهات المفاهيمية المكتشفة باستخدام TCAV متسقة؟ نقيس الاتساق بين المتجهات باستخدام خطأ الاتساق: \[\begin{aligned} \epsilon_{\text{consistency}} = ||f(\hat{\va}_{l_1}) - \hat{\va}_{l_2}|| = ||f(\va_{l_1} + \vclo) - (\va_{l_2} + \vclt)|| \end{aligned}\] في تجاربنا، نستخدم مصطلح تحجيم لتقليل حجم \(\vclo\) و \(\vclt\) لضمان بقاء النشاط المضطرب ضمن التوزيع - راجع الملحق [app: Consistency gamma] للتفاصيل. إذا كان لدى المتجهين خطأ اتساق يساوي \(0\)، فهذا يعني أنهما لهما نفس التأثير على النموذج. نشمل المعايير التالية:

CAV المحسن

(الحد الأدنى): قد لا يجد TCAV \(\vclt\) الذي يكون له خطأ اتساق يساوي \(0\) مع \(\vclo\). لذلك، نستخدم الانحدار المتدرج على \(\vclt\) لإيجاد أقل خطأ اتساق ممكن.

CAV الموجه

الخطأ بين \(f(\vclo)\) و \(\vv_{c, l_2}\)، الذي يقيس مدى اتساق المتجهات عند انتقالها إلى الطبقة التالية. إذا كانت \(f(\cdot)\) تحافظ على جمع المتجهات، فإن CAVs الموجهة سيكون لها خطأ يساوي \(0\).

عشوائي

(الحد الأعلى): نشمل معيارين. CAVs العشوائية المكتشفة باستخدام مجموعات بيانات الاختبار التي تحتوي على صور عشوائية، ومتجه الاتجاه العشوائي: \(\vv_{c, l_2} \sim \text{Uniform}(-1, 1)\). إذا كان خطأ الاتساق مشابهاً للعشوائي، فهذا يشير إلى أن CAVs بين الطبقات متشابهة بقدر الاتجاهات العشوائية.

عدم القدرة على العثور على متجهات متسقة عبر الطبقات يشير إلى أن الاتجاهات التي يتم ترميزها بواسطة CAVs في طبقات مختلفة ليست معادلة؛ بل، تمثل مكونات مختلفة من نفس المفهوم. هذا يتماشى مع الحدس بأن تمثيلات النموذج تتعقد في الطبقات اللاحقة (Mordvintsev2015DeepDream, olah2017feature, bau2017network)، وبالتالي من غير المحتمل أن تمثل نفس جوانب المفهوم في طبقات مختلفة (انظر الملحق [app: DeepDream]). بناءً عليه، يمكن أن تختلف درجات TCAV عبر الطبقات حيث تقيس حساسية الفئة لنُسخ مختلفة من المفهوم.

في الجانب الأيمن من [fig:consistency tcav scores]، نعرض درجات TCAV لفئات مختلفة في نموذج ResNet-50 المدرب على ImageNet. دقة المتجهات في ImageNet تزيد عن \(96\%\) لجميع الطبقات التي تم اختبارها، مما يشير إلى أن المفهوم مرمَّز في كل منها. كما في Elements، لا نلاحظ درجات TCAV متسقة عبر الطبقات. بدلاً من ذلك، نلاحظ تغيراً كبيراً في درجات TCAV في الطبقة قبل الأخيرة، مقارنة بالطبقات السابقة. ’layer4.1’ يشير إلى تأثير إيجابي على احتمالية فئتي النمر والفهد. ومع ذلك، تشير الطبقات السابقة إلى أن الفئة ليست حساسة للمفهوم. هذا يظهر كيف يمكن أن تختلف الاستنتاجات باختلاف الطبقة المختارة.

التشابك

قد ترتبط المفاهيم المختلفة ببعضها. على سبيل المثال، غالباً ما تكون السماء زرقاء، وهاتان الخاصيتان مرتبطتان جوهرياً ولا ينبغي التعامل معهما بمعزل. نوضح هنا كيف يمكن اكتشاف هذه الارتباطات باستخدام المتجهات المنشأة والآثار المترتبة على تحليل المفاهيم.

لاستكشاف التشابك، نحدد ونصور ارتباطات المفاهيم بحساب متوسط التشابه الزاوي بين أزواج المتجهات المنشأة (نوجد متجهات متعددة لكل مفهوم). نختبر ذلك في ثلاثة نماذج مدربة على إصدارات مختلفة من مجموعة بيانات Elements. كل نسخة من مجموعة البيانات متطابقة باستثناء الارتباط بين اللون والشكل:

في \(\E_1\)، نلاحظ عدم وجود ارتباط إيجابي بين المفاهيم. في \(\E_2\)، يظهر ارتباط إيجابي بسيط بين ’أحمر’ و’مثلث’. وفي \(\E_3\)، يقترب التشابه الزاوي بين متجهات ’أحمر’ و’مثلث’ من التشابه مع المتجه نفسه. هذا يعكس الارتباط المتزايد بين المفهومين. نعرض تحليلات مماثلة على ImageNet في الملحق [app: Entanglement].

من المثير للاهتمام، غالباً ما نجد تشابكاً سلبيّاً بين المفاهيم المتبادلة الاستبعاد (لكل عنصر لون واحد فقط). يعكس هذا التشفير المنطقي بأن وجود لون واحد يقلل من احتمال وجود لون آخر. بالتالي، متجه ’أحمر’ يشفر أيضاً المعرفة بعدم ’أخضر’ أو ’أزرق’ من خلال ارتباط سلبي مع تلك المتجهات.

بعد ذلك، نفحص تأثير تشابك المتجهات على نتيجة TCAV. نحلل نتائج TCAV لفئة ’المثلثات المخططة’ في \(\E_1\) و \(\E_2\). تسمية الفئة تعتمد على ’مثلث’ و’مخطط’. نتوقع أن تكون نتائج TCAV لبقية المفاهيم منخفضة أو غير مهمة لأنها لا تنتمي للتسمية.1

في \(\E_1\) (البيانات الأصلية)، تظهر نتائج عالية فقط لـ’مثلث’ و’مخطط’. في \(\E_2\) (المعدلَلة)، نجد نتائج مرتفعة أيضاً لـ’أحمر’ بسبب ارتباطه بـ’مثلث’. من أصل 2,374/5,000 صورة مخططة، لا خطأ في التصنيف، مما يدل على أن الحساسية لـ’أحمر’ هي أثر جانبي لمتشابك المتجهات. بالتالي، يمكن لمتجهات المفاهيم المتشابكة أن تقود إلى تفسيرات مضللة.

الاعتماد المكاني

أخيراً، نستكشف NH3: هل تعتمد CAVs مكانياً؟ نعيد تشكيل المتجه إلى أبعاد التنشيط الأصلية، ثم نحسب القاعدة القنوية: \[\mathbf{S}_{c, l} = \|\mathrm{reshape}(\vcl, (H, W, D))\|_2,\] حيث \(\mathbf{S}_{c, l} \in \R^{H \times W}\) و\(\| \cdot \|_2\) هي قاعدة \(L_2\) على البعد القنوي. نمثل هذه المصفوفة كـ ’القواعد المكانية’ لـCAV.

اختلاف كبير في القواعد المكانية عبر الأبعاد \((H, W)\) يدل على اعتماد مكاني (انظر الملحق [app: Spatial Norms]). تصور هذه القواعد يكشف المناطق التي تسهم بقوة في المشتقة الاتجاهية ونتائج TCAV.

لإنشاء CAVs معتمدة مكانياً، بنينا مجموعات بيانات استقصائية مكانياً لكل من Elements وImageNet عن طريق تقييد أو تغميق أجزاء من الصورة (انظر [fig: elements examples] والملحق [app: Spatially dependent probes]).

عند استخدام مجموعة بيانات استقصائية غير معتمدة مكانياً (الصف العلوي من [fig: mean spatial norms])، تبدو القواعد المكانية متجانسة، مما يدل على عدم وجود اعتماد مكاني2. وعندما تحتوي الاستقصاءات على اعتماد مكاني، تظهر CAVs الناتجة نفس النمط.

نختبر كذلك سؤال: هل تعتمد حساسية النموذج لمفهوم ما على موقعه في الإدخال؟ بما أن CAVs تعمل في فضاء تنشيط طبقة محددة، نوضح أن النموذج ليس ثابت الترجمة إذا:

  1. للنموذج اعتماد مكاني في التنشيطات، أي أن بكسلات مختلفة تؤثر بشكل متفاوت على التنشيطات.

  2. كل شريحة عمقية من التنشيطات (\((1, 1, D)\)) تؤثر على الإخراج اللوجيت بشكل مختلف.

هذان العاملان يؤثران على: \(\vcl\) و\(\nabla h_{l, k}(g_{l}(\vx))\). للتحقق من (2)، نحسب TCAV لمجموعات CAVs مكانية لترى إذا تغيرت الحساسية باختلاف الموقع. في Elements، أنشأنا فئات مكانية مثل ’مثلثات مخططة على اليسار’. نستخدم CAVs مكانية لإظهار أن النموذج ليس ثابت الترجمة لهذه الفئات (انظر [fig:spatial tcav scores elements]). على سبيل المثال، لفئة ’مثلثات مخططة على اليسار’ نتائج TCAV لـ’مخطط’ و’مثلث’ مرتفعة، بينما لـ’مخطط على اليمين’ و’مثلث على اليمت’ تكون قريبة من الصفر، مما يدل على أن حساسية النموذج تعتمد على موقع المفهوم. هذا يختبر ثبات الترجمة باستخدام CAVs. للمزيد على ImageNet راجع الملحق [app: Spatial TCAV].

توصيات الممارسين

في § [sec: related work] أدرجنا أوراقاً استخدامت CAVs وقد تتأثر بهذه الخصائص. كمثال، نفحص حالة يان وآخرون (Yan2023SkinCancer) في تشخيص سرطان الجلد. لبعض المفاهيم اعتماديات مكانية متوقعة، مثل الحدود الداكنة والزوايا الداكنة. يمكن للقواعد المكانية تأكيد ذلك. لمفاهيم مثل مسطرة، تؤكد القواعد غياب اعتماد مكاني. كما يمكن تحليل التشابه الزاوي بين متجهات متعارضة مثل الخطوط المنتظمة والخطوط غير المنتظمة للتحقق من ارتباطهما السلبي. مزيد من التفاصيل في الملحق [app: Example UseCase].

الخلاصة والأعمال المستقبلية

في هذا العمل، نستكشف ثلاث خصائص رئيسية تؤثر على متجهات تنشيط المفاهيم (CAVs): الاتساق، التشابك، والاعتماد المكاني. أولاً، نستنتج الشروط التي تمنع اتساق CAVs عبر الطبقات وندعم ذلك بأدلة تجريبية. ثم نقدم أداة تصوير لاستكشاف تشابك المفاهيم داخل البيانات والنموذج. أخيراً، نظهر تأثير الاعتماد المكاني ونقترح طريقة لاكتشافه داخل النماذج. أجرينا هذه التجارب باستخدام مجموعة البيانات الاصطناعية Elements، حيث يسهل تخصيص الاستقصاءات. نطرح هذه المجموعة لتعزيز البحث في هذا المجال المتنامي.

في المقدمة، ذكرنا عدة طرق تفسير تعتمد على تمثيل المتجه. أضاءت دراستنا بعض خصائص هذه النهج ونتائجها. في الأبحاث المستقبلية، ينبغي تقييم خصائص أشكال أخرى من التمثيل، مثل التجمعات داخل فضاء التنشيط (crabbe2022)، ومقارنة مزاياها.

الشكر والتقدير

نحن نقدر كل أعضاء مجموعة OATML ومجموعة Noble لدعمهم ومناقشاتهم خلال المشروع، وبشكل خاص أندرو جيسون. نحن ممتنون أيضاً لبين كيم لأفكارهم وتعليقاتهم على عملنا. يدعم A. Nicolson من قبل مركز EPSRC للتدريب الدكتوراه في علوم البيانات الصحية (EP/S02428X/1). تعترف J.A. Noble بمنح EPSRC EP/X040186/1 و EP/T028572/1.


  1. بافتراض أن النموذج يستخدم كل مفهوم بشكل صحيح

  2. قد تظل CAVs الفردية تعتمد مكانياً، ولكن هذا يُلغى عبر تشغيلات التدريب. انظر الملحق [app: Individual Spatial Norms] للتفاصيل.