شرح القابلية للتفسير: فهم متجهات تنشيط المفهوم

Angus Nicolson

Lisa Schut

J. Alison Noble

Yarin Gal

latex

مُلَخَّص

تقترح طرق القابلية للتفسير الحديثة استخدام تفسيرات مبنية على المفاهيم لترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبية. إحدى الطرق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفهوم (CAVs)، والتي يتم تعلمها باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، نحقق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير متسقة بين الطبقات، (2) متشابكة مع مفاهيم مختلفة، و(3) تعتمد على الموقع. توفر كل خاصية تحديات وفرصاً في تفسير النماذج. نقدم أدوات مصممة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفية تأثيرها على التفسيرات المستخرجة، وتقديم توصيات لتقليل تأثيرها. يمكن استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نقدم CAVs التي تعتمد على الموقع لاختبار ما إذا كان نموذج ما يتمتع بخاصية الثبات الترجمي بالنسبة لمفهوم وفئة معينة. تتم تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements. تم تصميم Elements لالتقاط علاقة حقيقة أرضية معروفة بين المفاهيم والفئات. نطلق هذه المجموعة لتسهيل المزيد من البحث في فهم وتقييم طرق القابلية للتفسير.

مُقَدِّمَة

أصبحت نماذج التعلم العميق شائعة الاستخدام، حيث تحقق أداءً يصل أو يتجاوز خبراء البشر في مجموعة متنوعة من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على شرح عملية اتخاذ القرارات لديها. مع تطبيقها في عدد متزايد من المجالات العملية، تزداد الحاجة لفهم كيفية عملها. تتيح هذه الشفافية تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.

يمكن أن تأخذ شروحات النماذج أشكالاً متعددة، مثل ميزات الإدخال، النماذج الأولية أو المفاهيم. أظهرت الأعمال الحديثة أن طرق الشرح التي تركز على الميزات منخفضة المستوى يمكن أن تواجه مشاكل. على سبيل المثال، قد تعاني طرق البروز من التحيز التأكيدي ونقص الإخلاص (adebayo2018sanity). حتى عندما تكون مخلصة، فإنها تظهر فقط ’أين’ ركز النموذج في الصورة، وليس ’ماذا’ ركز عليه (achtibat2022where, colin2022what).

لمعالجة هذه المشاكل، توفر الطرق المبنية على المفاهيم شروحات باستخدام مصطلحات عالية المستوى يعرفها البشر. إحدى الطرق الشائعة هي متجهات تنشيط المفهوم (CAVs): تمثيل خطي لمفهوم موجود في فضاء التنشيط لطبقة محددة باستخدام مجموعة بيانات استكشافية لأمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه الطرق المبنية على المفاهيم أيضاً تحديات، مثل حساسيتها لمجموعة البيانات الاستكشافية المحددة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).

في هذه الورقة، نركز على فهم ثلاث خصائص لمتجهات المفاهيم:

  1. قد لا تكون متسقة عبر الطبقات،

  2. يمكن أن تكون متشابكة مع مفاهيم أخرى،

  3. يمكن أن تكون معتمدة مكانياً.

نوفر أدوات لتحليل كل خاصية ونظهر أنها يمكن أن تؤثر على الاختبار باستخدام CAVs (TCAV) (§[sec: layer_stability], §[sec: Entanglement] و §[sec: Spatial]). لتقليل تأثير هذه الآثار، نوصي بـ: إنشاء CAVs لعدة طبقات، التحقق من الاعتماديات المتوقعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه الخصائص أنه لا ينبغي استخدام CAVs. على العكس، قد نتمكن من استخدام هذه الخصائص لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نقدم نسخة معدلة من CAVs التي تعتمد مكانياً ويمكن استخدامها لتحديد التغير الترجمي في الشبكات العصبية التلافيفية (CNNs).

لمساعدة في استكشاف هذه الخصائص، أنشأنا مجموعة بيانات تركيبية قابلة للتكوين: العناصر (§[sec:elements]). توفر هذه المجموعة التحكم في العلاقات الحقيقية بين المفاهيم والفئات لفهم سلوك النموذج. باستخدام مجموعة بيانات العناصر، يمكن للباحثين دراسة (1) إخلاص طريقة الشرح المبنية على المفاهيم و(2) التشابك المفاهيمي في الشبكة.

الخلفية: متجهات تفعيل المفهوم

متجه تفعيل المفهوم (CAV) هو تمثيل متجهي لمفهوم موجود في فضاء التفعيل لطبقة من الشبكة العصبية (NN). فكر في شبكة عصبية يمكن تحليلها إلى دالتين: \(g_l(\vx) =\va_l \in \R^{m}\) التي تعين المدخل \(\vx \in \R^n\) إلى متجه \(\va_l\) في فضاء التفعيل للطبقة \(l\)، و\(h_l(\va_l)\) التي تعين \(\va_l\) إلى المخرج. لإنشاء متجه تفعيل المفهوم لمفهوم \(c\) نحتاج إلى مجموعة بيانات استكشافية \(\D_c\) تتكون من عينات إيجابية \(\X_c^+\) (أمثلة المفهوم)، وعينات سلبية \(\X_c^-\) (صور عشوائية ضمن التوزيع). لمجموعتي \(\X_c^-\) و \(\X_c^+\)، ننشئ مجموعة مقابلة من التفعيلات في الطبقة \(l\): \[\A_{c,l}^+ = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^+\} , \text{ و} \ \A_{c,l}^- = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^-\},\] نجد متجه تفعيل المفهوم \(\vcl\) من خلال تدريب مصنف خطي ثنائي للتمييز بين المجموعتين \(\A_{c,l}^+\) و \(\A_{c,l}^-\): \[\label{eq:svm} \al \cdot \vcl + b_{c,l} > 0 \quad \forall \al \in \A_{c,l}^+ , \text{ و } \al \cdot \vcl + b_{c,l} \leq 0 \quad \forall \al \in \A_{c,l}-,\] حيث \(\vcl\) هو المتجه العمودي للمستوى الفاصل بين التفعيلات \(\A_{c,l}^+\) و \(\A_{c,l}^-\)، و\(b_{c,l}\) هو الجزء المقطوع.

لتحليل حساسية النموذج لـ \(\vcl\)، يقدم كيم وآخرون (kim2018interpretability) اختباراً باستخدام متجهات تفعيل المفهوم (TCAV)، والذي يحدد حساسية المفهوم النموذجية عبر فئة كاملة. ليكن \(\X_k\) مجموعة من المدخلات التي تنتمي إلى الفئة \(k\). يعرف مقياس TCAV كما يلي \[\operatorname{TCAV}_{c, k, l}=\frac{\left|\left\{\vx \in \X_{k}: S_{c, k, l}(\vx)>0\right\}\right|}{\left|\X_{k}\right|},\] حيث المشتقة الاتجاهية للمفهوم، \(S_{c, k, l}\)، معرفة كما يلي \[S_{c, k, l}(\vx) =\lim _{\epsilon \rightarrow 0} \frac{h_{l, k}\left(g_{l}(\vx)+\epsilon \vv_{c, l}\right)-h_{l, k}\left(g_{l}(\vx)\right)}{\epsilon} =\nabla h_{l, k}\left(g_{l}(\vx)\right) \cdot \vcl\] حيث \(\nabla h_{l, k}\) هو المشتق الجزئي لمخرج الشبكة العصبية للفئة \(k\) إلى التفعيل. يقيس مقياس TCAV نسبة المدخلات للفئة \(k\) التي يتأثر تفعيلها في الطبقة \(l\) بشكل إيجابي بالمفهوم \(c\). يستخدم اختبار إحصائي لمقارنة مقاييس متجهات تفعيل المفهوم بالمتجهات العشوائية لتحديد أهمية المفهوم (انظر الملحق [app: CAV]).

فرضيات المتجهات المفاهيمية الموجهة

لكي نستخدم طرق التفسير المبنية على المتجهات المفاهيمية الموجهة في الممارسة العملية، من المهم فهم كيفية عملها. لذلك، ندرس ثلاث خصائص للمتجهات المفاهيمية الموجهة وتأثيراتها على نتائج المتجهات المفاهيمية الموجهة. نركز على هذه الفرضيات لأنها توفر رؤية حول تمثيلات الشبكة وعن المعنى المشفر بواسطة متجهات المفهوم.

نصوغ كل خاصية من خلال فرضية صفرية، والتي نقدم دليلاً لرفضها لاحقاً في الورقة. في النص التالي، نستخدم التنسيق concept للدلالة على مفهوم.

الاتساق

بشكل عام، نريد فهم سلوك النموذج. ومع ذلك، تفسر المتجهات المفاهيمية المنشطة (CAVs) ما إذا كان النموذج حساساً لمفهوم في طبقة محددة. في الواقع، قد يكون تحليل جميع الطبقات غير عملي حسابياً، وليس من الواضح أي الطبقات يجب اختيارها. لذلك، تستكشف فرضيتنا الأولى العلاقة بين المتجهات المفاهيمية المنشطة الموجودة في طبقات مختلفة. تذكر أن درجات TCAV تعتمد على المشتقة الاتجاهية: كيف يتغير مخرج النموذج لتغيير لا نهائي صغير للتنشيطات في اتجاه متجه مفهومي منشط. من خلال تعديل التنشيطات في اتجاه متجه مفهومي منشط، نستكشف ما إذا كان بإمكان متجهين مفهوميَين منشطين موجودين في طبقات مختلفة أن يكون لهما نفس التأثير على مخرجات النموذج. نشير إلى هذه الخاصية باسم الاتساق.

افترض أن لدينا دالة \(f(\cdot)\) ترسم التنشيطات من الطبقة \(l_1\) إلى التنشيطات في الطبقة \(l_2\)، حيث \(l_1<l_2\). المتجهات المفاهيمية، \(\vclo\) و \(\vclt\) متسقة إذا ولكل مدخل \(\vx\) والتنشيطات المقابلة \(\va_{l_1}\) و \(\va_{l_2}\)، \(f(\va_{l_1} + \vclo) = \va_{l_2} + \vclt\).

إذا كان متجهان مفهوميَان منشطان متسقين، فإن لهما نفس التأثير اللاحق على النموذج عندما يتم تعديل التنشيطات في اتجاههما، أي، على الرغم من أنهما في طبقات مختلفة، فإن لهما تأثيراً مكافئاً على مخرجات النموذج وبالتالي يعطيهما النموذج نفس المعنى. فرضيتنا الأولى هي:

الفرضية الصفرية 1 (NH1): تمثيلات المتجه المفهومي متسقة عبر الطبقات

في §[sec: layer_stability] نستكشف هذه الفرضية رسمياً، ونقوم بتقييمات تجريبية على مجموعات بيانات العناصر وImageNet (Deng2009ImageNet). نظهر نظرياً الشروط التي يجب أن تلتقي بها \(\vclt\) و \(\va_{l_1}\) لكي يكون المتجهان \(\vclo\) و \(\vclt\) متسقين عندما تكون \(f\) إما وحدة خطية معتدلة (ReLU) أو دالة سيجمويد.

متجهات المفاهيم المتشابكة

لنأخذ في الاعتبار المعنى الذي يتم ترميزه بواسطة متجه المفهوم. نقوم بتسمية متجه المفهوم باستخدام التسمية المقابلة لمجموعة البيانات التجريبية. على سبيل المثال، قد يتم تسمية متجه المفهوم بـ striped أو red. هذا يفترض ضمنياً أن التسمية هي وصف كامل ودقيق للمعلومات التي يتم ترميزها بواسطة المتجه. في الواقع، قد يمثل متجه المفهوم عدة مفاهيم – على سبيل المثال، استمراراً في المثال أعلاه، قد يرمز المتجه إلى striped و red في نفس الوقت. نشير إلى هذه الظاهرة باسم “تشابك المفاهيم”. من الناحية الرياضية، نصيغ هذا على النحو التالي. متجه المفهوم \(\vcl\) أكثر تشابهاً مع التنشيطات المقابلة للصور التي تحتوي على المفهوم من التنشيطات للصور التي لا تحتوي على المفهوم، أي أنه يلبي \[\va_{c,l}^+ \cdot \vcl > \va_{c,l}^- \cdot \vcl \quad \forall \va_{c,l}^+ \in \A_{c,l}^+, \va_{c,l}^- \in \A_{c,l}^-.\]

لنفترض أن لدينا المفاهيم \(c_1\) و \(c_2\)، مع مجموعات البيانات التجريبية \(\D_{c_1}\) و \(\D_{c_2}\)، على التوالي. لكل مجموعة بيانات تجريبية، نجد مجموعات التنشيط: \(\A_{c_1,l} = \{A_{c_1,l}^+ \cup A_{c_1,l}^- \}\) و \(\A_{c_2,l} = \{ \A_{c_2,l}^+ \cup \A_{c_2,l}^- \}\).

متجه المفهوم لمفهوم ما متشابك مع مفهوم آخر إذا وفقط إذا \[\label{eqn: entangled definition} \begin{aligned} &\textcolor{blue}{\va_{c_2,l}^+} \cdot \textcolor{red}{\vv_{c_1,l}} > \textcolor{blue}{\va_{c_2,l}^-} \cdot \textcolor{red}{\vv_{c_1,l}} &\forall \textcolor{blue}{\va_{c_2,l}^+} \in \textcolor{blue}{\A_{c_2,l}^+} , \textcolor{blue}{\va_{c_2,l}^-} \in \textcolor{blue}{\A_{c_2,l}^-} \end{aligned}\]

فرضيتنا الثانية تستكشف تشابك المفاهيم:

الفرضية الصفرية 2 (NH2): يمثل متجه المفهوم المفهوم المقابل فقط لتسميته في مجموعة البيانات التجريبية الخاصة به

إذا كانت المفاهيم متشابكة، فلن يكون من الممكن فصل حساسية النموذج لمفهوم واحد عن حساسيته للمفاهيم المتعلقة – وبالتالي، إذا قمنا بقياس درجة TCAV لـ \(c_1\)، فسندمج دون علم تأثير \(c_2\).

في §[sec: Entanglement] نقدم أداة تصور لاستكشاف تشابك متجهات المفاهيم ونناقش كيف يمكن أن يؤثر ذلك على TCAV.

الاعتماد المكاني

في هذا القسم، نستكشف تأثير الاعتماد المكاني على المفاهيم. لنفترض أن \(\D_{c, \mu_1}\) و \(\D_{c,\mu_2}\) تمثلان مجموعتي بيانات تحتويان على نفس المفهوم ولكن في مواقع مختلفة \(\mu_1 \neq \mu_2\). على سبيل المثال، قد تحتوي \(\D_{c, \mu_1}\) على أمثلة للمفهوم striped on the left في الصورة، و \(\D_{c,\mu_2}\) على أمثلة للمفهوم striped on the right في الصورة. كما في السابق، نقوم ببناء تمثيلات كامنة \(\A_{c,l,\mu_1}\) و \(\A_{c,l,\mu_2}\) لمجموعتي البيانات \(\D_{c, \mu_1}\) و \(\D_{c, \mu_2}\) على التوالي. ليكن \(\vcl\) هو متجه المفهوم الذي تم العثور عليه باستخدام مجموعة البيانات الاستكشافية \(\D_{c, \mu_1}\).

ليكن \(\va_{l, i}\) هي التنشيطات المقابلة للمدخل \(\vx_i\) في الطبقة \(l\)، وليكن \(\mu_{c,i}\) هو موقع المفهوم \(c\) في \(\vx_i\). تمتلك الطبقة تمثيلاً مكانياً معتمداً لمفهوم إذا وفقط إذا \[\exists \phi: \forall \vx_i \in \mathbb{X}_c^+, \phi(\va_{l, i}) = \mu_{c,i}\]

قد يكون الاعتماد المكاني للتنشيط في شبكة عصبية ناتجاً عن تصميم الهندسة، إجراء التدريب و/أو مجموعة بيانات التدريب. في الشبكات العصبية التلافيفية، هو نتيجة طبيعية لمجال الاستقبال لمرشحات التلافيف التي تحتوي على مناطق مختلفة من المدخل. إذا كانت الشبكة العصبية تمتلك تنشيطات مكانياً معتمدة وكانت مجموعة البيانات الاستكشافية تمتلك اعتماداً مكانياً، فقد يكون من الممكن إنشاء متجه مفهوم مع اعتماد مكاني.

متجه المفهوم \(\vv_{c,l}\) معتمد مكانياً بالنسبة للمواقع إذا وفقط إذا \[\label{eqn: concept vector spatial dependence} \begin{aligned} &\textcolor{red}{\va_{c,l,\mu_1}^+} \cdot \vv_{c,l} > \textcolor{blue}{\va_{c,l,\mu_2}^+} \cdot \vv_{c,l} &\forall \textcolor{red}{\va_{c,l,\mu_1}^+} \in \textcolor{red}{\A_{c,l,\mu_1}^+}, \textcolor{blue}{\va_{c,l,\mu_2}^+} \in \textcolor{blue}{\A_{c,l,\mu_2}^+}. \end{aligned}\]

إذا كان متجه التنشيط المفاهيمي معتمداً مكانياً، فبناءً على التعريف أعلاه، فهو أكثر تشابهاً مع التنشيطات من الصور التي تحتوي على المفهوم في موقع محدد. هذا يعني أن متجه التنشيط المفاهيمي يمثل ليس فقط تسمية المفهوم، ولكن تسمية المفهوم في موقع محدد، مثل الأشياء المخططة على اليمين من الصورة، بدلاً من الأشياء المخططة بشكل عام. كما فعلنا للخصائص الأخرى، نقترح فرضية ونهدف إلى رفضها لاحقاً في الورقة:

الفرضية الباطلة 3 (NH3): لا يمكن أن تكون متجهات التنشيط المفاهيمي معتمدة مكانياً

نرفض هذه الفرضية في §[sec: Spatial] من خلال تحليل كيفية تأثير موقع المفهوم في مجموعة البيانات الاستكشافية على الاعتماد المكاني لمتجهات المفهوم. رفض NH3 يحفز تقديم متجهات التنشيط المفاهيمي المعتمدة مكانياً (§ [sec: Spatial])، والتي يمكن استخدامها لاختبار ما إذا كان النموذج متغير الترجمة بالنسبة لمفهوم وفئة محددة.

العناصر: مجموعة بيانات اصطناعية قابلة للتهيئة

لاستكشاف هذه الفرضيات، نقدم مجموعة بيانات اصطناعية جديدة: العناصر. في هذه المجموعة، يمكننا التحكم في: (1) مجموعة البيانات التدريبية وتعريفات الفئات، مما يتيح لنا التأثير على خصائص النموذج، مثل ارتباط المفاهيم في فضاء التضمين، و(2) مجموعة البيانات الاختبارية، مما يتيح لنا اختبار خصائص متجه المفهوم، مثل الاعتماد المكاني لمتجه المفهوم. سنقوم بمزيد من التفصيل حول هذه المزايا في الملحق [app: Elements].

كل صورة تحتوي على \(n\) عناصر، حيث يتم تعريف العنصر بسبع خصائص: اللون، السطوع، الحجم، الشكل، النسيج، تحول النسيج، والإحداثيات داخل الصورة. يمكن تهيئة المجموعة بتغيير التوليفة المسموح بها للخصائص لكل عنصر. يتم إعطاء النطاقات والتكوينات المستخدمة لكل خاصية في الملحق [app: Elements].

الأعمال ذات الصلة

الارتباط والتشابك بين المفاهيم

يناقش تشين وآخرون (Chen2020ConceptWF) كيف يمكن أن تكون متجهات المفاهيم مرتبطة، مما يجعل من الصعب إنشاء متجه يمثل مفهوماً واحداً فقط. بينما يركز عملهم على فك الارتباط بين المفاهيم أثناء التدريب, نحن نركز على تحليل تأثير المفاهيم المرتبطة بعد التدريب ونظهر كيف يمكن أن تؤدي إلى تفسيرات مضللة (§[sec: Entanglement]). يستخدم فونغ وفيدالدي (fong2018net2vec) تشابه الجيب التمام لإظهار أن التشابه بين المفاهيم يختلف بناءً على طريقة إنشاء المتجه. في عملنا، نستخدم أيضاً تشابه الجيب التمام لمقارنة متجهات المفاهيم. الاختلاف يكمن في تركيزنا على تحليل متجهات المفاهيم والرؤى التي تقدمها حول مجموعة البيانات والنموذج.

الاعتماد المكاني

يصف بيسكيوني وباورز (Biscione2021Invariant) كيف أن الشبكات العصبية التلافيفية ليست مترجمة بشكل طبيعي ولكن يمكن أن تتعلم أن تكون كذلك (تحت ظروف معينة على مجموعة البيانات). هذا الاكتشاف يتحدى الافتراض الشائع بأن الشبكات العصبية التلافيفية تمتلك ترجمة طبيعية. من خلال متجهات التحليل العنقودي المعتمدة مكانياً، نظهر الترجمة بالنسبة لمفهوم وفئة محددة، بدلاً من ذلك بشكل عام، مما يوفر معلومات أكثر تفصيلاً عن النموذج.

ما هي تمثيلات المفاهيم التي ينطبق عليها تحليلنا؟

تمثل معظم طرق التفسير المبنية على المفاهيم المفاهيم كـ متجهات في فضاء التنشيط لشبكة عصبية مدربة (kim2018interpretability, fong2018net2vec, bolei2018ibd, ghorbani2019automating, zhang2020invertible, ramaswamy2022elude, fel2023craft). ومع ذلك، تستخدم بعض الطرق المبنية على المفاهيم تمثيلات مختلفة: الخلايا العصبية الفردية (bau2017network)، مناطق فضاء التنشيط (crabbe2022) أو المفاهيم غير الخطية (bai2022concept, li2023emergent). يركز عملنا على خصائص متجهات المفاهيم.

كيف يكون عملنا ذا صلة عملياً؟

لتقديم رؤية حول متى قد تكون الخصائص المختلفة ذات صلة، قمنا بمراجعة أوراق الرؤية الحاسوبية التي تستخدم متجهات التحليل العنقودي في (1) التطبيقات ذات الأهمية العالية للتصوير الطبي (بما في ذلك سرطان الجلد، وآفات الجلد، وسرطان الثدي، وعلم الأنسجة (Yan2023SkinCancer, Furbock2022Breast, Pfau2020Robust))، و(2) بحوث الرؤية الحاسوبية على النماذج المدربة بمجموعات بيانات معروفة (Krizhevsky2009CIFAR, Tsung2014COCO, Wah2011CUB,Zhou2017Places, Sagawa2020Waterbirds, Deng2009ImageNet). يمكن العثور على جدول ملخص في الملحق [app: related work]. وجدنا أن الأوراق التالية كان يمكن أن تستفيد من تقييم: الاتساق (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Lucieri2020Oninterp)، التشابك (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Graziani2020Concept, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust)، والاعتماد المكاني (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust). نقدم مثالاً مفصلاً، باستخدام تطبيق تشخيص سرطان الجلد (Yan2023SkinCancer)، في § [sec: Recommendations] والملحق [app: Example UseCase].

مجموعات البيانات

بينما تم تقديم العديد من مجموعات البيانات لتقييم طرق التفسير، فإنها تختلف عن مجموعتنا في بعض الطرق الرئيسية. هناك ثلاثة جوانب نهتم بها:

  1. هل يتم تمثيل المفهوم في الشبكة؟

  2. هل يتم استخدام المفهوم لتنبؤ الشبكة؟

  3. كيف تمثل الشبكة المفاهيم المرتبطة؟

تسمح مجموعات البيانات الحالية فقط بالاطلاع على (1)، بينما تسمح مجموعتنا لنا بتحليل (2) و(3) أيضاً. تقوم طريقة تقييم التفسير (yang2019) بإدراج الأشياء في صور المشاهد. بينما تستفيد من استخدام الصور الحقيقية والمفاهيم المعقدة (الكلب أو غرفة النوم)، فإنها تقدم أيضاً تحديات. أحد العيوب هو أن الاعتماد على الصور الحقيقية يجعل من الصعب إنشاء علاقة الحقيقة الأساسية بين المفاهيم وتنبؤات الفئة أو معرفة التشابهات بين المفاهيم. ونتيجة لذلك، لا تعطينا رؤية في (2) أو (3). مجموعة البيانات الاصطناعية في يه وآخرون (yeh2020completeness) هي الأقرب إلى مجموعتنا ولكن تم تصميمها لاكتشاف المفهوم، حيث تتميز الصور بأن كل جسم يتوافق مع مفهوم واحد (الشكل). في مجموعتنا، يحتوي كل جسم على مفاهيم متعددة، مما يسمح لنا بإنشاء ارتباطات بينها. نركز على دقة التفسير من خلال التأكد من أن المفاهيم يجب استخدامها بشكل صحيح من قبل النموذج لتحقيق دقة عالية. لذا، بالنسبة لنموذج دقيق، لدينا فهم حقيقي لكيفية استخدام كل مفهوم. يمكن العثور على مراجعة أدبية موسعة في الملحق [app: related work].

النتائج: استكشاف خصائص متجه المفهوم

نستكشف الفرضيات حول الاتساق (NH1)، التشابك (NH2)، والاعتماد المكاني (NH3) في § [sec: layer_stability]، § [sec: Entanglement] و § [sec: Spatial]، على التوالي. نقوم بإجراء التجارب باستخدام متجهات المفهوم المشروطة على مجموعات بيانات العناصر وImageNet. يمكن العثور على تفاصيل التنفيذ في الملحق [app: implementation].

المركبات الآلية المتسقة

النظرية

نبدأ بفحص NH1، والذي ينص على أن المتجهات المفاهيمية متسقة عبر الطبقات، أي أن \(f(\va_{l_1} + \vv_{c, l_2}) = \va_{l_2} + \vv_{c, l_2}\). لنفترض أن \(\hat{\va}_{l_1}\) و \(\hat{\va}_{l_2}\) هما اضطرابات خطية للتنشيطات في الطبقتين \(l_1\) و \(l_2\) على التوالي: \[\begin{aligned} \hat{\va}_{l_1} &= \va_{l_1} + \vclo \\ \hat{\va}_{l_2} &= \va_{l_2} + \vclt = f(\va_{l_1}) + \vclt\end{aligned}\] نريد أن نفحص إذا كان \(\vclo\) و \(\vclt\) لهما نفس التأثير على التنشيطات (وبالتالي على النموذج)، أي إذا كان: \[\label{eqn: consistent cavs} \begin{aligned} f(\hat{\va}_{l_1}) &= \hat{\va}_{l_2} \\ f(\va_{l_1} + \vclo) &= f(\va_{l_1}) + \vclt. \end{aligned}\] لنفترض أننا وجدنا \(\vclo\) ونود أن نجد \(\vclt\) الذي يلبي المعادلة [eqn: consistent cavs]. إذا كانت \(f\) تحافظ على جمع الناقلات، كما في طبقة خطية، فإنه يصح أن: \[\begin{aligned} f(\va_{l_1}) + f(\vclo) &= f(\va_{l_1}) + \vclt \\ \vclt &= f(\vclo). \end{aligned}\] وبالتالي، من الممكن أن يكون لدينا ناقلات متسقة عبر الطبقات إذا كانت \(f\) تحافظ على جمع الناقلات و \(\vclt = f(\vclo)\). بدلاً من ذلك، إذا لم تحافظ \(f\) على جمع الناقلات، لا يمكننا تبسيط المعادلة [eqn: consistent cavs] ولأي \(\vv_{c, l_1}\): \[\label{eqn: consistency vcl2} \vv_{c, l_2} = f(\va_{l_1} + \vv_{c, l_1}) - f(\va_{l_1}).\] إذا كان \(\vclt\) يعتمد على \(\va_{l_1}\)، فلا يوجد \(\vclt\) بحيث تكون المعادلة [eqn: consistent cavs] صحيحة لجميع \(\va_{l_1}\). بمعنى آخر، لا يوجد ناقل في الطبقة \(l_2\) له نفس التأثير على التنشيطات كالناقل في الطبقة \(l_1\) لجميع المدخلات إلى النموذج.

وظائف ReLU و sigmoid هي تنشيطات شائعة في الشبكات العصبية. باستخدام المعادلة [eqn: consistency vcl2]، لأي مدخل \(i\)، إذا \[\begin{aligned} \label{eqn: ReLU conditions} & f=\text{ReLU}: \quad a_{l_1,i} + v_{l_1,i} > 0, \ a_{l_1,i} \leq 0, \text{ أو } a_{l_1,i} + v_{l_1,i} \leq 0, \ a_{l_1,i} > 0 \\ \label{eqn: sigmoid conditions} & f=\text{sigmoid}: \quad v_{l_1,i} \neq 0\end{aligned}\] فلا يوجد \(\vclt\) متسق، أي أنه مستحيل أن يكون لدينا ناقلات متسقة تحت هذه الشروط. البراهين لـ [eqn: ReLU conditions,eqn: sigmoid conditions] متوفرة في الملحق [app: consistency proof]. بعد ذلك، نوضح أننا لا نستطيع العثور على ناقلات متسقة عملياً.

التجارب

هدفنا هو التحقيق في السؤال هل المتجهات المفاهيمية المكتشفة باستخدام TCAV متسقة؟ نقيس الاتساق بين التباينات باستخدام خطأ الاتساق: \[\begin{aligned} \epsilon_{consistency} = ||f(\hat{\va}_{l_1}) - \hat{\va}_{l_2}|| = ||f(\va_{l_1} + \vclo) - (\va_{l_2} + \vclt)|| \end{aligned}\] في تجاربنا، نستخدم مصطلح تحجيم لتقليل حجم \(\vclo\) و \(\vclt\) لضمان بقاء النشاط المضطرب ضمن التوزيع – انظر الملحق [app: Consistency gamma] للتفاصيل. إذا كان لدى التباينين خطأ اتساق يساوي \(0\)، فهذا يعني أن لهما نفس التأثير على النموذج. نشمل المعايير التالية:

CAV المحسن

(الحد الأدنى): قد لا يجد TCAV \(\vclt\) الذي يكون خطأ الاتساق مع \(\vclo\) يساوي \(0\). لذلك، نستخدم الانحدار التدريجي على \(\vclt\) لتقليل خطأ الاتساق، الذي يعمل كحد أدنى.

CAV المسقط

: الخطأ بين \(f(\vclo)\) و \(\vv_{c, l_2}\)، الذي يقيس مدى اتساق المتجهات عندما يتم إسقاطها في الطبقة التالية. إذا كانت \(f(\cdot)\) تحافظ على جمع المتجهات، فإن CAVs المسقطة ستكون لها خطأ يساوي \(0\).

عشوائي

(الحد الأعلى): نشمل معيارين. CAVs العشوائية المكتشفة باستخدام مجموعات بيانات الاختبار التي تحتوي على صور عشوائية، ومتجه الاتجاه العشوائي: \(\vv_{c, l_2} \sim \text{Uniform}(-1, 1)\). إذا كان خطأ الاتساق مشابهاً للعشوائي، فهذا يشير إلى أن CAVs بين الطبقات متشابهة مع بعضها البعض مثل الاتجاهات العشوائية.

عدم القدرة على العثور على متجهات مفاهيمية متسقة عبر الطبقات يشير إلى أن الاتجاهات التي يتم ترميزها بواسطة CAVs في طبقات مختلفة ليست متكافئة؛ بدلاً من ذلك، نفترض أنها تمثل مكونات مختلفة من نفس المفهوم. هذا يتماشى مع الحدس بأن تمثيلات النموذج أكثر تعقيداً في وقت لاحق في الشبكة العصبية (Mordvintsev2015DeepDream, olah2017feature, bau2017network)، وبالتالي من غير المحتمل أن يتم تمثيل نفس جوانب المفهوم في طبقات مختلفة (يتم مناقشتها بشكل أكبر في الملحق [app: DeepDream]). ونتيجة لذلك، يمكن أن تختلف درجات TCAV عبر الطبقات حيث تؤدي اختبارات مختلفة – فهي تقيس حساسية الفئة لنسخ مختلفة من المفهوم.

[fig:consistency tcav scores] يظهر أن المتجهات المفاهيمية المكتشفة في طبقات مختلفة من نموذج يمكن أن تعطي درجات TCAV متناقضة (مزيد من الأمثلة متوفرة في الملحق [app: Inconsistent TCAV]). في مجموعة بيانات العناصر، يتم ترميز مفاهيم الشكل في كل طبقة حيث أن دقة الاختبار لكل طبقة تزيد عن 93%. لذلك، نتوقع أن نتمكن من استخدام TCAV على كل من هذه الطبقات. ومع ذلك، فإن درجات TCAV لمفهوم 'الشكل' في مجموعة بيانات العناصر تتناقض مع بعضها البعض عبر ‘layers.3’ و ‘layers.4’، مما يشير إلى تأثير إيجابي وسلبي على التوالي. هذا التناقض يجعل من الصعب استخلاص استنتاج حول حساسية فئة النموذج لمفهوم 'الشكل'.

على يمين [fig:consistency tcav scores]، نعرض درجات TCAV لمفهوم 'المخطط' لفئات مختلفة في نموذج ResNet-50 المدرب على ImageNet. دقة المتجهات في ImageNet تزيد عن 96% لجميع الطبقات التي تم اختبارها، مما يشير إلى أن المفهوم مرمز بواسطة النموذج في كل من الطبقات. كما في العناصر، لا نلاحظ درجات TCAV متسقة عبر الطبقات. بدلاً من ذلك، نلاحظ تغيراً كبيراً في درجات TCAV لمفهوم 'المخطط' في الطبقة قبل الأخيرة، مقارنة بالطبقات السابقة. ‘layer4.1’ تشير إلى أن 'المخطط' يؤثر بشكل إيجابي على احتمالية فئتي النمر والفهد. ومع ذلك، تشير الطبقات السابقة إلى أن الفئة ليست حساسة لهذا المفهوم. هذا يظهر كيف يمكن، اعتماداً على الطبقات التي يتم اختبارها، استخلاص استنتاجات مختلفة.

التشابك

قد ترتبط المفاهيم المختلفة ببعضها البعض. على سبيل المثال، ضع في اعتبارك و – جانب أساسي من السماء هو أنها غالباً ما تكون زرقاء. هذه المفاهيم مرتبطة بشكل جوهري ولا ينبغي معاملتها على أنها مستقلة. ستناقش هذه الفقرة كيفية اكتشاف هذه الارتباطات باستخدام متجهات المفاهيم المنشطة والآثار المترتبة على نتائج تحليل المفاهيم المنشطة.

لاستكشاف التشابك، نقوم بتحديد وتصوير ارتباطات المفاهيم من خلال حساب متوسط التشابهات الزاوية الزوجية بين متجهات المفاهيم المنشطة (نحسب متجهات متعددة لكل مفهوم). نحقق في ثلاثة نماذج تم تدريبها على إصدارات مختلفة من مجموعة بيانات العناصر. كل مجموعة بيانات متطابقة باستثناء الارتباط بين و :

في \(\E_1\)، نلاحظ عدم وجود ارتباط إيجابي بين المفاهيم. في \(\E_2\)، نلاحظ ارتباطاً إيجابياً صغيراً بين مفهومي المثلث والأحمر. أخيراً، في \(\E_3\)، يقترب التشابه الزاوي بين متجهات المفاهيم المنشطة للأحمر والمثلث من التشابه مع المفهوم نفسه. الاتجاه بين \(\E_1\)، \(\E_2\) و \(\E_3\) يرجع على الأرجح إلى الارتباط الكامن بين و الذي يزداد. نقوم بتحليلات مماثلة على ImageNet في الملحق [app: Entanglement].

من المثير للاهتمام، غالباً ما نلاحظ تشابهاً زاويًا سلبياً بين المفاهيم المتبادلة الاستبعاد. النموذج قد قام بترميز المفاهيم التي لا يمكن أن تتشارك (كل عنصر يمكن أن يحتوي على لون واحد فقط) في اتجاهات مرتبطة سلباً مع بعضها البعض. وجود يقلل من احتمال وجود أو ، ومن خلال ارتباط هذه المفاهيم سلباً مع بعضها البعض، يبني النموذج هذا التفكير. هذا يعني أن متجه المفهوم المنشط لا يدل فقط على ، بل يشمل أيضاً و .

بعد ذلك، نحقق في تأثير متجهات المفاهيم المتشابكة على نتيجة تحليل المفاهيم المنشطة. نحلل نتائج تحليل المفاهيم المنشطة لفئة ’المثلثات المخططة’ في \(\E_1\) و \(\E_2\). تعتمد تسمية الفئة فقط على وجود و . لذلك، نتوقع أن تحصل جميع المفاهيم الأخرى على نتائج تحليل المفاهيم المنشطة منخفضة (مما يشير إلى حساسية سلبية)، حيث أن وجودها يجعل الفئة أقل احتمالاً، أو نتائج تحليل المفاهيم المنشطة غير مهمة، إذا كان المفهوم غير معلوم.1

النتائج لـ \(\E_1\) و \(\E_2\) معروضة في الأعلى والأسفل على التوالي. بالنسبة لـ \(\E_1\) (مجموعة البيانات غير المعدلة)، نجد أن متجهات مفاهيم 'المثلث' و 'المخطط' فقط لديها نتيجة تحليل المفاهيم المنشطة عالية عبر طبقات متعددة. بالنسبة لـ \(\E_2\) (مجموعة البيانات المعدلة)، يبدو أن النموذج حساس لمفهومي 'الأحمر' و 'المثلث'، مع نتائج تحليل المفاهيم المنشطة عالية لكل منهما. هذا بسبب الارتباط بين متجهات المفاهيم المنشطة للأحمر والمثلث. 2,374/5,000 من الصور في مجموعة البيانات الاختبارية تحتوي على مثلثات مخططة. لم يتم تصنيف أي من هذه بشكل غير صحيح، لذا من غير المحتمل أن يستخدم النموذج مفهوم الأحمر لتوقعها. بدلاً من ذلك، يؤدي الارتباط بين متجهات المفاهيم المنشطة إلى نتيجة تحليل المفاهيم المنشطة مضللة لمفهوم 'الأحمر'. في الختام، يمكن أن تؤدي متجهات المفاهيم المنشطة المرتبطة إلى تفسيرات مضللة.

الاعتماد المكاني

أخيراً، نحقق في NH3: هل تعتمد CAVs مكانياً؟ نعيد تشكيل CAVs إلى شكل التنشيط الأصلي، ونحسب القاعدة القنوية كما يلي: \[\mathbf{S}_{c, l} = \|\mathrm{reshape}(\vcl, (H, W, D))\|_2,\] حيث \(\mathbf{S}_{c, l} \in \R^{H \times W}\)، و\(\| \cdot \|_2\) هي قاعدة \(L_2\) عبر بعد القناة. نشير إلى هذه المصفوفة بالقواعد المكانية لـ CAV.

إذا تباينت القاعدة المكانية لـ CAV بشكل كبير عبر أبعاد \((H, W)\)، فهذا يدل على أن CAVs تعتمد مكانياً (انظر الملحق [app: Spatial Norms] للحصول على شرح). تصور القواعد المكانية لـ CAV يظهر لنا أي المناطق تساهم أكثر في المشتقة الاتجاهية وبالتالي في درجة TCAV.

لإنشاء CAVs التي تعتمد مكانياً، قمنا ببناء مجموعات بيانات استقصائية مكانياً للعناصر وImageNet حيث قمنا إما بتقييد موقع المفاهيم أو بتغميق أجزاء من الصورة - انظر [fig: elements examples] للأمثلة والملحق [app: Spatially dependent probes] لمزيد من التفاصيل.

عند استخدام مجموعة بيانات استقصائية مكانياً مستقلة لإنشاء CAVs، كما في الصف العلوي من [fig: mean spatial norms]، تكون القواعد المكانية موحدة، مما يشير إلى أن CAVs لا تعتمد مكانياً2. ومع ذلك، عندما تظهر مجموعة البيانات الاستقصائية اعتماداً مكانياً، فإن CAVs الناتجة تفعل ذلك أيضاً. تشير مناطق القاعدة القريبة من الصفر إلى أن المناطق المكانية المقابلة من التدرجات لا تساهم في المشتقة الاتجاهية وبالتالي في درجة TCAV.

بعد ذلك، نحقق في السؤال هل للنموذج حساسية مفاهيمية مختلفة تعتمد على موقع المفاهيم في صورة الإدخال؟ بما أن CAVs تعمل في فضاء التنشيط لطبقة محددة، يمكننا أن نظهر أن النموذج ليس ثابت الترجمة إذا:

  1. للنموذج اعتماد مكاني للتنشيط، تؤثر البكسلات في مواقع مختلفة على التنشيط بشكل مختلف.

  2. أن كل شريحة عمقية من التنشيط، بشكل \((1, 1, D)\)، تؤثر على الإخراج اللوجيت بشكل مختلف.

كلا هذين العنصرين يؤثران في درجة TCAV. (1) يؤثر على \(\vcl\) و(2) يؤثر على \(\nabla h_{l, k}\left(g_{l}(\vx)\right)\). لمعالجة (2)، نحسب درجات TCAV لمجموعات مختلفة من CAVs التي تعتمد مكانياً لتحديد ما إذا كانت حساسية النموذج تتغير اعتماداً على موقع المفاهيم. للتحقيق في ذلك، أنشأنا فئات مكانية تعتمد في مجموعة بيانات العناصر، حيث تعتمد الفئة على المفاهيم الموجودة و على مكانها في الصورة، مثل ’مثلثات مخططة على اليسار’. نستخدم CAVs التي تعتمد مكانياً لإظهار أن النموذج ليس ثابت الترجمة فيما يتعلق بـ أو في [fig:spatial tcav scores elements]. هنا، نناقش النتائج لفئة ’مثلثات مخططة على اليسار’. درجات TCAV لـ ، ، و مرتفعة، مما يشير إلى تأثير إيجابي لهذه المفاهيم على الفئة. ومع ذلك، فإن درجات TCAV لـ و غالباً لا تختلف بشكل كبير عن الدرجات الصفرية، مما لا يوفر أي دليل على أن النموذج حساس لهذه المفاهيم. الفرق بين درجات TCAV المتحيزة لليمين واليسار يشير إلى أن النموذج ليس ثابت الترجمة فيما يتعلق بهذه المفاهيم حيث تعتمد حساسية النموذج على مكان وجود المفهوم في فضاء إدخال الصورة. بشكل عام، هذا يشير إلى أننا يمكن أن نستخدم CAVs للكشف عن ثبات الترجمة للنموذج. انظر الملحق [app: Spatial TCAV] للأمثلة على ImageNet.

توصيات الممارسين

لقد أظهرت نتائجنا أن عدم الأخذ بعين الاعتبار الاتساق، والتشابك، والاعتماد المكاني بشكل مناسب قد يؤدي إلى استنتاجات خاطئة عند استخدام تحليل المفاهيم المنشطة بالتوتر. لذلك، نوصي بما يلي:

في القسم [sec: related work]، قدمنا أوراقاً بحثية تستخدم متجهات المفاهيم المنشطة وقد تتأثر بالخصائص المذكورة أعلاه. كمثال أكثر تحديداً، نفحص حالة استخدام يان وآخرون (Yan2023SkinCancer) التي تستخدم متجهات المفاهيم المنشطة في سياق تشخيص سرطان الجلد. بعض المفاهيم لها اعتماديات مكانية متوقعة، على سبيل المثال، الحدود الداكنة والزوايا الداكنة. يمكن استخدام القواعد المكانية لتأكيد وجود هذه الاعتماديات المكانية. كذلك، بالنسبة لمفاهيم مثل وجود مسطرة، يمكن للقواعد المكانية تأكيد أن متجهات المفاهيم المنشطة لا تمتلك اعتماداً مكانياً عاماً. هناك مفاهيم متعددة لها معانٍ متعارضة، على سبيل المثال الخطوط المنتظمة والخطوط غير المنتظمة. يمكن للتشابهات الجيبية بين متجهات المفاهيم المنشطة تأكيد أن هذه المفاهيم مرتبطة سلبياً أو على الأقل أقل تشابهاً مع بعضها البعض مقارنة بمفاهيم أخرى. نقدم تحليلاً أكثر تفصيلاً لهذه الحالة في الملحق [app: Example UseCase].

الخلاصة والأعمال المستقبلية

في هذا العمل، نستكشف ثلاث خصائص رئيسية تؤثر على متجهات تنشيط المفاهيم (CAVs): الاتساق، التشابك، والاعتماد المكاني. أولاً، نستنتج الشروط التي تحتها لا تكون متجهات تنشيط المفاهيم في طبقات مختلفة متسقة وندعم نتائجنا بأدلة تجريبية. هذا يسلط الضوء على سبب تقديم طرق التفسير المبنية على CAVs استنتاجات متعارضة عبر الطبقات. ثم، نقدم أداة تصوير مصممة لتسهيل استكشاف الارتباطات بين المفاهيم داخل مجموعة البيانات والنموذج. أخيراً، نظهر أن الاعتماد المكاني يؤثر على متجهات تنشيط المفاهيم، ونقدم طريقة يمكن استخدامها لكشف الاعتماد المكاني داخل النماذج. تم إجراء كل هذه التجارب باستخدام مجموعة بيانات اصطناعية، العناصر، حيث يمكن إنشاء مجموعات بيانات استقصائية مخصصة بسهولة لتحليل الخصائص ذات الاهتمام. نحن نطلق هذه المجموعة للمساعدة في استكشاف هذا المجال الإشكالي بشكل أكبر.

في المقدمة، أشرنا إلى عدة طرق تفسير تستخدم تمثيلات المتجه لنقل المفاهيم ذات المعنى الدلالي. لقد أضاءت دراستنا بعض الخصائص والنتائج الناجمة عن هذه النهج المبنية على المتجه. في البحوث المستقبلية، ينبغي التحقيق في الخصائص الكامنة في أشكال بديلة من التمثيل، مثل العناقيد داخل فضاء التنشيط (crabbe2022)، وتقييم الفضائل النسبية.

الشكر والتقدير

نحن نقدر كل من أعضاء مجموعة OATML ومجموعة نوبل على دعمكم ومناقشاتكم خلال المشروع، وبشكل خاص أندرو جيسون. كما نشكر بين كيم على أفكاركم وتعليقاتكم حول عملنا. يدعم A. Nicolson من قبل مركز EPSRC للتدريب الدكتوراه في علوم البيانات الصحية (EP/S02428X/1). يعترف J.A. Noble بمنح EPSRC EP/X040186/1 و EP/T028572/1.


  1. بافتراض أن النموذج يستخدم كل مفهوم بشكل صحيح

  2. قد تظل CAVs الفردية تعتمد مكانياً، ولكن هذا يُلغى عبر تشغيلات التدريب. انظر الملحق [app: Individual Spatial Norms] للتفاصيل.