latex
تقترح طرق القابلية للتفسير الحديثة استخدام تفسيرات قائمة على المفاهيم لترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبية. إحدى الطرق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفاهيم (CAVs)، والتي يتم تعلمها باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، نحقق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير متسقة بين الطبقات، (2) متشابكة مع مفاهيم مختلفة، و(3) تعتمد على الموقع. توفر كل خاصية تحديات وفرصاً في تفسير النماذج. نقدم أدوات مصممة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفية تأثيرها على التفسيرات المستخلصة، وتقديم توصيات لتقليل تأثيرها. يمكن استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نقدم CAVs التي تعتمد على الموقع لاختبار ما إذا كان نموذج ما يتمتع بخاصية الثبات الترجمي بالنسبة لمفهوم وفئة معينة. تتم تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements. تم تصميم Elements لالتقاط علاقة حقيقة معروفة بين المفاهيم والفئات. نقوم بإصدار هذه المجموعة لتسهيل المزيد من البحث في فهم وتقييم طرق القابلية للتفسير.
أصبحت نماذج التعلم العميق شائعة الاستخدام، حيث تحقق أداءً يصل أو يتجاوز خبراء البشر في مجموعة متنوعة من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على شرح عملية اتخاذ القرارات لديها. مع تطبيقها في عدد متزايد من المجالات العملية، تزداد الحاجة إلى فهم كيفية عملها. تتيح هذه الشفافية تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.
يمكن أن تأخذ تفسيرات النموذج أشكالاً متعددة، مثل ميزات الإدخال، النماذج الأولية أو المفاهيم. أظهرت الأعمال الحديثة أن طرق الشرح التي تركز على الميزات المنخفضة المستوى يمكن أن تواجه مشاكل. على سبيل المثال، يمكن أن تعاني طرق البصمة من التحيز التأكيدي ونقص الإخلاص (adebayo2018sanity). حتى عندما تكون مخلصة، فإنها تظهر فقط ’أين’ ركز النموذج في الصورة، وليس ’ماذا’ ركز عليه (achtibat2022where, colin2022what).
لمعالجة هذه المشاكل، توفر الطرق المبنية على المفاهيم تفسيرات باستخدام مصطلحات عالية المستوى يعرفها البشر. إحدى الطرق الشائعة هي متجهات تنشيط المفهوم (CAVs): تمثيل خطي لمفهوم موجود في مساحة التنشيط لطبقة محددة باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه الطرق المبنية على المفاهيم أيضاً تحديات، مثل حساسيتها لمجموعة البيانات الاستكشافية المحددة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).
في هذه الورقة، نركز على فهم ثلاث خصائص لمتجهات المفاهيم:
قد لا تكون متسقة عبر الطبقات،
يمكن أن تكون متشابكة مع مفاهيم أخرى،
يمكن أن تكون معتمدة مكانياً.
نوفر أدوات لتحليل كل خاصية ونظهر أنها يمكن أن تؤثر على الاختبار باستخدام CAVs (TCAV) (§[sec: layer_stability], §[sec: Entanglement] و §[sec: Spatial]). لتقليل تأثير هذه الآثار، نوصي بـ: إنشاء CAVs لعدة طبقات، التحقق من الاعتماديات المتوقعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه الخصائص أنه لا ينبغي استخدام CAVs. على العكس، قد نتمكن من استخدام هذه الخصائص لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نقدم نسخة معدلة من CAVs التي تعتمد مكانياً ويمكن استخدامها لتحديد التغير الترجمي في الشبكات العصبية الالتفافية (CNNs).
لمساعدة في استكشاف هذه الخصائص، قمنا بإنشاء مجموعة بيانات تركيبية قابلة للتكوين: العناصر (§[sec:elements]). توفر هذه المجموعة التحكم في العلاقات الأساسية بين المفاهيم والفئات من أجل فهم سلوك النموذج. باستخدام مجموعة بيانات العناصر، يمكن للباحثين دراسة (1) إخلاص طريقة التفسير المبنية على المفهوم و(2) التشابك المفاهيمي في الشبكة.
متجه تفعيل المفهوم (CAV) هو تمثيل متجهي لمفهوم موجود في فضاء التفعيل لطبقة من الشبكة العصبية (NN). فكر في شبكة عصبية يمكن تحليلها إلى دالتين: \(g_l(\vx) =\va_l \in \R^{m}\) التي ترسم الإدخال \(\vx \in \R^n\) إلى متجه \(\va_l\) في فضاء التفعيل للطبقة \(l\)، و\(h_l(\va_l)\) التي ترسم \(\va_l\) إلى المخرج. لإنشاء متجه تفعيل المفهوم لمفهوم \(c\) نحتاج إلى مجموعة بيانات استكشافية \(\D_c\) تتكون من عينات إيجابية \(\X_c^+\) (أمثلة المفهوم)، وعينات سلبية \(\X_c^-\) (صور عشوائية ضمن التوزيع). لمجموعتي \(\X_c^-\) و \(\X_c^+\)، ننشئ مجموعة مقابلة من التفعيلات في الطبقة \(l\): \[\A_{c,l}^+ = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^+\} , \text{ و} \ \A_{c,l}^- = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^-\},\] نجد متجه تفعيل المفهوم \(\vcl\) بتدريب مصنف خطي ثنائي للتمييز بين المجموعتين \(\A_{c,l}^+\) و \(\A_{c,l}^-\): \[\label{eq:svm} \al \cdot \vcl + b_{c,l} > 0 \quad \forall \al \in \A_{c,l}^+ , \text{ و } \al \cdot \vcl + b_{c,l} \leq 0 \quad \forall \al \in \A_{c,l}^-,\] حيث \(\vcl\) هو المتجه العمودي للمستوى الفاصل بين التفعيلات \(\A_{c,l}^+\) و \(\A_{c,l}^-\)، و\(b_{c,l}\) هو الجزء المقطوع.
لتحليل حساسية النموذج لـ \(\vcl\)، يقدم كيم وآخرون (kim2018interpretability) اختباراً باستخدام متجهات تفعيل المفهوم (TCAV)، والذي يحدد حساسية المفهوم النموذجية عبر فئة كاملة. دع \(\X_k\) تكون مجموعة من المدخلات التي تنتمي إلى الفئة \(k\). يعرف مقياس TCAV كما يلي \[\operatorname{TCAV}_{c, k, l}=\frac{\left|\left\{\vx \in \X_{k}: S_{c, k, l}(\vx)>0\right\}\right|}{\left|\X_{k}\right|},\] حيث المشتقة الاتجاهية للمفهوم، \(S_{c, k, l}\)، معرفة كما يلي \[S_{c, k, l}(\vx) =\lim _{\epsilon \rightarrow 0} \frac{h_{l, k}\left(g_{l}(\vx)+\epsilon \vv_{c, l}\right)-h_{l, k}\left(g_{l}(\vx)\right)}{\epsilon} =\nabla h_{l, k}\left(g_{l}(\vx)\right) \cdot \vcl\] حيث \(\nabla h_{l, k}\) هو المشتق الجزئي لمخرج الشبكة العصبية للفئة \(k\) إلى التفعيل. يقيس مقياس TCAV النسبة المئوية لمدخلات الفئة \(k\) التي يتأثر تفعيلها في الطبقة \(l\) بشكل إيجابي بالمفهوم \(c\). يستخدم اختبار إحصائي لمقارنة مقاييس متجهات تفعيل المفهوم بالمتجهات العشوائية لتحديد أهمية المفهوم (انظر الملحق [app: CAV]).
لكي نستخدم طرق التفسير المبنية على المتجهات المفاهيمية الموجهة في الممارسة العملية، من المهم فهم كيفية عملها. لذلك، ندرس ثلاث خصائص للمتجهات المفاهيمية الموجهة وتأثيراتها على نتائج المتجهات المفاهيمية الموجهة. نركز على هذه الفرضيات لأنها توفر رؤية حول تمثيلات الشبكة وعن المعنى المشفر بواسطة متجهات المفهوم.
نصوغ كل خاصية من خلال فرضية صفرية، والتي نقدم دليلاً لرفضها لاحقاً في الورقة. في النص التالي، نستخدم التنسيق concept
للدلالة على مفهوم.
بشكل عام، نريد فهم سلوك النموذج. ومع ذلك، تفسر المتجهات المفاهيمية المنشطة (CAVs) ما إذا كان النموذج حساساً لمفهوم في طبقة محددة. في الواقع، قد يكون تحليل جميع الطبقات غير عملي حسابياً، وليس من الواضح أي الطبقات يجب اختيارها. لذلك، تستكشف فرضيتنا الأولى العلاقة بين المتجهات المفاهيمية المنشطة الموجودة في طبقات مختلفة. تذكر أن درجات TCAV تعتمد على المشتقة الاتجاهية: كيف يتغير مخرج النموذج لتغيير لا نهائي صغير للتنشيطات في اتجاه متجه مفهومي منشط. من خلال تعديل التنشيطات في اتجاه متجه مفهومي منشط، نستكشف ما إذا كان بإمكان متجهين مفهوميَين منشطين موجودين في طبقات مختلفة أن يكون لهما نفس التأثير على مخرجات النموذج. نشير إلى هذه الخاصية باسم الاتساق.
افترض أن لدينا دالة \(f(\cdot)\) ترسم التنشيطات من الطبقة \(l_1\) إلى التنشيطات في الطبقة \(l_2\)، حيث \(l_1<l_2\). المتجهات المفاهيمية، \(\vclo\) و \(\vclt\) متسقة إذا ولكل مدخل \(\vx\) والتنشيطات المقابلة \(\va_{l_1}\) و \(\va_{l_2}\)، \(f(\va_{l_1} + \vclo) = \va_{l_2} + \vclt\).
إذا كان متجهان مفهوميَان منشطان متسقين، فإن لهما نفس التأثير اللاحق على النموذج عندما يتم تعديل التنشيطات في اتجاههما، أي، على الرغم من أنهما في طبقات مختلفة، فإن لهما تأثيراً مكافئاً على مخرجات النموذج وبالتالي يعطيهما النموذج نفس المعنى. فرضيتنا الأولى هي:
الفرضية الصفرية 1 (NH1): تمثيلات المتجه المفهومي متسقة عبر الطبقات
في §[sec: layer_stability] نستكشف هذه الفرضية رسمياً، ونقوم بتقييمات تجريبية على مجموعات بيانات العناصر وImageNet (Deng2009ImageNet). نظهر نظرياً الشروط التي يجب أن تحققها \(\vclt\) و \(\va_{l_1}\) لكي يكون المتجهان \(\vclo\) و \(\vclt\) متسقين عندما تكون \(f\) إما وحدة خطية معتدلة (ReLU) أو دالة سيجمويد.
فكر في المعنى المشفر بواسطة متجه المفهوم. نقوم بتسمية متجه المفهوم باستخدام التسمية المقابلة لمجموعة البيانات التجريبية. على سبيل المثال، قد يتم تسمية متجه المفهوم بـ striped أو red. هذا يفترض ضمنياً أن التسمية هي وصف كامل ودقيق للمعلومات المشفرة بواسطة المتجه. عملياً، قد يمثل متجه المفهوم عدة مفاهيم – على سبيل المثال، استمراراً للمثال أعلاه، قد يشفر المتجه كلاً من striped و red في نفس الوقت. نشير إلى هذه الظاهرة باسم “تشابك المفاهيم”. من الناحية الرياضية، نصيغ هذا على النحو التالي. متجه المفهوم \(\vcl\) أكثر تشابهاً مع التنشيطات المقابلة للصور التي تحتوي على المفهوم من التنشيطات للصور التي لا تحتوي على المفهوم، أي أنه يلبي \[\va_{c,l}^+ \cdot \vcl > \va_{c,l}^- \cdot \vcl \quad \forall \va_{c,l}^+ \in \A_{c,l}^+, \va_{c,l}^- \in \A_{c,l}^-.\]
افترض أن لدينا المفاهيم \(c_1\) و \(c_2\)، مع مجموعات بيانات تجريبية \(\D_{c_1}\) و \(\D_{c_2}\)، على التوالي. لكل مجموعة بيانات تجريبية، نجد مجموعات التنشيط: \(\A_{c_1,l} = \{A_{c_1,l}^+ \cup A_{c_1,l}^- \}\) و \(\A_{c_2,l} = \{ \A_{c_2,l}^+ \cup \A_{c_2,l}^- \}\).
متجه المفهوم لمفهوم ما متشابك مع مفهوم آخر إذا وفقط إذا \[\label{eqn: entangled definition} \begin{aligned} &\textcolor{blue}{\va_{c_2,l}^+} \cdot \textcolor{red}{\vv_{c_1,l}} > \textcolor{blue}{\va_{c_2,l}^-} \cdot \textcolor{red}{\vv_{c_1,l}} &\forall \textcolor{blue}{\va_{c_2,l}^+} \in \textcolor{blue}{\A_{c_2,l}^+} , \textcolor{blue}{\va_{c_2,l}^-} \in \textcolor{blue}{\A_{c_2,l}^-} \end{aligned}\]
فرضيتنا الثانية تستكشف تشابك المفاهيم:
الفرضية الصفرية 2 (NH2): يمثل متجه المفهوم المفهوم المقابل فقط لتسميته في مجموعة البيانات التجريبية الخاصة به
إذا كانت المفاهيم متشابكة، فلن يكون من الممكن فصل حساسية النموذج لمفهوم واحد عن حساسيته للمفاهيم المتعلقة – وبالتالي، إذا قمنا بقياس درجة TCAV لـ \(c_1\)، فسنخلط دون علم تأثير \(c_2\).
في §[sec: Entanglement] نقدم أداة تصور لاستكشاف تشابك CAV ونناقش كيف يمكن أن يؤثر ذلك على TCAV.
في هذا القسم، نستكشف تأثير الاعتماد المكاني على المفاهيم. لنفترض أن \(\D_{c, \mu_1}\) و \(\D_{c,\mu_2}\) تمثلان مجموعتي بيانات تحتويان على نفس المفهوم ولكن في مواقع مختلفة \(\mu_1 \neq \mu_2\). على سبيل المثال، قد تحتوي \(\D_{c, \mu_1}\) على أمثلة للمفهوم striped on the left في الصورة، و \(\D_{c,\mu_2}\) على أمثلة للمفهوم striped on the right في الصورة. كما في السابق، نقوم ببناء تمثيلات كامنة \(\A_{c,l,\mu_1}\) و \(\A_{c,l,\mu_2}\) لمجموعتي البيانات \(\D_{c, \mu_1}\) و \(\D_{c, \mu_2}\) على التوالي. ليكن \(\vcl\) هو متجه المفهوم الذي تم العثور عليه باستخدام مجموعة البيانات الاستكشافية \(\D_{c, \mu_1}\).
ليكن \(\va_{l, i}\) هي التنشيطات المقابلة للمدخل \(\vx_i\) في الطبقة \(l\)، وليكن \(\mu_{c,i}\) هو موقع المفهوم \(c\) في \(\vx_i\). تمتلك طبقة تمثيلاً مكانياً معتمداً لمفهوم إذا وفقط إذا \[\exists \phi: \forall \vx_i \in \mathbb{X}_c^+, \phi(\va_{l, i}) = \mu_{c,i}\]
قد يكون الاعتماد المكاني للتنشيط في شبكة عصبية ناتجاً عن تصميم الهندسة، إجراء التدريب و/أو مجموعة بيانات التدريب. في الشبكات العصبية الالتفافية، هو نتيجة طبيعية لمجال الاستقبال لمرشحات الالتفاف التي تحتوي على مناطق مختلفة من المدخل. إذا كانت الشبكة العصبية تمتلك تنشيطات مكانياً معتمدة وكانت مجموعة البيانات الاستكشافية تمتلك اعتماداً مكانياً، فقد يكون من الممكن إنشاء متجه مفهوم مع اعتماد مكاني.
متجه المفهوم \(\vv_{c,l}\) معتمد مكانياً بالنسبة للمواقع إذا وفقط إذا \[\label{eqn: concept vector spatial dependence} \begin{aligned} &\textcolor{red}{\va_{c,l,\mu_1}^+} \cdot \vv_{c,l} > \textcolor{blue}{\va_{c,l,\mu_2}^+} \cdot \vv_{c,l} &\forall \textcolor{red}{\va_{c,l,\mu_1}^+} \in \textcolor{red}{\A_{c,l,\mu_1}^+}, \textcolor{blue}{\va_{c,l,\mu_2}^+} \in \textcolor{blue}{\A_{c,l,\mu_2}^+}. \end{aligned}\]
إذا كان متجه التنشيط المفاهيمي معتمداً مكانياً، فبناءً على التعريف أعلاه، فهو أكثر تشابهاً مع التنشيطات من الصور التي تحتوي على المفهوم في موقع محدد. هذا يعني أن متجه التنشيط المفاهيمي يمثل ليس فقط تسمية المفهوم، ولكن تسمية المفهوم في موقع محدد، مثل الأشياء المخططة على اليمين من الصورة، بدلاً من الأشياء المخططة بشكل عام. كما فعلنا للخصائص الأخرى، نقترح فرضية ونسعى لرفضها لاحقاً في الورقة:
الفرضية الباطلة 3 (NH3): لا يمكن أن تكون متجهات التنشيط المفاهيمي معتمدة مكانياً
نرفض هذه الفرضية في §[sec: Spatial] من خلال تحليل كيفية تأثير موقع المفهوم في مجموعة البيانات الاستكشافية على الاعتماد المكاني لمتجهات المفهوم. رفض NH3 يحفز تقديم متجهات التنشيط المفاهيمي المعتمدة مكانياً (§ [sec: Spatial])، والتي يمكن استخدامها لاختبار ما إذا كان النموذج متغير الترجمة بالنسبة لمفهوم وفئة محددة.
لاستكشاف هذه الفرضيات، نقدم مجموعة بيانات اصطناعية جديدة: العناصر. في هذه المجموعة، يمكننا التحكم في: (1) مجموعة البيانات التدريبية وتعريفات الفئات، مما يتيح لنا التأثير على خصائص النموذج، مثل ارتباط المفاهيم في فضاء التضمين، و(2) مجموعة البيانات الاختبارية، مما يتيح لنا اختبار خصائص متجه المفهوم، مثل الاعتماد المكاني لمتجه المفهوم. نقوم بمزيد من التفصيل حول هذه المزايا في الملحق [app: Elements].
كل صورة تحتوي على \(n\) عناصر، حيث يتم تعريف العنصر بسبع خصائص: اللون، السطوع، الحجم، الشكل، النسيج، تحول النسيج، والإحداثيات داخل الصورة. يمكن تهيئة المجموعة بتغيير التركيبة المسموح بها للخصائص لكل عنصر. يتم إعطاء النطاقات والتكوينات المستخدمة لكل خاصية في الملحق [app: Elements].
يناقش تشن وآخرون (Chen2020ConceptWF) كيف يمكن أن تكون متجهات المفاهيم مرتبطة، مما يجعل من الصعب إنشاء متجه يمثل مفهوماً واحداً فقط. بينما يركز عملهم على فك الارتباط بين المفاهيم أثناء التدريب، نحن نركز على تحليل تأثير المفاهيم المرتبطة بعد التدريب ونظهر كيف يمكن أن تؤدي إلى تفسيرات مضللة (§[sec: Entanglement]). يستخدم فونغ وفيدالدي (fong2018net2vec) تشابه الجيب التمام لإظهار أن التشابه بين المفاهيم يختلف بناءً على طريقة إنشاء المتجه. في عملنا، نستخدم أيضاً تشابه الجيب التمام لمقارنة متجهات المفاهيم. الاختلاف يكمن في تركيزنا على متجهات التحليل العنقودي والرؤى التي تقدمها حول مجموعة البيانات والنموذج.
يصف بيسكيوني وباورز (Biscione2021Invariant) كيف أن الشبكات العصبية الالتفافية ليست مترجمة بشكل طبيعي ولكن يمكن أن تتعلم أن تكون كذلك (تحت ظروف معينة على مجموعة البيانات). هذا الاكتشاف يتحدى الافتراض الشائع بأن الشبكات العصبية الالتفافية تمتلك ترجمة طبيعية. من خلال متجهات التحليل العنقودي المعتمدة مكانياً، نظهر الترجمة بالنسبة لمفهوم وفئة محددة، بدلاً من ذلك بشكل عام، مما يوفر معلومات أكثر تفصيلاً عن النموذج.
تمثل معظم طرق التفسير المبنية على المفاهيم المفاهيم كـ متجهات في فضاء التنشيط لشبكة عصبية مدربة (kim2018interpretability, fong2018net2vec, bolei2018ibd, ghorbani2019automating, zhang2020invertible, ramaswamy2022elude, fel2023craft). ومع ذلك، تستخدم بعض الطرق المبنية على المفاهيم تمثيلات مختلفة: الخلايا العصبية الفردية (bau2017network)، مناطق فضاء التنشيط (crabbe2022) أو المفاهيم غير الخطية (bai2022concept, li2023emergent). يتركز عملنا على خصائص متجهات المفاهيم.
لتقديم رؤية حول متى قد تكون الخصائص المختلفة ذات صلة، قمنا بمراجعة أوراق الرؤية الحاسوبية التي تستخدم متجهات التحليل العنقودي في (1) تطبيقات عالية الأهمية مثل التصوير الطبي (بما في ذلك سرطان الجلد، آفات الجلد، سرطان الثدي، وعلم الأنسجة (Yan2023SkinCancer, Furbock2022Breast, Pfau2020Robust))، و(2) بحوث الرؤية الحاسوبية على النماذج المدربة باستخدام مجموعات بيانات معروفة (Krizhevsky2009CIFAR, Tsung2014COCO, Wah2011CUB,Zhou2017Places, Sagawa2020Waterbirds, Deng2009ImageNet). يمكن العثور على جدول ملخص في الملحق [app: related work]. وجدنا أن الأوراق التالية كان يمكن أن تستفيد من تقييم: الاتساق (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Lucieri2020Oninterp)، التشابك (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Graziani2020Concept, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust)، والاعتماد المكاني (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust). نقدم مثالاً مفصلاً، باستخدام تطبيق تشخيص سرطان الجلد (Yan2023SkinCancer)، في § [sec: Recommendations] والملحق [app: Example UseCase].
بينما تم تقديم العديد من مجموعات البيانات لتقييم طرق التفسير، فإنها تختلف عن مجموعة البيانات الخاصة بنا في بعض الطرق الرئيسية. هناك ثلاثة جوانب نهتم بها:
هل يتم تمثيل المفهوم في الشبكة؟
هل يتم استخدام المفهوم لتنبؤ الشبكة؟
كيف تمثل الشبكة المفاهيم المرتبطة؟
تسمح مجموعات البيانات الحالية فقط بالاطلاع على (1)، بينما تتيح لنا مجموعة البيانات الخاصة بنا تحليل (2) و(3) أيضاً. تقدم طريقة تقييم التفسير (yang2019) عناصر في صور المشاهد. بينما تستفيد من استخدام الصور الحقيقية والمفاهيم المعقدة (الكلب أو غرفة النوم)، فإنها تواجه أيضاً تحديات. أحد العيوب هو أن الاعتماد على الصور الحقيقية يجعل من الصعب إنشاء علاقة الحقيقة الأساسية بين المفاهيم وتنبؤات الفئة أو معرفة التشابهات بين المفاهيم. وبالتالي، لا تعطينا رؤية في (2) أو (3). مجموعة البيانات الاصطناعية في يه وآخرون (yeh2020completeness) هي الأقرب إلى مجموعة البيانات الخاصة بنا ولكن تم تصميمها لاكتشاف المفهوم، حيث تتميز الصور بأن كل عنصر يتوافق مع مفهوم واحد (الشكل). في مجموعة البيانات الخاصة بنا، يحتوي كل عنصر على مفاهيم متعددة، مما يتيح لنا إنشاء ارتباطات بينها. نركز على دقة التفسير من خلال التأكد من أن المفاهيم يجب أن تُستخدم بشكل صحيح من قبل النموذج لتحقيق دقة عالية. لذا، بالنسبة لنموذج دقيق، لدينا فهم حقيقي لكيفية استخدام كل مفهوم. يمكن العثور على مراجعة أدبية موسعة في الملحق [app: related work].
نستكشف الفرضيات حول الاتساق (NH1)، التشابك (NH2)، والاعتماد المكاني (NH3) في § [sec: layer_stability]، § [sec: Entanglement] و § [sec: Spatial]، على التوالي. نقوم بتنفيذ التجارب باستخدام متجهات المفهوم المشروطة على مجموعات بيانات العناصر وImageNet. يمكن العثور على تفاصيل التنفيذ في الملحق [app: implementation].
نبدأ بفحص NH1، والذي ينص على أن المتجهات المميزة للسيارات ذاتية القيادة متسقة عبر الطبقات، أي أن \(f(\va_{l_1} + \vv_{c, l_2}) = \va_{l_2} + \vv_{c, l_2}\). لنفترض أن \(\hat{\va}_{l_1}\) و \(\hat{\va}_{l_2}\) هما اضطرابات خطية للتنشيطات في الطبقتين \(l_1\) و \(l_2\) على التوالي: \[\begin{aligned} \hat{\va}_{l_1} &= \va_{l_1} + \vclo \\ \hat{\va}_{l_2} &= \va_{l_2} + \vclt = f(\va_{l_1}) + \vclt\end{aligned}\] نريد أن نفحص إذا كان \(\vclo\) و \(\vclt\) لهما نفس التأثير على التنشيطات (وبالتالي على النموذج)، أي إذا كان: \[\label{eqn: consistent cavs} \begin{aligned} f(\hat{\va}_{l_1}) &= \hat{\va}_{l_2} \\ f(\va_{l_1} + \vclo) &= f(\va_{l_1}) + \vclt. \end{aligned}\] لنفترض أننا وجدنا \(\vclo\) ونود أن نجد \(\vclt\) الذي يلبي المعادلة [eqn: consistent cavs]. إذا كانت \(f\) تحافظ على جمع الناقلات، كما في طبقة خطية، فإنه يصح أن: \[\begin{aligned} f(\va_{l_1}) + f(\vclo) &= f(\va_{l_1}) + \vclt \\ \vclt &= f(\vclo). \end{aligned}\] وبالتالي، من الممكن أن يكون لدينا ناقلات متسقة عبر الطبقات إذا كانت \(f\) تحافظ على جمع الناقلات و \(\vclt = f(\vclo)\). بدلاً من ذلك، إذا لم تحافظ \(f\) على جمع الناقلات، لا يمكننا تبسيط المعادلة [eqn: consistent cavs] و لناقل معين \(\vv_{c, l_1}\): \[\label{eqn: consistency vcl2} \vv_{c, l_2} = f(\va_{l_1} + \vv_{c, l_1}) - f(\va_{l_1}).\] إذا كان \(\vclt\) يعتمد على \(\va_{l_1}\)، فلا يوجد \(\vclt\) بحيث تكون المعادلة [eqn: consistent cavs] صحيحة لجميع \(\va_{l_1}\). بمعنى آخر، لا يوجد ناقل في الطبقة \(l_2\) له نفس التأثير على التنشيطات كناقل في الطبقة \(l_1\) لجميع المدخلات إلى النموذج.
وظائف ReLU و sigmoid هي تنشيطات شائعة في الشبكات العصبية. باستخدام المعادلة [eqn: consistency vcl2]، لأي مدخل \(i\)، إذا \[\begin{aligned} \label{eqn: ReLU conditions} & f=\text{ReLU}: \quad a_{l_1,i} + v_{l_1,i} > 0, \ a_{l_1,i} \leq 0, \text{ أو } a_{l_1,i} + v_{l_1,i} \leq 0, \ a_{l_1,i} > 0 \\ \label{eqn: sigmoid conditions} & f=\text{sigmoid}: \quad v_{l_1,i} \neq 0\end{aligned}\] فلا يوجد \(\vclt\) متسق، أي أنه مستحيل أن يكون لدينا ناقلات متسقة تحت هذه الشروط. البراهين لـ [eqn: ReLU conditions,eqn: sigmoid conditions] متوفرة في الملحق [app: consistency proof]. بعد ذلك، نوضح أننا لا نستطيع العثور على ناقلات متسقة عملياً.
هدفنا هو استقصاء السؤال: هل المتجهات المفاهيمية المكتشفة باستخدام TCAV متسقة؟ نقيس الاتساق بين التباينات باستخدام خطأ الاتساق: \[\begin{aligned} \epsilon_{\text{consistency}} = ||f(\hat{\va}_{l_1}) - \hat{\va}_{l_2}|| = ||f(\va_{l_1} + \vclo) - (\va_{l_2} + \vclt)|| \end{aligned}\] في تجاربنا، نستخدم مصطلح تحجيم لتقليل حجم \(\vclo\) و \(\vclt\) لضمان بقاء النشاط المضطرب ضمن التوزيع - راجع الملحق [app: Consistency gamma] للتفاصيل. إذا كان لدى التباينين خطأ اتساق يساوي \(0\)، فهذا يعني أن لهما نفس التأثير على النموذج. نشمل المعايير التالية:
(الحد الأدنى): قد لا يجد TCAV \(\vclt\) الذي يكون له خطأ اتساق يساوي \(0\) مع \(\vclo\). لذلك، نستخدم الانحدار التدريجي على \(\vclt\) لتقليل خطأ الاتساق، الذي يعمل كحد أدنى.
: الخطأ بين \(f(\vclo)\) و \(\vv_{c, l_2}\)، الذي يقيس مدى اتساق المتجهات عند توجيهها إلى الطبقة التالية. إذا كانت \(f(\cdot)\) تحافظ على جمع المتجهات، فإن CAVs الموجهة ستكون لها خطأ يساوي \(0\).
(الحد الأعلى): نشمل معيارين. CAVs العشوائية المكتشفة باستخدام مجموعات بيانات الاختبار التي تحتوي على صور عشوائية، ومتجه الاتجاه العشوائي: \(\vv_{c, l_2} \sim \text{Uniform}(-1, 1)\). إذا كان خطأ الاتساق مشابهاً للعشوائي، فهذا يشير إلى أن CAVs بين الطبقات متشابهة مع بعضها البعض بقدر الاتجاهات العشوائية.
عدم القدرة على العثور على متجهات مفاهيمية متسقة عبر الطبقات يشير إلى أن الاتجاهات التي يتم ترميزها بواسطة CAVs في طبقات مختلفة ليست مكافئة؛ بل، نفترض أنها تمثل مكونات مختلفة من نفس المفهوم. هذا يتماشى مع الحدس بأن تمثيلات النموذج أكثر تعقيداً في وقت لاحق في الشبكة العصبية (Mordvintsev2015DeepDream, olah2017feature, bau2017network)، وبالتالي من غير المحتمل أن يتم تمثيل نفس جوانب المفهوم في طبقات مختلفة (يتم مناقشتها بمزيد من التفصيل في الملحق [app: DeepDream]). وبالتالي، يمكن أن تختلف درجات TCAV عبر الطبقات حيث تؤدي اختبارات مختلفة - فهي تقيس حساسية الفئة لنسخ مختلفة من المفهوم.
في الجانب الأيمن من [fig:consistency tcav scores]، نعرض درجات TCAV لفئات مختلفة في نموذج ResNet-50 المدرب على ImageNet. دقة المتجهات في ImageNet تزيد عن \(96\%\) لجميع الطبقات التي تم اختبارها، مما يشير إلى أن المفهوم مرمز بواسطة النموذج في كل من الطبقات. كما في Elements، لا نلاحظ درجات TCAV متسقة عبر الطبقات. بدلاً من ذلك، نلاحظ تغيراً كبيراً في درجات TCAV في الطبقة قبل الأخيرة، مقارنة بالطبقات السابقة. ’layer4.1’ يشير إلى أنه يؤثر بشكل إيجابي على احتمالية فئتي النمر والفهد. ومع ذلك، تشير الطبقات السابقة إلى أن الفئة ليست حساسة للمفهوم. هذا يظهر كيف يمكن استخلاص استنتاجات مختلفة اعتماداً على الطبقات التي يتم اختبارها.
قد ترتبط المفاهيم المختلفة ببعضها البعض. على سبيل المثال، ضع في اعتبارك أن جانباً أساسياً من السماء هو أنها غالباً ما تكون زرقاء. هذه المفاهيم مرتبطة بشكل جوهري ولا ينبغي معاملتها على أنها مستقلة. ستناقش هذه الفقرة كيفية اكتشاف هذه الارتباطات باستخدام متجهات المفاهيم المنشأة والآثار المترتبة على تحليل المفاهيم المنشأة.
لاستكشاف التشابك، نقوم بتحديد وتصوير ارتباطات المفاهيم من خلال حساب متوسط التشابهات الزاوية الزوجية بين متجهات المفاهيم المنشأة (نحسب متجهات متعددة لكل مفهوم). نحقق في ثلاثة نماذج تم تدريبها على إصدارات مختلفة من مجموعة بيانات العناصر. كل مجموعة بيانات متطابقة باستثناء الارتباط بين و :
كل تركيبة من اللون والشكل والملمس محتملة بنفس القدر،
الشكل الوحيد الذي يكون أحمر هو المثلثات،
المفاهيم الأحمر والمثلث تتشارك دائماً.
في \(\E_1\)، نلاحظ عدم وجود ارتباط إيجابي بين المفاهيم. في \(\E_2\)، نلاحظ ارتباطاً إيجابياً صغيراً بين مفهومي المثلث والأحمر. أخيراً، في \(\E_3\)، يقترب التشابه الزاوي بين متجهات المفاهيم المنشأة للأحمر والمثلث من التشابه مع المفهوم نفسه. الاتجاه بين \(\E_1\)، \(\E_2\) و \(\E_3\) من المحتمل أن يكون بسبب الارتباط الكامن بين و الذي يزداد. نقوم بتحليلات مماثلة على ImageNet في الملحق [app: Entanglement].
من المثير للاهتمام، غالباً ما نلاحظ تشابهاً زاويّاً سلبياً بين المفاهيم المتبادلة الاستبعاد. النموذج قد قام بترميز المفاهيم التي لا يمكن أن تتشارك (، يمكن أن يكون لكل عنصر لون واحد فقط) في اتجاهات مرتبطة سلباً مع بعضها البعض. وجود يقلل من احتمال وجود أو ، ومن خلال ارتباط هذه المفاهيم سلباً مع بعضها البعض، يبني النموذج هذا التفكير. هذا يعني أن متجه المفهوم المنشأ للأحمر لا يدل فقط على ، بل يشمل أيضاً و .
بعد ذلك، نحقق في تأثير متجهات المفاهيم المتشابكة على نتيجة تحليل المفاهيم المنشأة. نحلل نتائج تحليل المفاهيم المنشأة لفئة ’المثلثات المخططة’ في \(\E_1\) و \(\E_2\). تعتمد تسمية الفئة فقط على وجود و . لذلك، نتوقع أن تحصل جميع المفاهيم الأخرى على نتائج تحليل المفاهيم المنشأة منخفضة (مما يشير إلى حساسية سلبية)، حيث أن وجودها يجعل الفئة أقل احتمالاً، أو نتائج تحليل المفاهيم المنشأة غير مهمة، إذا كان المفهوم غير معلوم.1
النتائج لـ \(\E_1\) و \(\E_2\) معروضة في الأعلى والأسفل على التوالي. بالنسبة لـ \(\E_1\) (مجموعة البيانات غير المعدلة)، نجد أن متجهات و فقط لديها نتيجة تحليل المفاهيم المنشأة عالية عبر طبقات متعددة. بالنسبة لـ \(\E_2\) (مجموعة البيانات المعدلة)، ومع ذلك، يبدو أن النموذج حساس لـ ، و ، مع نتائج تحليل المفاهيم المنشأة عالية لكل منها. هذا بسبب الارتباط بين متجهات المفاهيم المنشأة للأحمر والمثلث. 2,374/5,000 صورة في مجموعة البيانات الاختبارية تحتوي على مثلثات مخططة. لم يتم تصنيف أي من هذه بشكل غير صحيح، لذا من غير المحتمل أن يستخدم النموذج مفهوم الأحمر لتوقعها. بدلاً من ذلك، يؤدي الارتباط بين متجهات المفاهيم المنشأة إلى نتيجة تحليل المفاهيم المنشأة مرتفعة بشكل مضلل لمفهوم الأحمر. في الختام، يمكن أن تؤدي متجهات المفاهيم المنشأة المرتبطة إلى تفسيرات مضللة.
أخيراً، نحقق في NH3: هل تعتمد CAVs مكانياً؟ نعيد تشكيل CAVs إلى الشكل الأصلي للتنشيطات، ونحسب القاعدة القنوية كما يلي: \[\mathbf{S}_{c, l} = \|\mathrm{reshape}(\vcl, (H, W, D))\|_2,\] حيث \(\mathbf{S}_{c, l} \in \R^{H \times W}\)، و\(\| \cdot \|_2\) هي قاعدة \(L_2\) عبر بعد القناة. نشير إلى هذا المصفوف كقواعد مكانية لـ CAV.
إذا تباينت القاعدة المكانية لـ CAV بشكل كبير عبر أبعاد \((H, W)\)، فهذا يدل على أن CAV تعتمد مكانياً (انظر الملحق [app: Spatial Norms] للحصول على تفسير). تصور القواعد المكانية لـ CAV يظهر لنا أي المناطق تساهم أكثر في المشتقة الاتجاهية وبالتالي في نتيجة TCAV.
لإنشاء CAVs التي تعتمد مكانياً، قمنا ببناء مجموعات بيانات استقصائية مكانياً للعناصر وImageNet حيث قمنا إما بتقييد موقع المفاهيم أو بتغميق أجزاء من الصورة - انظر [fig: elements examples] للأمثلة والملحق [app: Spatially dependent probes] لمزيد من التفاصيل.
عند استخدام مجموعة بيانات استقصائية مكانياً مستقلة لإنشاء CAVs، كما في الصف العلوي من [fig: mean spatial norms]، تكون القواعد المكانية موحدة، مما يشير إلى أن CAVs لا تعتمد مكانياً2. ومع ذلك، عندما تظهر مجموعة البيانات الاستقصائية اعتماداً مكانياً، فإن CAVs الناتجة تفعل ذلك أيضاً. المناطق ذات القاعدة القريبة من الصفر تشير إلى أن المناطق المكانية المقابلة من التدرجات لا تساهم في المشتقة الاتجاهية وبالتالي في نتيجة TCAV.
بعد ذلك، نحقق في السؤال هل للنموذج حساسية مفاهيمية مختلفة تعتمد على موقع المفاهيم في صورة الإدخال؟ بما أن CAVs تعمل في فضاء التنشيط لطبقة محددة، يمكننا أن نظهر أن النموذج ليس ثابت الترجمة إذا:
للنموذج اعتماد مكاني للتنشيط، تؤثر البكسلات في مواقع مختلفة على التنشيطات بشكل مختلف.
أن كل شريحة عمقية من التنشيطات، بشكل \((1, 1, D)\)، تؤثر على الإخراج اللوجيت بشكل مختلف.
كلا هذين العنصرين يؤثران في نتيجة TCAV. (1) يؤثر على \(\vcl\) و(2) يؤثر على \(\nabla h_{l, k}\left(g_{l}(\vx)\right)\). لمعالجة (2)، نحسب نتائج TCAV لمجموعات مختلفة من CAVs التي تعتمد مكانياً لتحديد ما إذا كانت حساسية النموذج تتغير بناءً على موقع المفاهيم. للتحقيق في هذا، قمنا بإنشاء فئات تعتمد مكانياً في مجموعة بيانات العناصر، حيث تعتمد الفئة على المفاهيم الموجودة و على مكانها في الصورة، مثل ’مثلثات مخططة على اليسار’. نستخدم CAVs التي تعتمد مكانياً لإظهار أن النموذج ليس ثابت الترجمة بالنسبة لـ أو في [fig:spatial tcav scores elements]. هنا، نناقش النتائج لفئة ’مثلثات مخططة على اليسار’. نتائج TCAV لـ ، ، و مرتفعة، مما يشير إلى تأثير إيجابي لهذه المفاهيم على الفئة. ومع ذلك، فإن نتائج TCAV لـ و غالباً لا تختلف بشكل كبير عن النتائج الصفرية، مما لا يوفر أدلة تشير إلى أن النموذج حساس لهذه المفاهيم. الفرق بين نتائج TCAV المتحيزة لليمين واليسار يشير إلى أن النموذج ليس ثابت الترجمة بالنسبة لهذه المفاهيم حيث تعتمد حساسية النموذج على مكان وجود المفهوم في فضاء إدخال الصورة. بشكل عام، هذا يشير إلى أنه يمكننا استخدام CAVs للكشف عن ثبات الترجمة للنموذج. انظر الملحق [app: Spatial TCAV] لأمثلة على ImageNet.
نتائجنا أظهرت أن الفشل في الأخذ بعين الاعتبار الاتساق، التشابك، والاعتماد المكاني قد يؤدي إلى استنتاجات خاطئة عند استخدام تحليل المفاهيم المعتمد على التفعيل. لذلك، نوصي بما يلي:
الاتساق: إنشاء متجهات المفاهيم المعتمدة على التفعيل لطبقات متعددة، بدلاً من طبقة واحدة؛
التشابك: (1) التحقق من الاعتماديات المتوقعة بين المفاهيم ذات الصلة، و(2) الانتباه إلى أن درجة تحليل المفاهيم المعتمدة على التفعيل الإيجابية قد تكون بسبب تشابك المفاهيم؛
الاعتماد المكاني: تصور الاعتماد المكاني لمتجه المفهوم باستخدام القواعد المكانية.
في القسم [sec: related work]، قدمنا أوراق بحثية تستخدم متجهات المفاهيم المعتمدة على التفعيل وقد تتأثر بالخصائص المذكورة أعلاه. كمثال أكثر تحديداً، نفحص حالة استخدام يان وآخرون (Yan2023SkinCancer) التي تستخدم متجهات المفاهيم المعتمدة على التفعيل في سياق تشخيص سرطان الجلد. بعض المفاهيم لها اعتماديات مكانية متوقعة، على سبيل المثال، الحدود الداكنة
والزوايا الداكنة
. يمكن استخدام القواعد المكانية لتأكيد وجود هذه الاعتماديات المكانية. كذلك، بالنسبة لمفاهيم مثل وجود مسطرة
، يمكن للقواعد المكانية تأكيد أن متجهات المفاهيم المعتمدة على التفعيل لا تمتلك اعتماداً مكانياً عاماً. هناك مفاهيم متعددة لها معانٍ متعارضة، على سبيل المثال الخطوط المنتظمة
والخطوط غير المنتظمة
. يمكن للتشابهات الجيبية بين متجهات المفاهيم المعتمدة على التفعيل تأكيد أن هذه المفاهيم مرتبطة سلبياً أو على الأقل أقل تشابهاً مع بعضها البعض مقارنة بمفاهيم أخرى. نقدم تحليلاً أكثر تفصيلاً لهذه الحالة في الملحق [app: Example UseCase].
في هذا العمل، نستكشف ثلاث خصائص رئيسية تؤثر على متجهات تنشيط المفاهيم (CAVs): الاتساق، التشابك، والاعتماد المكاني. أولاً، نستنتج الشروط التي تحتها لا تكون متجهات تنشيط المفاهيم في طبقات مختلفة متسقة وندعم نتائجنا بأدلة تجريبية. هذا يسلط الضوء على سبب تقديم طرق التفسير المبنية على CAVs استنتاجات متعارضة عبر الطبقات. بعد ذلك، نقدم أداة تصوير مصممة لتسهيل استكشاف الارتباطات بين المفاهيم داخل مجموعة البيانات والنموذج. أخيراً، نظهر أن الاعتماد المكاني يؤثر على متجهات تنشيط المفاهيم، ونقدم طريقة يمكن استخدامها لكشف الاعتماد المكاني داخل النماذج. تم إجراء كل هذه التجارب باستخدام مجموعة بيانات اصطناعية، العناصر، حيث يمكن إنشاء مجموعات بيانات استقصائية مخصصة بسهولة لتحليل الخصائص ذات الاهتمام. نحن نطلق هذه المجموعة للمساعدة في استكشاف هذا المجال الإشكالي بشكل أكبر.
في المقدمة، ذكرنا عدة طرق تفسير تُستخدم تمثيلات المتجه لنقل المفاهيم ذات المعنى الدلالي. لقد أضاءت دراستنا بعض الخصائص والنتائج الناجمة عن هذه النهج المبنية على المتجه. في البحوث المستقبلية، ينبغي التحقيق في الخصائص الكامنة في أشكال بديلة من التمثيل، مثل العناقيد داخل فضاء التنشيط (crabbe2022)، وتقييم الفضائل النسبية.
نحن نقدر كل أعضاء مجموعة OATML ومجموعة Noble لدعمكم ومناقشاتكم خلال المشروع، وبشكل خاص أندرو جيسون. نحن ممتنون أيضاً لبين كيم لأفكاركم وتعليقاتكم على عملنا. يدعم A. Nicolson من قبل مركز EPSRC للتدريب الدكتوراه في علوم البيانات الصحية (EP/S02428X/1). تعترف J.A. Noble بمنح EPSRC EP/X040186/1 و EP/T028572/1.