latex
تقترح أساليب تفسير النماذج الحديثة المبنية على المفاهيم ترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى مصطلحات مفهومة للبشر. يتطلب ذلك فهم المفاهيم المشفَّرة في فضاء التمثيل للشبكة العصبية. من الطرق الشائعة لاكتشاف هذه المفاهيم متجهات تفعيل المفاهيم (CAVs)، التي تُدرَّب باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، ندرس ثلاث خصائص لـCAVs: (1) عدم الاتساق عبر الطبقات، (2) التشابك مع مفاهيم أخرى، و(3) الاعتماد المكاني. كل خاصية تمثل تحدياً وفرصة لفهم النموذج. نقدم أدوات للكشف عن هذه الخصائص، ونبيّن تأثيرها على التفسيرات، ونقترح توصيات لتقليل آثارها. قد يكون استغلال هذه الخصائص مفيداً: على سبيل المثال، نُعرِّف CAVs معتمدة مكانياً لاختبار الثبات الترجمي للنموذج بالنسبة لمفهوم وفئة معينَين. أجرينا تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements، صُممت لالتقاط علاقة معروفة بين المفاهيم والفئات. نُصدر هذه المجموعة لدعم مزيد من الأبحاث في فهم وتقييم طرق التفسير.
أصبحت نماذج التعلم العميق شائعة في العديد من المهام، حيث تحقق أداءً مساوياً أو متجاوزاً لخبراء البشر. ومع ذلك، يُعقِّد التعقيد الكامن في هذه النماذج تفسير طريقة اتخاذها للقرارات. ومع توسع نطاق استخدامها في التطبيقات العملية، تزداد الحاجة إلى الشفافية لفهم عملها، مما يسهل اكتشاف الأخطاء وتحديد حدود النموذج.
تتنوع أشكال تفسير النموذج، فتشمل ميزات الإدخال، النماذج الأولية، أو المفاهيم عالية المستوى. أظهرت الدراسات الحديثة أن أساليب تفسير الميزات منخفضة المستوى قد تعاني من تحيز التأكيد وقلة الإخلاص (adebayo2018sanity). وحتى عندما تكون مخلصة، فإنها تبين فقط «أين» ركز النموذج في الصورة، وليس «ماذا» ركز عليه (achtibat2022where, colin2022what).
لمعالجة هذه النقائص، توفر الأساليب المبنية على المفاهيم تفسيرات بمصطلحات عالية المستوى مفهومة للبشر. من الطرق الشائعة لذلك متجهات تفعيل المفاهيم (CAVs)، وهي تمثيل خطي لمفهوم في مساحة التفعيل لطبقة معينة، يُستخلص باستعمال مجموعة بيانات استكشافية لأمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه هذه الطرق تحديات مثل حساسيتها لاختيار مجموعة البيانات الاستكشافية (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).
في هذا البحث، نركِّز على ثلاث خصائص لمتجهات المفاهيم:
عدم الاتساق عبر الطبقات،
التشابك مع مفاهيم أخرى،
الاعتماد المكاني.
نوفر أدوات لتحليل كل خاصية ونبيّن تأثيرها على اختبار TCAV (§[sec: layer_stability], §[sec: Entanglement] و§[sec: Spatial]). للتخفيف من هذه الآثار نوصي بـ: بناء CAVs عبر طبقات متعددة، والتأكد من الاعتمادية المتوقعة بين المفاهيم، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه التحديات التخلّي عن CAVs، بل يمكن استغلالها لفهم سلوك النموذج بشكل أعمق. على سبيل المثال، نقدم نسخاً مكانية من CAVs لاختبار الثبات الترجمي في الشبكات الالتفافية.
لتسهيل استكشاف هذه الخصائص، أنشأنا مجموعة بيانات تركيبية قابلة للتكوين: Elements (§[sec:elements]). توفر هذه المجموعة تحكماً كاملاً في العلاقات الأساسية بين المفاهيم والفئات، مما يمكّن الباحثين من دراسة إخلاص تفسيرات المفاهيم وتشابكها داخل النموذج.
متجه تفعيل المفهوم (CAV) هو تمثيل متجهي لمفهوم في فضاء تنشيط طبقة من الشبكة العصبية (NN). نفترض تقسيم الشبكة إلى دالتين: \(g_l(\vx) = \va_l \in \R^{m}\) التي تخرِّج التنشيط \(\va_l\) من الإدخال \(\vx\) في الطبقة \(l\)، و\(h_l(\va_l)\) التي تُخرِّج نتيجة التصنيف. لإنشاء CAV لمفهوم \(c\) في الطبقة \(l\)، نحتاج إلى مجموعة بيانات استكشافية \(\D_c\)، تضم عينات إيجابية \(\X_c^+\) وأخرى سلبية \(\X_c^-\). نجمع التفعيلات المقابلة في الطبقة \(l\):
\[ \A_{c,l}^+ = \{ g_l(\vx_i)\;\forall \vx_i \in \X_c^+\},\quad \A_{c,l}^- = \{ g_l(\vx_i)\;\forall \vx_i \in \X_c^-\}. \]
ثم ندرب مصنفاً خطياً لتمييزهما، فتكون \( \vv_{c,l}\) هي المعامل العمودي للمستوى الفاصل:
\[ \al \cdot \vv_{c,l} + b_{c,l}>0\;\forall \al\in \A_{c,l}^+,\quad \al \cdot \vv_{c,l} + b_{c,l}\le0\;\forall \al\in \A_{c,l}^-. \]
لقياس حساسية النموذج تجاه المفهوم، اقترح كيم وآخرون (TCAV):
\[ \operatorname{TCAV}_{c,k,l} = \frac{|\{\vx\in\X_k: S_{c,k,l}(\vx)>0\}|}{|\X_k|}, \] حيث
\[ S_{c,k,l}(\vx) =\nabla h_{l,k}(g_l(\vx))\cdot \vv_{c,l}. \] هذا يعبر عن نسبة صور الفئة \(k\) التي تزيد فيها نتيجة الفئة عندما نضيف مقداراً ضئيلاً في اتجاه \(\vv_{c,l}\).
لفهم كيفية عمل CAVs عملياً، ندرس ثلاث خصائص تؤثر على تفسيراتها. نطرح لكل خاصية فرضية صفرية نُبيِّن لاحقاً عدم صحتها. نستعين في الوثيقة بالتنسيق concept
للإشارة إلى المفهوم.
تركيز CAVs يقتصر على طبقة محددة، مما يثير سؤال أي الطبقات ينبغي تحليلها. نسمي المتجهين لمفهوم محدد في طبقتين مختلفتين \(l_1\) و\(l_2\) متسقين إذا أثّرا على النموذج بطريقة مكافئة:
الفرضية الصفرية 1 (NH1): تمثيلات المفهوم عبر الطبقات متسقة
في §[sec: layer_stability] نحلل هذه الفرضية نظرياً وتجريبياً، ونُظهر أن وظائف التنشيط مثل ReLU أو Sigmoid تمنع وجود \( \vv_{c,l_2}\) ثابت مستقل عن التفعيلات \( \va_{l_1}\) لتحقيق الاتساق.
قد لا يُعبِّر متجه المفهوم \( \vv_{c_1,l}\) عن مثال واحد فقط، بل يشفر معلومات عن مفاهيم أخرى. نسمي هذا تشابك المفاهيم. نصيغ ذلك رياضياً بأن \( \vv_{c_1,l}\) يتفاعل أكثر مع تنشيطات صور مفهوم \(c_2\) حتى لو لم تُخصَّص لمفهوم \(c_1\):
\[ \va_{c_2,l}^+\cdot \vv_{c_1,l} > \va_{c_2,l}^-\cdot \vv_{c_1,l} \quad\forall\,\va_{c_2,l}^+\in\A_{c_2,l}^+,\;\va_{c_2,l}^-\in\A_{c_2,l}^-. \]
الفرضية الصفرية 2 (NH2): متجه المفهوم يعبر فقط عن المفهوم المسسَم به
في §[sec: Entanglement] نقدّم أداة توضيح للتشابك ونبيّن كيف يؤدي هذا إلى تفسيرات مضللة في TCAV.
قد يعتمد إنشاء CAVs على موضع ظهور المفهوم في الإدخال. نعبر عن ذلك بوجود تباين بين تنشيطات مجموعة بيانات تستهدف موضعاً \(\mu_1\) وأخرى لموضع \(\mu_2\). إذا كان المتجه \( \vv_{c,l}\) يتمايز بينهما:
\[ \va_{c,l,\mu_1}^+\cdot \vv_{c,l} > \va_{c,l,\mu_2}^+\cdot \vv_{c,l} \quad\forall\,\va_{c,l,\mu_1}^+\in\A_{c,l,\mu_1}^+,\; \va_{c,l,\mu_2}^+\in\A_{c,l,\mu_2}^+, \]
فنحن نعتبره معتمداً مكانياً. الفرضية:
الفرضية الصفرية 3 (NH3): لا يمكن أن تكون متجهات المفاهيم معتمدة مكانياً
في §[sec: Spatial] نرفض NH3 ونقدم طريقة لاستخراج CAVs مكانية لاختبار الثبات الترجمي للنموذج.
قدمنا مجموعة البيانات الاصطناعية Elements للتحكم في تركيبات المفاهيم داخل العناصر: اللون، السطوع، الحجم، الشكل، النسيج، تحوُّل النسيج، والإحداثيات. يتيح هذا الاختبار الدقيق لخصائص CAVs (§[app: Elements]).
ناقش Chen وآخرون (Chen2020ConceptWF) تشابك CAVs أثناء التدريب، بينما نركّز هنا على تحليله بعد التدريب (§[sec: Entanglement]). استُخدم أيضًا تشابه جيب التمام لمقارنة متجهات المفاهيم (fong2018net2vec) وسنستخدمه كذلك.
أظهر Biscione وباورز (Biscione2021Invariant) أن الشبكات الالتفافية لا تمتلك بالضرورة ثبات الترجمة، بل يمكن تعلمه تحت شروط معينة. نحن نوفر تحليلًا مكانياً مفصّلاً باستخدام CAVs مكانية (§[sec: Spatial]).
يركّز عملنا على المتجهات في فضاء التفعيل لشبكة مدربة (kim2018interpretability, fong2018net2vec, bolei2018ibd, ghorbani2019automating, zhang2020invertible, ramaswamy2022elude, fel2023craft). نستبعد الأساليب التي تمثل المفاهيم بخلايا مفردة أو مناطق تنشيط أو تمثيلات غير خطية (bau2017network, crabbe2022, bai2022concept, li2023emergent).
راجعنا تطبيقات طبية عالية الأهمية (Yan2023SkinCancer, Furbock2022Breast, Pfau2020Robust) وأبحاث على مجموعات بيانات عامة (Krizhevsky2009CIFAR, Tsung2014COCO, Wah2011CUB, Zhou2017Places, Sagawa2020Waterbirds, Deng2009ImageNet). وجدنا أن تقييم الاتساق والتشابك والاعتماد المكاني يمكن أن يفيد هذه الدراسات (§[app: related work]).
تركّز معظم مجموعات البيانات الحالية على ما إذا كان المفهوم ممثلاً في الشبكة فقط. أما مجموعة بياناتنا فتتيح دراسة ما إذا كان المفهوم يؤثر في التنبؤ وكيف تتشابك المفاهيم معاً (§[app: related work]).
نستكشف NH1 وNH2 وNH3 في §§[sec: layer_stability] و[sec: Entanglement] و[sec: Spatial] على مجموعتي Elements وImageNet (§[app: implementation]).
نحلل الشروط التي تسمح أو تمنع وجود \( \vv_{c,l_2}\) متسق مع \( \vv_{c,l_1}\) رصدياً، ونظهر أن الإجراءات غير الخطية مثل ReLU أو Sigmoid تجعل الاتساق مستحيلاً (§[app: consistency proof]).
نقيس خطأ الاتساق بين \( \vv_{c,l_1}\) و\( \vv_{c,l_2}\) بعد تعديل حجم المتجهين (§[app: Consistency gamma]). نضم في التجارب معيار CAV المحسَّن (للبحث عن أقل خطأ اتساق)، وCAV الموجَّه (مقارنة \( f(\vv_{c,l_1})\) مع \( \vv_{c,l_2}\))، ومعايير عشوائية للحد الأعلى.
نتائجنا تشير إلى أن CAVs في طبقات مختلفة لا تتسم بنفس التأثير، وهو ما ينسجم مع تعقيد التمثيلات الطبقية (olah2017feature, bau2017network).
باحتساب متوسط التشابه الزاوي بين متجهات مفاهيم متعددة، نستطيع الكشف عن التشابك في نماذج مدربة على نسخ مختلفة من Elements:
يظهر أيضاً تشابك سلبي بين ألوان متبادلة الاستبعاد. ثم ندرس أثر هذا التشابك على نتائج TCAV لفئة «مثلثات مخططة»، فنجد في \(\E_2\) ظهور إشارة إيجابية لـ«أحمر» كنتيجة جانبية للتشابك1.
نعيد تشكيل \( \vv_{c,l}\) إلى أبعاد التنشيط الأصلية \(H\times W\times D\) ثم نطبق قاعدة \(L_2\) على البعد القنوي لاستخراج «القواعد المكانية» \( \mathbf{S}_{c,l}\in\R^{H\times W}\). تفاوت كبير في هذه القواعد يكشف الاعتماد المكاني (§[app: Spatial Norms]).
بتوليد مجموعات استقصائية مكانية (تظليل أو تقييد مواقع محددة)، نرى أن CAVs الناتجة تحفظ نمط الاعتماد (§[app: Spatially dependent probes]). كما نستخدم هذه CAVs لاختبار ثبات الترجمة: على سبيل المثال، لفئة «مثلثات مخططة على اليسار» تظهر حساسية مرتفعة فقط عند «اليسار»، بينما تكون قرب الصفر عند «اليمين»، مما يثبت اعتماد النموذج على موقع المفهوم (TCAV) (§[fig:spatial tcav scores elements]).
الاتساق: بناء CAVs عبر طبقات متعددة بدلاً من طبقة واحدة.
التشابك: (1) التحقق من الاعتمادية المتوقعة بين المفاهيم، و(2) الانتباه إلى أن إشارة إيجابية في TCAV قد تنجم عن تشابك المفاهيم.
الاعتماد المكاني: تصوير القواعد المكانية لـCAV لتحديد مناطق الاعتماد.
في §[sec: related work] أدرجنا تطبيقات مثل تشخيص سرطان الجلد (Yan2023SkinCancer) كمثال تطبيقي، حيث يمكن للقواعد المكانية والتشابه الزاوي بين المتجهات أن يؤكدوا أو ينفوا الاعتمادات المتوقعة (§[app: Example UseCase]).
استكشفنا ثلاث خصائص رئيسية لـCAVs: الاتساق، التشابك، والاعتماد المكاني. قدمنا أدلة نظرية وتجريبية لغياب الاتساق عبر الطبقات، أداة لتصور التشابك، وطريقة لاكتشاف الاعتماد المكاني. أجرينا التجارب على مجموعة البيانات التركيبية Elements لتسهيل التحكم في المتغيرات. نأمل أن تدعم هذه النتائج أبحاثاً مستقبلية في تقييم طرق أخرى لتمثيل المفاهيم.
نشكر أعضاء مجموعات OATML وNoble لدعمهم ومناقشاتهم، خاصةً أندرو جيسون. كما نقدر بن كيم على أفكاره وتعليقاته. يُدعم عمل A. Nicolson بمنحة EPSRC للتدريب في علوم البيانات الصحية (EP/S02428X/1). تعترف J. A. Noble بمنح EPSRC EP/X040186/1 وEP/T028572/1.