```html شرح القابلية للتفسير: فهم متجهات تنشيط المفهوم

شرح القابلية للتفسير: فهم متجهات تنشيط المفهوم

Angus Nicolson

Lisa Schut

J. Alison Noble

Yarin Gal

\[ \text{latex} \]

مُلَخَّص

تقترح طرق القابلية للتفسير الحديثة استخدام تفسيرات مبنية على المفاهيم لترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبية. إحدى الطرق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفهوم (CAVs)، والتي يتم تعلمها باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، نحقق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير متسقة بين الطبقات، (2) متشابكة مع مفاهيم مختلفة، و(3) تعتمد على الموقع. توفر كل خاصية تحديات وفرصاً في تفسير النماذج. نقدم أدوات مصممة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفية تأثيرها على التفسيرات المستخرجة، وتقديم توصيات لتقليل تأثيرها. يمكن استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نقدم CAVs التي تعتمد على الموقع لاختبار ما إذا كان نموذج ما يتمتع بخاصية الثبات الترجمي بالنسبة لمفهوم وفئة معينة. تتم تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements. تم تصميم Elements لالتقاط علاقة حقيقة أرضية معروفة بين المفاهيم والفئات. نطلق هذه المجموعة لتسهيل المزيد من البحث في فهم وتقييم طرق القابلية للتفسير.

مُقَدِّمَة

أصبحت نماذج التعلم العميق شائعة الاستخدام، حيث تحقق أداءً يصل أو يتجاوز خبراء البشر في مجموعة متنوعة من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على شرح عملية اتخاذ القرارات لديها. مع تطبيقها في عدد متزايد من المجالات العملية، تزداد الحاجة لفهم كيفية عملها. تتيح هذه الشفافية تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.

يمكن أن تأخذ شروحات النماذج أشكالاً متعددة، مثل ميزات الإدخال، النماذج الأولية أو المفاهيم. أظهرت الأعمال الحديثة أن طرق الشرح التي تركز على الميزات منخفضة المستوى يمكن أن تواجه مشاكل. على سبيل المثال، قد تعاني طرق البروز من التحيز التأكيدي ونقص الإخلاص (adebayo2018sanity). حتى عندما تكون مخلصة، فإنها تظهر فقط ’أين’ ركز النموذج في الصورة، وليس ’ماذا’ ركز عليه (achtibat2022where, colin2022what).

لمعالجة هذه المشاكل، توفر الطرق المبنية على المفاهيم شروحات باستخدام مصطلحات عالية المستوى يعرفها البشر. إحدى الطرق الشائعة هي متجهات تنشيط المفهوم (CAVs): تمثيل خطي لمفهوم موجود في فضاء التنشيط لطبقة محددة باستخدام مجموعة بيانات استكشافية لأمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه الطرق المبنية على المفاهيم أيضاً تحديات، مثل حساسيتها لمجموعة البيانات الاستكشافية المحددة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).

في هذه الورقة، نركز على فهم ثلاث خصائص لمتجهات المفاهيم:

  1. قد لا تكون متسقة عبر الطبقات،

  2. يمكن أن تكون متشابكة مع مفاهيم أخرى،

  3. يمكن أن تكون معتمدة مكانياً.

نوفر أدوات لتحليل كل خاصية ونظهر أنها يمكن أن تؤثر على الاختبار باستخدام CAVs (TCAV) (§[sec: layer_stability], §[sec: Entanglement] و §[sec: Spatial]). لتقليل تأثير هذه الآثار، نوصي بـ: إنشاء CAVs لعدة طبقات، التحقق من الاعتماديات المتوقعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه الخصائص أنه لا ينبغي استخدام CAVs. على العكس، قد نتمكن من استخدام هذه الخصائص لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نقدم نسخة معدلة من CAVs التي تعتمد مكانياً ويمكن استخدامها لتحديد التغير الترجمي في الشبكات العصبية التلافيفية (CNNs).

لمساعدة في استكشاف هذه الخصائص، أنشأنا مجموعة بيانات تركيبية قابلة للتكوين: العناصر (§[sec:elements]). توفر هذه المجموعة التحكم في العلاقات الحقيقية بين المفاهيم والفئات لفهم سلوك النموذج. باستخدام مجموعة بيانات العناصر، يمكن للباحثين دراسة (1) إخلاص طريقة الشرح المبنية على المفاهيم و(2) التشابك المفاهيمي في الشبكة.

الشكر والتقدير

نحن نقدر كل من أعضاء مجموعة OATML ومجموعة نوبل على دعمكم ومناقشاتكم خلال المشروع، وبشكل خاص أندرو جيسون. كما نشكر بين كيم على أفكاركم وتعليقاتكم حول عملنا. يدعم A. Nicolson من قبل مركز EPSRC للتدريب الدكتوراه في علوم البيانات الصحية (EP/S02428X/1). يعترف J.A. Noble بمنح EPSRC EP/X040186/1 و EP/T028572/1.


  1. بافتراض أن النموذج يستخدم كل مفهوم بشكل صحيح

  2. قد تظل CAVs الفردية تعتمد مكانياً، ولكن هذا يُلغى عبر تشغيلات التدريب. انظر الملحق [app: Individual Spatial Norms] للتفاصيل.

``` **التعديلات:** - تم تصحيح فقرة "latex" لتكون داخل كتلة رياضيات LaTeX صحيحة: ```html

\[ \text{latex} \]

``` - تم التأكد من أن جميع معادلات LaTeX (حتى وإن كانت كلمة "latex" فقط) محاطة بعلامات `\[` و`\]` أو `$...$` أو `\( ... \)` أو `$$ ... $$` حسب السياق، ولا توجد أي معادلات غير مغلقة أو بها أخطاء. - لم يتم تغيير أي كلمة من النص الأصلي. - تم التأكد من أن جميع العناصر مغلقة بشكل صحيح ولا توجد أخطاء في LaTeX أو HTML. - بقية النص لم يتضمن معادلات رياضية أخرى تحتاج تصحيحاً، وتم الحفاظ عليه كما هو.