\[ \text{latex} \]
مُلَخَّص
تَقترِح الطرائق الحديثة في القابليّة للتفسير استخدامَ شروحاتٍ مبنيّة على المفاهيم لترجمة التمثيلات الداخليّة لنماذج التعلُّم العميق إلى لغةٍ مفهومةٍ للبشر، أي إلى مفاهيم. يتطلّب ذلك فَهْمَ المفاهيم الموجودة في فضاء التمثيل لشبكةٍ عصبيّة. إحدى الطرائق الشائعة لاكتشاف المفاهيم هي مُتَّجهات تنشيط المفهوم (CAVs)، والتي يجري تعلُّمها باستخدام مجموعة بياناتٍ استكشافيّة من أمثلة المفهوم. في هذا العمل، نُحقِّق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير مُتَّسِقة عبر الطبقات، (2) مُتشابكة مع مفاهيم أُخرى، و(3) مُعتمِدة مكانيّاً. تُوفِّر كلّ خاصيّةٍ تحدّياتٍ وفرصاً في تفسير النماذج. نُقدِّم أدواتٍ مُصمَّمةً للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفيّة تأثيرها في الشروحات المُستخرَجة، مع توصياتٍ لتقليل أثرها. يمكن استخدام فَهم هذه الخصائص لصالحنا. على سبيل المثال، نُقدِّم CAVs مُعتمِدةً مكانيّاً لاختبار ما إذا كان نموذجٌ ما يتمتّع بخاصيّة الثبات الترْجُمي بالنسبة إلى مفهومٍ وفئةٍ معيَّنَيْن. نجري تجاربنا على ImageNet وعلى مجموعة بياناتٍ تركيبيّة جديدة، Elements. تمّ تصميم Elements لالتقاط العلاقة ذات الحقيقة الأرضيّة المعروفة بين المفاهيم والفئات. نُطلِق هذه المجموعة لتسهيل المزيد من البحث في فَهم وتقييم طرائق القابليّة للتفسير.
مُقَدِّمَة
أصبحت نماذجُ التعلُّم العميق شائعةَ الاستخدام، إذ تُحقِّق أداءً يصل إلى أو يتجاوز أداءَ خبراء البشر في طيفٍ واسعٍ من المهام. غير أنّ التعقيد الكامن في هذه النماذج يُحجِب قُدرتنا على شرح آليّة اتّخاذها للقرارات. ومع تطبيقها في عددٍ متزايدٍ من المجالات العمليّة، تزداد الحاجةُ إلى فَهم كيف تعمل. تُتيح هذه الشفافيّة تصحيحَ الأخطاء بسهولةٍ أكبر وفهماً أفضل لقيود النموذج.
يمكن أن تتّخذ شروحاتُ النماذج أشكالاً متعدّدة، مثل ميزات الإدخال، النماذج الأوّليّة، أو المفاهيم. وقد أظهرت أعمالٌ حديثة أنّ طرائق الشرح التي تُركِّز على الميزات منخفضة المستوى قد تُواجِه مشكلات. على سبيل المثال، قد تعاني طرائق البروز من التحيّز التأكيدي ونقص الإخلاص (adebayo2018sanity). وحتى عندما تكون مخلِصة، فإنّها تُظهِر فقط «أين» ركّز النموذج في الصورة، لا «ماذا» ركّز عليه (achtibat2022where, colin2022what).
لمعالجة هذه المشكلات، تُوفِّر الطرائق المبنيّة على المفاهيم شروحاتٍ بمصطلحاتٍ عالية المستوى مألوفةٍ للبشر. إحدى الطرائق الشائعة هي مُتَّجهات تنشيط المفهوم (CAVs): تمثيلٌ خطّيّ لمفهومٍ موجودٍ في فضاء التنشيط لطبقةٍ مُحدَّدة، يُتعلَّم باستخدام مجموعة بياناتٍ استكشافيّة لأمثلة المفهوم (kim2018interpretability). ومع ذلك، تُواجِه الطرائق المبنيّة على المفاهيم أيضاً تحدّيات، مثل حساسيتها لمجموعة البيانات الاستكشافيّة المُحدَّدة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).
في هذه الورقة، نُركِّز على فَهم ثلاث خصائص لمُتَّجهات المفاهيم:
قد لا تكون مُتَّسِقة عبر الطبقات،
قد تكون مُتشابكة مع مفاهيم أُخرى،
وقد تكون مُعتمِدة مكانيّاً.
نُوفِّر أدواتٍ لتحليل كلّ خاصيّة، ونُظهِر أنّها قد تؤثِّر في الاختبار باستخدام CAVs (TCAV) (§[sec:layer_stability]، §[sec:Entanglement] و§[sec:Spatial]). ولتقليل أثر هذه الظواهر، نُوصي بـ: إنشاء CAVs لِعدّة طبقات، والتحقُّق من الاعتماديّات المتوقَّعة بين المفاهيم ذات الصِّلة، وإظهار الاعتماديّة المكانيّة (§[sec:Recommendations]). لا تعني هذه الخصائص أنّه لا ينبغي استخدام CAVs؛ على العكس، قد نستطيع توظيفها لفَهم سلوك النموذج بشكلٍ أفضل. على سبيل المثال، نُقدِّم نسخةً مُعدَّلة من CAVs مُعتمِدةً مكانيّاً، ويمكن استخدامها لاختبار الثبات الترْجُمي في الشبكات العصبيّة الالتفافيّة (CNNs).
وللمساعدة في استكشاف هذه الخصائص، أنشأنا مجموعةَ بياناتٍ تركيبيّة قابلة للتهيئة: العناصر (§[sec:elements]). تُتيـح هذه المجموعةُ التحكُّم في العلاقات ذات الحقيقة الأرضيّة بين المفاهيم والفئات لفَهم سلوك النموذج. وباستخدام مجموعة بيانات «العناصر»، يمكن للباحثين دراسة: (1) إخلاص طريقة الشرح المبنيّة على المفاهيم، و(2) التشابك المفاهيمي داخل الشبكة.
الشُّكر والتَّقدير
نُقَدِّر لأعضاء مجموعة OATML ومجموعة نوبل دعمَهم ومناقشاتَهم خلال المشروع، وبشكلٍ خاصٍّ أندرو جيسون. كما نشكر بين كيم على أفكارِه وتعليقاتِه حول عملنا. يُدعَم A. Nicolson من مركز EPSRC للتدريب على الدكتوراه في علوم البيانات الصحيّة (EP/S02428X/1). ويُقِرّ J.A. Noble بالحصول على منح EPSRC EP/X040186/1 وEP/T028572/1.