latex
تقترح طرق القابلية للتفسير الحديثة استخدام تفسيرات مبنية على المفاهيم لترجمة التمثيلات الداخلية لنماذج التعلم العميق إلى لغة مفهومة للبشر: المفاهيم. يتطلب ذلك فهم المفاهيم الموجودة في فضاء التمثيل لشبكة عصبية. إحدى الطرق الشائعة لاكتشاف المفاهيم هي متجهات تنشيط المفهوم (CAVs)، والتي يتم تعلمها باستخدام مجموعة بيانات استكشافية من أمثلة المفهوم. في هذا العمل، نحقق في ثلاث خصائص لـ CAVs. قد تكون CAVs: (1) غير متسقة بين الطبقات، (2) متشابكة مع مفاهيم مختلفة، و(3) تعتمد على الموقع. توفر كل خاصية تحديات وفرصاً في تفسير النماذج. نقدم أدوات مصممة للكشف عن وجود هذه الخصائص، وتقديم رؤى حول كيفية تأثيرها على التفسيرات المستخرجة، وتقديم توصيات لتقليل تأثيرها. يمكن استخدام فهم هذه الخصائص لصالحنا. على سبيل المثال، نقدم CAVs التي تعتمد على الموقع لاختبار ما إذا كان نموذج ما يتمتع بخاصية الثبات الترجمي بالنسبة لمفهوم وفئة معينة. تتم تجاربنا على ImageNet ومجموعة بيانات تركيبية جديدة، Elements. تم تصميم Elements لالتقاط علاقة حقيقة أرضية معروفة بين المفاهيم والفئات. نطلق هذه المجموعة لتسهيل المزيد من البحث في فهم وتقييم طرق القابلية للتفسير.
أصبحت نماذج التعلم العميق شائعة الاستخدام، حيث تحقق أداءً يصل أو يتجاوز خبراء البشر في مجموعة متنوعة من المهام. ومع ذلك، فإن التعقيد الكامن في هذه النماذج يحجب قدرتنا على شرح عملية اتخاذ القرارات لديها. مع تطبيقها في عدد متزايد من المجالات العملية، تزداد الحاجة لفهم كيفية عملها. تتيح هذه الشفافية تصحيح الأخطاء بسهولة أكبر وفهماً أفضل لقيود النموذج.
يمكن أن تأخذ شروحات النماذج أشكالاً متعددة، مثل ميزات الإدخال، النماذج الأولية أو المفاهيم. أظهرت الأعمال الحديثة أن طرق الشرح التي تركز على الميزات منخفضة المستوى يمكن أن تواجه مشاكل. على سبيل المثال، قد تعاني طرق البروز من التحيز التأكيدي ونقص الإخلاص (adebayo2018sanity). حتى عندما تكون مخلصة، فإنها تظهر فقط ’أين’ ركز النموذج في الصورة، وليس ’ماذا’ ركز عليه (achtibat2022where, colin2022what).
لمعالجة هذه المشاكل، توفر الطرق المبنية على المفاهيم شروحات باستخدام مصطلحات عالية المستوى يعرفها البشر. إحدى الطرق الشائعة هي متجهات تنشيط المفهوم (CAVs): تمثيل خطي لمفهوم موجود في فضاء التنشيط لطبقة محددة باستخدام مجموعة بيانات استكشافية لأمثلة المفهوم (kim2018interpretability). ومع ذلك، تواجه الطرق المبنية على المفاهيم أيضاً تحديات، مثل حساسيتها لمجموعة البيانات الاستكشافية المحددة (Ramaswamy2022OverlookedFI, Soni2020AdversarialT).
في هذه الورقة، نركز على فهم ثلاث خصائص لمتجهات المفاهيم:
قد لا تكون متسقة عبر الطبقات،
يمكن أن تكون متشابكة مع مفاهيم أخرى،
يمكن أن تكون معتمدة مكانياً.
نوفر أدوات لتحليل كل خاصية ونظهر أنها يمكن أن تؤثر على الاختبار باستخدام CAVs (TCAV) (§[sec: layer_stability], §[sec: Entanglement] و §[sec: Spatial]). لتقليل تأثير هذه الآثار، نوصي بـ: إنشاء CAVs لعدة طبقات، التحقق من العلاقات المتوقعة بين المفاهيم ذات الصلة، وتصوير الاعتماد المكاني (§[sec: Recommendations]). لا تعني هذه الخصائص أنه لا ينبغي استخدام CAVs. على العكس، قد نتمكن من استخدام هذه الخصائص لفهم سلوك النموذج بشكل أفضل. على سبيل المثال، نقدم نسخة معدلة من CAVs التي تعتمد مكانياً ويمكن استخدامها لتحديد التغير الترجمي في الشبكات العصبية التلافيفية (CNNs).
لمساعدة في استكشاف هذه الخصائص، أنشأنا مجموعة بيانات تركيبية قابلة للتكوين: العناصر (§[sec:elements]). توفر هذه المجموعة التحكم في العلاقات الحقيقية بين المفاهيم والفئات لفهم سلوك النموذج. باستخدام مجموعة بيانات العناصر، يمكن للباحثين دراسة (1) إخلاص طريقة الشرح المبنية على المفاهيم و(2) التشابك المفاهيمي في الشبكة.
متجه تنشيط المفهوم (CAV) هو تمثيل متجهي لمفهوم موجود في فضاء التنشيط لطبقة من الشبكة العصبية (NN). فكر في شبكة عصبية يمكن تحليلها إلى دالتين: \(g_l(\vx) =\va_l \in \R^{m}\) التي تعين المدخل \(\vx \in \R^n\) إلى متجه \(\va_l\) في فضاء التنشيط للطبقة \(l\)، و\(h_l(\va_l)\) التي تعين \(\va_l\) إلى المخرج. لإنشاء متجه تنشيط المفهوم لمفهوم \(c\) نحتاج إلى مجموعة بيانات استكشافية \(\D_c\) تتكون من عينات إيجابية \(\X_c^+\) (أمثلة المفهوم)، وعينات سلبية \(\X_c^-\) (صور عشوائية ضمن التوزيع). لمجموعتي \(\X_c^-\) و \(\X_c^+\)، ننشئ مجموعة مقابلة من التنشيطات في الطبقة \(l\): \[\A_{c,l}^+ = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^+\} , \text{ و} \ \A_{c,l}^- = \{ g_l(\vx_i) \quad \forall \vx_i \in \X_c^-\},\] نجد متجه تنشيط المفهوم \vcl من خلال تدريب مصنف خطي ثنائي للتمييز بين المجموعتين \(\A_{c,l}^+\) و \(\A_{c,l}^-\): \[\label{eq:svm} \al \cdot \vcl + b_{c,l} > 0 \quad \forall \al \in \A_{c,l}^+ , \text{ و } \al \cdot \vcl + b_{c,l} \leq 0 \quad \forall \al \in \A_{c,l}-,\] حيث \vcl هو المتجه العمودي للمستوى الفاصل بين التنشيطات \(\A_{c,l}^+\) و \(\A_{c,l}^-\)، و\(b_{c,l}\) هو الجزء المقطوع.
لتحليل حساسية النموذج لـ \vcl، يقدم كيم وآخرون (kim2018interpretability) اختباراً باستخدام متجهات تنشيط المفهوم (TCAV)، والذي يحدد حساسية المفهوم النموذجية عبر فئة كاملة. ليكن \(\X_k\) مجموعة من المدخلات التي تنتمي إلى الفئة \(k\). يعرف مقياس TCAV كما يلي \[\operatorname{TCAV}_{c, k, l}=\frac{\left|\left\{\vx \in \X_{k}: S_{c, k, l}(\vx)>0\right\}\right|}{\left|\X_{k}\right|},\] حيث المشتقة الاتجاهية للمفهوم، \(S_{c, k, l}\)، معرفة كما يلي \[S_{c, k, l}(\vx) =\lim _{\epsilon \rightarrow 0} \frac{h_{l, k}\left(g_{l}(\vx)+\epsilon \vv_{c, l}\right)-h_{l, k}\left(g_{l}(\vx)\right)}{\epsilon} =\nabla h_{l, k}\left(g_{l}(\vx)\right) \cdot \vcl\] حيث \(\nabla h_{l, k}\) هو المشتق الجزئي لمخرج الشبكة العصبية للفئة \(k\) إلى التنشيط. يقيس مقياس TCAV نسبة المدخلات للفئة \(k\) التي يتأثر تنشيطها في الطبقة \(l\) بشكل إيجابي بالمفهوم \(c\). يستخدم اختبار إحصائي لمقارنة مقاييس متجهات تنشيط المفهوم بالمتجهات العشوائية لتحديد أهمية المفهوم (انظر الملحق [app: CAV]).
لكي نستخدم طرق التفسير المبنية على المتجهات المفاهيمية الموجهة في الممارسة العملية، من المهم فهم كيفية عملها. لذلك، ندرس ثلاث خصائص للمتجهات المفاهيمية الموجهة وتأثيراتها على نتائج متجهات تنشيط المفهوم. نركز على هذه الفرضيات لأنها توفر رؤية حول تمثيلات الشبكة وعن المعنى المشفر بواسطة متجهات المفهوم.
نصوغ كل خاصية من خلال فرضية صفرية، والتي نقدم دليلاً لرفضها لاحقاً في الورقة. في النص التالي، نستخدم التنسيق concept
للدلالة على مفهوم.
بشكل عام، نريد فهم سلوك النموذج. ومع ذلك، تفسر متجهات تنشيط المفهوم (CAVs) ما إذا كان النموذج حساساً لمفهوم في طبقة محددة. في الواقع، قد يكون تحليل جميع الطبقات غير عملي حسابياً، وليس من الواضح أي الطبقات يجب اختيارها. لذلك، تستكشف فرضيتنا الأولى العلاقة بين متجهات المفهوم المنشطة الموجودة في طبقات مختلفة. تذكر أن درجات TCAV تعتمد على المشتقة الاتجاهية: كيف يتغير مخرج النموذج عند إجراء تغيير متناهي الصغر على التنشيطات في اتجاه متجه المفهوم المنشط. من خلال تعديل التنشيطات في اتجاه متجه المفهوم المنشط، نستكشف ما إذا كان بإمكان متجهين مفهوميَين منشطين موجودين في طبقات مختلفة أن يكون لهما نفس التأثير على مخرجات النموذج. نشير إلى هذه الخاصية باسم الاتساق.
افترض أن لدينا دالة \(f(\cdot)\) ترسم التنشيطات من الطبقة \(l_1\) إلى التنشيطات في الطبقة \(l_2\)، حيث \(l_1<l_2\). المتجهات المفاهيمية، \(\vclo\) و \(\vclt\) متسقة إذا ولكل مدخل \(\vx\) والتنشيطات المقابلة \(\va_{l_1}\) و \(\va_{l_2}\)، \(f(\va_{l_1} + \vclo) = \va_{l_2} + \vclt\).
إذا كان متجهان مفهوميَان منشطان متسقين، فإن لهما نفس التأثير اللاحق على النموذج عندما يتم تعديل التنشيطات في اتجاههما، أي، على الرغم من أنهما في طبقات مختلفة، فإن لهما تأثيراً مكافئاً على مخرجات النموذج وبالتالي يعطيهما النموذج نفس المعنى. فرضيتنا الأولى هي:
الفرضية الصفرية 1 (NH1): تمثيلات المتجه المفهومي متسقة عبر الطبقات
قد ترتبط المفاهيم المختلفة ببعضها البعض. على سبيل المثال، ضع في اعتبارك المفهومين 'السماء' و 'اللون الأزرق' – أحد الجوانب الأساسية لتعريف السماء هو أنها غالباً ما تكون زرقاء. في هذه الفقرة، نوضح كيفية اكتشاف هذه الارتباطات باستخدام متجهات المفاهيم المنشطة وآثارها على نتائج تحليل المفاهيم المنشطة.
لنأخذ في الاعتبار المعنى الذي يتم ترميزه بواسطة متجه المفهوم. نقوم بتسمية متجه المفهوم باستخدام التسمية المقابلة لمجموعة البيانات الاستكشافية. على سبيل المثال، قد يتم تسمية متجه المفهوم بـ striped أو red. هذا يفترض ضمنياً أن التسمية هي وصف كامل ودقيق للمعلومات التي يتم ترميزها بواسطة المتجه. في الواقع، قد يمثل متجه المفهوم عدة مفاهيم – على سبيل المثال، استمراراً في المثال أعلاه، قد يرمز المتجه إلى striped و red في نفس الوقت. نشير إلى هذه الظاهرة باسم “تشابك المفاهيم”. من الناحية الرياضية، نصوغ هذا على النحو التالي. متجه المفهوم \(\vcl\) أكثر تشابهاً مع التنشيطات المقابلة للصور التي تحتوي على المفهوم من التنشيطات للصور التي لا تحتوي على المفهوم، أي أنه يلبي \[\va_{c,l}^+ \cdot \vcl > \va_{c,l}^- \cdot \vcl \quad \forall \va_{c,l}^+ \in \A_{c,l}^+, \va_{c,l}^- \in \A_{c,l}^-.\]
لنفترض أن لدينا المفاهيم \(c_1\) و \(c_2\)، مع مجموعات البيانات الاستكشافية \(\D_{c_1}\) و \(\D_{c_2}\)، على التوالي. لكل مجموعة بيانات استكشافية، نجد مجموعات التنشيط: \(\A_{c_1,l} = \{A_{c_1,l}^+ \cup A_{c_1,l}^- \}\) و \(\A_{c_2,l} = \{ \A_{c_2,l}^+ \cup \A_{c_2,l}^- \}\).
متجه المفهوم لمفهوم ما متشابك مع مفهوم آخر إذا وفقط إذا \[\label{eqn: entangled definition} \begin{aligned} &\textcolor{blue}{\va_{c_2,l}^+} \cdot \textcolor{red}{\vv_{c_1,l}} > \textcolor{blue}{\va_{c_2,l}^-} \cdot \textcolor{red}{\vv_{c_1,l}} &\forall \textcolor{blue}{\va_{c_2,l}^+} \in \textcolor{blue}{\A_{c_2,l}^+} , \textcolor{blue}{\va_{c_2,l}^-} \in \textcolor{blue}{\A_{c_2,l}^-} \end{aligned}\]
فرضيتنا الثانية تستكشف تشابك المفاهيم:
الفرضية الصفرية 2 (NH2): يمثل متجه المفهوم المفهوم المقابل فقط لتسميته في مجموعة البيانات الاستكشافية الخاصة به
في هذا القسم، نستكشف تأثير الاعتماد المكاني على المفاهيم. لنفترض أن \(\D_{c, \mu_1}\) و \(\D_{c,\mu_2}\) تمثلان مجموعتي بيانات تحتويان على نفس المفهوم ولكن في مواقع مختلفة \(\mu_1 \neq \mu_2\). على سبيل المثال، قد تحتوي \(\D_{c, \mu_1}\) على أمثلة للمفهوم striped on the left في الصورة، و \(\D_{c,\mu_2}\) على أمثلة للمفهوم striped on the right في الصورة. كما في السابق، نقوم ببناء تمثيلات كامنة \(\A_{c,l,\mu_1}\) و \(\A_{c,l,\mu_2}\) لمجموعتي البيانات \(\D_{c, \mu_1}\) و \(\D_{c, \mu_2}\) على التوالي. ليكن \(\vcl\) هو متجه المفهوم الذي تم العثور عليه باستخدام مجموعة البيانات الاستكشافية \(\D_{c, \mu_1}\).
ليكن \(\va_{l, i}\) هي التنشيطات المقابلة للمدخل \(\vx_i\) في الطبقة \(l\)، وليكن \(\mu_{c,i}\) هو موقع المفهوم \(c\) في \(\vx_i\). تمتلك الطبقة تمثيلاً مكانياً معتمداً لمفهوم إذا وفقط إذا \[\exists \phi: \forall \vx_i \in \mathbb{X}_c^+, \phi(\va_{l, i}) = \mu_{c,i}\]
قد يكون الاعتماد المكاني للتنشيط في شبكة عصبية ناتجاً عن تصميم الهندسة، إجراء التدريب و/أو مجموعة بيانات التدريب. في الشبكات العصبية التلافيفية، هو نتيجة طبيعية لمجال الاستقبال لمرشحات التلافيف التي تحتوي على مناطق مختلفة من المدخل. إذا كانت الشبكة العصبية تمتلك تنشيطات مكانياً معتمدة وكانت مجموعة البيانات الاستكشافية تمتلك اعتماداً مكانياً، فقد يكون من الممكن إنشاء متجه مفهوم مع اعتماد مكاني.
متجه المفهوم \(\vv_{c,l}\) معتمد مكانياً بالنسبة للمواقع إذا وفقط إذا \[\label{eqn: concept vector spatial dependence} \begin{aligned} &\textcolor{red}{\va_{c,l,\mu_1}^+} \cdot \vv_{c,l} > \textcolor{blue}{\va_{c,l,\mu_2}^+} \cdot \vv_{c,l} &\forall \textcolor{red}{\va_{c,l,\mu_1}^+} \in \textcolor{red}{\A_{c,l,\mu_1}^+}, \textcolor{blue}{\va_{c,l,\mu_2}^+} \in \textcolor{blue}{\A_{c,l,\mu_2}^+}. \end{aligned}\]
الفرضية الصفرية 3 (NH3): لا يمكن أن تكون متجهات تنشيط المفهوم معتمدة مكانياً
لاستكشاف هذه الفرضيات، نقدم مجموعة بيانات اصطناعية جديدة: العناصر. في هذه المجموعة، يمكننا التحكم في: (1) مجموعة البيانات التدريبية وتعريفات الفئات، مما يتيح لنا التأثير على خصائص النموذج، مثل ارتباط المفاهيم في فضاء التضمين، و(2) مجموعة البيانات الاختبارية، مما يتيح لنا اختبار خصائص متجه المفهوم، مثل الاعتماد المكاني لمتجه المفهوم. سنقوم بمزيد من التفصيل حول هذه المزايا في الملحق [app: Elements].
كل صورة تحتوي على \(n\) عناصر، حيث يتم تعريف العنصر بسبع خصائص: اللون، السطوع، الحجم، الشكل، النسيج، تحول النسيج، والإحداثيات داخل الصورة. يمكن تهيئة المجموعة بتغيير التوليفة المسموح بها للخصائص لكل عنصر. يتم إعطاء النطاقات والتكوينات المستخدمة لكل خاصية في الملحق [app: Elements].
يناقش تشين وآخرون (Chen2020ConceptWF) كيف يمكن أن تكون متجهات المفاهيم مرتبطة، مما يجعل من الصعب إنشاء متجه يمثل مفهوماً واحداً فقط. بينما يركز عملهم على فك الارتباط بين المفاهيم أثناء التدريب, نحن نركز على تحليل تأثير المفاهيم المرتبطة بعد التدريب ونظهر كيف يمكن أن تؤدي إلى تفسيرات مضللة (§[sec: Entanglement]). يستخدم فونغ وفيدالدي (fong2018net2vec) تشابه الجيب التام لإظهار أن التشابه بين المفاهيم يختلف بناءً على طريقة إنشاء المتجه. في عملنا، نستخدم أيضاً تشابه الجيب التام لمقارنة متجهات المفاهيم. الاختلاف يكمن في تركيزنا على تحليل متجهات المفاهيم والرؤى التي تقدمها حول مجموعة البيانات والنموذج.
يصف بيسكيوني وباورز (Biscione2021Invariant) كيف أن الشبكات العصبية التلافيفية ليست مترجمة بشكل طبيعي ولكن يمكن أن تتعلم أن تكون كذلك (تحت ظروف معينة على مجموعة البيانات). هذا الاكتشاف يتحدى الافتراض الشائع بأن الشبكات العصبية التلافيفية تمتلك ترجمة طبيعية. من خلال متجهات التحليل العنقودي المعتمدة مكانياً، نظهر الترجمة بالنسبة لمفهوم وفئة محددة، بدلاً من ذلك بشكل عام، مما يوفر معلومات أكثر تفصيلاً عن النموذج.
تمثل معظم طرق التفسير المبنية على المفاهيم المفاهيم كـ متجهات في فضاء التنشيط لشبكة عصبية مدربة (kim2018interpretability, fong2018net2vec, bolei2018ibd, ghorbani2019automating, zhang2020invertible, ramaswamy2022elude, fel2023craft). ومع ذلك، تستخدم بعض الطرق المبنية على المفاهيم تمثيلات مختلفة: الخلايا العصبية الفردية (bau2017network)، مناطق فضاء التنشيط (crabbe2022) أو المفاهيم غير الخطية (bai2022concept, li2023emergent). يركز عملنا على خصائص متجهات المفاهيم.
لتقديم رؤية حول متى قد تكون الخصائص المختلفة ذات صلة، قمنا بمراجعة أوراق الرؤية الحاسوبية التي تستخدم متجهات التحليل العنقودي في (1) التطبيقات ذات الأهمية العالية للتصوير الطبي (بما في ذلك سرطان الجلد، وآفات الجلد، وسرطان الثدي، وعلم الأنسجة (Yan2023SkinCancer, Furbock2022Breast, Pfau2020Robust))، و(2) بحوث الرؤية الحاسوبية على النماذج المدربة بمجموعات بيانات معروفة (Krizhevsky2009CIFAR, Tsung2014COCO, Wah2011CUB,Zhou2017Places, Sagawa2020Waterbirds, Deng2009ImageNet). يمكن العثور على جدول ملخص في الملحق [app: related work]. وجدنا أن الأوراق التالية كان يمكن أن تستفيد من تقييم: الاتساق (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, Lucieri2020Oninterp)، التشابك (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast، Yuksekgonul2023Post, Ghosh2023Dividing, Graziani2020Concept, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust)، والاعتماد المكاني (Yan2023SkinCancer, Ramaswamy2022OverlookedFI, Furbock2022Breast, Yuksekgonul2023Post, Ghosh2023Dividing, McGrath_2022, Lucieri2020Oninterp, Pfau2020Robust). نقدم مثالاً مفصلاً، باستخدام تطبيق تشخيص سرطان الجلد (Yan2023SkinCancer)، في § [sec: Recommendations] والملحق [app: Example UseCase].
بينما تم تقديم العديد من مجموعات البيانات لتقييم طرق التفسير، فإنها تختلف عن مجموعتنا في بعض الطرق الرئيسية. هناك ثلاثة جوانب نهتم بها:
هل يتم تمثيل المفهوم في الشبكة؟
هل يتم استخدام المفهوم لتنبؤ الشبكة؟
كيف تمثل الشبكة المفاهيم المرتبطة؟
تسمح مجموعات البيانات الحالية فقط بالاطلاع على (1)، بينما تسمح مجموعتنا لنا بتحليل (2) و(3) أيضاً. تقوم طريقة تقييم التفسير (yang2019) بإدراج الأشياء في صور المشاهد. بينما تستفيد من استخدام الصور الحقيقية والمفاهيم المعقدة (الكلب أو غرفة النوم)، فإنها تقدم أيضاً تحديات. أحد العيوب هو أن الاعتماد على الصور الحقيقية يجعل من الصعب إنشاء علاقة الحقيقة الأساسية بين المفاهيم وتنبؤات الفئة أو معرفة التشابهات بين المفاهيم. ونتيجة لذلك، لا تعطينا رؤية في (2) أو (3). مجموعة البيانات الاصطناعية في يه وآخرون (yeh2020completeness) هي الأقرب إلى مجموعتنا ولكن تم تصميمها لاكتشاف المفهوم، حيث تتميز الصور بأن كل جسم يتوافق مع مفهوم واحد (الشكل). في مجموعتنا، يحتوي كل جسم على مفاهيم متعددة، مما يسمح لنا بإنشاء ارتباطات بينها. نركز على دقة التفسير من خلال التأكد من أن المفاهيم يجب استخدامها بشكل صحيح من قبل النموذج لتحقيق دقة عالية. لذا، بالنسبة لنموذج دقيق، لدينا فهم حقيقي لكيفية استخدام كل مفهوم. يمكن العثور على مراجعة أدبية موسعة في الملحق [app: related work].
نستكشف الفرضيات حول الاتساق (NH1)، التشابك (NH2)، والاعتماد المكاني (NH3) في § [sec: layer_stability]، § [sec: Entanglement] و § [sec: Spatial]، على التوالي. نقوم بإجراء التجارب باستخدام متجهات المفهوم المشروطة على مجموعات بيانات العناصر وImageNet. يمكن العثور على تفاصيل التنفيذ في الملحق [app: implementation].
نبدأ بفحص NH1، والذي ينص على أن المتجهات المفاهيمية متسقة عبر الطبقات، أي أن \(f(\va_{l_1} + \vv_{c, l_2}) = \va_{l_2} + \vv_{c, l_2}\). لنفترض أن \(\hat{\_va}_{l_1}\) و \(\hat{\va}_{l_2}\) هما اضطرابات خطية للتنشيطات في الطبقتين \(l_1\) و \(l_2\) على التوالي: \[\begin{aligned} \hat{\va}_{l_1} &= \va_{l_1} + \vclo \\ \hat{\va}_{l_2} &= \va_{l_2} + \vclt = f(\va_{l_1}) + \vclt\end{aligned}\] نريد أن نفحص إذا كان \(\vclo\) و \(\vclt\) لهما نفس التأثير على التنشيطات (وبالتالي على النموذج)، أي إذا كان: \[\label{eqn: consistent cavs} \begin{aligned} f(\hat{\va}_{l_1}) &= \hat{\_va}_{l_2} \\ f(\va_{l_1} + \vclo) &= f(\va_{l_1}) + \vclt. \end{aligned}\] لنفترض أننا وجدنا \(\vclo\) ونود أن نجد \(\vclt\) الذي يلبي المعادلة [eqn: consistent cavs]. إذا كانت \(f\) تحافظ على جمع المتجهات، كما في طبقة خطية، فإنه يصح أن: \[\begin{aligned} f(\va_{l_1}) + f(\vclo) &= f(\va_{l_1}) + \vclt \\ \vclt &= f(\vclo). \end{aligned}\] وبالتالي، من الممكن أن يكون لدينا ناقلات متسقة عبر الطبقات إذا كانت \(f\) تحافظ على جمع المتجهات و \(\vclt = f(\vclo)\). بدلاً من ذلك، إذا لم تحافظ \(f\) على جمع المتجهات، لا يمكننا تبسيط المعادلة [eqn: consistent cavs] ولأي \(\vv_{c, l_1}\): \[\label{eqn: consistency vcl2} \vv_{c, l_2} = f(\va_{l_1} + \vv_{c, l_1}) - f(\va_{l_1}).\] إذا كان \(\vclt\) يعتمد على \(\va_{l_1}\)، فلا يوجد \(\vclt\) بحيث تكون المعادلة [eqn: consistent cavs] صحيحة لجميع \(\va_{l_1}\). بمعنى آخر، لا يوجد ناقل في الطبقة \(l_2\) له نفس التأثير على التنشيطات كالناقل في الطبقة \(l_1\) لجميع المدخلات إلى النموذج.