إِسْتراتِيجِيَّة التَعَلُّم المُدْرِك للنَمُوذَج الأَوَّلِيّ في سِياق التَجْزِئَة الدَلالِيَّة ضَعِيفَة الإشراف

Feilong Tang

Zhongxing Xu

Zhaojun Qu

Wei Feng

Xingjian Jiang

Zongyuan Ge

مُلَخَّص

تسعى الطُرُق الحَديثة للتَجْزِئَة الدَلالِيَّة ضَعِيفَة الإشراف (WSSS) إلى دَمْج المَعْرِفَة السياقية لتحسين اكتمال خَرائِط تَنْشِيط الفِئَة (CAM). في هذا العمل، نُؤكِّد أن التَحَيُّز المَعْرِفي بين الحالات والسياقات يؤثر على قُدْرة النَمُوذَج الأَوَّلِيّ على فَهْم دلالات الحالة بشكل كافٍ. مستوحى من نَظَرِيَّة تَعَلُّم النماذج الأَوَّلِيَّة، نقترح استخدام الوعي بالنَمُوذَج الأَوَّلِيّ لالتقاط سمات الخصائص المتنوعة والدقيقة للحالات. تَفْتَرِض الفَرْضِيَّة أن النماذج الأَوَّلِيَّة السياقية قد تُفعِّل بشكل خاطئ فئات الأشياء المتشابهة والمتكررة المشتركة بسبب هذا التحيز المعرفي. لذلك، نقترح تعزيز قدرة تمثيل النَمُوذَج الأَوَّلِيّ من خلال تخفيف التحيز لالتقاط التغطية المكانية بشكل أفضل في مناطق الأشياء الدلالية. لتحقيق هذا الهدف، نقدم إِسْتراتِيجِيَّة التَعَلُّم المُدْرِك للنَمُوذَج الأَوَّلِيّ السياقي (CPAL)، التي تستفيد من السياق الدلالي لإثراء فهم الحالة. جوهر هذه الطريقة هو التقاط التباينات داخل الفئة في ميزات الأشياء بدقة من خلال النماذج الأَوَّلِيَّة المُدْرِكة للسياق، مما يُسهِّل التكيف مع السمات الدلالية لمختلف الحالات. نقوم بتصميم محاذاة توزيع الميزات لتحسين الوعي بالنَمُوذَج الأَوَّلِيّ، عبر محاذاة توزيعات ميزات الحالة مع الميزات الكثيفة. بالإضافة إلى ذلك، يتم اقتراح إطار تدريب موحد لدمج الإشراف التصنيفي الموجه بالتسميات والإشراف الذاتي الموجه بالنماذج الأَوَّلِيَّة. تُظهر النتائج التجريبية على PASCAL VOC 2012 وMS COCO 2014 أن CPAL يُحسِّن بشكل كبير الطُرُق المتاحة ويحقق أداءً رائداً. المشروع متاح في https://github.com/Barrett-python/CPAL.

مُقَدِّمَة

تُعْتَبَر التَجْزِئَة الدَلالِيَّة مهمة أساسية في مجال الرؤية الحاسوبية. أصبحت التَجْزِئَة الدَلالِيَّة ضَعِيفَة الإشراف (WSSS) نهجاً شائعاً في المجتمع، حيث تتعلم من تسميات ضعيفة مثل تسميات على مستوى الصورة (kolesnikov2016seed, lee2021anti)، الخربشات (lin2016scribblesup,vernaza2017learning)، أو مربعات الحدود (dai2015boxsup,lee2021bbam,song2019box)، بدلاً من التعليقات التوضيحية على مستوى البكسل. تُستخدم معظم نُهج WSSS خرائط تنشيط الفئة (CAM) (zhou2016learning) لتوفير إشارات تحديد المواقع للأهداف، وبالتالي ربط المفاهيم البصرية بمناطق البكسل.

المفتاح في WSSS هو توليد CAM بتغطية أفضل على الكائن الكامل. تهدف الدراسات الحديثة (chang2020weakly,sun2020mining,zhang2020inter,wang2023hunting) بشكل أساسي إلى تحسين دقة تجزئة النموذج واستقراره من خلال دمج المعرفة السياقية. مستوحاة من تقدم تعلم التمثيل (fan2020learning,wu2021embedded)، قدمت بعض الدراسات (li2021group,su2021context,zhang2020causal,zhang2022multi) المعرفة السياقية والمعرفة التمثيلية لنمذجة السياق على نطاق عالمي لتحليل السمات الدلالية للمثيلات بدقة أكبر. لكنها تتجاهل تحدي التباين الكبير داخل الفئة، أي أن المناطق التي تنتمي إلى نفس الفئة قد تظهر مظهراً مختلفاً جداً حتى في نفس الصورة. يجعل التحيز بين المعرفة السياقية (الميزات العالمية داخل الفئة) والمعرفة المحددة للمثيل (الميزات الفريدة) نقل التسميات صعباً من مستوى الصورة إلى مستوى البكسل. في هذا العمل، نؤكد أن تخفيف التحيز المعرفي بين المثيلات والسياقات يمكن أن يلتقط مناطق أكثر دقة واكتمالاً. علاوة على ذلك، ندمج إشارات إشرافية إضافية لتسريع تخفيف التحيزات المعرفية.

تمثيل النموذج الأولي للفئة، من خلال تقليل التحيز، أظهر إمكاناته في كشف أنماط الميزات في خوارزميات التعلم القليل الأمثلة مثل BDCSPN (liu2020prototype). تنص نظرية تعلم النموذج الأولي (zhou2022rethinking,wang2019panet) على أن النماذج الأولية يمكن أن تمثل الميزات المحلية، الميزات العالمية، أو السمات المحددة للكائن. استناداً إلى التباين داخل الفئة في ميزات الكائن، يمكن للنموذج الأولي للمثيل (chen2022self) أن يميز بشكل ديناميكي الميزات التمييزية للصورة المحددة. علاوة على ذلك، فإن النماذج الأولية التي تدمج المعرفة السياقية (zhou2022regional) لديها القدرة على التقاط أنماط دلالية فئوية أكثر تحديداً ودقة. تمكنت من التقاط منطقة الكائن بشكل أكثر اكتمالاً مقارنة بنموذج أولي لمثيل واحد.

في هذا العمل، نقترح استراتيجية تعلم تُسمى التعلم المُدرك للنموذج الأولي السياقي (CPAL) لاستخراج سمات الميزات الفعالة من هيكل العنقود السياقي. على وجه التحديد، نستكشف مثيلات أخرى ذات صلة بالصورة المحددة لبناء نماذج أولية سياقية كجيران مرشحين. ثم يتم إجراء البحث عن السمات داخل الفئة في مجموعة الجيران المرشحين، مع تحديد موقع النموذج الأولي للمثيل الحالي كمرساة. في الوقت نفسه، نصمم درجة إيجابية زوجية تدل على الارتباط بين السمات، بهدف تحديد النماذج الأولية السياقية (أي الجيران الناعمين) المرتبطة ارتباطاً عالياً بالسمات الحالية. بعد تطبيق درجة الإيجابية المعنية، تم تعديل مساهمات هذه النماذج الأولية في المثيل المرساة بشكل ديناميكي، وبالتالي تخفيف التحيزات المرتبطة بالتنوع داخل الفئة وسمات المثيل.

جوهر طريقتنا هو الوعي بالنموذج الأولي. نقيس بلطف المسافة بين النموذج الأولي للمثيل والنموذج الأولي السياقي لإدراك سمات المثيل. لتقدير قوي، يتم اقتراح بنوك الدعم الفئوية للتغلب على القيود على الدُفعات الصغيرة، بحيث يمكن ملاحظة تنوع الميزات داخل الفئة بطريقة من الميزة إلى البنك حيث يمكن تقريب توزيع الفئة عالمياً. ومع ذلك، بسبب الكمية المحدودة من ميزات المثيل، هناك تحيز نسبي لتوزيع الميزات السياقية، مما يؤثر على الوعي الدقيق بالمثيل. لذلك، نقترح محاذاة توزيع الميزات من خلال إدخال مصطلح تحويل \(\delta\) إلى ميزات المثيل النادرة، دافعاً إياها نحو توزيع الميزات الكثيفة لبنك الدعم الفئوي.

في مجموعات بيانات PASCAL VOC 2012 (everingham2010pascal) وMS COCO 2014 (lin2014microsoft)، نقيم طريقتنا في إعدادات WSSS المختلفة، حيث حقق نهجنا أداءً رائداً. تتلخص المساهمات على النحو التالي:

الأعمال ذات الصلة

التَجْزِئَة الدَلالِيَّة ضَعِيفَة الإشراف باستخدام تسميات على مستوى الصورة تُولِّد عادةً خرائط الفعالية الفئوية كبذرة لتوليد تسميات زائفة على مستوى البكسل. العيب النمطي لخرائط الفعالية الفئوية هو نقصها وعدم دقتها في الفعالية. لمعالجة هذا العيب، اقترحت الأعمال الحديثة مخططات تدريب متنوعة، مثل المحو العدائي (kweon2021unlocking,yoon2022adversarial,sun2021ecs,kweon2023weakly)، ونمو المنطقة (huang2018weakly,wei2018revisiting)، واستكشاف قيود الحدود (rong2023boundary,chen2020weakly,lee2021railroad). يركز نموذج التعلم والاستدلال للصورة الفردية (araslanov2020single,lee2021railroad) على فهم أعمق للميزات داخل صورة فردية لتوليد خرائط الفعالية الفئوية الأكثر اكتمالاً. يقوم الاستخراج الذاتي للنماذج الأولية (chen2022self) بتخصيص النماذج الأولية لميزات متعددة الأحجام لتوسيع خرائط تحديد مواقع الأجسام الخشنة للحصول على مدى كامل لمناطق الأجسام.

بينما اعتبرت الجهود السابقة كل صورة على حدة، تركز الأعمال الحديثة على الحصول على سياق دلالي غني بين الصور المختلفة في المجموعة البيانية. تتناول الأعمال الحديثة (sun2020mining,fan2020cian) التنقيب الدلالي بين الصور من خلال التركيز على التقاط العلاقات الزوجية بين الصور. وتقوم (li2021group,zhang2022multi,du2022weakly) بأداء التنقيب الدلالي عالي الترتيب للعلاقات الأكثر تعقيداً داخل مجموعة من الصور. في الوقت نفسه، من أجل تعزيز علاقة التمثيل للفضاء المميز (استكشاف أنماط الأجسام على مجموعة البيانات بأكملها)، يقدم التحليل الإقليمي للفئات (zhou2022regional) بنك ذاكرة لتخزين ميزات الفئات عالية الجودة وأداء نمذجة السياق. يقترح التوافق العميق للنماذج الأولية للفئات (jin2023deep) محاذاة تمثيل الميزات للحالات المزدوجة تحت وجهات نظر مختلفة، وتم أيضاً تقديم هذه المحاذاة في توزيع البيانات تحت سياقات مختلفة (zhao2023dual). على عكس الأعمال السابقة حول تطبيق المعرفة السياقية، يمكن لطريقتنا أن تدرك بشكل تكيفي السمات الدلالية والتباينات داخل الفئة، مما يؤدي إلى مناطق فعالية أكثر اكتمالاً لخرائط الفعالية الفئوية.

التَعَلُّم المبني على النماذج الأولية تم دراسته جيداً في التعلم بعدد قليل من الأمثلة (snell2017prototypical,snell2017prototypical)، والتعلم بدون أمثلة (he2019dynamic) والتعلم غير الموجه (xu2020attribute). من الجدير بالذكر أن العديد من نماذج التجزئة يمكن اعتبارها شبكات تعلم مبنية على النماذج الأولية (wang2019panet, liu2020part, xu2022semi, zhou2022rethinking, ge2023soft)، مما يكشف عن إمكانية التطبيق في تجزئة الصور. اقترح (du2022weakly) طريقة تعلم مترية مبنية على النماذج الأولية تفرض تناسق الميزات على مستوى المقابلات وتنظيم داخلي وبين-داخلي. يستخدم التعلم القائم على النماذج الأولية للكاميرا (chen2023extracting) لاستخراج ميزات غنية للأجسام أيضاً. في عملنا، نتعلم سمات الميزات الفعالة ضمن هيكل التجميع للسياق لنمذجة ميزات الأجسام المتنوعة على مستوى دقيق.

المنهجية

يقوم نظام التصنيف ضعيف الإشراف للتعلم الشبه الإشرافي (WSSS) أولاً بتدريب شبكة التصنيف لتحديد منطقة الكائن المقابلة لكل فئة، ثم يتم تنقيحها لتوليد تسميات زائفة كمشرفين على شبكة التجزئة الدلالية. يُبنى الإطار على أساس شبكة التصنيف، ويتكون من إشارتين إشرافيتين: خسارة التصنيف والخسارة الذاتية الإشرافية. يشجع نهجنا على الاتساق بين الخريطة النشطة للفئة (CAM) المتوقعة من خلال التعلم الواعي للنموذج والمصنف، مما يحفز النموذج بشكل ضمني على تعلم ميزات أكثر تميزاً. نحن نمثل النموذج الأولي للحالة كمرساة ونستخرج نماذج أولية للسياق من بنك الدعم كمجموعة مرشحة للجيران، والتي يتم وصفها في القسم [3.2]. جوهر طريقتنا هو الوعي بالنموذج الأولي لالتقاط التباينات داخل الفئة، ويتم قياس إيجابية كل جارٍ مرشح على الحالة الحالية بشكل ناعم، وتصفيتها وضبط مساهماتهم بشكل انتقائي. في الوقت نفسه، توجه محاذاة توزيع الميزات ميزات الحالة الحالية نحو مركز العنقود للميزات الكثيفة في البنك.

نموذج التحسين الذاتي الموجه

تحسين الشبكة. يُبنى إطار عملنا على شبكة تصنيف، مستخدمين هذه الشبكة \(\theta\) لاستخراج إشراف فعال من تسميات الصور، ملتقطين مناطق الكائنات لكل فئة (\(i.e.,\) خرائط التنشيط الفئوي). نقترح تعلم النموذج الأولي الواعي بالسياق لتوليد خريطة التنشيط الفئوي الواعية بالنموذج الأولي (PACAM) بشكل أكمل، موفرة إشارات إشرافية إضافية لخريطة التنشيط الفئوي الأولية وتشكيل نموذج ذاتي التوجيه. العنصر الأساسي لهذا النموذج هو تنظيم الاتساق، مقللاً بشكل ضمني المسافة المميزة بين البكسلات التمييزية والمفقودة، مشجعاً النموذج على تعلم ميزات أكثر اتساقاً وتميزاً. هذا التعديل البسيط يؤدي إلى تحسينات ملحوظة. دالة خسارة موحدة لتحسين النموذج: \[\label{coefficients} \mathcal{L}=\lambda_{BCE}\mathcal{L}^{{BCE}}+\lambda_{Self}\mathcal{L}^{ {Self}}\] حيث \(\lambda_{BCE}\) و\(\lambda_{Self}\) هما معاملان، \(\mathcal{L}^{{BCE}}\) هي خسارة التصنيف، و\(\mathcal{L}^{ {Self}}\) هي الخسارة الذاتية التوجيه. الخسائر موصوفة بالتفصيل في الأقسام التالية.

خسارة التصنيف وخرائط التنشيط الفئوي. كل صورة تدريب \(I \in \mathbb{R}^{w \times h \times 3}\) في مجموعة البيانات \(\mathcal{I}\) مرتبطة فقط بمتجه تسمية على مستوى الصورة \(\boldsymbol{y}=\{y_n\}^N_{n=1} \in \{0,1\}^N\) لـ\(N\) فئات محددة مسبقاً. يقترح CAM لتحديد مواقع الكائنات الأمامية من خلال تدريب شبكة تصنيف. يأخذ CAM صورة مصغرة \(I\) كمدخل لاستخراج خرائط الميزات \(f\in \mathbb{R}^{W \times H \times D}\)، ب\(D\) قنوات وحجم مكاني \(H \times W\). لربط الفجوة بين مهمة التصنيف ومهمة التجزئة، يتم استخدام وزن المصنف \(\mathbf{w}_n\) وطبقة التجميع المتوسط العالمي (GAP) لإنتاج تنبؤ اللوجيت \(\hat{y}_i \in \mathbb{R}^N\). أثناء التدريب، يستخدم خسارة التقاطع الثنائي كما يلي: \[\mathcal{L}^{BCE}=\frac{1}{N} \sum_{i=1}^N y_i \log \sigma\left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\sigma\left(\hat{y}_i\right)\right),\] حيث \(\sigma(\cdot)\) هي دالة السيجمويد. للحصول على معلومات تقريبية عن الموقع للخلفية والأمام. يمكن تمثيل خريطة التنشيط الفئوي \({M}_{\boldsymbol{f}}=\left\{{M}_n\right\}_{n=1}^N\) على \(N\) فئات أمامية كما يلي: \[{M}_{n}=\frac{\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)}{\max \left(\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)\right)}, \quad \forall n \in N.\] مع الأخذ في الاعتبار أهمية الخلفية في مهمة التجزئة، نتبع (wang2020self) لتقدير خريطة التنشيط الخلفية \({M}_{b}=1-\max_{1 \leq n \leq N} M_n\) استناداً إلى \(M_f\). نجمع خريطة التنشيط الخلفية المعالجة مع خريطة التنشيط الأمامية ككل، i.e. \({M} = M_f \cup M_b\)، لمساعدة النموذج على فهم المعرفة الخلفية.

نمذجة النموذج الأولي

نمذجة النموذج الأولي للحالة كمرساة. لكل صورة \(I\)، يتم تعيين خرائط الميزات إلى فضاء الإسقاط \(z=v(f)\) بواسطة رأس الإسقاط \(v\) لنمذجة النموذج الأولي للحالة. يمثل كل نموذج أولي للحالة الدلالات الإقليمية للفئات الملحوظة في \(I\) استناداً إلى \(M\). على وجه التحديد، بالنسبة للفئة \(n\)-th التي تظهر في \(I\) (\(i.e.,\) \(y_c=1\))، يتم تلخيص ميزاتها المعروضة إلى متجه \(\mathcal{P}^{I}_n \in \mathbb{R}^D\) بواسطة التجميع المتوسط المقنع (MAP) (siam2019amp): \[\mathcal{P}^{I}_n=\frac{\sum_{x=1, y=1}^{W, H} \textbf{P}_n(x,y) * z(x,y)}{\sum_{x=1, y=1}^{W, H} \textbf{P}(x,y)}, \label{tau}\] حيث \(\textbf{P}_n= \mathbbm{1}\left({M}_n>\tau\right) \in \{0,1\}^{W \times H}\) هو قناع ثنائي، يؤكد فقط على البكسلات المنشطة بقوة للفئة \(n\) في خريطة التنشيط. \(\mathbbm{1}(\cdot)\) هي دالة مؤشر، والعتبة \(\tau\) هي معلمة فائقة وتدل على عتبة درجة الثقة. هنا، \(\mathcal{P}^{I}_n\) مضغوط وخفيف، مما يسمح بالاستكشاف القابل للتطبيق لعلاقاته مع العديد من العينات الأخرى وتموضعه كمرساة.

نمذجة النماذج الأولية السياقية كجيران مرشحين. نفترض أن الميزات الفئوية داخل الصور أو الدُفعات توفر فقط نظرة محدودة للفئة. لذلك، نستخدم بنك الدعم كمجموعة مرشحة \(\mathcal{C}\)، حيث كل عنصر هو النموذج الأولي السياقي لفئات مختلفة. عند استخدام دفعات العينات لتدريب الشبكة، نخزن نماذجها الأولية \(\mathcal{P}^{I}_n\) في \(\mathcal{C}\) ونستخدم استراتيجية الأول داخل أول خارج لتحديث مجموعة المرشحين. تحافظ هذه المجموعة على طول نسبي كبير لكل فئة نموذج أولي لتوفير نماذج أولية سياقية محتملة بما فيه الكفاية. استناداً إلى هذه المجموعة، يتم تطبيق تجميع \(\mathrm{k}\)-means عبر الإنترنت لتنقيح كل فئة إلى مجموعات نموذج أولي مجمعة \(\mathcal{G}=\left\{G_i\right\}_{i=1}^{N_p}\) لكشف الصفات العميقة لكل فئة. نقوم بعمليات التوسيط على كل مجموعة نموذج أولي مجمعة من \(\mathcal{G}\) لتوليد \(N_p\) جيران مرشحين \(\mathbf{p}_i\) على النحو التالي: \[\mathbf{p}_i=\frac{1}{\left|G_i\right|} \sum_{\mathbf{r}_j \in G_i} \mathbf{r}_j,\] حيث \(\mathbf{r}_j\) يشير إلى النموذج الأولي \(j\)-th الذي ينتمي إلى مجموعة العنقود \(i\)-th \(G_i\). \(\mathbf{p}_i\) يمثل النموذج الأولي السياقي \(i\)-th لمجموعة الجيران المرشحين \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\).

التعلم المُدرك لنموذج السياق

مع نماذج الربط الأساسية ومجموعة الجيران المرشحين من القسم [3.2]، تستشعر مجموعة الجيران المرشحين أو تدعم ميزة الربط. يمكن للتعلم المُدرك لنموذج السياق قياس وضبط مدى هذا الدعم.

تحديد الجار الإيجابي الناعم. اختيار النموذج أمر حاسم في نهجنا المقترح حيث يحدد بشكل كبير جودة الإشراف. يمكن لنماذج الحالات تمثيل الصفات الفئوية للصورة الحالية بشكل خاص، بينما تظهر نماذج السياق أنماطاً فئوية أكثر شمولاً وتنوعاً. تُستخدم استراتيجيتنا درجات الإيجابية \(w_i\) لقياس صلة الجيران المرشحين في الفئة بصفات الحالة الحالية. نقترح اختيار أفضل \(K\) جيران معدلّين بدرجات الإيجابية، الموجودين بالقرب من الربط. يمكن صياغة الجار الإيجابي الناعم كما يلي: \[\tilde{\mathcal{P}}_n^{\text {c}}=\left\{w_i \mathbf{p}_{\mathbf{i}}: i \in \underset{i \in N_p}{ \arg \max }\left(d\left(w_i \mathbf{p}_{\mathbf{i}}, \mathcal{P}_n^I\right), \text { top } =K\right)\right\} \label{value_K}\] حيث \(d()\) تدل على التشابه الجيبي التمامي كمقياس محسوب، و\(\tilde{\mathcal{P}}^{c}_n\) يمثل أفضل \(K\) نماذج مُدركة للسياق مصممة للحالة الحالية. توقعات الإيجابية. لقد صممنا درجات إيجابية زوجية لقياس (بشكل غير ثنائي) الصلة بين نموذج الحالة والجيران المرشحين في نفس الفئة. بالنسبة لزوج النموذج (\(\mathbf{p}_i\) , \(\mathcal{P}^I_{n}\))، يمكن حساب درجة الإيجابية \(w_{i}\) كما يلي: \[w_i=\frac{1}{\gamma_i} \texttt{softmax}\left[l_1\left(\mathbf {\mathcal{P}}^{I}_n\right) \times l_2\left(\mathbf {p}_i\right)^{\top}\right], \quad {\mathbf{p}}_{i} \in {\mathcal{P}}^{c}_n, \label{eq7}\] حيث \(l_1(\cdot)\) و\(l_2(\cdot)\) هما طبقات تحويل الميزات بدون معاملات. \(\gamma_i\) هو عامل تحجيم لضبط درجة الإيجابية \(w_i\). تم استكشاف هياكل مختلفة للدرجة \(w_{i}\) في القسم [Ablation].

الادعاء 1. نفترض أننا ندرب نموذج \(\theta\) باستخدام طريقة التحسين المقترحة، \(\mathcal{P}_n^I\) و\(\tilde{\mathcal{P}}_n^c\) هما نموذج الحالة الحالي للفئة n-th ونماذج السياق على التوالي. يمكن التعبير عن القيمة المثلى لمقياس التشابه \(s_i^*\) كـ \(\frac{w_{i}}{\sum_{k=1}^{K} w_{k}}\)، حيث \(w_{i}\) هي درجة الإيجابية المقابلة لزوج النموذج (\(\mathcal{P}_n^I, \quad {\mathbf{p}}_{i} \in {\tilde{\mathcal{P}}}_n^{c}\)) في المعادلة [eq7].

يمكن العثور على البرهان في الملحق A. يشير الادعاء 1 إلى أننا نحسن النموذج لتعظيم التشابه بين نموذج السياق والحالة الحالية من نفس الفئة بنسبة مباشرة إلى درجة الإيجابية المقابلة. نحن ننقل المعرفة بفعالية من الفرع الذاتي الإشراف إلى النموذج، بالإضافة إلى أداء النموذج وقدرات التعميم.

محاذاة توزيع الميزات. تشكل الميزات المتفرقة (hoefler2021sparsity) وتنوع الفئة الداخلي تحديات لتمثيل الميزات المحددة للفئة بدقة، مما يعيق التمييز بين الفئات. وبالتالي، نفترض تحيزاً بين الميزات الفردية وميزات الفئة الداخلية. لمعالجة ذلك، نوجه الميزات لمحاذاة ميزاتها المحددة للفئة المجمعة بكثافة لتعزيز كثافة الميزة الداخلية للفئة. بالنظر إلى أن تطبيع الدُفعات الصغيرة (ioffe2015batch) أو تطبيع الحالة (ulyanov2016instance) يتبع اتجاه التعلم بالدُفعات، يتم محاذاة ميزات الدُفعات الصغيرة من خلال إدخال مصطلحات الانتقال \(\delta_n\) لدفعها نحو مراكز العناقيد. يتم استنتاج ذلك كما يلي.

نحدد مقياس التقييم للتشابه الجيبي التمامي الأمثل (OCSEM) لتقييم التشابه الجيبي التمامي بين العينة الحالية والعينات الأخرى، بهدف تعزيز دقة النموذج من خلال تعظيم هذا المقياس. يعرف الهدف الأمثل كما يلي: \[\begin{split} \text{OCSEM} = \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} & \cos({\mathbf {p}}_{i},\mathcal P^I_{n,q}) > \\ & \max_{h \neq i}\{\cos({\mathbf {p}}_{h},\mathcal P^I_{n,q})\}, \end{split}\] حيث \({\mathbf {p}}_{i}\) هو نموذج السياق في مجموعة الجيران المرشحين \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\) للفئة n-th، و\(\mathcal P^I_{n,q}\) هو نموذج الحالة المقابل في المجموعة \(\mathcal{P}_n^b=\left\{\mathcal P^I_{n,q}\right\}_{q=1}^{Q_n}\) في الدُفعة الصغيرة. \(Q_n\) يدل على عدد النماذج للفئة n-th في الدُفعة الصغيرة. نفترض أن التحيز يمكن تقليله بإضافة مصطلح الانتقال \(\delta_n\) إلى ميزة الحالة. يجب أن يتبع المصطلح \(\delta_n\) الهدف: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, \mathcal P^I_{n,q}+\delta_n\right). \label{9}\] نفترض أن كل ميزات النموذج \(\mathcal P^I_{n,q}\) يمكن تمثيلها كـ \({\mathbf {p}}_{i} + \epsilon_{i,q}\). يمكن صياغة المعادلة [9] بشكل أكثر تفصيلاً كما يلي: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, {\mathbf {p}}_{i}+\delta_n+\epsilon_{i, q}\right).\] لتعظيم التشابه الجيبي التمامي، يجب تقليل الهدف التالي: \[\min \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} (\epsilon_{i,q}+\delta_n).\] يتم حساب المصطلح \(\delta_n\) على النحو التالي: \[\delta_n=-\mathbb{E}\left[\epsilon_{i,q}\right]=\frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \left({\mathbf {p}}_{i}-\mathcal{P}_{n, q}^I\right). \label{shift}\]

الوعي بالنموذج الأولي لخرائط الفعالية الفئوية والخسارة الذاتية التوجيهية

الوعي بالنموذج الأولي لخرائط الفعالية الفئوية. مع وضوح معنى النماذج الأولية، يمكن فهم إجراء التنبؤ بخرائط الفعالية الفئوية بشكل حدسي كاسترجاع النماذج الأولية الأكثر تشابهاً. لكل نموذج أولي \(\tilde{\mathcal{P}}^{c}_n\) في المعادلة [value_K]، نحسب تشابه الجيب التمامي بين الميزات في كل موضع والنموذج الأولي للفئة المقابلة. ثم يتم تجميع خرائط التشابه كما يلي: \[{\tilde{M}}_n(j) = \ ReLU \left(\frac{1}{K} \sum_{{\mathcal{\mathbf p}}_i \in {\tilde{\mathcal{P}}}^{c}_n} \frac{{{f}}{(j)} \cdot {\mathcal{\mathbf p}}_i}{\left\|{{f}}(j)\right\| \cdot\left\|{\mathcal{\mathbf p}}_i\right\|}\right),\] حيث يشير \(\|\cdot\|\) إلى معيار L2 للمتجه. \(\tilde{M}_n(j)\) يمثل خريطة الفعالية الفئوية المدركة للنموذج الأولي للفئة \(n\)-th في البكسل \(j\).

الخسارة الذاتية التوجيهية. للاستفادة أكثر من المعرفة السياقية، نقدم نموذجاً للتعلم الذاتي التوجيهي الذي يشجع على الاتساق بين النواتج من التنبؤات المدركة للنموذج الأولي ومصنف موجه. هذا يعزز من قدرة النموذج على التعرف على الميزات التمييزية أكثر ويدمج المعرفة المدركة للنموذج الأولي في تمثيل الميزة، مما يعزز التحسين التعاوني خلال دورات التدريب. تعريف التنظيم الاتساقي بتطبيع L1 لخرائط الفعالية: \[\mathcal{L}^{self}=\frac{1}{N+1}\|{M}- {\tilde{M}}\|_1, \label{self}\] حيث \(M\) و\(\tilde{M}\) تمثلان خريطة الفعالية الأصلية وخريطة الفعالية المدركة للنموذج الأولي، على التوالي.

التجارب

مجموعات البيانات وتفاصيل التنفيذ

مجموعة البيانات ومقياس التقييم. تُجرى التجارب على معيارين: PASCAL VOC 2012 (everingham2010pascal) بـ21 فئة وMS COCO 2014 (lin2014microsoft) بـ81 فئة. بالنسبة لـ PASCAL VOC 2012، وفقاً لـ(wang2020self, lee2021anti, chen2022self, li2022expansion)، نستخدم SBD المعزز (hariharan2011semantic) بـ10,582 صورة موسومة. نقيم CPAL من حيث i) جودة توليد تسميات التجزئة الزائفة على VOC 2012 train، وii) التجزئة الدلالية على VOC 2012 val/test وCOCO 2014 val. يُستخدم متوسط التقاطع على الاتحاد (mIoU) (long2015fully) كمقياس في كلتا الحالتين. تُحصل النتائج على VOC 2012 test من خادم التقييم الرسمي.

تفاصيل التنفيذ. في تجاربنا، يتم اعتماد ResNet50 (he2016deep) المدرب مسبقاً على ImageNet (deng2009imagenet) كالعَمُود الفقري بخطوة إخراج 16، حيث يحل مصنف محل الطبقة المتصلة بالكامل بقنوات إخراج 20. استراتيجية التعزيز هي نفسها كما في (chen2022self, ahn2019weakly, chen2023extracting)، بما في ذلك القلب العشوائي، التحجيم، والقطع. يتم تدريب النموذج بحجم دفعة 16 على 8 وحدات معالجة رسومات Nvidia 4090. يتم اعتماد محسن SGD لتدريب نموذجنا لمدة 5 حقبات، بزخم 0.9 وتحلل وزن 1e-4. تحدد معدلات التعلم للعمود الفقري والطبقات المضافة حديثاً على 0.1 و1 على التوالي. نستخدم جدول تحلل التعلم البولي بقوة 0.9 لمعدل التعلم.

تحدد معاملات الخسارة \(\lambda_{BCE}\) و\(\lambda_{Self}\) كـ1 في المعادلة [coefficients]. بالنسبة لـ VOC 2012، يحدد العتبة \(\tau\) في المعادلة [tau] على 0.1. حجم البنك الداعم لكل فئة لتخزين التضمينات الإقليمية، مع تحديد الحجم على 1000 لتجنب استهلاك الدعم الكبير. يتم إجراء تجميع النماذج الأولية \(k\)-means في القسم [3.2] مرة واحدة فقط في بداية كل حقبة، ويحدد عدد النماذج الأولية لكل فئة \(N_p\) على 50، ويحدد عدد الجيران المرشحين الأعلى \(K\) على 20 في المعادلة [value_K]. بالنسبة لشبكة التجزئة، أجرينا تجارب مع DeepLab-v2 (chen2017deeplab) مع العمود الفقري ResNet101 وResNet38. المزيد من التفاصيل (بما في ذلك COCO) موجودة في الملحق.

دراسة الاستئصال

لدراسة مساهمات كل مكون من مكونات طريقتنا، أجرينا دراسات استئصال على مجموعة بيانات VOC 2012. جميع التجارب استخدمت Resnet-50 كعمود فقري. فعالية كل مكون. في الجدول [abl]، نجري دراسات استئصال لإظهار فعالية نهجنا. نستخدم نموذجاً تم تدريبه فقط بإشراف التصنيف (التجربة الأولى) كخط أساس. ثم يتم تقديم استراتيجية تعلم النموذج الأولي للسياق بسيطة في التجربة الثانية والتي تحقق مكاسب محدودة في mIoU على مجموعة train. تظهر التجربة الثالثة أن تقديم تعلم النموذج الأولي للسياق المُدرك (مجموعة المرشحين الأعلى-\(K\) وتنبؤ الإيجابية) لتوليد PACAM يعزز الأداء بشكل كبير بنسبة +3.3%. في التجربة الرابعة، عند تقديم وحدة محاذاة الميزات، يزداد الأداء بمقدار +2.3%. في التجربة الخامسة، يتحسن الأداء بمقدار +5.7% عند تقديمه للتدريب الذاتي كإشراف تكميلي، مما يدل على أهميته في إطار عملنا. خسارة الاتساق تجبر النموذج على التركيز على التفاصيل الدقيقة للدلالات، مما يعزز إدراكه للبنية الجوهرية والميزات الدلالية.
فعالية الجيران المرشحين والإيجابية. نحلل أهمية الجيران المرشحين والإيجابية، كما هو موضح في الجدول [neighbor]. إزالة الإيجابية واستخدام جميع الجيران للتنبؤ، تقل دقة Miou في CAM من 62.5% إلى 60.3%. يشير ذلك إلى أن الإيجابية ليست مجرد زخرفة بسيطة بل توفر آلية فعالة للنموذج. تمكن النموذج من التركيز بشكل تكيفي وانتقائي على الجيران الذين يساهمون بشكل كبير في المهمة أثناء عملية التعلم مع تجاهل الجيران غير المعلوماتيين للتنبؤات. في الكتلة الثالثة من الجدول [neighbor]، نجري أيضاً تجارب لتحليل تأثير عدد الجيران. من ناحية، يعزز وجود عدد كافٍ من الجيران تنوع الميزات. من ناحية أخرى، قد يؤدي تضمين النماذج الأولية ذات الارتباط الضعيف إلى إدخال الكثير من الضوضاء أثناء عملية التدريب ويقلل من قدرة النموذج على إدراك الميزات التمييزية. القياس الناعم المقترح يقدم إيجابية زوجية لضبط مساهمة النماذج الأولية المختلفة في العينة المرجعية في المعادلة [coefficients]. نطبق مقاييس تشابه مختلفة لحساب درجة الإيجابية. كما هو موضح في الجدول [function]، تم استكشاف أربع خيارات: المسافة المانهاتن (\(L_1\))، المسافة الإقليدية (\(L_2\))، التشابه الجيبي التمامي، والمنتج النقطي. يظهر المنتج النقطي أداءً متفوقاً بشكل كبير مقارنة بالاستراتيجيات الأخرى ويستخدم كطريقتنا لقياس الإيجابية. فعالية محاذاة الميزات. في الجدول [abl]، نقدم نتائج تحسين الأداء التي تم تحقيقها من خلال تقليل التحيز في التوزيع. بالإضافة إلى ذلك، أجرينا مقارنة بصرية باستخدام t-SNE (van2008visualizing) في الشكل [tsnet]. تشير النتائج إلى أنه بعد محاذاة توزيعات الميزات، يمكن للنموذج توليد مجموعات أكثر تماسكاً مع قابلية فصل أعلى بين المجموعات. تعديل المتغير الديناميكي للإزاحة يساعد في تخفيف الاختلافات بين ميزات الحالات من نفس الفئة، مما يجعل الحالات التي تنتمي إلى نفس الفئة أكثر تشابهاً. هذا بدوره، يسهل على النموذج التمييز بين الحالات من فئات مختلفة بدقة أكبر.
تحليل العوامل الفائقة. نجري تحليلاً لحساسية العوامل الفائقة، بتغيير قيم مثل (أ) عتبة \(\tau\) لتوليد قناع البذور 0-1. يشير الشكل [hyperparameter] (أ) إلى أن القيمة المثلى لـ\(\tau\) هي 0.1. بالإضافة إلى ذلك، نفحص (ب) طول مجموعة الدعم، حيث وجدنا أن مجموعة أكبر تعزز أداء النموذج. الشكل [hyperparameter] (ب) يوضح ذلك.

تحليل نوعي

نقوم بتصور مناطق الاستجابة ونتائج التنبؤ للوعي بالنماذج الأولية في الشكل [fig31] (أ). يوضح ذلك بوضوح أن النماذج الأولية مرتبطة بسمات معينة للحالات. على سبيل المثال، بالنظر إلى الصور (مثلاً، horse وcat)، يتوافق كل نموذج أولي مع أجزاء مختلفة من الحالة، مما يتيح نمذجة أفضل للتباينات داخل الفئة في الأجسام الدلالية. في الشكل [fig31] (ب)، نقوم بتصور دراسات استئصال على مكونات مختلفة من طريقتنا. عند إزالة الوعي بالنموذج الأولي (الإيجابية والجيران الأعلى-\(K\))، ينشط النموذج مناطق بشكل خاطئ تتشارك بقوة (مثلاً، train وrailroad) أو تظهر مظاهر متشابهة (مثلاً، cat وdog)، مما يدل على نقص في التعلم الدقيق والقدرات التمييزية للميزات المحددة للحالة. بدون خسارة الإشراف الذاتي \(\mathcal{L}^{Self}\)، يظهر CAM تنشيطاً ناقصاً، مما يشير إلى عدم كفاية تعلم ميزات الفئة. تشير هذه النتائج إلى أن طريقتنا، مع إدخال هذه المكونات، يمكن أن تدرك وتميز بدقة أكبر سمات الفئات المختلفة.

مقارنات بين طريقتنا وطرق WSSS الأخرى. نقوم بتقييم mIoU (%) على مجموعة train من PASCAL VOC 2012 على المستويات: CAM، مع CRF، والقناع الزائف.
الطريقة البذرة مع CRF القناع
SEAM (wang2020self) 55.4 56.8 63.6
AdvCAM (lee2021anti) 55.6 62.1 68.0
CLIMS (xie2022clims) 56.6 - 70.5
SIPE (chen2022self) 58.6 64.7 68.0
ESOL (li2022expansion) 53.6 61.4 68.7
AEFT (yoon2022adversarial) 56.0 63.5 71.0
PPC (du2022weakly) 61.5 64.0 64.0
ReCAM (chen2022class) 54.8 60.4 69.7
Mat-Label (wang2023treating) 62.3 65.8 72.9
FPR (chen2023fpr) 63.8 66.4 68.5
LPCAM (chen2023extracting) 62.1 - 72.2
ACR (kweon2023weakly) 60.3 65.9 72.3
SFC (zhao2024sfc) 64.7 69.4 73.7
IRN (ahn2019weakly) 48.8 53.7 66.5
62.5 66.2 72.7
AMN (lee2022threshold) 62.1 66.1 72.2
+CPAL (لنا) 65.7 68.2 74.1
MCTformer (xu2022multi) 61.7 64.5 69.1
+CPAL (لنا) 66.8 69.3 74.7
CLIP-ES (lin2023clip) 70.8 - 75.0
+CPAL (لنا) 71.9 - 75.8

[labelVOC]

مقارنات مع الطرق الحديثة

تحسين خرائط التحديد: بما أن الطريقة المقترحة CPAL لا تعدل هندسة شبكة CAM، فهي تدمج فرع CPAL كإشراف في طرق متعددة. الجدول [labelVOC] يعرض نتائج تطبيق CPAL على طرق معروفة مثل (ahn2019weakly)، (lee2022threshold)، (xu2022multi)، و(lin2023clip) ويظهر تحسينات في خرائط التحديد على VOC 2012. على سبيل المثال، دمج CPAL في (lee2022threshold) يحسن الأداء بنسبة 3.6% في البذور و2.1% في الأقنعة الزائفة. عند دمج CPAL في نموذج (lin2023clip)، هناك زيادة بنسبة 1.1% في البذور.

تحسين نتائج التجزئة: الجدول [miou_results] يظهر أداء نموذج التجزئة الدلالية المدرب بالتسميات الزائفة التي تم إنشاؤها بواسطة طريقتنا. التسميات الزائفة تُستخدم لتدريب نموذج التجزئة DeepLabV2. المقارنات مع الأعمال ذات الصلة. يحقق تركيبنا (lee2022threshold)+CPAL نتائج رائدة على VOC (mIoU بنسبة 72.5% على مجموعة التحقق و72.9% على مجموعة الاختبار). على مجموعة البيانات MS COCO الأكثر تحدياً، يتفوق تركيبنا (xu2022multi)+CPAL (مع ResNet-38 كعمود فقري) على النتيجة الرائدة (lee2022threshold) وجميع الأعمال ذات الصلة المبنية على ResNet-38. بالنسبة لـ(lin2023clip)، يحسن CPAL الأداء (+1.4% mIoU على COCO val). هذه النتائج المتفوقة على كلتا المجموعتين تؤكد فعالية CPAL لدينا، والتي تلتقط بدقة الميزات الدلالية وهياكل الأجسام.

الخلاصة

في هذا العمل، نقترح استراتيجية تعلم جديدة تعتمد على النماذج الأولية الواعية بالسياق (CPAL) لطرق WSSS، والتي تهدف إلى التخفيف من التحيز المعرفي بين الحالات والسياقات. تقوم هذه الطريقة بتعديل خصائص الميزات الفعالة في مجموعات السياق وتختار وتعدل النماذج الأولية للسياق بشكل تكيفي لتعزيز قدرات التمثيل. جوهر طريقتنا هو الوعي بالنموذج الأولي، والذي يتحقق من خلال النماذج الأولية الواعية بالسياق لالتقاط التباين داخل الفئة ومحاذاة توزيع الميزات بدقة. تظهر التجارب الموسعة تحت إعدادات مختلفة أن الطريقة المقترحة تتفوق على الطرق الحديثة الأخرى، وتكشف الدراسات التجريبية عن فعالية CPAL لدينا.