latex
تسعى الطرق الحديثة للتجزئة الدلالية ضعيفة الإشراف (WSSS) إلى دمج المعرفة السياقية لتحسين اكتمال خرائط تنشيط الفئة (CAM). في هذا العمل، نؤكد أن التحيز المعرفي بين الحالات والسياقات يؤثر على قدرة النموذج النمطي على فهم دلالات الحالة بشكل كافٍ. مستوحين من نظرية تعلم النموذج النمطي، نقترح استخدام الوعي بالنموذج النمطي لالتقاط السمات المتنوعة والدقيقة للحالات. تفترض الفرضية أن النماذج النمطية السياقية قد تنشط بشكل خاطئ فئات الأشياء المتشابهة والمتكررة بسبب هذا التحيز المعرفي. لذلك، نقترح تعزيز قدرة تمثيل النموذج النمطي من خلال التخفيف من التحيز لالتقاط التغطية المكانية بشكل أفضل في مناطق الأشياء الدلالية. لتحقيق هذا الهدف، نقدم استراتيجية التعلم المدرك للنموذج النمطي السياقي (CPAL)، والتي تستفيد من السياق الدلالي لإثراء فهم الحالة. جوهر هذه الطريقة هو التقاط التباينات داخل الفئة في ميزات الأشياء بدقة من خلال النماذج النمطية المدركة للسياق، مما يسهل التكيف مع السمات الدلالية لمختلف الحالات. نقوم بتصميم محاذاة توزيع الميزات لتحسين الوعي بالنموذج النمطي، عبر محاذاة توزيعات ميزات الحالة مع الميزات الكثيفة. بالإضافة إلى ذلك، يُقترح إطار تدريب موحد يدمج الإشراف التصنيفي الموجه بالتسميات والإشراف الذاتي الموجه بالنماذج النمطية. تظهر النتائج التجريبية على PASCAL VOC 2012 و MS COCO 2014 أن CPAL يحسن بشكل كبير الطرق المتاحة ويحقق أداءً رائداً. المشروع متاح على https://github.com/Barrett-python/CPAL.
تُعَد التجزئة الدلالية مهمة أساسية في مجال الرؤية الحاسوبية. أصبحت التجزئة الدلالية ضعيفة الإشراف (WSSS) نهجاً شائعاً في المجتمع، حيث تتعلم من تسميات ضعيفة مثل تسميات مستوى الصورة (kolesnikov2016seed, lee2021anti)، أو الخربشات (lin2016scribblesup,vernaza2017learning)، أو مربعات الحدود (dai2015boxsup,lee2021bbam,song2019box)، بدلاً من التعليقات التوضيحية على مستوى البكسل. تستخدم معظم مناهج WSSS خرائط تنشيط الفئة (zhou2016learning) لتوفير إشارات تحديد المواقع للأهداف، وبالتالي ترسم المفاهيم البصرية إلى مناطق البكسل.
المفتاح في WSSS هو توليد خرائط تنشيط الفئة بتغطية أفضل للكائن بالكامل. تهدف الدراسات الحديثة (chang2020weakly,sun2020mining,zhang2020inter,wang2023hunting) بشكل أساسي إلى تحسين دقة تجزئة النموذج واستقراره من خلال دمج المعرفة السياقية. مستوحاة من تقدم تعلم التمثيل (fan2020learning,wu2021embedded)، قدمت بعض الدراسات (li2021group,su2021context,zhang2020causal,zhang2022multi) المعرفة السياقية والمعرفة التمثيلية لنمذجة السياق على نطاق عالمي لتحليل الخصائص الدلالية للعينات بدقة أكبر. لكنها تتجاهل تحدي التباين الكبير داخل الفئة، أي أن المناطق التي تنتمي إلى نفس الفئة قد تظهر مظهراً مختلفاً جداً حتى في نفس الصورة. يجعل التحيز بين المعرفة السياقية (الميزات العالمية داخل الفئة) والمعرفة المحددة للعينات (الميزات الفريدة) نقل التسميات من مستوى الصورة إلى مستوى البكسل أمراً صعباً. في هذا العمل، نؤكد أن تخفيف التحيز المعرفي بين العينات والسياقات يمكن أن يلتقط مناطق أكثر دقة واكتمالاً. علاوة على ذلك، ندمج إشارات إشرافية إضافية لتسريع تخفيف التحيزات المعرفية.
تمثيل النموذج الأولي للفئة، من خلال تقليل التحيز، أظهر إمكانياته في الكشف عن أنماط الميزات في خوارزميات التعلم القليل الأمثلة مثل شبكة النقاط البيانية ثنائية الاتجاه (liu2020prototype). تنص نظرية تعلم النماذج الأولية (zhou2022rethinking,wang2019panet) على أن النماذج الأولية يمكن أن تمثل الميزات المحلية أو العالمية أو السمات المحددة للكائن. استناداً إلى التباين داخل الفئة في ميزات الكائن، يمكن للنموذج الأولي للعينة (chen2022self) أن يميز بشكل ديناميكي الميزات التمييزية للصورة المحددة. علاوة على ذلك، فإن النماذج الأولية التي تدمج المعرفة السياقية (zhou2022regional) لديها القدرة على التقاط أنماط دلالية فئوية أكثر تحديداً ودقة. تمكنها من التقاط منطقة الكائن بشكل أكثر اكتمالاً مقارنة بنموذج أولي لعينة واحدة. على الرغم من أن إدخال المعرفة السياقية يعزز قدرة النماذج الأولية على معالجة المعلومات الدلالية، فإن التحيز المعرفي بين العينات والسياقات يؤدي إلى تنشيط النماذج الأولية لفئات متشابهة أو متزامنة بشكل كبير (مثلاً، cat و dog).
في هذا العمل، نقترح استراتيجية تعلم مدرك للنموذج الأولي السياقي (CPAL) لاستخراج سمات فعالة من هيكل العنقود السياقي. على وجه التحديد، نستكشف عينات أخرى ذات صلة بالصورة المحددة لبناء نماذج أولية سياقية كجيران مرشحين. ثم يتم البحث عن السمات داخل الفئة في مجموعة الجيران المرشحين، مع تحديد نموذج العينة الحالية كمِرساة. في الوقت نفسه، نصمم درجة إيجابية زوجية تدل على الارتباط بين السمات، بهدف تحديد النماذج الأولية السياقية (أي، الجيران الناعمين) المرتبطة ارتباطاً وثيقاً بالميزة الحالية. بعد تطبيق درجة الإيجابية المعنية، يتم تعديل مساهمات هذه النماذج في العينة المِرساة بشكل ديناميكي، مما يخفف بشكل صريح التحيزات المرتبطة بالتنوع داخل الفئة وسمات العينة.
جوهر طريقتنا هو الوعي بالنموذج الأولي. نقيس بلطف المسافة بين النموذج الأولي للعينة والنموذج الأولي السياقي لإدراك سمات العينة. لتحقيق تقدير قوي، يُقترح بنوك دعم فئوية للتغلب على القيود الناتجة عن الدُفعات الصغيرة، بحيث يمكن ملاحظة تنوع الميزات داخل الفئة بطريقة من الميزة إلى البنك حيث يمكن تقريب توزيع الفئة عالمياً. ومع ذلك، بسبب الكمية المحدودة من ميزات العينة، هناك تحيز نسبي لتوزيع الميزات السياقية، مما يؤثر على الوعي الدقيق بالعينة. لذلك، نقترح محاذاة توزيع الميزات من خلال إدخال مصطلح تحويل \(\delta\) إلى ميزات العينة النادرة، دافعاً إياها نحو توزيع الميزات الكثيفة لبنك الدعم الفئوي.
في مجموعات بيانات PASCAL VOC 2012 (everingham2010pascal) و MS COCO 2014 (lin2014microsoft)، نقيم طريقتنا في إعدادات WSSS المختلفة، حيث يحقق نهجنا أداءً رائداً. تتلخص المساهمات على النحو التالي:
نقترح استراتيجية تعلم مدركة للنموذج الأولي السياقي تولد خرائط تحديد مواقع أكثر دقة واكتمالاً من خلال تخفيف التحيز المعرفي بين العينات والسياقات.
نقترح وحدة محاذاة الميزات مع بنوك دعم ديناميكية لإدراك سمات الكائن بدقة.
نقترح إطار تعلم موحد يتكون من التعلم الذاتي الإشرافي والتعلم المدرك للنموذج الأولي السياقي، حيث يكمل النظامان بعضهما البعض. تظهر التجارب أن طريقتنا تحقق تحسيناً كبيراً وتحقق أداءً رائداً.
التجزئة الدلالية ضعيفة الإشراف باستخدام تسميات على مستوى الصورة تُنتج عادةً خرائط الفعالية الدلالية كبذرة لتوليد تسميات زائفة على مستوى البكسل. العيب النموذجي لخرائط الفعالية الدلالية هو فعاليتها غير الكاملة وغير الدقيقة. لمعالجة هذا العيب، اقترحت الأعمال الحديثة مخططات تدريب متنوعة، مثل المحو العدائي (kweon2021unlocking,yoon2022adversarial,sun2021ecs,kweon2023weakly)، ونمو المنطقة (huang2018weakly,wei2018revisiting)، واستكشاف قيود الحدود (rong2023boundary,chen2020weakly,lee2021railroad). يركز نموذج التعلم والاستدلال للصورة الفردية (araslanov2020single,lee2021railroad) على فهم أعمق للميزات داخل صورة فردية لتوليد خرائط فعالية دلالية أكثر اكتمالاً. يقوم SIPE (chen2022self) باستخراج النماذج الأولية المخصصة لميزات متعددة الأحجام لتوسيع خرائط تحديد مواقع الكائنات الخشنة للحصول على مدى كامل لمناطق الكائنات.
بينما اعتبرت الجهود السابقة كل صورة على حدة، تركز الأعمال الحديثة على الحصول على سياق دلالي غني بين الصور المختلفة في مجموعة البيانات. تتناول الأعمال الحديثة (sun2020mining,fan2020cian) التنقيب الدلالي بين الصور من خلال التركيز على التقاط العلاقات الزوجية بين الصور. وتقوم (li2021group,zhang2022multi,du2022weakly) بأداء التنقيب الدلالي عالي الترتيب للعلاقات الأكثر تعقيداً داخل مجموعة من الصور. في الوقت نفسه، من أجل تعزيز علاقة التمثيل للفضاء المميز (استكشاف أنماط الكائنات على مجموعة البيانات بالكامل)، قدم RCA (zhou2022regional) بنك ذاكرة لتخزين ميزات الفئة عالية الجودة وأداء نمذجة السياق. اقترح CPSPAN (jin2023deep) محاذاة تمثيل الميزات للحالات المزدوجة تحت وجهات نظر مختلفة، وتم أيضاً إدخال هذه المحاذاة في توزيع البيانات تحت سياقات مختلفة (zhao2023dual). على عكس الأعمال السابقة حول تطبيق المعرفة السياقية، يمكن لطريقتنا أن تدرك بشكل تكيفي السمات الدلالية والاختلافات داخل الفئة، مما يؤدي إلى مناطق تنشيط أكثر اكتمالاً لخرائط الفعالية الدلالية.
التعلم القائم على النماذج الأولية تمت دراسته جيداً في التعلم بعدد قليل من الأمثلة (snell2017prototypical,snell2017prototypical)، والتعلم بدون أمثلة (he2019dynamic) والتعلم غير الخاضع للإشراف (xu2020attribute). من الجدير بالذكر أن العديد من نماذج التجزئة يمكن اعتبارها شبكات تعلم مبنية على النماذج الأولية (wang2019panet, liu2020part, xu2022semi, zhou2022rethinking, ge2023soft)، مما يكشف عن إمكانية التطبيق في تجزئة الصور. اقترح (du2022weakly) طريقة تعلم ثنائية المقياس مبنية على النماذج الأولية تفرض الاتساق على مستوى الميزات في المقابلات وتنظيم داخلي وخارجي. يستخدم LPCAM (chen2023extracting) التعلم المبني على النماذج الأولية لاستخراج ميزات غنية للكائنات أيضاً. في عملنا، نتعلم سمات الميزات الفعالة ضمن هيكل التجميع للسياق لنمذجة ميزات الكائنات المتنوعة على مستوى دقيق.
يقوم نظام التعلم الضمني للتصنيف بتدريب شبكة التصنيف أولاً لتحديد منطقة الكائن المقابلة لكل فئة، ثم يتم تنقيحها لتوليد تسميات زائفة كمشرفين على شبكة التجزئة الدلالية. يُبنى الإطار على أساس شبكة التصنيف، كما هو موضح في القسم [3.1]. يتكون من إشارتين إشرافيتين: خسارة التصنيف والخسارة الذاتية الإشرافية. يشجع نهجنا على الاتساق بين الخريطة الفئوية المتوقعة من خلال التعلم الواعي للنموذج والمصنف، مما يحفز النموذج بشكل ضمني على تعلم ميزات أكثر تميزاً. نحن نمثل النموذج الأولي للحالة كمِرساة ونستخرج نماذج أولية سياقية من بنك الدعم كمجموعة مرشحة للجيران، والتي يتم وصفها في القسم [3.2]. جوهر منهجنا هو الوعي بالنموذج الأولي لالتقاط التباينات داخل الفئة، كما هو مفصل في القسم [3.3]. نقيس بلطف إيجابية كل جارٍ مرشح على الحالة الحالية، نقوم بتصفية الجيران انتقائياً ونعدل مساهماتهم. في الوقت نفسه، توجه محاذاة توزيع الميزات ميزات الحالة الحالية نحو مركز العنقود للميزات الكثيفة في البنك.
تحسين الشبكة. يُبنى إطار عملنا على شبكة تصنيف، مستخدمين هذه الشبكة \(\theta\) لاستخراج إشراف فعال من تسميات الصور، ملتقطين مناطق الكائن لكل فئة (\(i.e.,\) خرائط التنشيط الفئوي). نقترح تعلم النموذج الأولي السياقي لتوليد خريطة التنشيط الفئوي الأولي الأكثر اكتمالاً (PACAM)، موفرين إشارات إشرافية إضافية لخريطة التنشيط الأولية وتشكيل نموذج ذاتي الإشراف. العنصر الأساسي لهذا النموذج هو تنظيم الاتساق، مما يقلل بشكل ضمني المسافة المميزة بين البكسلات التمييزية والمفقودة، مشجعاً النموذج على تعلم ميزات أكثر اتساقاً وتميزاً. هذا التعديل البسيط يؤدي إلى تحسينات كبيرة. دالة الخسارة الموحدة لتحسين النموذج: \[\label{coefficients}
\mathcal{L}=\lambda_{BCE}\mathcal{L}^{{BCE}}+\lambda_{Self}\mathcal{L}^{ {Self}}\] حيث \(\lambda_{BCE}\) و \(\lambda_{Self}\) هما معاملات، \(\mathcal{L}^{{BCE}}\) هي خسارة التصنيف، و \(\mathcal{L}^{ {Self}}\) هي الخسارة الذاتية الإشرافية. الخسائر موصوفة بالتفصيل في الأقسام التالية.
خسارة التصنيف وخرائط التنشيط الفئوي. كل صورة تدريب \(I \in \mathbb{R}^{w \times h \times 3}\) في مجموعة البيانات \(\mathcal{I}\) مرتبطة فقط بمتجه تسمية على مستوى الصورة \(\boldsymbol{y}=\{y_n\}^N_{n=1} \in \{0,1\}^N\) حيث \(N\) هي الفئات المحددة مسبقاً. يقترح CAM لتحديد مواقع الكائنات الأمامية من خلال تدريب شبكة تصنيف. يأخذ CAM صورة دفعة صغيرة \(I\) كمدخل لاستخراج خرائط الميزات \(f\in \mathbb{R}^{W \times H \times D}\)، ب \(D\) قنوات وحجم مكاني \(H \times W\). لتقريب الفجوة بين مهمة التصنيف ومهمة التجزئة، يتم استخدام وزن المصنف \(\mathbf{w}_n\) وطبقة التجميع المتوسط العالمي (GAP) لإنتاج تنبؤ اللوجيت \(\hat{y}_i \in \mathbb{R}^N\). أثناء التدريب، يستخدم خسارة التبادل الثنائية كما يلي: \[\mathcal{L}^{BCE}=\frac{1}{N} \sum_{i=1}^N y_i \log \sigma\left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\sigma\left(\hat{y}_i\right)\right),\] حيث \(\sigma(\cdot)\) هي الدالة السيجمودية. للحصول على معلومات تقريبية عن الموقع للخلفية والأمام. يمكن تمثيل خريطة التنشيط الفئوي \({M}_{\boldsymbol{f}}=\left\{{M}_n\right\}_{n=1}^N\) على \(N\) فئات أمامية كما يلي: \[{M}_{n}=\frac{\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)}{\max \left(\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)\right)}, \quad \forall n \in N.\] مع الأخذ في الاعتبار أهمية الخلفية في مهمة التجزئة، نتبع (wang2020self) لتقدير خريطة تنشيط الخلفية \({M}_{b}=1-\max_{1 \leq n \leq N} M_n\) استناداً إلى \(M_f\). نجمع خريطة تنشيط الخلفية المعالجة مع خريطة تنشيط الأمام ككل، i.e. \({M} = M_f \cup M_b\)، لمساعدة النموذج على فهم المعرفة الخلفية.
مستوحاة من التعلم القائم على النماذج الأولية، تهدف استراتيجيتنا للوعي بالنماذج الأولية إلى استكشاف الخصائص بشكل فعال ضمن مجموعة الجيران المرشحين. نقترح إجراء بحث عن النموذج الأولي ضمن مجموعة النماذج الأولية السياقية لكل فئة، واضعين النموذج الأولي للحالة الحالية كمِرساة لتعزيز فهم خصائص الحالة.
نمذجة النموذج الأولي للحالة كمِرساة. لكل صورة \(I\)، يتم تعيين خرائط الميزات إلى فضاء الإسقاط \(z=v(f)\) بواسطة رأس الإسقاط \(v\) لنمذجة النموذج الأولي للحالة. يمثل كل نموذج أولي للحالة الدلالات الإقليمية للفئات الملحوظة في \(I\) استناداً إلى \(M\). على وجه التحديد، بالنسبة للفئة \(n\)-th التي تظهر في \(I\) (\(i.e.,\) \(y_c=1\))، يتم تلخيص ميزاتها المعروضة إلى متجه \(\mathcal{P}^{I}_n \in \mathbb{R}^D\) بواسطة التجميع المتوسط المقنع (MAP) (siam2019amp): \[\mathcal{P}^{I}_n=\frac{\sum_{x=1, y=1}^{W, H} \textbf{P}_n(x,y) * z(x,y)}{\sum_{x=1, y=1}^{W, H} \textbf{P}(x,y)}, \label{tau}\] حيث \(\textbf{P}_n= \mathbbm{1}\left({M}_n>\tau\right) \in \{0,1\}^{W \times H}\) هو قناع ثنائي، يؤكد فقط على البكسلات المنشطة بقوة للفئة \(n\) في خريطة التنشيط. \(\mathbbm{1}(\cdot)\) هي دالة مؤشر، والعتبة \(\tau\) هي معلمة فائقة وتدل على عتبة درجة الثقة. هنا، \(\mathcal{P}^{I}_n\) مضغوط وخفيف، مما يسمح بالاستكشاف القابل للتطبيق لعلاقاته مع العديد من العينات الأخرى وتموضعه كمِرساة.
نمذجة النماذج الأولية السياقية كجيران مرشحين. نفترض أن الميزات الفئوية داخل الصور أو الدُفعات توفر فقط نظرة محدودة للفئة. لذلك، نستخدم بنك الدعم كمجموعة مرشحة \(\mathcal{C}\)، حيث يكون كل عنصر هو النموذج الأولي السياقي لفئات مختلفة. عند استخدام دفعات العينات لتدريب الشبكة، نخزن نماذجها الأولية \(\mathcal{P}^{I}_n\) في \(\mathcal{C}\) ونستخدم استراتيجية الأول داخل/الأول خارج لتحديث مجموعة المرشحين. تحافظ هذه المجموعة على طول نسبي كبير لكل فئة نموذج أولي لتوفير نماذج أولية سياقية محتملة بشكل كافٍ. استناداً إلى هذه المجموعة، يتم تطبيق تجميع \(\mathrm{k}\)-means عبر الإنترنت لتنقيح كل فئة إلى مجموعات نموذج أولي مجمعة \(\mathcal{G}=\left\{G_i\right\}_{i=1}^{N_p}\) لكشف الخصائص العميقة لكل فئة. نقوم بعمليات التوسيط على كل مجموعة نموذج أولي مجمعة من \(\mathcal{G}\) لتوليد \(N_p\) جيران مرشحين \(\mathbf{p}_i\) كما يلي: \[\mathbf{p}_i=\frac{1}{\left|G_i\right|} \sum_{\mathbf{r}_j \in G_i} \mathbf{r}_j,\] حيث \(\mathbf{r}_j\) يشير إلى النموذج الأولي \(j\)-th الذي ينتمي إلى مجموعة العنقود \(i\)-th \(G_i\). \(\mathbf{p}_i\) يمثل النموذج الأولي السياقي \(i\)-th لمجموعة الجيران المرشحين \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\).
مع نماذج الربط الأساسية ومجموعة الجيران المرشحين من القسم [3.2]، تدرك مجموعة الجيران المرشحين أو تدعم ميزة الربط. يمكن للتعلم المدرك لنموذج السياق قياس وضبط مدى هذا الدعم.
تحديد الجار الإيجابي الناعم. اختيار النموذج أمر حاسم في نهجنا المقترح حيث يحدد إلى حد كبير جودة الإشراف. يمكن لنماذج الحالات تمثيل الصفات الفئوية للصورة الحالية بشكل خاص، بينما تظهر نماذج السياق أنماطاً فئوية أكثر شمولاً وتنوعاً. تستخدم استراتيجيتنا درجات الإيجابية \(w_i\) لقياس صلة الجيران المرشحين في الفئة بصفات الحالة الحالية. نقترح اختيار أعلى \(K\) جيران معدلّين بدرجات الإيجابية، الموجودين بالقرب من الربط. يمكن صياغة الجار الإيجابي الناعم كما يلي: \[\tilde{\mathcal{P}}_n^{\text {c}}=\left\{w_i \mathbf{p}_{\mathbf{i}}: i \in \underset{i \in N_p}{ \arg \max }\left(d\left(w_i \mathbf{p}_{\mathbf{i}}, \mathcal{P}_n^I\right), \text { top } =K\right)\right\}
\label{value_K}\] حيث \(d()\) تدل على التشابه الجيبي التمامي كمقياس محسوب، و\(\tilde{\mathcal{P}}^{c}_n\) يمثل أعلى \(K\) نماذج واعية بالسياق مصممة للحالة الحالية.
توقعات الإيجابية. لقد صممنا درجات إيجابية زوجية لقياس (بشكل غير ثنائي) الصلة بين نموذج الحالة والجيران المرشحين في نفس الفئة. بالنسبة لزوج النموذج (\(\mathbf{p}_i\) , \(\mathcal{P}^I_{n}\))، يمكن حساب درجة الإيجابية \(w_{i}\) كما يلي: \[w_i=\frac{1}{\gamma_i} \texttt{softmax}\left[l_1\left(\mathbf {\mathcal{P}}^{I}_n\right) \times l_2\left(\mathbf {p}_i\right)^{\top}\right], \quad {\mathbf{p}}_{i} \in {\mathcal{P}}^{c}_n,
\label{eq7}\] حيث \(l_1(\cdot)\) و\(l_2(\cdot)\) هما طبقات تحويل ميزات خالية من المعاملات. \(\gamma_i\) هو عامل تحجيم لضبط درجة الإيجابية \(w_i\). تم استكشاف هياكل مختلفة للدرجة \(w_{i}\) في القسم [Ablation].
الادعاء 1. نفترض أننا ندرب نموذج \(\theta\) باستخدام طريقة التحسين المقترحة، \(\mathcal{P}_n^I\) و\(\tilde{\mathcal{P}}_n^c\) هما نموذج الحالة الحالية للفئة النوعية ونماذج السياق على التوالي. يمكن التعبير عن القيمة المثلى لمقياس التشابه \(s_i^*\) كـ \(\frac{w_{i}}{\sum_{k=1}^{K} w_{k}}\)، حيث \(w_{i}\) هي درجة الإيجابية المقابلة لزوج النموذج (\(\mathcal{P}_n^I, \quad {\mathbf{p}}_{i} \in {\tilde{\mathcal{P}}}_n^{c}\)) في المعادلة [eq7].
يمكن العثور على البرهان في الملحق A. يشير الادعاء 1 إلى أننا نحسن النموذج لتعظيم التشابه بين نموذج السياق والحالة الحالية من نفس الفئة بنسبة مباشرة إلى درجة الإيجابية المقابلة. نحن ننقل المعرفة بفعالية من الفرع الذاتي الإشراف إلى النموذج، فضلاً عن أداء النموذج العام وقدراته على التعميم.
محاذاة توزيع الميزات. تشكل الميزات المتفرقة (hoefler2021sparsity) وتنوع الفئة الداخلي تحديات لتمثيل الميزات المحددة للفئة بدقة، مما يعيق التمييز بين الفئات. وبالتالي، نفترض وجود تحيز بين ميزات الحالة وميزات الفئة الداخلية. لمعالجة ذلك، نوجه الميزات لمحاذاة ميزاتها المحددة للفئة المتجمعة بكثافة لتعزيز كثافة الميزة الداخلية للفئة. بالنظر إلى أن تطبيع الدُفعات الصغيرة (ioffe2015batch) أو تطبيع الحالة (ulyanov2016instance) يتبع اتجاه التعلم بالدُفعات، يتم محاذاة ميزات الدُفعات الصغيرة من خلال إدخال مصطلحات الانتقال \(\delta_n\) لدفعها نحو مراكز العنقود. يتم استنتاج ذلك كما يلي.
نحدد مقياس التقييم للتشابه الجيبي التمامي الأمثل (OCSEM) لتقييم التشابه الجيبي التمامي بين العينة الحالية والعينات الأخرى، بهدف تعزيز دقة النموذج من خلال تعظيم هذا المقياس. يعرف الهدف الأمثل كما يلي: \[\begin{split} \text{OCSEM} = \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} & \cos({\mathbf {p}}_{i},\mathcal P^I_{n,q}) > \\ & \max_{h \neq i}\{\cos({\mathbf {p}}_{h},\mathcal P^I_{n,q})\}, \end{split}\] حيث \({\mathbf {p}}_{i}\) هو نموذج السياق في مجموعة الجيران المرشحين \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\) للفئة النوعية، و\(\mathcal P^I_{n,q}\) هو نموذج الحالة المقابل في المجموعة \(\mathcal{P}_n^b=\left\{\mathcal P^I_{n,q}\right\}_{q=1}^{Q_n}\) في الدُفعة الصغيرة. \(Q_n\) يدل على عدد النماذج للفئة النوعية في الدُفعة الصغيرة. نفترض أن التحيز يمكن تقليله بإضافة مصطلح الانتقال \(\delta_n\) إلى ميزة الحالة. يجب أن يتبع المصطلح \(\delta_n\) الهدف: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, \mathcal P^I_{n,q}+\delta_n\right). \label{9}\] نفترض أن كل ميزات النموذج \(\mathcal P^I_{n,q}\) يمكن تمثيلها كـ \({\mathbf {p}}_{i} + \epsilon_{i,q}\). يمكن صياغة المعادلة [9] بشكل أكثر تفصيلاً كما يلي: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, {\mathbf {p}}_{i}+\delta_n+\epsilon_{i, q}\right).\] لتعظيم التشابه الجيبي التمامي، يجب تقليل الهدف التالي: \[\min \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} (\epsilon_{i,q}+\delta_n).\] يتم حساب المصطلح \(\delta_n\) على النحو التالي: \[\delta_n=-\mathbb{E}\left[\epsilon_{i,q}\right]=\frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \left({\mathbf {p}}_{i}-\mathcal{P}_{n, q}^I\right). \label{shift}\]
الوعي بالنموذج في CAM. مع وضوح معنى النماذج، يمكن فهم إجراء CAM المتوقع بشكل حدسي كاسترجاع النماذج الأكثر تشابهاً. لكل نموذج \(\tilde{\mathcal{P}}^{c}_n\) في المعادلة [value_K]، نحسب تشابه الجيب التمامي بين الميزات في كل موضع ونموذج الفئة المقابل. ثم يتم تجميع خرائط التشابه كما يلي: \[{\tilde{M}}_n(j) = \ ReLU \left(\frac{1}{K} \sum_{{\mathcal{\mathbf p}}_i \in {\tilde{\mathcal{P}}}^{c}_n} \frac{{{f}}{(j)} \cdot {\mathcal{\mathbf p}}_i}{\left\|{{f}}(j)\right\| \cdot\left\|{\mathcal{\mathbf p}}_i\right\|}\right),\] حيث يشير \(\|\cdot\|\) إلى القاعدة L2 للمتجه. يمثل \(\tilde{M}_n(j)\) PACAM للفئة \(n\)-th في البكسل \(j\).
الخسارة الذاتية التوجيه. للاستفادة أكثر من المعرفة السياقية، نقدم نموذجاً للتعلم الذاتي التوجيهي يشجع على الاتساق بين النتائج من التنبؤات المدركة للنموذج ومصنف مشرف. هذا يعزز من قدرة النموذج على التعرف على الميزات التمييزية بشكل أكبر ويدمج المعرفة المدركة للنموذج في تمثيل الميزة، مما يعزز التحسين التعاوني طوال دورات التدريب. تعريف التنظيم الاتساقي بتطبيع L1 لاثنين من CAMs: \[\mathcal{L}^{self}=\frac{1}{N+1}\|{M}- {\tilde{M}}\|_1, \label{self}\] حيث \(M\) و \(\tilde{M}\) تمثلان CAM الأصلي و PACAM على التوالي.
مجموعة البيانات ومقياس التقييم. تُجرى التجارب على معيارين: PASCAL VOC 2012 (everingham2010pascal) بـ 21 فئة و MS COCO 2014 (lin2014microsoft) بـ 81 فئة. بالنسبة لـ PASCAL VOC 2012، وفقاً لـ (wang2020self, lee2021anti, chen2022self, li2022expansion)، نستخدم SBD المعزز (hariharan2011semantic) بـ 10,582 صورة موسومة. نقيم CPAL من حيث i) جودة توليد تسميات التجزئة الزائفة على VOC 2012 train
، و ii) التجزئة الدلالية على VOC 2012 val/test
و COCO 2014 val
. يستخدم متوسط التقاطع على الاتحاد (mIoU) (long2015fully) كمقياس في كلتا الحالتين. تُحصل النتائج على اختبار VOC 2012 test
من الخادم التقييمي الرسمي.
تفاصيل التنفيذ. في تجاربنا، يتم اعتماد ResNet50 (he2016deep) المدرب مسبقاً على ImageNet (deng2009imagenet) كالعَمُود الفقري بخطوة إخراج قدرها 16، حيث يحل مصنف محل الطبقة المتصلة بالكامل بقنوات إخراج تبلغ 20. استراتيجية التعزيز هي نفسها كما في (chen2022self, ahn2019weakly, chen2023extracting)، بما في ذلك القلب العشوائي، التحجيم، والقص. يتم تدريب النموذج بحجم دفعة 16 على 8 وحدات معالجة رسومات Nvidia 4090. يتم اعتماد محسن SGD لتدريب نموذجنا لمدة 5 دورات، بزخم قدره 0.9 وتآكل الوزن 1e-4. تحدد معدلات التعلم للعمود الفقري والطبقات المضافة حديثاً على 0.1 و1، على التوالي. نستخدم جدول تعلم بولي متضائل بقوة 0.9 لمعدل التعلم.
تحدد معاملات الخسارة \(\lambda_{BCE}\) و \(\lambda_{Self}\) كـ 1 في المعادلة [coefficients]. بالنسبة لـ VOC 2012، يحدد العتبة \(\tau\) في المعادلة [tau] على 0.1. حجم البنك الداعم لكل فئة لتخزين التضمينات الإقليمية، مع تحديد الحجم على 1000 لتجنب استهلاك دعم كبير. يتم إجراء تجميع النماذج الأولية \(k\)-means في القسم [3.2] مرة واحدة فقط في بداية كل دورة، ويحدد عدد النماذج الأولية لكل فئة \(N_p\) على 50، ويحدد عدد الجيران المرشحين الأعلى \(K\) على 20 في المعادلة [value_K]. بالنسبة لشبكة التجزئة، أجرينا تجارب مع DeepLab-v2 (chen2017deeplab) مع العمود الفقري ResNet101 و ResNet38. المزيد من التفاصيل (بما في ذلك COCO) موجودة في الملحق.
لدراسة مساهمات كل مكون من مكونات طريقتنا، أجرينا دراسات استئصال على مجموعة بيانات VOC 2012. جميع التجارب استخدمت Resnet-50 كالعَمُود الفقري. فعالية كل مكون. في الجدول [abl]، نجري دراسات استئصال لإظهار فعالية نهجنا. نستخدم نموذجاً تم تدريبه فقط بإشراف التصنيف (التجربة الأولى) كخط أساس. ثم يتم تقديم استراتيجية تعلم النموذج الأولي للسياق بسيطة في التجربة الثانية والتي تحقق مكاسب محدودة في mIoU على مجموعة train
. تظهر التجربة الثالثة أن تقديم تعلم النموذج الأولي للسياق المدرك (مجموعة المرشحين الأعلى-\(K\) وتنبؤ الإيجابية) لتوليد PACAM يعزز الأداء بشكل كبير بنسبة +3.3%. في التجربة الرابعة، عند تقديم وحدة محاذاة الميزات، يزداد الأداء بمقدار +2.3%. في التجربة الخامسة، يتحسن الأداء بمقدار +5.7% عند تقديمه للتدريب الذاتي كإشراف تكميلي، مما يدل على أهميته في إطار عملنا. خسارة الاتساق تجبر النموذج على التركيز على التفاصيل الدقيقة للدلالات، مما يعزز إدراكه للبنية الجوهرية والميزات الدلالية.
فعالية الجيران المرشحين والإيجابية. نحلل أهمية الجيران المرشحين والإيجابية، كما هو موضح في الجدول [neighbor]. إزالة الإيجابية واستخدام جميع الجيران للتنبؤ، تقل دقة Miou في CAM من 62.5% إلى 60.3%. يشير ذلك إلى أن الإيجابية ليست مجرد زخرفة بسيطة بل توفر آلية فعالة للنموذج. تمكن النموذج من التركيز بشكل تكيفي وانتقائي على الجيران الذين يساهمون بشكل كبير في المهمة أثناء عملية التعلم مع تجاهل الجيران غير المعلوماتيين للتنبؤات. في الكتلة الثالثة من الجدول [neighbor]، نجري أيضاً تجارب لتحليل تأثير عدد الجيران. من ناحية، يعزز وجود عدد كافٍ من الجيران تنوع الميزات. من ناحية أخرى، قد يؤدي تضمين النماذج الأولية ذات الارتباط الضعيف إلى إدخال الكثير من الضوضاء أثناء عملية التدريب ويقلل من قدرة النموذج على إدراك الميزات التمييزية. القياس الناعم المقترح يقدم إيجابية زوجية لضبط مساهمة النماذج الأولية المختلفة في الحالة المِرساة في المعادلة [coefficients]. نطبق مقاييس تشابه مختلفة لحساب درجة الإيجابية. كما هو موضح في الجدول [function]، تم استكشاف أربع خيارات: المسافة المانهاتنية (\(L_1\))، المسافة الإقليدية (\(L_2\))، التشابه الجيبي التمامي، والضرب النقطي. يظهر الضرب النقطي أداءً متفوقاً بشكل كبير مقارنة بالاستراتيجيات الأخرى ويستخدم كطريقتنا لقياس الإيجابية.
الجار | الإيجابية | \(K\) | mIou(%) |
---|---|---|---|
20 | 62.5 | ||
- | 59.2 | ||
20 | 60.3 | ||
10 | 61.3 | ||
20 | 62.5 | ||
50 | 60.1 | ||
[neighbor] |
\(L_1\) | \(L_2\) | Cosine | Dot | |
---|---|---|---|---|
mIou (%) | 59.6 | 58.7 | 61.9 | 62.5 |
[function]
فعالية محاذاة الميزات. في الجدول [abl]، نقدم نتائج تحسين الأداء التي تم تحقيقها من خلال تقليل التحيز في التوزيع. بالإضافة إلى ذلك، أجرينا مقارنة بصرية باستخدام t-SNE (van2008visualizing) في الشكل [tsnet]. تشير النتائج إلى أنه بعد محاذاة توزيعات الميزات، يمكن للنموذج أن يولد مجموعات أكثر تماسكاً مع قابلية فصل أعلى بين المجموعات. تعديل المتغير الديناميكي للإزاحة يساعد في تخفيف الاختلافات بين ميزات الحالات من نفس الفئة، مما يجعل الحالات التي تنتمي إلى نفس الفئة أكثر تشابهاً. هذا بدوره، يسهل على النموذج التمييز بين الحالات من فئات مختلفة بدقة أكبر.
تحليل العوامل الفائقة. نجري تحليلاً لحساسية العوامل الفائقة، بتغيير قيم مثل (أ) العتبة \(\tau\) لتوليد قناع البذور 0-1. الشكل [hyperparameter] (أ) يشير إلى أن القيمة المثلى لـ \(\tau\) هي 0.1. بالإضافة إلى ذلك، نفحص (ب) طول مجموعة الدعم، حيث نجد أن مجموعة أكبر تعزز أداء النموذج. الشكل [hyperparameter] (ب) يوضح هذه النتائج.
نقوم بتصور مناطق الاستجابة ونتائج التنبؤ للوعي بالنماذج في الشكل [fig31] (أ). يوضح ذلك بوضوح أن النماذج مرتبطة بسمات معينة للحالات. على وجه التحديد، على سبيل المثال، بالنظر إلى الصور (مثلاً، horse
و cat
)، يتوافق كل نموذج مع أجزاء مختلفة من الحالة، مما يتيح نمذجة أفضل للتباينات داخل الفئة في الأجسام الدلالية. في الشكل [fig31] (ب)، نقوم بتصور دراسات استئصال على مكونات مختلفة من طريقتنا. عند إزالة الوعي بالنموذج (الإيجابية والجيران الأعلى-\(K\))، ينشط النموذج مناطق بشكل خاطئ تتزامن بقوة (مثلاً، train
و railroad
) أو تظهر مظاهر متشابهة (مثلاً، cat
و dog
)، مما يشير إلى نقص في التعلم الدقيق والقدرات التمييزية للميزات المحددة للحالة. بدون خسارة الإشراف الذاتي \(\mathcal{L}^{Self}\)، يظهر CAM تنشيطاً ناقصاً، مما يشير إلى عدم كفاية تعلم ميزات الفئة. تشير هذه النتائج إلى أن طريقتنا، مع إدخال هذه المكونات، يمكن أن تدرك وتميز سمات الفئة المختلفة بدقة أكبر.
الطريقة | البذرة | مع CRF | القناع |
---|---|---|---|
SEAM (wang2020self) | 55.4 | 56.8 | 63.6 |
AdvCAM (lee2021anti) | 55.6 | 62.1 | 68.0 |
CLIMS (xie2022clims) | 56.6 | - | 70.5 |
SIPE (chen2022self) | 58.6 | 64.7 | 68.0 |
ESOL (li2022expansion) | 53.6 | 61.4 | 68.7 |
AEFT (yoon2022adversarial) | 56.0 | 63.5 | 71.0 |
PPC (du2022weakly) | 61.5 | 64.0 | 64.0 |
ReCAM (chen2022class) | 54.8 | 60.4 | 69.7 |
Mat-Label (wang2023treating) | 62.3 | 65.8 | 72.9 |
FPR (chen2023fpr) | 63.8 | 66.4 | 68.5 |
LPCAM (chen2023extracting) | 62.1 | - | 72.2 |
ACR (kweon2023weakly) | 60.3 | 65.9 | 72.3 |
SFC (zhao2024sfc) | 64.7 | 69.4 | 73.7 |
IRN (ahn2019weakly) | 48.8 | 53.7 | 66.5 |
+CPAL (لنا) | 62.5 | 66.2 | 72.7 |
AMN (lee2022threshold) | 62.1 | 66.1 | 72.2 |
+CPAL (لنا) | 65.7 | 68.2 | 74.1 |
MCTformer (xu2022multi) | 61.7 | 64.5 | 69.1 |
+CPAL (لنا) | 66.8 | 69.3 | 74.7 |
CLIP-ES (lin2023clip) | 70.8 | - | 75.0 |
+CPAL (لنا) | 71.9 | - | 75.8 |
[labelVOC]
تحسين خرائط التحديد: بما أن الطريقة المقترحة CPAL لا تعدل هندسة شبكة CAM، فإنها تدمج فرع CPAL كإشراف في طرق متعددة. الجدول [labelVOC] يعرض نتائج تطبيق CPAL على طرق معروفة (IRN (ahn2019weakly), AMN (lee2022threshold), MCTformer (xu2022multi)، و CLIP-ES (lin2023clip)) ويظهر تحسينات في خرائط التحديد على VOC 2012. على سبيل المثال، دمج CPAL في AMN يحسن الأداء بنسبة 3.6% في البذور و 2.1% في الأقنعة الزائفة. عند دمج CPAL في نموذج CLIP-ES، هناك مكسب بنسبة 1.1% في البذور.
تحسين نتائج التجزئة: الجدول [miou_results] يظهر أداء نموذج التجزئة الدلالية المدرب بالتسميات الزائفة التي تم إنشاؤها بواسطة طريقتنا. التسميات الزائفة تُستخدم لتدريب نموذج التجزئة DeepLabV2. المقارنات مع الأعمال ذات الصلة. يحقق AMN+CPAL لدينا نتائج رائدة على VOC (mIoU بنسبة 72.5% على مجموعة التحقق و 72.9% على مجموعة الاختبار). على مجموعة البيانات MS COCO الأكثر تحدياً، يتفوق MCTformer+CPAL لدينا (مع ResNet-38 كالعَمُود الفقري) على النتيجة الرائدة AMN وجميع الأعمال ذات الصلة المبنية على ResNet-38. بالنسبة لـ CLIP-ES، يحسن CPAL الأداء (+1.4% mIoU على COCO val). تؤكد هذه النتائج المتفوقة على كلتا المجموعتين فعالية CPAL لدينا، والتي تلتقط بدقة الميزات الدلالية وهياكل الكائنات.
في هذا العمل، نقترح استراتيجية تعلم جديدة تعتمد على نماذج السياق الواعية بالنموذج (CPAL) لطرق WSSS، والتي تهدف إلى التخفيف من التحيز المعرفي بين الحالات والسياقات. تقوم هذه الطريقة بتعديل خصائص الميزات الفعالة في مجموعات السياق وتختار وتعدل نماذج السياق بشكل تكيفي لتعزيز قدرات التمثيل. جوهر هذه الطريقة هو الوعي بالنموذج، والذي يتحقق من خلال نماذج واعية بالسياق لالتقاط التباين داخل الفئة ومحاذاة توزيع الميزات بدقة. تظهر التجارب الموسعة تحت إعدادات مختلفة أن الطريقة المقترحة تتفوق على الطرق الحديثة الأخرى، وتكشف الدراسات التجريبية عن فعالية CPAL لدينا.