تسعى الأساليب الحديثة للتجزئة الدلالية ضعيفة الإشراف (WSSS) إلى دمج المعرفة السياقية لتحسين كامل خرائط تنشيط الفئة (CAM). في هذا العمل، نبيّن أن التحيز المعرفي بين المثيلات والسياقات يحدّ من قدرة النموذج الأولي على استيعاب الدلالات السياقية بدقة. مستوحين من نظرية تعلم النماذج الأولية، نعتمد على الوعي بالنموذج الأولي لاستكشاف السمات المتنوعة والدقيقة للمثيلات. قد تنشط النماذج الأولية السياقية فئات متشابهة ومتكررة بصورة خاطئة بسبب هذا التحيز. لذا، نقترح تعزيز تمثيل النموذج الأولي بتخفيف التحيز وتحسين التغطية المكانية للمناطق الدلالية. لتحقيق ذلك، نعرض استراتيجية التعلم المدرك للنموذج الأولي السياقي (CPAL) التي تستفيد من السياق الدلالي لإثراء الفهم. جوهر الطريقة يكمن في التقاط التباينات داخل الفئة بدقة عبر نماذج أولية مدركة للسياق، مما يسهل التكيف مع السمات الدلالية المتنوّعة للمثيلات. نضع آلية لمحاذاة التوزيع لتعزيز الوعي بالنموذج الأولي من خلال محاذاة توزيع ميزات المثيلات مع المراكز الكثيفة. علاوة على ذلك، نقدّم إطارًا تدريبيًا موحدًا يجمع بين الإشراف التصنيفي القائم على التسميات والإشراف الذاتي المبني على النماذج الأولية. تظهر التجارب على PASCAL VOC 2012 وMS COCO 2014 أن CPAL يحسّن بشكل ملحوظ الأساليب القائمة ويحقق أداءً رائدًا. وستتاح الشفرة على https://github.com/Barrett-python/CPAL.
تعد التجزئة الدلالية مهمة أساسية في مجال الرؤية الحاسوبية. وأصبح نهج التجزئة الدلالية ضعيفة الإشراف (WSSS) شائعًا، حيث يتعلم النموذج من إشراف ضعيف مثل تسميات على مستوى الصورة (kolesnikov2016seed, lee2021anti) أو خربشات (lin2016scribblesup, vernaza2017learning) أو مربعات الإحاطة (dai2015boxsup, lee2021bbam, song2019box) بدلًا من التعليقات التوضيحية على مستوى البكسل. تعتمد معظم أساليب WSSS على خرائط تنشيط الفئة (CAM) (zhou2016learning) لتوفير إشارات موقع الكائن وربط المفاهيم البصرية بمناطق البكسل.
يكمن التحدي الأساسي في WSSS في توليد خرائط تنشيط تغطي الكائن كاملاً. تهدف الدراسات الحديثة (chang2020weakly, sun2020mining, zhang2020inter, wang2023hunting) إلى تحسين دقة التجزئة واستقرارها عبر دمج المعرفة السياقية. مستوحين من تقدم تعلم التمثيل (fan2020learning, wu2021embedded)، قدمت بعض الأعمال (li2021group, su2021context, zhang2020causal, zhang2022multi) نماذج سياقية على مستوى عالمي لتحليل السمات الدلالية بدقة أكبر، لكنها غالبًا ما تتجاهل التباين الكبير داخل الفئة، حيث قد تبدو المناطق التي تنتمي لنفس الفئة مختلفة تمامًا حتى داخل الصورة نفسها. ينتج عن ذلك تباين بين المعرفة السياقية (السمات العالمية داخل الفئة) والمعرفة الخاصة بالمثيل (السمات الفريدة)، مما يصعّب نقل التسميات من مستوى الصورة إلى مستوى البكسل. في هذا العمل، نبين أن تخفيف هذا التحيز يمكن أن يساعد على التقاط مناطق أكثر دقة واكتمالًا، مع إضافة إشارات إشرافية لتسريع هذه العملية.
تمثيل النموذج الأولي للفئة عبر تخفيف التحيز أظهر فعاليته في كشف أنماط الميزات ضمن مهام التعلم قليل الأمثلة مثل BDCSPN (liu2020prototype). تنص نظرية تعلم النماذج الأولية (zhou2022rethinking, wang2019panet) على أن النماذج الأولية يمكنها تمثيل السمات المحلية والعالمية والمواقع الخاصة بالأجسام. اعتمادًا على التباين داخل الفئة، يمكن لنموذج أولي للمثيل (chen2022self) أن يميز السمات التمييزية لصورة بعينها، بينما تستطيع النماذج الأولية المدعمة بالسياق (zhou2022regional) التقاط أنماط فئوية أكثر شمولًا، مما يعزز تغطية الكائن مقارنةً بنموذج أولي وحيد.
في هذا العمل، نقترح استراتيجية التعلم المدرك للنموذج الأولي السياقي (CPAL) لاستخراج ميزات فعالة من هيكل العنقود السياقي. نستخرج مثيلات مرتبطة بالصورة الحالية لبناء نماذج أولية سياقية كجيران محتملين، ثم نختار منها الجيران ذوي الصلة العالية بصورة مرنة بناءً على معيار إيجابية ديناميكي. بعد ذلك، نراجع مساهمات هذه النماذج الأولية في تقدير السمات، مما يخفف التحيزات المتعلقة بالتنوع داخل الفئة والمثيل. في الوقت نفسه، نطبق آلية لتوافق توزيع الميزات تدفع ميزات المثيل نحو مراكز العناقيد الكثيفة، مما يعزز الوعي الدقيق بالمثيل.
...