تمّت كتابة هذه الورقة باستخدام LaTeX.
مُلَخَّص
تسعى الطرق الحديثة للتجزئة الدلالية ضعيفة الإشراف (WSSS) إلى دمج المعرفة السياقية لتحسين اكتمال خرائط تنشيط الفئة (CAM). في هذا العمل، نؤكِّد أنّ الانحياز المعرفي بين العيِّنات والسياقات يؤثِّر في قدرة التعلّم القائم على النماذج الأوّلية على استيعاب دلالات العيِّنة على نحوٍ كافٍ. مستلهَمين من نظرية التعلّم القائم على النماذج الأوّلية، نقترح استثمار إدراك النموذج الأوّلي لالتقاط السمات المتنوِّعة والدقيقة للكائنات.
تفترض فرضيّتنا أنّ النماذج الأوّلية السياقية قد تُنشِّط على نحوٍ خاطئ فئات كائنات متشابهة أو مترافقة الظهور بسبب هذا الانحياز المعرفي. لذا، نقترح تعزيز القدرة التمثيلية للنموذج الأوّلي عبر تخفيف هذا الانحياز بهدف التقاط تغطية مكانية أفضل في مناطق الكائنات الدلالية. لتحقيق ذلك، نقدِّم استراتيجية التعلّم القائم على النماذج الأوّلية المُدرِكة للسياق (CPAL)، التي تستفيد من السياق الدلالي لإثراء فهم بنية الكائن.
جوهر منهجنا هو التقاط التبايُن ضمن الفئة في ميزات الكائنات بدقّة عبر نماذج أوّلية مُدرِكة للسياق، بما يُيسِّر التكيّف مع السمات الدلالية لمختلف العيِّنات. كما نُصمِّم محاذاة لتوزيع الميزات لتعزيز إدراك النموذج الأوّلي، عبر محاذاة توزيعات ميزات العيِّنة مع الميزات الكثيفة (على مستوى البكسل). بالإضافة إلى ذلك، نقترح إطار تدريب مُوحَّدًا يجمع بين الإشراف التصنيفي القائم على التسميات والإشراف الذاتي القائم على النماذج الأوّلية. تُظهِر النتائج التجريبية على PASCAL VOC 2012 وMS COCO 2014 أنّ CPAL يرفع أداء المناهج المتاحة بشكلٍ ملحوظ ويُحقِّق أداءً رائدًا. المشروع متاح على https://github.com/Barrett-python/CPAL لمزيدٍ من التفاصيل والتطبيق العملي.
مُقَدِّمَة
تُعَدّ مهمة التجزئة الدلالية إحدى أهمّ المهام في مجال الرؤية الحاسوبية. وقد أصبحت التجزئة الدلالية ضعيفة الإشراف (WSSS) نهجًا شائعًا في المجتمع البحثي، إذ تتعلّم من إشرافٍ ضعيف مثل تسميات مستوى الصورة (kolesnikov2016seed, lee2021anti)، أو الخربشات (lin2016scribblesup,vernaza2017learning)، أو مربّعات الحدود (dai2015boxsup,lee2021bbam,song2019box)، بدلًا من التعليقات التوضيحية على مستوى البكسل. تستخدم معظم مناهج WSSS خرائط تنشيط الفئة (zhou2016learning) لتوفير إشارات تموضع للكائنات، وبذلك تُسقِط المفاهيم البصرية على مناطق البكسل.
المفتاح في WSSS هو توليد خرائط تنشيط فئة ذات تغطية أفضل للكائن بالكامل. تهدف الدراسات الحديثة (chang2020weakly,sun2020mining,zhang2020inter,wang2023hunting) أساسًا إلى تحسين أداء التجزئة واستقرارها عبر دمج المعرفة السياقية. واستلهامًا من تقدّم تعلّم التمثيل (fan2020learning,wu2021embedded)، أدخلت دراسات عدّة (li2021group,su2021context,zhang2020causal,zhang2022multi) معارف سياقية وتمثيلية لنمذجة السياق على نطاقٍ عالمي لتحليل الخصائص الدلالية للعيِّنات بدقّة أعلى. غير أنّها غالبًا ما تُهمل تحدّي التبايُن الكبير ضمن الفئة، أي إنّ المناطق التي تنتمي إلى الفئة نفسها قد تُظهِر مظهرًا مختلفًا جدًا حتى في الصورة ذاتها. إنّ الانحياز بين المعرفة السياقية (الميزات العالميّة ضمن الفئة) والمعرفة الخاصّة بالعيِّنات (الميزات الفريدة) يجعل نقل التسميات من مستوى الصورة إلى مستوى البكسل أمرًا صعبًا. في هذا العمل، نُبيّن أنّ تخفيف هذا الانحياز المعرفي بين العيِّنات والسياقات يُمكِّن من التقاط مناطق أكثر دقّةً واكتمالًا. علاوةً على ذلك، ندمج إشاراتٍ إشرافية إضافية لتسريع تخفيف هذه الانحيازات المعرفية.
التعلّم المُدرِك للنموذج الأوّلي السياقي
انطلاقًا من النماذج الأوّلية الأساسية ومجموعة الجيران المُرشَّحين الواردة في القسم [3.2]، نستخدم هذه المجموعة لتعزيز إدراك النماذج الأوّلية ودعم تمثيلات التضمين.
تحديد الجار الإيجابي المرن. …
تنبؤ الإيجابية. …
محاذاة توزيع الميزات. …
الخلاصة
في هذا العمل، نقترح استراتيجية تعلّم جديدة قائمة على النماذج الأوّلية المُدرِكة للسياق (CPAL) لطرائق WSSS، تهدف إلى تخفيف الانحياز المعرفي بين العيِّنات والسياقات. تُعيد هذه الطريقة معايرة خصائص الميزات الفاعلة ضمن مجموعات السياق، وتنتقي وتُحدِّث النماذج الأوّلية السياقية على نحوٍ تكيُّفي لتعزيز القدرة التمثيلية. ويتمثّل جوهرها في إدراك النموذج الأوّلي، المُتحقِّق عبر نماذج مُدرِكة للسياق لالتقاط التبايُن ضمن الفئة ومحاذاة توزيع الميزات بدقّة. تُظهِر التجارب الموسَّعة تحت إعداداتٍ مختلفة أنّ طريقتنا تتفوّق على الطرق الحديثة الأخرى، بما يؤكِّد فعالية CPAL.