استراتيجية تعلّم النماذج الأوّلية المُدركة للسياق للتجزئة الدلالية بإشراف ضعيف

Feilong Tang Zhongxing Xu Zhaojun Qu Wei Feng Xingjian Jiang Zongyuan Ge

مُلخّص

تسعى الطرق الحديثة للتجزئة الدلالية بإشراف ضعيف (WSSS) إلى دمج المعرفة السياقية لتحسين اكتمال خرائط تفعيل الفئة (CAM). في هذا العمل، نُبيّن أنّ الانحياز بين المثيلات والسياقات يحدّ من قدرة النموذج الأوّلي على فهم الدلالات السياقية بدقّة. واستلهامًا من نظرية تعلّم النماذج الأوّلية، نعتمد على إدراك النموذج الأوّلي لاكتشاف السمات المتنوّعة والدقيقة للمثيلات. نفترض أنّ النماذج الأوّلية السياقية قد تُفعِّل فئات متشابهة بصورة خاطئة ومتكرّرة نتيجةً لهذا الانحياز. لذلك، نقترح تعزيز تمثيل النموذج الأوّلي عبر تخفيف الانحياز وتحسين التغطية المكانية للمناطق الدلالية. لتحقيق ذلك، نقدّم استراتيجية التعلّم المُدرك للنموذج الأوّلي السياقي (CPAL) التي تستفيد من السياق الدلالي لإثراء الفهم.

يتمحور جوهر الطريقة حول التقاط التباينات داخل الفئة بدقّة من خلال نماذج أوّلية مُدركة للسياق، بما يُسهِّل التكيّف مع السمات الدلالية لمختلف المثيلات. ونُصمّم آلية لمحاذاة التوزيعات لتعزيز إدراك النموذج الأوّلي عبر مزامنة توزيعات سمات المثيلات مع السمات الكثيفة على مستوى البكسل. علاوة على ذلك، نقدّم إطارًا تدريبيًا موحّدًا يجمع بين إشراف تصنيفي مُوجَّه بالتسميات وإشراف ذاتي قائم على النماذج الأوّلية. تُظهر التجارب على PASCAL VOC 2012 وMS COCO 2014 أنّ CPAL يُحسّن الطرق القائمة بشكلٍ ملحوظ ويُحقّق أداءً رائدًا. الكود متاح على https://github.com/Barrett-python/CPAL.

مقدّمة

تُعَدّ التجزئة الدلالية مهمة أساسية في الرؤية الحاسوبية. وقد أصبح نهج التجزئة الدلالية بإشراف ضعيف (WSSS) شائعًا، حيث يتعلّم النموذج من إشراف ضعيف مثل تسميات على مستوى الصورة (kolesnikov2016seed, lee2021anti) أو خربشات (lin2016scribblesup, vernaza2017learning) أو مربّعات حدودية (dai2015boxsup, lee2021bbam, song2019box) بدلًا من التعليقات التوضيحية على مستوى البكسل. وتعتمد معظم أساليب WSSS على خرائط تفعيل الفئة (CAM) (zhou2016learning) لتوفير إشارات موضع الأهداف وربط المفاهيم البصرية بمناطق البكسل.

يكمن التحدّي الأساسي في WSSS في توليد خرائط تفعيل تغطي الكائن بالكامل. وتهدف الدراسات الحديثة (chang2020weakly, sun2020mining, zhang2020inter, wang2023hunting) إلى تحسين دقّة التجزئة واستقرارها عبر دمج المعرفة السياقية. واستلهامًا من تقدّم تعلّم التمثيلات (fan2020learning, wu2021embedded)، قدّمت بعض الأعمال (li2021group, su2021context, zhang2020causal, zhang2022multi) نماذج سياقية على مستوى عالمي لتحليل السمات الدلالية بدقّة أكبر، لكنها غالبًا ما تتجاهل التباين الكبير داخل الفئة؛ إذ قد تبدو المناطق المنتمية إلى الفئة نفسها مختلفة تمامًا حتى داخل الصورة الواحدة. وينتج عن ذلك انحياز بين المعرفة السياقية (السمات العالمية داخل الفئة) والمعرفة الخاصة بالمثيل (السمات الفريدة)، ما يُصعّب نقل التسميات من مستوى الصورة إلى مستوى البكسل. في هذا العمل، نُبيّن أنّ تخفيف هذا الانحياز يساعد على التقاط مناطق أكثر دقّة واكتمالًا، مع إضافة إشارات إشرافية لتسريع هذه العملية.

لقد أثبت تمثيل النماذج الأوّلية للفئة مع تخفيف الانحياز فعاليته في كشف أنماط السمات ضمن مهام التعلّم قليل الأمثلة مثل BDCSPN (liu2020prototype). وتنصّ نظرية تعلّم النماذج الأوّلية (zhou2022rethinking, wang2019panet) على أنّ النماذج الأوّلية قادرة على تمثيل السمات المحلية والعالمية والمواضع الخاصة بالأجسام. وبالاستناد إلى التباين داخل الفئة، يمكن للنموذج الأوّلي الخاص بالمثيل (chen2022self) تمييز السمات الدالّة لصورة بعينها، في حين تستطيع النماذج الأوّلية المُدعّمة بالسياق (zhou2022regional) التقاط أنماط فئوية أشمل، ما يُحسّن تغطية الكائن مقارنةً بنموذج أوّلي وحيد.

في هذا العمل، نقترح استراتيجية التعلّم المُدرك للنموذج الأوّلي السياقي (CPAL) لاستخلاص سمات فعّالة من بنية العناقيد السياقية. نسترجع مثيلات مرتبطة بالصورة الحالية لبناء نماذج أوّلية سياقية باعتبارها جيرانًا محتملين، ثم ننتقي منها بسلاسة الأكثر صلة وفق درجة إيجابية ديناميكية. بعد ذلك، نُعيد وزن مساهمات هذه النماذج الأوّلية في تقدير السمات، فتُخفَّف الانحيازات المتعلّقة بالتنوّع داخل الفئة وعلى مستوى المثيل. وبالموازاة، نقدّم آلية لمحاذاة توزيعات السمات لدفع سمات المثيلات نحو مراكز العناقيد الكثيفة، ما يعزّز إدراك المثيل بدقّة.