```html إِسْتراتِيجِيَّة التَعَلُّم المُدْرِك للنَمُوذَج الأَوَّلِيّ في سِياق التَجْزِئَة الدَلالِيَّة ضَعِيفَة الإشراف

إِسْتراتِيجِيَّة التَعَلُّم المُدْرِك للنَمُوذَج الأَوَّلِيّ في سِياق التَجْزِئَة الدَلالِيَّة ضَعِيفَة الإشراف

Feilong Tang Zhongxing Xu Zhaojun Qu Wei Feng Xingjian Jiang Zongyuan Ge

مُلَخَّص

تسعى الطرق الحديثة للتجزئة الدلالية ضعيفة الإشراف (WSSS) إلى دمج المعرفة السياقية لتحسين مدى اكتمال خرائط تنشيط الفئة (CAM). في هذا العمل، نؤكد أن التحيز المعرفي بين المثيلات والسياقات يحد من قدرة النموذج الأولي على فهم الدلالات السياقية بدقة. مستوحين من نظرية تعلم النماذج الأولية، نعتمد على الوعي بالنموذج الأولي لاستكشاف السمات المتنوعة والدقيقة للمثيلات. نفترض أن النماذج الأولية السياقية قد تنشط فئات متشابهة ومتكررة بشكل خاطئ نتيجةً لهذا التحيز. لذلك، نقترح تعزيز تمثيل النموذج الأولي عبر تخفيف التحيز والتقاط التغطية المكانية بشكل أفضل للمناطق الدلالية. لتحقيق ذلك، نقدم استراتيجية التعلم المدرك للنموذج الأولي السياقي (CPAL) التي تستفيد من السياق الدلالي لإثراء الفهم. يتمحور جوهر الطريقة حول التقاط التباينات داخل الفئة بدقة من خلال نماذج أولية مدركة للسياق، مما يسهل التكيف مع السمات الدلالية لمختلف المثيلات. نصمم آلية محاذاة للتوزيع لتعزيز الوعي بالنموذج الأولي عبر مزامنة توزيعات ميزات المثيلات مع الميزات الكثيفة. علاوة على ذلك، نقدم إطارًا تدريبيًا موحدًا يجمع بين الإشراف التصنيفي المُوجه بالتسميات والإشراف الذاتي القائم على النماذج الأولية. تُظهر التجارب على PASCAL VOC 2012 وMS COCO 2014 أن CPAL يحسن بشكل ملحوظ الطرق القائمة ويحقق أداءً رائدًا. الكود متوفر على https://github.com/Barrett-python/CPAL.

مُقَدِّمَة

تُعَدُّ التجزئة الدلالية مهمة أساسية في مجال الرؤية الحاسوبية. وأصبح نهج التجزئة الدلالية ضعيفة الإشراف (WSSS) شائعًا، حيث يتعلم النموذج من إشراف ضعيف مثل تسميات على مستوى الصورة (kolesnikov2016seed, lee2021anti) أو خربشات (lin2016scribblesup,vernaza2017learning) أو مربعات الحدود (dai2015boxsup,lee2021bbam,song2019box) بدلًا من التعليقات التوضيحية على مستوى البكسل. تعتمد معظم أساليب WSSS على خرائط تنشيط الفئة (CAM) (zhou2016learning) لتوفير إشارات موقع الأهداف وربط المفاهيم البصرية بمناطق البكسل.

يكمن التحدي الأساسي في WSSS في توليد خرائط تنشيط تغطي الكائن كاملًا. تهدف الدراسات الحديثة (chang2020weakly,sun2020mining,zhang2020inter,wang2023hunting) إلى تحسين دقة التجزئة واستقرارها عبر دمج المعرفة السياقية. مستوحين من تقدم تعلم التمثيل (fan2020learning,wu2021embedded), قدمت بعض الأعمال (li2021group,su2021context,zhang2020causal,zhang2022multi) نماذج سياقية على مستوى عالمي لتحليل السمات الدلالية بدقة أكبر، لكنها غالبًا ما تتجاهل التباين الكبير داخل الفئة، حيث قد تبدو المناطق المنتمية لنفس الفئة مختلفة تمامًا حتى داخل الصورة الواحدة. ينجم عن ذلك تحيز بين المعرفة السياقية (السمات العالمية داخل الفئة) والمعرفة الخاصة بالمثيل (السمات الفريدة)، مما يصعّب نقل التسميات من مستوى الصورة إلى مستوى البكسل. في هذا العمل، نُبَيِّن أن تخفيف هذا التحيز يمكن أن يساعد على التقاط مناطق أكثر دقة واكتمالاً، مع إضافة إشارات إشرافية لتسريع هذه العملية.

تمثيل النموذج الأولي للفئة عبر تخفيف التحيز أظهر فعاليته في كشف أنماط الميزات ضمن مهام التعلم قليل الأمثلة مثل BDCSPN (liu2020prototype). تنص نظرية تعلم النماذج الأولية (zhou2022rethinking,wang2019panet) على أن النماذج الأولية يمكنها تمثيل السمات المحلية والعالمية والمواضع الخاصة بالأجسام. اعتمادًا على التباين داخل الفئة، يمكن لنموذج أولي للمثيل (chen2022self) أن يميز السمات التمييزية لصورة بعينها، بينما النماذج الأولية المدعمة بالسياق (zhou2022regional) تستطيع التقاط أنماط فئوية أكثر شمولاً، مما يعزّز تغطية الكائن مقارنةً بنموذج أولي وحيد.

في هذا العمل، نقترح استراتيجية التعلم المدرك للنموذج الأولي السياقي (CPAL) لاستخراج ميزات فعالة من هيكل العنقود السياقي. نبحث عن مثيلات مرتبطة بالصورة الحالية لبناء نماذج أولية سياقية كجيران محتملين، ثم نختار منها بشكل سلس الجيران ذوي الصلة العالية بناءً على درجة إيجابية ديناميكية. بعد ذلك، نُراجِع مساهمات هذه النماذج الأولية في تقدير السمات، فتُخفف التحيزات المتعلقة بالتنوع داخل الفئة والمثيل. في الوقت ذاته، ندخل آلية محاذاة لتوزيع الميزات لدفع ميزات المثيل نحو مراكز العناقيد الكثيفة، مما يعزز الوعي الدقيق بالمثيل.

...

``` **ملاحظات:** - لا توجد معادلات LaTeX في النص أعلاه، فقط إشارات إلى اختصارات أو مراجع بين قوسين أو نصوص إنجليزية ضمن `...`. - جميع العناصر التي قد تفسر كـ LaTeX (مثل CAM، WSSS، إلخ) ليست معادلات رياضية ولا تتطلب تصحيحًا. - لا توجد أي معادلات أو صيغ رياضية تحتاج إلى تصحيح أو إضافة عناصر مفقودة. - تم التأكد من أن النص كامل ولا توجد أخطاء LaTeX أو HTML.