إِسْتراتِيجِيَّةِ التَعَلُّمِ المُدْرِكَة لِلنَمُوذَج النَمَطِيّ فِي سِياقِ التَجْزِئَةِ الدَلالِيَّة الضَعِيفَةُ التشرف

Feilong Tang

Zhongxing Xu

Zhaojun Qu

Wei Feng

Xingjian Jiang

Zongyuan Ge

مُلَخَّصُ

تَسْعَى الطُرُقِ الحَدِيثَةِ لِلتَجْزِئَة الدَلالِيَّة الضَعِيفَةُ التشرف (WSSS) إِلَى دَمْجِ المَعْرِفَةِ السياقيه لِتَحْسِينِ اِكْتِمالُ خَرائِطِ تَنْشِيطِ الفِئَةِ (CAM). فِي هٰذا العَمَلِ، نُجادِل بِأَنَّ التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ الحالاتِ والسياقات يُؤَثِّر عَلَى قُدْرَةِ النَمُوذَجِ النَمَطِيّ عَلَى فَهُم دَلالاتٍ الحالَةِ بِشَكْلٍ كافٍ. مُسْتَوْحاة مِن نَظَرِيَّةَ تَعْلَم النَماذِجِ النَمَطِيَّة، نَقْتَرِح اِسْتِخْدامِ الوَعْيِ بِالنَمُوذَج النَمَطِيّ لَاِلْتِقاط سِماتِ الخَصائِص المُتَنَوِّعَةَ وَالدَقِيقَة لِلحالات. تَفْتَرِض الفَرْضِيَّة أَنَّ النَماذِجِ النَمَطِيَّة السياقيه قَد تَنْشُط بِشَكْلٍ خاطِئٍ فِئاتِ الأَشْياءَ المُتَشابِهَةَ وَالمُتَكَرِّرَة المُشْتَرَكَةِ بِسَبَبِ هٰذا التَحَيُّزِ المَعْرِفِيِّ. لِذٰلِكَ، نَقْتَرِح تَعْزِيزِ قُدْرَةِ تَمْثِيلِ النَمُوذَجِ النَمَطِيّ مِن خِلالَ التَخْفِيفِ مِن التَحَيُّزِ لَاِلْتِقاط التَغْطِيَةِ المَكانِيَّة بِشَكْلٍ أَفْضَلَ فِي مَناطِقِ الأَشْياءَ الدَلالِيَّة. بِهٰذا الهَدَفَ، نُقَدِّم إِسْتراتِيجِيَّةِ التَعَلُّمِ المُدْرِكَة لِلنَمُوذَج النَمَطِيّ السياقي (CPAL)، الَّتِي تَسْتَفِيد مِن السِياقِ الدَلالِيّ لَإِثْراء فَهُم الحالَةِ. جَوْهَر هٰذِهِ الطَرِيقَةِ هُوَ اِلْتِقاطِ التَبايُنات داخِلَ الفِئَةِ فِي مِيزاتِ الأَشْياءَ بِدِقَّةٍ مِن خِلالَ النَماذِجِ النَمَطِيَّة المُدْرِكَة لِلسِياق، مِمّا يُسَهِّل التَكَيُّفِ مَعَ السِمات الدَلالِيَّة لِمُخْتَلَفِ الحالاتِ. نَقُوم بِتَصْمِيمِ مُحاذاةِ تَوْزِيعِ المِيزاتِ لِتَحْسِينِ الوَعْيِ بِالنَمُوذَج النَمَطِيّ، مُحاذاةِ تَوْزِيعات مِيزاتِ الحالَةِ مَعَ المِيزاتِ الكَثِيفَةِ. بِالإِضافَةِ إِلَى ذٰلِكَ، يَتِمّ اِقْتِراحِ إِطارِ تَدْرِيبِ مُوَحَّدٍ لَدَمْج الإِشْرافِ التَصْنِيفِيّ المُوَجَّهِ بِالتَسْمِيات وَالإِشْراف الذاتِيِّ المُوَجَّهِ بِالنَماذِج النَمَطِيَّة. تُظْهِر النَتائِجِ التَجْرِيبِيَّة عَلَى PASCAL VOC 2012 وَ MS COCO 2014 أَنَّ CPAL يُحَسِّن بِشَكْلٍ كَبِيرٍ الطُرُقِ المُتاحَةِ وَيُحَقَّق أَداءِ رائِداً. المَشْرُوعِ مُتاحٌ فِي https://github.com/Barrett-python/CPAL.

مُقَدِّمَةِ

تُعْتَبَر التَجْزِئَةِ الدَلالِيَّة مُهِمَّةً أَساسِيَّةٍ فِي مَجالِ الرُؤْيَةِ الحاسُوبِيَّة. أَصْبَحَت التَجْزِئَةِ الدَلالِيَّة الضَعِيفَةُ التشرف (WSSS) نَهْجاً شائِعا فِي المُجْتَمَعِ، حَيْثُ تَتَعَلَّم مِن تَسْمِيات ضَعِيفَةٌ مِثْلَ تَسْمِيات عَلَى مُسْتَوَى الصُورَةِ (kolesnikov2016seed, lee2021anti)، الخربشات (lin2016scribblesup,vernaza2017learning)، أَو مُرَبَّعاتٍ الحُدُودِ (dai2015boxsup,lee2021bbam,song2019box)، بَدَلاً مِن التَعْلِيقاتِ التوضيحيه عَلَى مُسْتَوَى البكسل. تُسْتَخْدَم مُعْظَمَ نَهْجٍ WSSS خَرائِطِ تَنْشِيطِ الفِئَةِ (CAM) (zhou2016learning) لِتَوْفِيرِ إِشاراتٍ تَحْدِيدِ المَواقِعِ لِلأَهْداف، وَبِالتالِي تَرْسُم المَفاهِيمِ البَصَرِيَّةِ إِلَى مَناطِقِ البكسل.

المِفْتاحَ فِي WSSS هُوَ تَوْلِيدِ CAM بِتَغْطِيَةِ أَفْضَلَ عَلَى الكائِنِ الكامِلِ. تَهْدِف الدِراساتِ الحَدِيثَةِ (chang2020weakly,sun2020mining,zhang2020inter,wang2023hunting) بِشَكْلٍ أَساسِيٌّ إِلَى تَحْسِينِ دِقَّةٍ تَجْزِئَةِ النَمُوذَجِ وَاِسْتِقْرارِهِ مِن خِلالَ دَمْجِ المَعْرِفَةِ السياقيه. مُسْتَوْحاة مِن تَقَدَّمَ تَعْلَم التَمْثِيلِ (fan2020learning,wu2021embedded)، تَقَدَّمَ بِعَضِّ الدِراساتِ (li2021group,su2021context,zhang2020causal,zhang2022multi) المَعْرِفَةِ السياقيه وَالمَعْرِفَةِ المثيليه لنمذجه السِياقِ عَلَى نِطاقِ عالَمِيٍّ لِتَحْلِيلِ السِمات الدَلالِيَّة لِلمَثِيلات بِدِقَّةٍ أَكْبَرَ. وَلٰكِنَّها تَتَجاهَل تَحَدِّي التَبايُنِ الكَبِيرِ داخِلَ الفِئَةِ أَيّ أَنَّ المَناطِقِ الَّتِي تَنْتَمِي إِلَى نَفْسِ الفِئَةِ قَد تُظْهِر مَظْهَرا مُخْتَلِفاً جِدّاً حَتَّى فِي نَفْسِ الصُورَةِ. يَجْعَل التَحَيُّزِ بَيِّنَ المَعْرِفَةِ السياقيه (المِيزاتِ العالَمِيَّةِ داخِلَ الفِئَةِ) وَالمَعْرِفَةِ المُحَدَّدَةِ لِلمَثِيل (المِيزاتِ الفَرِيدَة) نَقْلِ التَسْمِيات صَعْباً مِن مُسْتَوَى الصُورَةِ إِلَى مُسْتَوَى البكسل. فِي هٰذا العَمَلِ، نُجادِل بِأَنَّ تَخْفِيفِ التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ المَثِيلات والسياقات يُمْكِن أَنَّ يَلْتَقِط مَناطِقِ أَكْثَرَ دِقَّةٍ وَاِكْتِمالاً. عِلاوَةً عَلَى ذٰلِكَ، نُدْمَج إِشاراتٍ مُشَرِّفَةً إِضافِيَّةً لِتَسْرِيعِ تَخْفِيفِ التَحَيُّزات المَعْرِفِيَّة.

تَمْثِيلِ النَمُوذَجِ الأُولَى لِلفِئَةِ، مِن خِلالَ تَقْلِيلِ التَحَيُّزِ، أَظْهَرَ إِمْكاناته فِي الكَشْفِ عَن أَنْماطُ المِيزاتِ فِي خوارزميات التَعَلُّمِ القَلِيلُ الأَمْثِلَة مِثْلَ BDCSPN (liu2020prototype). تَنُصّ نَظَرِيَّةَ تَعْلَم النَمُوذَجِ الأُولَى (zhou2022rethinking,wang2019panet) عَلَى أَنَّ النَماذِجِ الأَوَّلِيَّةِ يُمْكِن أَنَّ تُمَثِّل المِيزاتِ المَحَلِّيَّةِ، المِيزاتِ العالَمِيَّةِ، أَو السِمات المُحَدَّدَةِ لِلكائِن. اِسْتِناداً إِلَى التَبايُنِ داخِلَ الفِئَةِ فِي مِيزاتِ الكائِنِ، يُمْكِن لِلنَمُوذَج الأُولَى لِلمَثِيل (chen2022self) أَنَّ يُمَيِّز بِشَكْلٍ دِينامِيكِيٍّ المِيزاتِ التمييزيه لِلصُورَةِ المُحَدَّدَةِ. عِلاوَةً عَلَى ذٰلِكَ، فَإِنَّ النَماذِجِ الأَوَّلِيَّةِ الَّتِي تُدْمِج المَعْرِفَةِ السياقيه (zhou2022regional) لَدَيها القُدْرَةِ عَلَى اِلْتِقاطِ أَنْماطُ دَلالِيّه فِئَوِيَّةٍ أَكْثَرَ تَحْدِيداً وَدِقَّة. تَمَكَّنَ مِن اِلْتِقاطِ مِنْطَقَةِ الكائِنِ بِشَكْلٍ أَكْثَرَ اِكْتِمالاً مُقارَنَةً بِنَمُوذَجٍ أُولَى لَمَثِيل واحِدٍ.

فِي هٰذا العَمَلِ، نَقْتَرِح إِسْتراتِيجِيَّةِ تَعْلَم تُسَمَّى التَعَلُّمِ المُدْرِك لِلنَمُوذَج الأُولَى السياقي (CPAL) لَاِسْتِخْراج سِماتِ المِيزاتِ الفَعّالَةَ مِن هَيْكَلِ العُنْقُود السياقي. عَلَى وَجْهِ التَحْدِيدِ، نَسْتَكْشِف مَثِيلات أُخْرَى ذاتِ صِلَةٍ بِالصُورَة المُحَدَّدَةِ لِبِناءِ نَماذِجَ أَوَّلِيَّةً سياقيه كَجِيران مُرَشَّحِينَ. ثُمَّ يَتِمّ إِجْراءِ البَحْثِ عَن السِمات داخِلَ الفِئَةِ فِي مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ، مَعَ تَحْدِيدِ مَوْقِعِ النَمُوذَجِ الأُولَى لِلمَثِيل الحالِيَّ كَمَرْساه. فِي الوَقْتِ نَفْسِهِ، نُصَمِّم دَرَجَةِ إِيجابِيَّةً زَوْجَيْهِ تَدُلّ عَلَى الاِرْتِباطِ بَيِّنَ السِمات، بِهَدَفِ تَحْدِيدِ النَماذِجِ الأَوَّلِيَّةِ السياقيه (أَيّ الجِيرانِ الناعِمَيْنِ) المُرْتَبِطَةِ اِرْتِباطا عالِياً بِالسِمَة الحالِيَّةِ. بُعْدَ تَطْبِيقِ دَرَجَةِ الإِيجابِيَّةِ المَعْنِيَّةِ، تَمَّ تَعْدِيلِ مُساهَماتِ هٰذِهِ النَماذِجِ الأَوَّلِيَّةِ فِي المَثِيل المِرْساة بِشَكْلٍ دِينامِيكِيٍّ، وَبِالتالِي تَخْفِيفِ التَحَيُّزات المُرْتَبِطَةِ بِالتَنَوُّع داخِلَ الفِئَةِ وَسِمات المَثِيل.

جَوْهَر طَرِيقَتِنا هُوَ الوَعْيِ بِالنَمُوذَج الأُولَى. نَقِيس بِلُطْف المَسافَةِ بَيِّنَ النَمُوذَجِ الأُولَى لِلمَثِيل وَالنَمُوذَجُ الأُولَى السياقي لَإِدْراك سِماتِ المَثِيل. لَتَقْدِير قَوِيٍّ، يَتِمّ اِقْتِراحِ بُنُوك الدَعْمِ الفِئَوِيَّةِ لِلتَغَلُّبِ عَلَى القُيُودِ عَلَى الدُفْعات الصَغِيرَةِ، بِحَيْثُ يُمْكِن مُلاحَظَةُ تَنَوُّعِ المِيزاتِ داخِلَ الفِئَةِ بِطَرِيقَةٍ مِن المِيزَة إِلَى البَنْكِ حَيْثُ يُمْكِن تَقْرِيبِ تَوْزِيعِ الفِئَةِ عالَمِيّاً. وَمَعَ ذٰلِكَ، بِسَبَبِ الكَمِّيَّةِ المَحْدُودَةَ مِن مِيزاتِ المَثِيل، هُناكَ تَحِيز نِسْبِيٍّ لِتَوْزِيعِ المِيزاتِ السياقيه، مِمّا يُؤَثِّر عَلَى الوَعْيِ الدَقِيقِ بِالمَثِيل. لِذٰلِكَ، نَقْتَرِح مُحاذاةِ تَوْزِيعِ المِيزاتِ مِن خِلالَ إِدْخالُ مُصْطَلَحُ تَحَوَّلَ \(\delta\) إِلَى مِيزاتِ المَثِيل النادِرَةِ، دافِعاً إِيّاها نَحْوَ تَوْزِيعِ المِيزاتِ الكَثِيفِ لِبَنْكِ الدَعْمِ الفِئَوِيّ.

فِي مَجْمُوعاتٍ بَياناتٍ PASCAL VOC 2012 (everingham2010pascal) وَ MS COCO 2014 (lin2014microsoft)، نُقِيم طَرِيقَتِنا فِي إِعْدادات WSSS المُخْتَلِفَةِ، حَيْثُ تَحَقَّقَ نَهْجنا أَداءِ رائِداً. تَتَلَخَّص المُساهَماتِ عَلَى النَحْوِ التالِي:

الأَعْمالِ ذاتِ الصِلَةِ

التَجْزِئَةِ الدَلالِيَّة الضَعِيفَةُ التَوْجِيهِ بِاِسْتِخْدامِ تَسْمِيات عَلَى مُسْتَوَى الصُورَةِ تُولَد عادَةً خَرائِطِ الفَعّالِيَّة الفِئَوِيَّةِ كَبَذْره لَتَوْلِيد تَسْمِيات زائِفه عَلَى مُسْتَوَى البكسل. العَيْبِ النَمُوذَجِيّ لَخَرائِط الفَعّالِيَّة الفِئَوِيَّةِ هُوَ نَقْصها وَعَدَمِ دِقَّتِها فِي الفَعّالِيَّة. لِمُعالَجَةِ هٰذا العَيْبِ، اِقْتَرَحَت الأَعْمالِ الحَدِيثَةِ مُخَطَّطاتٌ تَدْرِيبِ مُتَنَوِّعَةٍ، مِثْلَ المَحْو العَدائِيّ (kweon2021unlocking,yoon2022adversarial,sun2021ecs,kweon2023weakly)، وَنُمُوِّ المِنْطَقَةِ (huang2018weakly,wei2018revisiting)، وَاِسْتِكْشاف قُيُودٍ الحُدُودِ (rong2023boundary,chen2020weakly,lee2021railroad). يُرَكِّز نَمُوذَجَ التَعَلُّمِ وَالاِسْتِدْلالُ لِلصُورَةِ الفَرْدِيَّةِ (araslanov2020single,lee2021railroad) عَلَى فَهُم أَعْمَقُ لِلمِيزات داخِلَ صُورَةِ فَرْدِيَّةٍ لَتَوْلِيد خَرائِطِ الفَعّالِيَّة الفِئَوِيَّةِ الأَكْثَرَ اِكْتِمالاً. يَقُوم الاِسْتِخْراج الذاتِيِّ لِلنَماذِج الأَوَّلِيَّةِ (chen2022self) بِتَخْصِيصِ النَماذِجِ الأَوَّلِيَّةِ لَمِيزات مُتَعَدِّدَةِ الأَحْجام لِتَوْسِيعِ خَرائِطِ تَحْدِيدِ مَواقِعِ الأَجْسام الخَشِنَة لِلحُصُولِ عَلَى مَدَى كامِلٍ لِمَناطِقِ الأَجْسام.

بَيْنَما اِعْتَبَرَت الجُهُودِ السابِقَةِ كُلِّ صُورَةِ عَلَى حِدَّةِ، تُرَكِّز الأَعْمالِ الحَدِيثَةِ عَلَى الحُصُولِ عَلَى سِياقِ دَلالِي غَنِيٍّ بَيِّنَ الصُوَرِ المُخْتَلِفَةِ فِي المَجْمُوعَةِ البَيانِيَّةِ. تَتَناوَل الأَعْمالِ الحَدِيثَةِ (sun2020mining,fan2020cian) التَنْقِيبِ الدَلالِيّ بَيِّنَ الصُوَرِ مِن خِلالَ التَرْكِيزِ عَلَى اِلْتِقاطِ العَلاقاتِ الزَوْجِيَّةَ بَيِّنَ الصُوَرِ. وَتَقُوم (li2021group,zhang2022multi,du2022weakly) بِأَداء التَنْقِيبِ الدَلالِيّ عالِي التَرْتِيبِ لِلعَلاقاتِ الأَكْثَرَ تَعْقِيداً داخِلَ مَجْمُوعَةِ مِن الصُوَرِ. فِي الوَقْتِ نَفْسِهِ، مِن أَجْلِ تَعْزِيزِ عَلاقَةَ التَمْثِيلِ لِلفَضاءِ المُمَيَّزِ (اِسْتِكْشافٍ أَنْماطُ الأَجْسام عَلَى مَجْمُوعَةِ البَياناتِ بِأَكْمَلِها)، يُقَدِّم التَحْلِيلِ الإِقْلِيمِيِّ لِلفِئات (zhou2022regional) بَنْكِ ذاكِرَةِ لَتَخْزِين مِيزاتِ الفِئاتِ عالِيَةٍ الجُودَةِ وَأَداء نمذجه السِياقِ. يَقْتَرِح التَوافُقُ العَمِيقِ لِلنَماذِج الأَوَّلِيَّةِ لِلفِئات (jin2023deep) مُحاذاةِ تَمْثِيلِ المِيزاتِ لِلحالات المُزْدَوِجَةِ تَحْتَ وُجُهاتِ نَظَرِ مُخْتَلِفَةٍ، وَتَمَّ أَيْضاً تَقْدِيمِ هٰذِهِ المُحاذاة فِي تَوْزِيعِ البَياناتِ تَحْتَ سياقات مُخْتَلِفَةٍ (zhao2023dual). عَلَى عَكْسَ الأَعْمالِ السابِقَةِ حَوْلَ تَطْبِيقِ المَعْرِفَةِ السياقيه، يُمْكِن لَطَرِيقَتنا أَنَّ تُدْرِك بِشَكْلٍ تَكَيُّفِي السِمات الدَلالِيَّة وَالتَبايُنات داخِلَ الفِئَةِ، مِمّا يُؤَدِّي إِلَى مَناطِقِ فَعّالِيَّةِ أَكْثَرَ اِكْتِمالاً لَخَرائِط الفَعّالِيَّة الفِئَوِيَّةِ.

التَعَلُّمِ المَبْنِيَّ عَلَى النَماذِجِ الأَوَّلِيَّةِ تَمَّ دِراسَتَهُ جَيِّداً فِي التَعَلُّمِ بِعَدَدٍ قَلِيلٍ مِن الأَمْثِلَة (snell2017prototypical,snell2017prototypical)، وَالتَعَلُّمِ بِدُونِ أُمَثِّله (he2019dynamic) وَالتَعَلُّمِ غَيْرِ المُوَجَّهِ (xu2020attribute). مِن الجَدِيرِ بِالذَكَر أَنَّ العَدِيدَ مِن نَماذِجَ التَجْزِئَةِ يُمْكِن اِعْتِبارِها شَبَكاتِ تَعْلَم مَبْنِيَّةٌ عَلَى النَماذِجِ الأَوَّلِيَّةِ (wang2019panet, liu2020part, xu2022semi, zhou2022rethinking, ge2023soft)، مِمّا يَكْشِف عَن إِمْكانِيَّةَ التَطْبِيقِ فِي تَجْزِئَةِ الصُوَرِ. اِقْتَرَحَ (du2022weakly) طَرِيقَةِ تَعْلَم مِتْرَيْهِ مَبْنِيَّةٌ عَلَى النَماذِجِ الأَوَّلِيَّةِ تَفْرِض تَناسُقَ المِيزاتِ عَلَى مُسْتَوَى المُقابَلاتِ وَتَنْظِيمِ داخِلِيٌّ وَبَيْنِي. يَسْتَخْدِم التَعَلُّمِ القائِمِ عَلَى النَماذِجِ الأَوَّلِيَّةِ لِلكامِيرا (chen2023extracting) لَاِسْتِخْراج مِيزاتِ غَنِيَّةٌ لِلأَجْسام أَيْضاً. فِي عَمَلِنا، نَتَعَلَّم سِماتِ المِيزاتِ الفَعّالَةَ ضِمْنَ هَيْكَلِ التَجْمِيع لِلسِياق لنمذجه مِيزاتِ الأَجْسام المُتَنَوِّعَةَ عَلَى مُسْتَوَى دَقِيقٍ.

المَنْهَجِيَّة

يَقُوم نِظامِ التَصْنِيفِ الضَعِيفُ لِلتَعَلُّمِ الشَبَهِ الإِشْرافِيّ (WSSS) أَوَّلاً بِتَدْرِيبِ شَبَكَةِ التَصْنِيفِ لِتَحْدِيدِ مِنْطَقَةِ الكائِنِ المُقابَلَةِ لِكُلِّ فِئَةٌ، ثُمَّ يَتِمّ تَنْقِيحها لَتَوْلِيد تَسْمِيات زائِفه كَمُشْرِفَيْنِ عَلَى شَبَكَةِ التَجْزِئَةِ الدَلالِيَّة. يَتِمّ بِناءَ الإِطارِ عَلَى أَساسِ شَبَكَةِ التَصْنِيفِ، وَيَتَكَوَّن مِن إِشارَتَيْنِ إِشْرافِيَّتَيْنِ: خَسارَةِ التَصْنِيفِ وَالخَسارَةِ الذاتِيَّةِ الإِشْرافِيَّة. يُشَجِّع نَهْجنا عَلَى الاِتِّساق بَيِّنَ الخَرِيطَةِ النَشِطَةِ لِلفِئَةِ (CAM) المُتَوَقَّعَةِ مِن خِلالَ التَعَلُّمِ الواعِي لِلنَمُوذَج وَالمُصَنَّف، مِمّا يَحْفِز النَمُوذَجِ بِشَكْلٍ ضِمْنِيٍّ عَلَى تَعْلَم مِيزاتِ أَكْثَرَ تَمْيِيزاً. نَحْنُ ننمذج النَمُوذَجِ الأُولَى لِلحالَةِ كَمَرْساه وَنَسْتَخْرِج نَماذِجَ أَوَّلِيَّةً لِلسِياق مِن بَنْكِ الدَعْمِ كَمَجْمُوعَةٍ مُرَشَّحَةٌ لِلجِيران، وَالَّتِي يَتِمّ وَصَفَها فِي القِسْمِ [3.2]. جَوْهَر طَرِيقَتِنا هُوَ الوَعْيِ بِالنَمُوذَج الأُولَى لَاِلْتِقاط التَبايُنات داخِلَ الفِئَةِ، وَيَتِمّ قِياسُ إِيجابِيَّةً كُلِّ جارَ مُرَشَّحِ عَلَى الحالَةِ الحالِيَّةِ بِشَكْلٍ لِين، وَتَصْفِيَةِ وَضَبْطُ مُساهَماتهم بِشَكْلٍ اِنْتِقائَيَّ. فِي الوَقْتِ نَفْسِهِ، يُوَجِّه مُحاذاةِ تَوْزِيعِ المِيزاتِ مِيزاتِ الحالَةِ الحالِيَّةِ نَحْوَ مَرْكَزِ العُنْقُود لِلمِيزات الكَثِيفَةِ فِي البَنْكِ.

نَمُوذَجَ التَحْسِين الذاتِيِّ المُوَجَّهِ

تَحْسِينِ الشَبَكَةِ. يُبْنَى إِطارِ عَمَلِنا عَلَى شَبَكَةِ تَصْنِيفِ، مُسْتَخْدَمِينَ هٰذِهِ الشَبَكَةِ \(\theta\) لَاِسْتِخْراج إِشْرافٍ فَعّالٌ مِن تَسْمِيات الصُوَرِ، مُلْتَقِطَيْنِ مَناطِقِ الكائِنات لِكُلِّ فِئَةٌ (\(i.e.,\) خَرائِطِ التَنْشِيط الفِئَوِيّ). نَقْتَرِح تَعْلَم النَمُوذَجِ الأُولَى الواعِي بِالسِياق لَتَوْلِيد خَرِيطَةِ التَنْشِيط الفِئَوِيّ الواعِيَة بِالنَمُوذَج الأُولَى (PACAM) بِشَكْلٍ أَكْمَلَ، موفره إِشاراتٍ إِشْرافَيْهِ إِضافِيَّةً لَخَرِيطَة التَنْشِيط الفِئَوِيّ الأَوَّلِيَّةِ وَتَشْكِيلِ نَمُوذَجَ ذاتِيٍّ التَوْجِيهِ. العُنْصُرُ الأَساسِيُّ لِهٰذا النَمُوذَجِ هُوَ تَنْظِيمِ الاِتِّساق، مقللا بِشَكْلٍ ضِمْنِيٍّ المَسافَةِ المُمَيَّزَةِ بَيِّنَ البكسلات التمييزيه وَالمَفْقُودَة، مُشَجِّعاً النَمُوذَجِ عَلَى تَعْلَم مِيزاتِ أَكْثَرَ اِتِّساقاً وَتَمَيَّزا. هٰذا التَعْدِيلِ البَسِيطِ يُؤَدِّي إِلَى تَحْسِيناتٍ مَلْحُوظَةٌ. دالَّةٍ خَسارَةِ مُوَحَّدَةٍ تَحَسُّنِ النَمُوذَجِ: \[\label{coefficients} \mathcal{L}=\lambda_{BCE}\mathcal{L}^{{BCE}}+\lambda_{Self}\mathcal{L}^{ {Self}}\] حَيْثُ \(\lambda_{BCE}\) وَ \(\lambda_{Self}\) هُما مُعامِلانِ، \(\mathcal{L}^{{BCE}}\) هِيَ خَسارَةِ التَصْنِيفِ، وَ \(\mathcal{L}^{ {Self}}\) هِيَ الخَسارَةِ الذاتِيَّةِ التَوْجِيهِ. الخَسائِرِ مَوْصُوفَةً بِالتَفْصِيلِ فِي الأَقْسام التالِيَةِ.

خَسارَةِ التَصْنِيفِ وَخَرائِط التَنْشِيط الفِئَوِيّ. كُلِّ صُورَةِ تَدْرِيبِ \(I \in \mathbb{R}^{w \times h \times 3}\) فِي مَجْمُوعَةِ البَياناتِ \(\mathcal{I}\) مُرْتَبِطَةً فَقَط بِمُتَّجِه تَسْمِيَةِ عَلَى مُسْتَوَى الصُورَةِ \(\boldsymbol{y}=\{y_n\}^N_{n=1} \in \{0,1\}^N\) لِ \(N\) هِيَ فِئاتِ مُحَدَّدَةٍ مُسْبَقاً. يَقْتَرِح CAM لِتَحْدِيدِ مَواقِعِ الكائِنات الأَمامِيَّةِ مِن خِلالَ تَدْرِيبِ شَبَكَةِ تَصْنِيفِ. يَأْخُذ CAM صُورَةِ مُصَغَّرَةٍ \(I\) كَمَدْخَلٍ لَاِسْتِخْراج خَرائِطِ المِيزاتِ \(f\in \mathbb{R}^{W \times H \times D}\)، ب \(D\) قَنَواتٍ وَحَجْمُ مَكانِي \(H \times W\). لِرَبْطِ الفَجْوَةِ بَيِّنَ مُهِمَّةً التَصْنِيفِ وَمُهِمَّةً التَجْزِئَةِ، يَتِمّ اِسْتِخْدامِ وَزْنِ المُصَنَّفُ \(\mathbf{w}_n\) وَطَبَقَة التَجْمِيع المُتَوَسِّطِ العالَمِيِّ (GAP) لِإِنْتاجِ تَنَبُّؤ اللوجيت \(\hat{y}_i \in \mathbb{R}^N\). أَثْناءَ التَدْرِيبِ، يَسْتَخْدِم خَسارَةِ التَقاطُعِ الثُنائِيِّ كَما يَلِي: \[\mathcal{L}^{BCE}=\frac{1}{N} \sum_{i=1}^N y_i \log \sigma\left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\sigma\left(\hat{y}_i\right)\right),\] حَيْثُ \(\sigma(\cdot)\) هِيَ وَظِيفَةٍ السيجمويد. لِلحُصُولِ عَلَى مَعْلُوماتٍ تَقْرِيبِيّه عَن المَوْقِعِ لِلخَلْفِيَّة وَالأَمام. يُمْكِن تَمْثِيلِ خَرِيطَةِ التَنْشِيط الفِئَوِيّ \({M}_{\boldsymbol{f}}=\left\{{M}_n\right\}_{n=1}^N\) عَلَى \(N\) فِئاتِ إِمامَيْهِ كَما يَلِي: \[{M}_{n}=\frac{\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)}{\max \left(\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)\right)}, \quad \forall n \in N.\] مَعَ الأَخْذِ فِي الاِعْتِبارِ أَهَمِّيَّةً الخَلْفِيَّةِ فِي مُهِمَّةً التَجْزِئَةِ، نَتْبَع (wang2020self) لَتَقْدِير خَرِيطَةِ التَنْشِيط الخَلْفِيَّةِ \({M}_{b}=1-\max_{1 \leq n \leq N} M_n\) اِسْتِناداً إِلَى \(M_f\). نَجْمَع خَرِيطَةِ التَنْشِيط الخَلْفِيَّةِ المُعالَجَةِ مَعَ خَرِيطَةِ التَنْشِيط الأَمامِيَّةِ كَكُلٍّ، i.e. \({M} = M_f \cup M_b\)، لِمُساعَدَةِ النَمُوذَجِ عَلَى فَهُم المَعْرِفَةِ الخَلْفِيَّةِ.

نمذجه النَمُوذَجِ الأُولَى

نمذجه النَمُوذَجِ الأُولَى لِلحالَةِ كَمَرْساه. لِكُلِّ صُورَةِ \(I\)، يَتِمّ تَعْيِينِ خَرائِطِ المِيزاتِ إِلَى فَضاءِ الإِسْقاط \(z=v(f)\) بِواسِطَةِ رَأْسِ الإِسْقاط \(v\) لنمذجه النَمُوذَجِ الأُولَى لِلحالَةِ. يُمَثِّل كُلِّ نَمُوذَجَ أُولَى لِلحالَةِ الدَلالات الإِقْلِيمِيَّةِ لِلفِئات المُلاحَظَةُ فِي \(I\) اِسْتِناداً إِلَى \(M\). عَلَى وَجْهِ التَحْدِيدِ، بِالنِسْبَةِ لِلفِئَةِ \(n\)-th الَّتِي تُظْهِر فِي \(I\) (\(i.e.,\) \(y_c=1\))، يَتِمّ تَلْخِيصُ مِيزاتها المَعْرُوضَةِ إِلَى مُتَّجِه \(\mathcal{P}^{I}_n \in \mathbb{R}^D\) بِواسِطَةِ التَجْمِيع المُتَوَسِّطِ المُقْنِع (MAP) (siam2019amp): \[\mathcal{P}^{I}_n=\frac{\sum_{x=1, y=1}^{W, H} \textbf{P}_n(x,y) * z(x,y)}{\sum_{x=1, y=1}^{W, H} \textbf{P}(x,y)}, \label{tau}\] حَيْثُ \(\textbf{P}_n= \mathbbm{1}\left({M}_n>\tau\right) \in \{0,1\}^{W \times H}\) هُوَ قِناع ثُنائِيٍّ، يُؤَكِّد فَقَط عَلَى البكسلات المُنَشِّطَة بِقُوَّةٍ لِلفِئَةِ \(n\) فِي خَرِيطَةِ التَنْشِيط. \(\mathbbm{1}(\cdot)\) هِيَ دالَّةٍ مُؤَشِّرُ، وَالعَتَبَة \(\tau\) هِيَ مُعَلِّمَةُ فائِقه وَتَدُلّ عَلَى عَتَبَةِ دَرَجَةِ الثِقَةِ. هُنا، \(\mathcal{P}^{I}_n\) مَضْغُوط وَخَفِيف، مِمّا يَسْمَح بِالاِسْتِكْشاف القابِل لِلتَطْبِيقِ لَعَلاقاته مَعَ العَدِيدَ مِن العَيْنات الأُخْرَى وتموضعه كَمَرْساه.

نمذجه النَماذِجِ الأَوَّلِيَّةِ السياقيه كَجِيران مُرَشَّحِينَ. نَفْتَرِض أَنَّ المِيزاتِ الفِئَوِيَّةِ داخِلَ الصُوَرِ أَو الدُفْعات تُوَفِّر فَقَط نَظْرَةٌ مَحْدُودَةٍ لِلفِئَةِ. لِذٰلِكَ، نَسْتَخْدِم بَنْكِ الدَعْمِ كَمَجْمُوعَةٍ مُرَشَّحَةٌ \(\mathcal{C}\)، حَيْثُ كُلِّ عُنْصُرٍ هُوَ النَمُوذَجِ الأُولَى السياقي لِفِئاتٍ مُخْتَلِفَةٍ. عِنْدَ اِسْتِخْدامِ دُفْعاتٍ العَيْنات لِتَدْرِيبِ الشَبَكَةِ، نَخَزْنَ نَماذِجها الأَوَّلِيَّةِ \(\mathcal{P}^{I}_n\) فِي \(\mathcal{C}\) وَنَسْتَخْدِم إِسْتراتِيجِيَّةِ الأَوَّلِ الداخِلِ أَوَّلِ الخارِجِ لِتَحْدِيثِ مَجْمُوعَةِ المُرَشَّحِينَ. تُحافِظ هٰذِهِ المَجْمُوعَةِ عَلَى طُولِ نِسْبِيّاً كَبِيرٍ لِكُلِّ فِئَةٌ نَمُوذَجَ أُولَى لِتَوْفِيرِ نَماذِجَ أَوَّلِيَّةً سياقيه مُحْتَمَلَةٍ بِما فِيهِ الكِفايَةُ. اِسْتِناداً إِلَى هٰذِهِ المَجْمُوعَةِ، يَتِمّ تَطْبِيقِ تَجْمِيعِ \(\mathrm{k}\)-means عَبْرَ الإِنْتِرْنِت لَتَنْقِيح كُلِّ فِئَةٌ إِلَى مَجْمُوعاتٍ نَمُوذَجَ أُولَى مَجْمَعه \(\mathcal{G}=\left\{G_i\right\}_{i=1}^{N_p}\) لِكَشْفِ الصِفاتِ العَمِيقَةِ لِكُلِّ فِئَةٌ. نَقُوم بِعَمَلِيّاتِ التوسيط عَلَى كُلِّ مَجْمُوعَةِ نَمُوذَجَ أُولَى مَجْمَعه مِن \(\mathcal{G}\) لَتَوْلِيد \(N_p\) جِيران مُرَشَّحِينَ \(\mathbf{p}_i\) عَلَى النَحْوِ التالِي: \[\mathbf{p}_i=\frac{1}{\left|G_i\right|} \sum_{\mathbf{r}_j \in G_i} \mathbf{r}_j,\] حَيْثُ \(\mathbf{r}_j\) يُشِير إِلَى النَمُوذَجِ الأُولَى \(j\)-th الَّذِي يَنْتَمِي إِلَى مَجْمُوعَةِ العُنْقُود \(i\)-th \(G_i\). \(\mathbf{p}_i\) يُمَثِّل النَمُوذَجِ الأُولَى السياقي \(i\)-th لِمَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\).

التَعَلُّمِ المُدْرِك لَنَمُوذَج السِياقِ

مَعَ نَماذِجَ الرَبْطِ الأَساسِيَّةِ وَمَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ مِن القِسْمِ [3.2]، تَسْتَشْعِر مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ أَو تَدْعَم مِيزَةً الرَبْطِ. يُمْكِن لِلتَعَلُّمِ المُدْرِك لَنَمُوذَج السِياقِ قِياسُ وَضَبْطُ مَدَى هٰذا الدَعْمِ.

تَحْدِيدِ الجار الإِيجابِيِّ اللَيِّن. اِخْتِيارِ النَمُوذَجِ أَمْرٌ حاسِمٍ فِي نَهْجنا المُقْتَرَحِ حَيْثُ يُحَدِّد بِشَكْلٍ كَبِيرٍ جُودَة الإِشْرافِ. يُمْكِن لَنَماذِج الحالاتِ تَمْثِيلِ الصِفاتِ الفِئَوِيَّةِ لِلصُورَةِ الحالِيَّةِ بِشَكْلٍ خاصٍّ، بَيْنَما تُظْهِر نَماذِجَ السِياقِ أَنْماطُ فِئَوِيَّةٍ أَكْثَرَ شُمُولاً وَتَنَوُّعاً. تُسْتَخْدَم إِسْتراتِيجِيَّتنا دَرَجاتٍ الإِيجابِيَّةِ \(w_i\) لَقِياس صِلَةٍ الجِيرانِ المُرَشَّحِينَ فِي الفِئَةِ بِصِفات الحالَةِ الحالِيَّةِ. نَقْتَرِح اِخْتِيارِ أَفْضَلَ \(K\) جِيران مُعَدَّلَيْنِ بِدَرَجات الإِيجابِيَّةِ، المَوْجُودِينَ بِالقُرْبِ مِن الرَبْطِ. يُمْكِن صِياغَةِ الجار الإِيجابِيِّ اللَيِّن كَما يَلِي: \[\tilde{\mathcal{P}}_n^{\text {c}}=\left\{w_i \mathbf{p}_{\mathbf{i}}: i \in \underset{i \in N_p}{ \arg \max }\left(d\left(w_i \mathbf{p}_{\mathbf{i}}, \mathcal{P}_n^I\right), \text { top } =K\right)\right\} \label{value_K}\] حَيْثُ \(d()\) تَدُلّ عَلَى التَشابُه الجَيْبِيّ التمامي كَمِقْياس مَحْسُوب، وَ\(\tilde{\mathcal{P}}^{c}_n\) يُمَثِّل أَفْضَلَ \(K\) نَماذِجَ مُدْرِكَةٌ لِلسِياق مُصَمِّمَةً لِلحالَةِ الحالِيَّةِ. تَوَقُّعاتٍ الإِيجابِيَّةِ. لَقَد صَمَّمْنا دَرَجاتٍ إِيجابِيَّةً زَوْجَيْهِ لَقِياس (بِشَكْلٍ غَيْرِ ثُنائِيٍّ) الصِلَةِ بَيِّنَ نَمُوذَجَ الحالَةِ وَالجِيران المُرَشَّحِينَ فِي نَفْسِ الفِئَةِ. بِالنِسْبَةِ لَزَوْج النَمُوذَجِ (\(\mathbf{p}_i\) , \(\mathcal{P}^I_{n}\))، يُمْكِن حِسابِ دَرَجَةِ الإِيجابِيَّةِ \(w_{i}\) كَما يَلِي: \[w_i=\frac{1}{\gamma_i} \texttt{softmax}\left[l_1\left(\mathbf {\mathcal{P}}^{I}_n\right) \times l_2\left(\mathbf {p}_i\right)^{\top}\right], \quad {\mathbf{p}}_{i} \in {\mathcal{P}}^{c}_n, \label{eq7}\] حَيْثُ \(l_1(\cdot)\) وَ\(l_2(\cdot)\) هُما طَبَقاتِ تَحْوِيلِ المِيزاتِ بِدُونِ مُعامَلاتِ. \(\gamma_i\) هُوَ عامِلٍ تَحْجِيم لِضَبْطِ دَرَجَةِ الإِيجابِيَّةِ \(w_i\). تَمَّ اِسْتِكْشافٍ هَياكِلِ مُخْتَلِفَةٍ لِلدَرَجَةِ \(w_{i}\) فِي القِسْمِ [Ablation].

الاِدِّعاءِ 1. نَفْتَرِض أَنَّنا نُدَرِّب نَمُوذَجَ \(\theta\) بِاِسْتِخْدامِ طَرِيقَةِ التَحْسِين المُقْتَرَحَةِ، \(\mathcal{P}_n^I\) وَ\(\tilde{\mathcal{P}}_n^c\) هُما نَمُوذَجَ الحالَةِ الحالِيَّةِ لِلفِئَةِ آلَن-th وَنَماذِجِ السِياقِ عَلَى التَوالِي. يُمْكِن التَعْبِيرِ عَن القِيمَةِ الأَمْثَلُ لَمِقْياس التَشابُه \(s_i^*\) ك \(\frac{w_{i}}{\sum_{k=1}^{K} w_{k}}\)، حَيْثُ \(w_{i}\) هِيَ دَرَجَةِ الإِيجابِيَّةِ المُقابَلَةِ لَزَوْج النَمُوذَجِ (\(\mathcal{P}_n^I, \quad {\mathbf{p}}_{i} \in {\tilde{\mathcal{P}}}_n^{c}\)) فِي المُعادَلَةَ [eq7].

يُمْكِن العُثُورِ عَلَى البُرْهانُ فِي المُلْحَقِ A. يُشِير الاِدِّعاءِ 1 إِلَى أَنَّنا نُحْسِن النَمُوذَجِ لَتَعْظِيم التَشابُه بَيِّنَ نَمُوذَجَ السِياقِ وَالحالَة الحالِيَّةِ مِن نَفْسِ الفِئَةِ بِنِسْبَةِ مُباشَرَةً إِلَى دَرَجَةِ الإِيجابِيَّةِ المُقابَلَةِ. نَحْنُ نَنْقُل المَعْرِفَةِ بِفَعّالِيَّةٍ مِن الفَرْعِ الذاتِيِّ الإِشْرافِ إِلَى النَمُوذَجِ، بِالإِضافَةِ إِلَى أَداءِ النَمُوذَجِ وَقُدْراتِ التَعْمِيمِ.

مُحاذاةِ تَوْزِيعِ المِيزاتِ. تُشَكِّل المِيزاتِ المُتَفَرِّقَة (hoefler2021sparsity) وَتَنَوُّعٍ الفِئَةِ الداخِلِيِّ تَحَدِّياتٍ لِتَمْثِيلِ المِيزاتِ المُحَدَّدَةِ لِلفِئَةِ بِدِقَّةٍ، مِمّا يُعِيق التَمْيِيزِ بَيِّنَ الفِئاتِ. وَبِالتالِي، نَفْتَرِض تَحِيزا بَيِّنَ المِيزاتِ الفَرْدِيَّةِ وَمِيزات الفِئَةِ الداخِلِيَّةِ. لِمُعالَجَةِ هٰذا، نُوَجِّه المِيزاتِ لَمُحاذاة مِيزاتها المُحَدَّدَةِ لِلفِئَةِ المُجَمَّعَة بِكَثافَةٍ لِتَعْزِيزِ كَثافَةُ المِيزَة الداخِلِيَّةِ لِلفِئَةِ. بِالنَظَرِ إِلَى أَنَّ تَطْبِيعِ الدُفْعات الصَغِيرَةِ (ioffe2015batch) أَو تَطْبِيعِ الحالَةِ (ulyanov2016instance) يَتْبَع اِتِّجاهِ التَعَلُّمِ بِالدُفْعات، يَتِمّ مُحاذاةِ مِيزاتِ الدُفْعات الصَغِيرَةِ مِن خِلالَ إِدْخالُ مُصْطَلَحاتٍ الاِنْتِقالِ \(\delta_n\) لِدَفْعِها نَحْوَ مَراكِزِ العَناقِيد. يَتِمّ اِسْتِنْتاجِ ذٰلِكَ كَما يَلِي.

نُحَدِّد مِقْياسِ التَقْيِيم لِلتَشابُه الجَيْبِيّ التمامي الأَمْثَلُ (OCSEM) لَتَقْيِيم التَشابُه الجَيْبِيّ التمامي بَيِّنَ العَيِّنَةُ الحالِيَّةِ وَالعَيْنات الأُخْرَى، بِهَدَفِ تَعْزِيزِ دِقَّةٍ النَمُوذَجِ مِن خِلالَ تَعْظِيمِ هٰذا المِقْياسُ. يَعْرِف الهَدَفَ الأَمْثَلُ كَما يَلِي: \[\begin{split} \text{OCSEM} = \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} & \cos({\mathbf {p}}_{i},\mathcal P^I_{n,q}) > \\ & \max_{h \neq i}\{\cos({\mathbf {p}}_{h},\mathcal P^I_{n,q})\}, \end{split}\] حَيْثُ \({\mathbf {p}}_{i}\) هُوَ نَمُوذَجَ السِياقِ فِي مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\) لِلفِئَةِ آلَن-th، وَ\(\mathcal P^I_{n,q}\) هُوَ نَمُوذَجَ الحالَةِ المُقابِلِ فِي المَجْمُوعَةِ \(\mathcal{P}_n^b=\left\{\mathcal P^I_{n,q}\right\}_{q=1}^{Q_n}\) فِي الدُفْعَةِ الصَغِيرَةِ. \(Q_n\) يَدُلّ عَلَى عَدَدٍ النَماذِجِ لِلفِئَةِ آلَن-th فِي الدُفْعَةِ الصَغِيرَةِ. نَفْتَرِض أَنَّ التَحَيُّزِ يُمْكِن تَقْلِيله بِإِضافَة مُصْطَلَحُ الاِنْتِقالِ \(\delta_n\) إِلَى مِيزَةً الحالَةِ. يَجِب أَنَّ يَتْبَع المُصْطَلَحِ \(\delta_n\) الهَدَفَ: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, \mathcal P^I_{n,q}+\delta_n\right). \label{9}\] نَفْتَرِض أَنَّ كُلِّ مِيزاتِ النَمُوذَجِ \(\mathcal P^I_{n,q}\) يُمْكِن تَمْثِيلَها ك \({\mathbf {p}}_{i} + \epsilon_{i,q}\). يُمْكِن صِياغَةِ المُعادَلَةَ [9] بِشَكْلٍ أَكْثَرَ تَفْصِيلاً كَما يَلِي: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, {\mathbf {p}}_{i}+\delta_n+\epsilon_{i, q}\right).\] لَتَعْظِيم التَشابُه الجَيْبِيّ التمامي، يَجِب تَقْلِيلِ الهَدَفَ التالِي: \[\min \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} (\epsilon_{i,q}+\delta_n).\] يَتِمّ حِسابِ المُصْطَلَحِ \(\delta_n\) عَلَى النَحْوِ التالِي: \[\delta_n=-\mathbb{E}\left[\epsilon_{i,q}\right]=\frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \left({\mathbf {p}}_{i}-\mathcal{P}_{n, q}^I\right). \label{shift}\]

الوَعْيِ بِالنَمُوذَج الأُولَى لَخَرائِط الفَعّالِيَّة الفِئَوِيَّةِ وَالخَسارَةِ الذاتِيَّةِ التَوْجِيهِيَّةِ

الوَعْيِ بِالنَمُوذَج الأُولَى لَخَرائِط الفَعّالِيَّة الفِئَوِيَّةِ. مَعَ وُضُوحٍ مَعْنَى النَماذِجِ الأَوَّلِيَّةِ، يُمْكِن فَهُم إِجْراءِ التَنَبُّؤ بِخَرائِط الفَعّالِيَّة الفِئَوِيَّةِ بِشَكْلٍ حَدْسِي كَاِسْتِرْجاع النَماذِجِ الأَوَّلِيَّةِ الأَكْثَرَ تُشابِها. لِكُلِّ نَمُوذَجَ أُولَى \(\tilde{\mathcal{P}}^{c}_n\) فِي المُعادَلَةَ [value_K]، نَحْسِب تُشابِه الجِيْب التمامي بَيِّنَ المِيزاتِ فِي كُلِّ مَوْضِعَ وَالنَمُوذَجُ الأُولَى لِلفِئَةِ المُقابَلَةِ. ثُمَّ يَتِمّ تَجْمِيعِ خَرائِطِ التَشابُه كَما يَلِي: \[{\tilde{M}}_n(j) = \ ReLU \left(\frac{1}{K} \sum_{{\mathcal{\mathbf p}}_i \in {\tilde{\mathcal{P}}}^{c}_n} \frac{{{f}}{(j)} \cdot {\mathcal{\mathbf p}}_i}{\left\|{{f}}(j)\right\| \cdot\left\|{\mathcal{\mathbf p}}_i\right\|}\right),\] حَيْثُ يُشِير \(\|\cdot\|\) إِلَى مِعْيار L2 لَمُتَّجِه. \(\tilde{M}_n(j)\) يُمَثِّل خَرِيطَةِ الفَعّالِيَّة الفِئَوِيَّةِ المُدْرِكَة لِلنَمُوذَج الأُولَى لِلفِئَةِ \(n\)-th فِي البكسل \(j\).

الخَسارَةِ الذاتِيَّةِ التَوْجِيهِيَّةِ. لِلاِسْتِفادَةِ أَكْثَرَ مِن المَعْرِفَةِ السياقيه، نُقَدِّم نَمُوذَجاً لِلتَعَلُّمِ الذاتِيِّ التَوْجِيهِيِّ الَّذِي يُشَجِّع عَلَى الاِتِّساق بَيِّنَ النواتج مِن التَنَبُّؤات المُدْرِكَة لِلنَمُوذَج الأُولَى وَمُصَنَّف مُوَجَّهٍ. هٰذا يُعَزِّز مِن قُدْرَةِ النَمُوذَجِ عَلَى التَعَرُّفُ عَلَى المِيزاتِ التمييزيه أَكْثَرَ وَيُدْمَج المَعْرِفَةِ المُدْرِكَة لِلنَمُوذَج الأُولَى فِي تَمْثِيلِ المِيزَة، مِمّا يُعَزِّز التَحْسِين التَعاوُنِيّ خِلالَ دَوْراتِ التَدْرِيبِ. تَعْرِيفٍ التَنْظِيمِ الاتساقي بِتَطْبِيعِ L1 لَخَرِيطَتِي الفَعّالِيَّة: \[\mathcal{L}^{self}=\frac{1}{N+1}\|{M}- {\tilde{M}}\|_1, \label{self}\] حَيْثُ \(M\) وَ \(\tilde{M}\) تُمَثِّلانِ خَرِيطَةِ الفَعّالِيَّة الأَصْلِيَّةِ وَخَرِيطَة الفَعّالِيَّة المُدْرِكَة لِلنَمُوذَج الأُولَى، عَلَى التَوالِي.

التَجارِبِ

مَجْمُوعاتٍ البَياناتِ وَتَفاصِيل التَنْفِيذِ

مَجْمُوعَةِ البَياناتِ وَمِقْياس التَقْيِيم. تُجْرَى التَجارِبِ عَلَى مِعْيارَيْنِ: PASCAL VOC 2012 (everingham2010pascal) ب 21 فِئَةٌ وَ MS COCO 2014 (lin2014microsoft) ب 81 فِئَةٌ. بِالنِسْبَةِ لِ PASCAL VOC 2012، وِفْقاً لِ (wang2020self, lee2021anti, chen2022self, li2022expansion)، نَسْتَخْدِم SBD المُعَزِّز (hariharan2011semantic) ب 10,582 صُورَةِ مَوْسُومه. نُقِيم CPAL مِن حَيْثُ i) جُودَة تَوْلِيدِ تَسْمِيات التَجْزِئَةِ الزائِفَة عَلَى VOC 2012 train، وَ ii) التَجْزِئَةِ الدَلالِيَّة عَلَى VOC 2012 val/test وَ COCO 2014 val. يَسْتَخْدِم مُتَوَسِّطُ التَقاطُعِ عَلَى الاِتِّحادِ (mIoU) (long2015fully) كَمِقْياس فِي كُلّاً الحالَتَيْنِ. تَحْصُل النَتائِجِ عَلَى VOC 2012 test مِن خادِمِ التَقْيِيم الرَسْمِيِّ.

تَفاصِيلَ التَنْفِيذِ. فِي تَجارِبنا، يَتِمّ اِعْتِمادِ ResNet50 (he2016deep) المُدَرِّبِ مُسْبَقاً عَلَى ImageNet (deng2009imagenet) كَالعَمُود الفَقْرِيِّ بِخَطْوَةٍ إِخْراجِ 16، حَيْثُ يُحِلّ مُصَنَّف مَحَلَّ الطَبَقَةِ المُتَّصِلَةِ بِالكامِلِ بِقَنَوات إِخْراجِ 20. إِسْتراتِيجِيَّةِ التَعْزِيز هِيَ نَفْسِها كَما فِي (chen2022self, ahn2019weakly, chen2023extracting)، بِما فِي ذٰلِكَ القَلْبِ العَشْوائِيِّ، التَحْجِيم، وَالقِطَعُ. يَتِمّ تَدْرِيبِ النَمُوذَجِ بِحَجْمِ دَفْعَةً 16 عَلَى 8 وَحَداتٍ مُعالَجَةِ رُسُومات Nvidia 4090. يَتِمّ اِعْتِمادِ مُحْسِن SGD لِتَدْرِيبِ نَمُوذَجنا لِمُدَّةِ 5 حِقْباتٍ، بِزَخِم 0.9 وَتَحْلِل وَزْنِ 1e-4. تُحَدِّد مُعَدَّلاتِ التَعَلُّمِ لِلعَمُود الفَقْرِيِّ وَالطَبَقاتُ المُضافَةِ حَدِيثاً عَلَى 0.1 وَ 1 عَلَى التَوالِي. نَسْتَخْدِم جَدْوَلِ تَحْلِل التَعَلُّمِ البَوْلِيّ بِقُوَّةٍ 0.9 لَمُعَدَّل التَعَلُّمِ.

تُحَدِّد مُعامَلاتِ الخَسارَةِ \(\lambda_{BCE}\) وَ \(\lambda_{Self}\) ك 1 فِي المُعادَلَةَ [coefficients]. بِالنِسْبَةِ لِ VOC 2012، يُحَدِّد العَتَبَةَ \(\tau\) فِي المُعادَلَةَ [tau] عَلَى 0.1. حَجْمِ البَنْكِ الداعِمِ لِكُلِّ فِئَةٌ لَتَخْزِين التَضْمِينات الإِقْلِيمِيَّةِ، مَعَ تَحْدِيدِ الحَجْمِ عَلَى 1000 لِتَجَنُّبِ اِسْتِهْلاكِ الدَعْمِ الكَبِيرِ. يَتِمّ إِجْراءِ تَجْمِيعِ النَماذِجِ الأَوَّلِيَّةِ \(k\)-means فِي القِسْمِ [3.2] مَرَّةً واحِدَةٍ فَقَط فِي بِدايَةِ كُلِّ حِقْبَةِ، وَيُحَدَّد عَدَدٍ النَماذِجِ الأَوَّلِيَّةِ لِكُلِّ فِئَةٌ \(N_p\) عَلَى 50، وَيُحَدَّد عَدَدٍ الجِيرانِ المُرَشَّحِينَ الأَعْلَى \(K\) عَلَى 20 فِي المُعادَلَةَ [value_K]. بِالنِسْبَةِ لِشَبَكَةِ التَجْزِئَةِ، أَجْرَيْنا تَجارِبِ مَعَ DeepLab-v2 (chen2017deeplab) مَعَ العَمُودِ الفَقْرِيِّ ResNet101 وَ ResNet38. المَزِيدِ مِن التَفاصِيلِ (بِما فِي ذٰلِكَ COCO) مَوْجُودَةٌ فِي المُلْحَقِ.

دِراسَةٌ الاِسْتِئْصال

لِدِراسَةِ مُساهَماتِ كُلِّ مُكَوِّن مِن مُكَوِّناتِ طَرِيقَتِنا، أَجْرَيْنا دِراساتٍ اِسْتِئْصال عَلَى مَجْمُوعَةِ بَياناتٍ VOC 2012. جَمِيعِ التَجارِبِ اُسْتُخْدِمَت Resnet-50 كَعَمُود فَقُرَى. فَعّالِيَّةِ كُلِّ مُكَوِّن. فِي الجَدْوَلُ [abl]، نُجْرِي دِراساتٍ اِسْتِئْصال لِإِظْهارِ فَعّالِيَّةِ نَهْجنا. نَسْتَخْدِم نَمُوذَجاً تَمَّ تَدْرِيبه فَقَط بِإِشْراف التَصْنِيفِ (التَجْرِبَةِ الأُولَى) كَخَطّ أَساسِ. ثُمَّ يَتِمّ تَقْدِيمِ إِسْتراتِيجِيَّةِ تَعْلَم النَمُوذَجِ الأُولَى لِلسِياق بَسِيطَةً فِي التَجْرِبَةِ الثانِيَةِ وَالَّتِي تَحَقَّقَ مَكاسِبَ مَحْدُودَةٍ فِي mIoU عَلَى مَجْمُوعَةِ train. تُظْهِر التَجْرِبَةِ الثالِثَةِ أَنَّ تَقْدِيمِ تَعْلَم النَمُوذَجِ الأُولَى لِلسِياق المُدْرِك (مَجْمُوعَةِ المُرَشَّحِينَ الأَعْلَى-\(K\) وَتَنَبُّؤ الإِيجابِيَّةِ) لَتَوْلِيد PACAM يُعَزِّز الأَداءِ بِشَكْلٍ كَبِيرٍ بِنِسْبَةِ +3.3%. فِي التَجْرِبَةِ الرابِعَةِ، عِنْدَ تَقْدِيمِ وَحْدَةِ مُحاذاةِ المِيزاتِ، يَزْداد الأَداءِ بِمِقْدارِ +2.3%. فِي التَجْرِبَةِ الخامِسَةِ، يَتَحَسَّن الأَداءِ بِمِقْدارِ +5.7% عِنْدَ تَقْدِيمُهُ لِلتَدْرِيبِ الذاتِيِّ كَإِشْراف تَكْمِيلِيّ، مِمّا يَدُلّ عَلَى أَهَمِّيَّتِهِ فِي إِطارِ عَمَلِنا. خَسارَةِ الاِتِّساق تُجْبَر النَمُوذَجِ عَلَى التَرْكِيزِ عَلَى التَفاصِيلِ الدَقِيقَةِ لِلدَلالات، مِمّا يُعَزِّز إِدْراكَهُ لِلبُنْيَة الجَوْهَرِيَّة وَالمِيزات الدَلالِيَّة.
فَعّالِيَّةِ الجِيرانِ المُرَشَّحِينَ وَالإِيجابِيَّة. نُحَلِّل أَهَمِّيَّةً الجِيرانِ المُرَشَّحِينَ وَالإِيجابِيَّة، كَما هُوَ مُوَضِّح فِي الجَدْوَلُ [neighbor]. إِزالَةِ الإِيجابِيَّةِ وَاِسْتِخْدامِ جَمِيعِ الجِيرانِ لِلتَنَبُّؤ، تُقِلّ دِقَّةٍ Miou فِي CAM مِن 62.5% إِلَى 60.3%. يُشِير ذٰلِكَ إِلَى أَنَّ الإِيجابِيَّةِ لَيِسَت مُجَرَّدَ زَخْرَفَة بَسِيطَةً بَل تُوَفِّر آلِيَّةِ فَعّالَةٍ لِلنَمُوذَج. تَمَكَّنَ النَمُوذَجِ مِن التَرْكِيزِ بِشَكْلٍ تَكَيُّفِي وَاِنْتِقائَيَّ عَلَى الجِيرانِ الَّذِينَ يُساهِمُونَ بِشَكْلٍ كَبِيرٍ فِي المُهِمَّةِ أَثْناءَ عَمَلِيَّةِ التَعَلُّمِ مَعَ تَجاهُلُ الجِيرانِ غَيْرِ المَعْلُوماتِيَّيْنِ لِلتَنَبُّؤات. فِي الكُتْلَةِ الثالِثَةِ مِن الجَدْوَلُ [neighbor]، نُجْرِي أَيْضاً تَجارِبِ لِتَحْلِيلِ تَأْثِيرِ عَدَدٍ الجِيرانِ. مِن ناحِيَةٍ، يُعَزِّز وُجُودِ عَدَدٍ كافٍ مِن الجِيرانِ تَنَوُّعِ المِيزاتِ. مِن ناحِيَةٍ أُخْرَى، قَد يُؤَدِّي تَضْمِينِ النَماذِجِ الأَوَّلِيَّةِ ذاتِ الاِرْتِباطِ الضَعِيفُ إِلَى إِدْخالُ الكَثِيرَ مِن الضَوْضاء أَثْناءَ عَمَلِيَّةِ التَدْرِيبِ وَيَقْلِل مِن قُدْرَةِ النَمُوذَجِ عَلَى إِدْراكٌ المِيزاتِ التمييزيه. القِياس الناعِم المُقْتَرَحِ يُقَدِّم إِيجابِيَّةً زَوْجَيْهِ لِضَبْطِ مُساهَمَةً النَماذِجِ الأَوَّلِيَّةِ المُخْتَلِفَةِ فِي العَيِّنَةُ المَرْجِعِيَّةِ فِي المُعادَلَةَ [coefficients]. نُطَبِّق مَقايِيسِ تُشابِه مُخْتَلِفَةٍ لِحِسابِ دَرَجَةِ الإِيجابِيَّةِ. كَما هُوَ مُوَضِّح فِي الجَدْوَلُ [function]، تَمَّ اِسْتِكْشافٍ أَرْبَع خِياراتٍ: المَسافَةِ المانْهاتَن (\(L_1\))، المَسافَةِ الأُقْلِيدِيَّة (\(L_2\))، التَشابُه الجِيْب التمامي، وَالمُنْتِجُ النقطي. يُظْهِر المُنْتِجِ النقطي أَداءِ مُتَفَوِّقا بِشَكْلٍ كَبِيرٍ مُقارَنَةً بِالإِسْتراتِيجِيّات الأُخْرَى وَيَسْتَخْدِم كَطَرِيقَتنا لَقِياس الإِيجابِيَّةِ. فَعّالِيَّةِ مُحاذاةِ المِيزاتِ. فِي الجَدْوَلُ [abl]، نُقَدِّم نَتائِجِ تَحْسِينِ الأَداءِ الَّتِي تَمَّ تَحْقِيقِها مِن خِلالَ تَقْلِيلِ التَحَيُّزِ فِي التَوْزِيعِ. بِالإِضافَةِ إِلَى ذٰلِكَ، أَجْرَيْنا مُقارَنَةً بَصَرِيّه بِاِسْتِخْدامِ t-SNE (van2008visualizing) فِي الشَكْلِ [tsnet]. تُشِير النَتائِجِ إِلَى أَنَّهُ بُعْدَ مُحاذاةِ تَوْزِيعات المِيزاتِ، يُمْكِن لِلنَمُوذَج تَوْلِيدِ مَجْمُوعاتٍ أَكْثَرَ تَماسُكاً مَعَ قابِلِيَّةِ فَصْلِ أَعْلَى بَيِّنَ المَجْمُوعاتِ. تَعْدِيلِ المُتَغَيِّر الدِينامِيكِيّ لِلإِزاحَة يُساعِد فِي تَخْفِيفِ الاِخْتِلافاتِ بَيِّنَ مِيزاتِ الحالاتِ مِن نَفْسِ الفِئَةِ، مِمّا يَجْعَل الحالاتِ الَّتِي تَنْتَمِي إِلَى نَفْسِ الفِئَةِ أَكْثَرَ تُشابِها. هٰذا بِدَوْرِهِ، يُسَهِّل عَلَى النَمُوذَجِ التَمْيِيزِ بَيِّنَ الحالاتِ مِن فِئاتِ مُخْتَلِفَةٍ بِدِقَّةٍ أَكْبَرَ.
تَحْلِيلِ العَوامِلُ الفائِقَةِ. نُجْرِي تَحْلِيلا لِحَسّاسَيْهِ العَوامِلُ الفائِقَةِ، بِتَغْيِيرِ قِيَمِ مِثْلَ (أَ) عَتَبَةِ \(\tau\) لَتَوْلِيد قِناع البُذُورِ 0-1. يُشِير الشَكْلِ [hyperparameter] (أَ) إِلَى أَنَّ القِيمَةِ الأَمْثَلُ لِ \(\tau\) هِيَ 0.1. بِالإِضافَةِ إِلَى ذٰلِكَ، نَفْحَص (ب) طُولِ مَجْمُوعَةِ الدَعْمِ، حَيْثُ وَجَدْنا أَنَّ مَجْمُوعَةِ أَكْبَرَ تُعَزِّز أَداءِ النَمُوذَجِ. الشَكْلِ [hyperparameter] (ب) يُوَضِّح ذٰلِكَ.

تَحْلِيلِ نَوْعِيٍّ

نَقُوم بِتَصَوُّرٍ مَناطِقِ الاِسْتِجابَةُ وَنَتائِجَ التَنَبُّؤ لِلوَعْي بِالنَماذِج الأَوَّلِيَّةِ فِي الشَكْلِ [fig31] (أَ). يُوَضِّح ذٰلِكَ بِوُضُوحٍ أَنَّ النَماذِجِ الأَوَّلِيَّةِ مُرْتَبِطَةً بِسِمات مُعَيَّنَةٍ لِلحالات. عَلَى سَبِيلِ المِثالِ، بِالنَظَرِ إِلَى الصُوَرِ (مَثَلاً، horse وَ cat)، يَتَوافَق كُلِّ نَمُوذَجَ أُولَى مَعَ أَجْزاءِ مُخْتَلِفَةٍ مِن الحالَةِ، مِمّا يُتِيح نمذجه أَفْضَلَ لِلتَبايُناتِ داخِلَ الفِئَةِ فِي الأَجْسام الدَلالِيَّة. فِي الشَكْلِ [fig31] (ب)، نَقُوم بِتَصَوُّرٍ دِراساتٍ اِسْتِقْطاع عَلَى مُكَوِّناتِ مُخْتَلِفَةٍ مِن طَرِيقَتِنا. عِنْدَ إِزالَةِ الوَعْيِ بِالنَمُوذَج الأُولَى (الإِيجابِيَّةِ وَالجِيران الأَعْلَى-\(K\))، يُنَشِّط النَمُوذَجِ مَناطِقِ بِشَكْلٍ خاطِئٍ تَتَشارَك بِقُوَّةٍ (مَثَلاً، train وَ railroad) أَو تُظْهِر مَظاهِرِ مُتَشابِهَةً (مَثَلاً، cat وَ dog)، مِمّا يَدُلّ عَلَى نَقْصِ فِي التَعَلُّمِ الدَقِيقِ وَالقُدْراتِ التمييزيه لِلمِيزات المُحَدَّدَةِ لِلحالَةِ. بِدُونِ خَسارَةِ الإِشْرافِ الذاتِيِّ \(\mathcal{L}^{Self}\)، يُظْهِر CAM تَحْتَ التَنْشِيط، مِمّا يُشِير إِلَى عَدَمِ كِفايَةِ تَعْلَم مِيزاتِ الفِئَةِ. تُشِير هٰذِهِ النَتائِجِ إِلَى أَنَّ طَرِيقَتِنا، مَعَ إِدْخالُ هٰذِهِ المُكَوِّناتِ، يُمْكِن أَنَّ تُدْرِك وَتُمَيِّز بِدِقَّةٍ أَكْبَرَ سِماتِ الفِئاتِ المُخْتَلِفَةِ.

مُقارَناتٍ بَيِّنَ طَرِيقَتِنا وَطُرُقِ WSSS الأُخْرَى. نَقُوم بِتَقْيِيم mIoU (%) عَلَى مَجْمُوعَةِ train مِن PASCAL VOC 2012 عَلَى المُسْتَوَياتِ: CAM، مَعَ CRF، وَالقِناع الزائِف.
الطَرِيقَةِ البِذْرَة مَعَ CRF القِناع
SEAM (wang2020self) 55.4 56.8 63.6
AdvCAM (lee2021anti) 55.6 62.1 68.0
CLIMS (xie2022clims) 56.6 - 70.5
SIPE (chen2022self) 58.6 64.7 68.0
ESOL (li2022expansion) 53.6 61.4 68.7
AEFT (yoon2022adversarial) 56.0 63.5 71.0
PPC (du2022weakly) 61.5 64.0 64.0
ReCAM (chen2022class) 54.8 60.4 69.7
Mat-Label (wang2023treating) 62.3 65.8 72.9
FPR (chen2023fpr) 63.8 66.4 68.5
LPCAM (chen2023extracting) 62.1 - 72.2
ACR (kweon2023weakly) 60.3 65.9 72.3
SFC (zhao2024sfc) 64.7 69.4 73.7
IRN (ahn2019weakly) 48.8 53.7 66.5
62.5 66.2 72.7
AMN (lee2022threshold) 62.1 66.1 72.2
+CPAL (لَنا) 65.7 68.2 74.1
MCTformer (xu2022multi) 61.7 64.5 69.1
+CPAL (لَنا) 66.8 69.3 74.7
CLIP-ES (lin2023clip) 70.8 - 75.0
+CPAL (لَنا) 71.9 - 75.8

[labelVOC]

مُقارَناتٍ مَعَ الطُرُقِ الحَدِيثَةِ

تَحْسِينِ خَرائِطِ التَحْدِيدِ: بِما أَنَّ الطَرِيقَةِ المُقْتَرَحَةِ CPAL لا تُعَدِّل هَنْدَسَةُ شَبَكَةِ CAM، فَهِيَ تُدْمِج فَرْعِ CPAL كَإِشْراف فِي طُرُقٍ مُتَعَدِّدَةِ. الجَدْوَلُ [labelVOC] يُعَرِّض نَتائِجِ تَطْبِيقِ CPAL عَلَى طُرُقٍ مَعْرُوفَةٍ مِثْلَ (ahn2019weakly)، (lee2022threshold)، (xu2022multi)، وَ(lin2023clip) وَيُظْهَر تَحْسِيناتٍ فِي خَرائِطِ التَحْدِيدِ عَلَى VOC 2012. عَلَى سَبِيلِ المِثالِ، دَمْجِ CPAL فِي (lee2022threshold) يُحَسِّن الأَداءِ بِنِسْبَةِ 3.6% فِي البُذُورِ وَ 2.1% فِي الأَقْنِعَة الزائِفَة. عِنْدَ دَمْجِ CPAL فِي نَمُوذَجَ (lin2023clip)، هُناكَ زِيادَةِ بِنِسْبَةِ 1.1% فِي البُذُورِ.

تَحْسِينِ نَتائِجِ التَجْزِئَةِ: الجَدْوَلُ [miou_results] يُظْهِر أَداءِ نَمُوذَجَ التَجْزِئَةِ الدَلالِيَّة المُدَرِّبِ بِالتَسْمِيات الزائِفَة الَّتِي تَمَّ إِنْشاؤها بِواسِطَةِ طَرِيقَتِنا. التَسْمِيات الزائِفَة تُسْتَخْدَم لِتَدْرِيبِ نَمُوذَجَ التَجْزِئَةِ DeepLabV2. المُقارَناتِ مَعَ الأَعْمالِ ذاتِ الصِلَةِ. يُحَقِّق تَرْكِيبنا (lee2022threshold)+CPAL نَتائِجِ رائِدَةٍ عَلَى VOC (mIoU بِنِسْبَةِ 72.5% عَلَى مَجْمُوعَةِ التَحَقُّقِ وَ 72.9% عَلَى مَجْمُوعَةِ الاِخْتِبارُ). عَلَى مَجْمُوعَةِ البَياناتِ MS COCO الأَكْثَرَ تَحَدِّيا، يَتَفَوَّق تَرْكِيبنا (xu2022multi)+CPAL (مَعَ ResNet-38 كَالعَمُود الفَقْرِيِّ) عَلَى النَتِيجَةُ الرائِدَةِ (lee2022threshold) وَجَمِيعِ الأَعْمالِ ذاتِ الصِلَةِ المَبْنِيَّةُ عَلَى ResNet-38. بِالنِسْبَةِ لِ(lin2023clip)، يُحَسِّن CPAL الأَداءِ (+1.4% mIoU عَلَى COCO val). هٰذِهِ النَتائِجِ المُتَفَوِّقَةِ عَلَى كُلّاً المَجْمُوعَتَيْنِ تُؤَكِّد فَعّالِيَّةِ CPAL لَدَينا، وَالَّتِي تَلْتَقِط بِدِقَّةٍ المِيزاتِ الدَلالِيَّة وَهَياكِلَ الأَجْسام.

الخُلاصَةِ

فِي هٰذا العَمَلِ، نَقْتَرِح إِسْتراتِيجِيَّةِ تَعْلَم جَدِيدَةٍ تَعْتَمِد عَلَى النَماذِجِ الأَوَّلِيَّةِ الواعِيَة بِالسِياق (CPAL) لِطُرُقِ WSSS، وَالَّتِي تَهْدِف إِلَى التَخْفِيفِ مِن التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ الحالاتِ والسياقات. تَقُوم هٰذِهِ الطَرِيقَةِ بِتَعْدِين خَصائِصِ المِيزاتِ الفَعّالَةَ فِي مَجْمُوعاتٍ السِياقِ وَتَخْتار وَتُعَدِّل النَماذِجِ الأَوَّلِيَّةِ لِلسِياق بِشَكْلٍ تَكَيُّفِي لِتَعْزِيزِ قُدْراتٍ التَمْثِيلِ. جَوْهَر طَرِيقَتِنا هُوَ الوَعْيِ بِالنَمُوذَج الأُولَى، وَالَّذِي يَتَحَقَّق مِن خِلالَ النَماذِجِ الأَوَّلِيَّةِ الواعِيَة بِالسِياق لَاِلْتِقاط التَبايُنِ داخِلَ الفِئَةِ وَمُحاذاة تَوْزِيعِ المِيزاتِ بِدِقَّةٍ. تُظْهِر التَجارِبِ المُوسِعَةِ تَحْتَ إِعْدادات مُخْتَلِفَةٍ أَنَّ الطَرِيقَةِ المُقْتَرَحَةِ تَتَفَوَّق عَلَى الطُرُقِ الحَدِيثَةِ الأُخْرَى، وَتَكْشِف الدِراساتِ التَجْرِيبِيَّة عَن فَعّالِيَّةِ CPAL لَدَينا.