إِسْتراتِيجِيّاتِ التَعَلُّمِ المُدْرِكَة لِلنَمُوذَج النَمَطِيّ: تَعْلَم مُدْرِكٌ لِلسِياق لِلتَجْزِئَة الدَلالِيَّة الضَعِيفَةُ التشرف

Feilong Tang

Zhongxing Xu

Zhaojun Qu

Wei Feng

Xingjian Jiang

Zongyuan Ge

latex

مُلَخَّصُ

تَسْعَى الطُرُقِ الحَدِيثَةِ لِلتَجْزِئَة الدَلالِيَّة الضَعِيفَةُ التشرف (WSSS) لَدَمْج المَعْرِفَةِ السياقيه لِتَحْسِينِ اِكْتِمالُ خَرائِطِ تَنْشِيطِ الفِئَةِ (CAM). فِي هٰذا العَمَلِ، نُجادِل بِأَنَّ التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ الحالاتِ والسياقات يُؤَثِّر عَلَى قُدْرَةِ النَمُوذَجِ النَمَطِيّ عَلَى فَهُم دَلالاتٍ الحالَةِ بِشَكْلٍ كافٍ. مُسْتَوْحاة مِن نَظَرِيَّةَ تَعْلَم النَمُوذَجِ النَمَطِيّ، نَقْتَرِح اِسْتِخْدامِ الوَعْيِ بِالنَمُوذَج النَمَطِيّ لَاِلْتِقاط سِماتِ الخَصائِص المُتَنَوِّعَةَ وَالدَقِيقَة لِلحالات. تَفْتَرِض الفَرْضِيَّة أَنَّ النَماذِجِ النَمَطِيَّة السياقيه قَد تَنْشُط بِشَكْلٍ خاطِئٍ فِئاتِ الأَشْياءَ المُتَشابِهَةَ وَالمُتَكَرِّرَة الحُدُوثِ بِسَبَبِ هٰذا التَحَيُّزِ المَعْرِفِيِّ. لِذٰلِكَ، نَقْتَرِح تَعْزِيزِ قُدْرَةِ تَمْثِيلِ النَمُوذَجِ النَمَطِيّ مِن خِلالَ التَخْفِيفِ مِن التَحَيُّزِ لَاِلْتِقاط التَغْطِيَةِ المَكانِيَّة بِشَكْلٍ أَفْضَلَ فِي مَناطِقِ الأَشْياءَ الدَلالِيَّة. بِهٰذا الهَدَفَ، نُقَدِّم إِسْتراتِيجِيَّةِ التَعَلُّمِ المُدْرِكَة لِلنَمُوذَج النَمَطِيّ السياقي (CPAL)، وَالَّتِي تَسْتَفِيد مِن السِياقِ الدَلالِيّ لَإِثْراء فَهُم الحالَةِ. جَوْهَر هٰذِهِ الطَرِيقَةِ هُوَ اِلْتِقاطِ التَبايُنات داخِلَ الفِئَةِ فِي مِيزاتِ الأَشْياءَ بِدِقَّةٍ مِن خِلالَ النَماذِجِ النَمَطِيَّة المُدْرِكَة لِلسِياق، مِمّا يُسَهِّل التَكَيُّفِ مَعَ السِمات الدَلالِيَّة لِمُخْتَلَفِ الحالاتِ. نَقُوم بِتَصْمِيمِ مُحاذاةِ تَوْزِيعِ المِيزاتِ لِتَحْسِينِ الوَعْيِ بِالنَمُوذَج النَمَطِيّ، مُحاذاةِ تَوْزِيعات مِيزاتِ الحالَةِ مَعَ المِيزاتِ الكَثِيفَةِ. بِالإِضافَةِ إِلَى ذٰلِكَ، يَتِمّ اِقْتِراحِ إِطارِ تَدْرِيبِ مُوَحَّدٍ لَدَمْج الإِشْرافِ التَصْنِيفِيّ المُوَجَّهِ بِالتَسْمِيات وَالإِشْراف الذاتِيِّ المُوَجَّهِ بِالنَماذِج النَمَطِيَّة. تُظْهِر النَتائِجِ التَجْرِيبِيَّة عَلَى PASCAL VOC 2012 وَ MS COCO 2014 أَنَّ CPAL يُحَسِّن بِشَكْلٍ كَبِيرٍ الطُرُقِ المُتاحَةِ وَيُحَقَّق أَداءِ رائِداً. المَشْرُوعِ مُتاحٌ فِي https://github.com/Barrett-python/CPAL.

مُقَدِّمَةِ

تُعْتَبَر التَجْزِئَةِ الدَلالِيَّة مُهِمَّةً أَساسِيَّةٍ فِي مَجالِ الرُؤْيَةِ الحاسُوبِيَّة. أَصْبَحَت التَجْزِئَةِ الدَلالِيَّة الضَعِيفَةُ التشرف (WSSS) نَهْجاً شائِعا فِي المُجْتَمَعِ، حَيْثُ تَتَعَلَّم مِن تَسْمِيات ضَعِيفَةٌ مِثْلَ تَسْمِيات مُسْتَوَى الصُورَةِ (kolesnikov2016seed, lee2021anti)، الخربشات (lin2016scribblesup,vernaza2017learning)، أَو مُرَبَّعاتٍ الحُدُودِ (dai2015boxsup,lee2021bbam,song2019box)، بَدَلاً مِن التَعْلِيقاتِ التوضيحيه عَلَى مُسْتَوَى البكسل. تُسْتَخْدَم مُعْظَمَ نَهْجٍ WSSS خَرائِطِ تَنْشِيطِ الفِئَةِ (zhou2016learning) لِتَوْفِيرِ إِشاراتٍ تَحْدِيدِ المَواقِعِ لِلأَهْداف، وَبِالتالِي تَرْسُم المَفاهِيمِ البَصَرِيَّةِ إِلَى مَناطِقِ البكسل.

المِفْتاحَ فِي WSSS هُوَ تَوْلِيدِ خَرائِطِ تَنْشِيطِ الفِئَةِ بِتَغْطِيَةِ أَفْضَلَ عَلَى الكائِنِ بِأَكْمَلِهِ. تَهْدِف الدِراساتِ الحَدِيثَةِ (chang2020weakly,sun2020mining,zhang2020inter,wang2023hunting) بِشَكْلٍ أَساسِيٌّ إِلَى تَحْسِينِ دِقَّةٍ تَجْزِئَةِ النَمُوذَجِ وَاِسْتِقْرارِهِ مِن خِلالَ دَمْجِ المَعْرِفَةِ السياقيه. مُسْتَوْحاة مِن تَقَدَّمَ تَعْلَم التَمْثِيلِ (fan2020learning,wu2021embedded)، تَقَدَّمَ بِعَضِّ الدِراساتِ (li2021group,su2021context,zhang2020causal,zhang2022multi) المَعْرِفَةِ السياقيه وَالمَعْرِفَةِ المثيليه لنمذجه السِياقِ عَلَى نِطاقِ عالَمِيٍّ لِتَحْلِيلِ الخَصائِص الدَلالِيَّة لِلمَثِيلات بِدِقَّةٍ أَكْبَرَ. لٰكِنَّها تَتَجاهَل تَحَدِّي التَبايُنِ الكَبِيرِ داخِلَ الفِئَةِ، أَيّ أَنَّ المَناطِقِ الَّتِي تَنْتَمِي إِلَى نَفْسِ الفِئَةِ قَد تُظْهِر مَظْهَرا مُخْتَلِفاً جِدّاً حَتَّى فِي نَفْسِ الصُورَةِ. يَجْعَل التَحَيُّزِ بَيِّنَ المَعْرِفَةِ السياقيه (المِيزاتِ العالَمِيَّةِ داخِلَ الفِئَةِ) وَالمَعْرِفَةِ المُحَدَّدَةِ لِلمَثِيل (المِيزاتِ الفَرِيدَة) نَقْلِ التَسْمِيات صَعْباً مِن مُسْتَوَى الصُورَةِ إِلَى مُسْتَوَى البكسل. فِي هٰذا العَمَلِ، نُجادِل بِأَنَّ تَخْفِيفِ التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ المَثِيلات والسياقات يُمْكِن أَنَّ يَلْتَقِط مَناطِقِ أَكْثَرَ دِقَّةٍ وَاِكْتِمالاً. عِلاوَةً عَلَى ذٰلِكَ، نُدْمَج إِشاراتٍ مُشَرِّفَةً إِضافِيَّةً لِتَسْرِيعِ تَخْفِيفِ التَحَيُّزات المَعْرِفِيَّة.

تَمْثِيلِ النَمُوذَجِ الأُولَى لِلفِئَةِ، مِن خِلالَ تَقْلِيلِ التَحَيُّزِ، أَظْهَرَ إِمْكاناته فِي الكَشْفِ عَن أَنْماطُ المِيزاتِ فِي خوارزميات التَعَلُّمِ القَلِيلُ الأَمْثِلَة مِثْلَ شَبَكَةِ النِقاطِ البَيانِيَّةِ الثُنائِيَّةِ الاِتِّجاهِ (liu2020prototype). تَنُصّ نَظَرِيَّةَ تَعْلَم النَماذِجِ الأَوَّلِيَّةِ (zhou2022rethinking,wang2019panet) عَلَى أَنَّ النَماذِجِ الأَوَّلِيَّةِ يُمْكِن أَنَّ تُمَثِّل المِيزاتِ المَحَلِّيَّةِ، العالَمِيَّةِ، أَو السِمات المُحَدَّدَةِ لِلكائِن. اِسْتِناداً إِلَى التَبايُنِ داخِلَ الفِئَةِ فِي مِيزاتِ الكائِنِ، يُمْكِن لِلنَمُوذَج الأُولَى لِلمَثِيل (chen2022self) أَنَّ يُمَيِّز بِشَكْلٍ دِينامِيكِيٍّ المِيزاتِ التمييزيه لِلصُورَةِ المُحَدَّدَةِ. عِلاوَةً عَلَى ذٰلِكَ، فَإِنَّ النَماذِجِ الأَوَّلِيَّةِ الَّتِي تُدْمِج المَعْرِفَةِ السياقيه (zhou2022regional) لَدَيها القُدْرَةِ عَلَى اِلْتِقاطِ أَنْماطُ دَلالِيّه فِئَوِيَّةٍ أَكْثَرَ تَحْدِيداً وَدِقَّة. تُمَكِّنها مِن اِلْتِقاطِ مِنْطَقَةِ الكائِنِ بِشَكْلٍ أَكْثَرَ اِكْتِمالاً مُقارَنَةً بِنَمُوذَجٍ أُولَى لَمَثِيل واحِدٍ. عَلَى الرَغْمِ مِن أَنَّ إِدْخالُ المَعْرِفَةِ السياقيه يُعَزِّز قُدْرَةِ النَماذِجِ الأَوَّلِيَّةِ عَلَى مُعالَجَةِ المَعْلُوماتِ الدَلالِيَّة، فَإِنَّ التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ المَثِيلات والسياقات يُؤَدِّي إِلَى تَنْشِيطِ النَماذِجِ الأَوَّلِيَّةِ لِفِئاتٍ مُتَشابِهَةً أَو مُتَزامِنَةٌ بِشَكْلٍ كَبِيرٍ (مَثَلاً، cat وَ dog).

فِي هٰذا العَمَلِ، نَقْتَرِح إِسْتراتِيجِيَّةِ تَعْلَم تَعْرِف بِالتَعَلُّم المُدْرِك لِلنَمُوذَج الأُولَى السياقي (CPAL) لَاِسْتِخْراج سِماتِ الكَفاءَة الفَعّالَةَ مِن هَيْكَلِ العُنْقُود السياقي. عَلَى وَجْهِ التَحْدِيدِ، نَسْتَكْشِف مَثِيلات أُخْرَى ذاتِ صِلَةٍ بِالصُورَة المُحَدَّدَةِ لِبِناءِ نَماذِجَ أَوَّلِيَّةً سياقيه كَجِيران مُرَشَّحِينَ. ثُمَّ يَتِمّ إِجْراءِ البَحْثِ عَن السِمات داخِلَ الفِئَةِ فِي مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ، مَعَ تَحْدِيدِ نَمُوذَجَ المَثِيل الحالِيَّ كَمَرْساه. فِي الوَقْتِ نَفْسِهِ، نُصَمِّم دَرَجَةِ إِيجابِيَّةً زَوْجَيْهِ تَدُلّ عَلَى الاِرْتِباطِ بَيِّنَ السِمات، بِهَدَفِ تَحْدِيدِ النَماذِجِ الأَوَّلِيَّةِ السياقيه (أَيّ، الجِيرانِ الناعِمَيْنِ) المُرْتَبِطَةِ اِرْتِباطا وَثِيقاً بِالسِمَة الحالِيَّةِ. بُعْدَ تَطْبِيقِ دَرَجَةِ الإِيجابِيَّةِ المَعْنِيَّةِ، يَتِمّ تَعْدِيلِ مُساهَماتِ هٰذِهِ النَماذِجِ فِي المَثِيل المِرْساة بِشَكْلٍ دِينامِيكِيٍّ، مِمّا يُخَفِّف بِشَكْلٍ صَرِيحٍ التَحَيُّزات المُرْتَبِطَةِ بِالتَنَوُّع داخِلَ الفِئَةِ وَسِمات المَثِيل.

جَوْهَر طَرِيقَتِنا هُوَ الوَعْيِ بِالنَمُوذَج الأُولَى. نَقِيس بِلُطْف المَسافَةِ بَيِّنَ النَمُوذَجِ الأُولَى لِلمَثِيل وَالنَمُوذَجُ الأُولَى السياقي لَإِدْراك سِماتِ المَثِيل. لَتَقْدِير قَوِيٍّ، يَتِمّ اِقْتِراحِ بُنُوك الدَعْمِ الفِئَوِيَّةِ لِلتَغَلُّبِ عَلَى القُيُودِ عَلَى الدُفْعات الصَغِيرَةِ، بِحَيْثُ يُمْكِن مُلاحَظَةُ تَنَوُّعِ المِيزاتِ داخِلَ الفِئَةِ بِطَرِيقَةٍ مِن المِيزَة إِلَى البَنْكِ حَيْثُ يُمْكِن تَقْرِيبِ تَوْزِيعِ الفِئَةِ عالَمِيّاً. وَمَعَ ذٰلِكَ، بِسَبَبِ الكَمِّيَّةِ المَحْدُودَةَ مِن مِيزاتِ المَثِيل، هُناكَ تَحِيز نِسْبِيٍّ لِتَوْزِيعِ المِيزاتِ السياقيه، مِمّا يُؤَثِّر عَلَى الوَعْيِ الدَقِيقِ بِالمَثِيل. لِذٰلِكَ، نَقْتَرِح مُحاذاةِ تَوْزِيعِ المِيزاتِ مِن خِلالَ إِدْخالُ مُصْطَلَحُ تَحَوَّلَ \(\delta\) إِلَى مِيزاتِ المَثِيل النادِرَةِ، دافِعاً إِيّاها نَحْوَ تَوْزِيعِ المِيزاتِ الكَثِيفِ لِبَنْكِ الدَعْمِ الفِئَوِيّ.

فِي مَجْمُوعاتٍ بَياناتٍ PASCAL VOC 2012 (everingham2010pascal) وَ MS COCO 2014 (lin2014microsoft)، نُقِيم طَرِيقَتِنا فِي إِعْدادات WSSS المُخْتَلِفَةِ، حَيْثُ تَحَقَّقَ نَهْجنا أَداءِ رائِداً. تَتَلَخَّص المُساهَماتِ عَلَى النَحْوِ التالِي:

الأَعْمالِ ذاتِ الصِلَةِ

التَجْزِئَةِ الدَلالِيَّة المُشَرِّفِ عَلَيها بِشَكْلٍ ضَعِيفِ بِاِسْتِخْدامِ تَسْمِيات عَلَى مُسْتَوَى الصُورَةِ تُولَد عادَةً خَرائِطِ الفَعّالِيَّة الدَلالِيَّة كَبَذْره لَتَوْلِيد تَسْمِيات زائِفه عَلَى مُسْتَوَى البكسل. العَيْبِ النَمُوذَجِيّ لَخَرائِط الفَعّالِيَّة الدَلالِيَّة هُوَ فَعّالِيَّتها غَيْرِ الكامِلَةِ وَغَيْرِ الدَقِيقَةِ. لِمُعالَجَةِ هٰذا العَيْبِ، اِقْتَرَحَت الأَعْمالِ الحَدِيثَةِ مُخَطَّطاتٌ تَدْرِيبِ مُتَنَوِّعَةٍ، مِثْلَ المَحْو العَدائِيّ (kweon2021unlocking,yoon2022adversarial,sun2021ecs,kweon2023weakly)، وَنُمُوِّ المِنْطَقَةِ (huang2018weakly,wei2018revisiting)، وَاِسْتِكْشاف قُيُودٍ الحُدُودِ (rong2023boundary,chen2020weakly,lee2021railroad). يُرَكِّز نَمُوذَجَ التَعَلُّمِ وَالاِسْتِدْلالُ لِلصُورَةِ الفَرْدِيَّةِ (araslanov2020single,lee2021railroad) عَلَى فَهُم أَعْمَقُ لِلمِيزات داخِلَ صُورَةِ فَرْدِيَّةٍ لَتَوْلِيد خَرائِطِ فَعّالِيَّةِ دَلالِيّه أَكْثَرَ اِكْتِمالاً. يَقُوم SIPE (chen2022self) بِاِسْتِخْراج النَماذِجِ الأَوَّلِيَّةِ المُخَصَّصَةِ لَمِيزات مُتَعَدِّدَةِ الأَحْجام لِتَوْسِيعِ خَرائِطِ تَحْدِيدِ مَواقِعِ الكائِنات الخَشِنَة لِلحُصُولِ عَلَى مَدَى كامِلٍ لِمَناطِقِ الكائِنات.

بَيْنَما اِعْتَبَرَت الجُهُودِ السابِقَةِ كُلِّ صُورَةِ عَلَى حِدَّةِ، تُرَكِّز الأَعْمالِ الحَدِيثَةِ عَلَى الحُصُولِ عَلَى سِياقِ دَلالِي غَنِيٍّ بَيِّنَ الصُوَرِ المُخْتَلِفَةِ فِي مَجْمُوعَةِ البَياناتِ. تَتَناوَل الأَعْمالِ الحَدِيثَةِ (sun2020mining,fan2020cian) التَنْقِيبِ الدَلالِيّ بَيِّنَ الصُوَرِ مِن خِلالَ التَرْكِيزِ عَلَى اِلْتِقاطِ العَلاقاتِ الزَوْجِيَّةَ بَيِّنَ الصُوَرِ. وَتَقُوم (li2021group,zhang2022multi,du2022weakly) بِأَداء التَنْقِيبِ الدَلالِيّ عالِي التَرْتِيبِ لِلعَلاقاتِ الأَكْثَرَ تَعْقِيداً داخِلَ مَجْمُوعَةِ مِن الصُوَرِ. فِي الوَقْتِ نَفْسِهِ، مِن أَجْلِ تَعْزِيزِ عَلاقَةَ التَمْثِيلِ لِلفَضاءِ المُمَيَّزِ (اِسْتِكْشافٍ أَنْماطُ الكائِنات عَلَى مَجْمُوعَةِ البَياناتِ بِأَكْمَلِها)، تَقَدَّمَ RCA (zhou2022regional) بَنْكِ ذاكِرَةِ لَتَخْزِين مِيزاتِ الفِئَةِ عالِيَةٍ الجُودَةِ وَأَداء نمذجه السِياقِ. اِقْتَرَحَ CPSPAN (jin2023deep) مُحاذاةِ تَمْثِيلِ المِيزاتِ لِلحالات المُزْدَوِجَةِ تَحْتَ وُجُهاتِ نَظَرِ مُخْتَلِفَةٍ، وَتَمَّت أَيْضاً إِدْخالُ هٰذِهِ المُحاذاة فِي تَوْزِيعِ البَياناتِ تَحْتَ سياقات مُخْتَلِفَةٍ (zhao2023dual). عَلَى عَكْسَ الأَعْمالِ السابِقَةِ حَوْلَ تَطْبِيقِ المَعْرِفَةِ السياقيه، يُمْكِن لَطَرِيقَتنا أَنَّ تُدْرِك بِشَكْلٍ تَكَيُّفِي السِمات الدَلالِيَّة وَالاِخْتِلافات داخِلَ الفِئَةِ، مِمّا يُؤَدِّي إِلَى مَناطِقِ تَنْشِيطِ أَكْثَرَ اِكْتِمالاً لَخَرائِط الفَعّالِيَّة الدَلالِيَّة.

التَعَلُّمِ المَبْنِيَّ عَلَى النَماذِجِ الأَوَّلِيَّةِ تَمَّ دِراسَتَهُ جَيِّداً فِي التَعَلُّمِ بِعَدَدٍ قَلِيلٍ مِن الأَمْثِلَة (snell2017prototypical,snell2017prototypical)، وَالتَعَلُّمِ بِدُونِ أُمَثِّله (he2019dynamic) وَالتَعَلُّمِ غَيْرِ المُشَرِّفِ عَلَيهِ (xu2020attribute). مِن الجَدِيرِ بِالذَكَر أَنَّ العَدِيدَ مِن نَماذِجَ التَجْزِئَةِ يُمْكِن اِعْتِبارِها شَبَكاتِ تَعْلَم مَبْنِيَّةٌ عَلَى النَماذِجِ الأَوَّلِيَّةِ (wang2019panet, liu2020part, xu2022semi, zhou2022rethinking, ge2023soft)، مِمّا يَكْشِف عَن إِمْكانِيَّةَ التَطْبِيقِ فِي تَجْزِئَةِ الصُوَرِ. اِقْتَرَحَ (du2022weakly) طَرِيقَةِ تَعْلَم مِقْياسَيْهِ مَبْنِيَّةٌ عَلَى النَماذِجِ الأَوَّلِيَّةِ تَفْرِض الاِتِّساق عَلَى مُسْتَوَى المِيزاتِ فِي المُقابَلاتِ وَتَنْظِيمِ داخِلِيٌّ وَبَيْنِي. يَسْتَخْدِم LPCAM (chen2023extracting) التَعَلُّمِ المَبْنِيَّ عَلَى النَماذِجِ الأَوَّلِيَّةِ لَاِسْتِخْراج مِيزاتِ غَنِيَّةٌ لِلكائِنات أَيْضاً. فِي عَمَلِنا، نَتَعَلَّم سِماتِ المِيزاتِ الفَعّالَةَ ضِمْنَ هَيْكَلِ التَجْمِيع لِلسِياق لنمذجه مِيزاتِ الكائِنات المُتَنَوِّعَةَ عَلَى مُسْتَوَى دَقِيقٍ.

المَنْهَجِيَّة

يَقُوم نِظامِ التَعَلُّمِ الضِمْنِيُّ لِلتَصْنِيفِ بِتَدْرِيبِ شَبَكَةِ التَصْنِيفِ أَوَّلاً لِتَحْدِيدِ مِنْطَقَةِ الكائِنِ المُقابَلَةِ لِكُلِّ فِئَةٌ، ثُمَّ يَتِمّ تَنْقِيحها لَتَوْلِيد تَسْمِيات زائِفه كَمُشْرِفَيْنِ عَلَى شَبَكَةِ التَجْزِئَةِ الدَلالِيَّة. يَتِمّ بِناءَ الإِطارِ عَلَى أَساسِ شَبَكَةِ التَصْنِيفِ، كَما هُوَ مُوَضِّح فِي القِسْمِ [3.1]. يَتَكَوَّن مِن إِشارَتَيْنِ إِشْرافِيَّتَيْنِ: خَسارَةِ التَصْنِيفِ وَالخَسارَةِ الذاتِيَّةِ الإِشْرافِيَّة. يُشَجِّع نَهْجنا عَلَى الاِتِّساق بَيِّنَ الخَرِيطَةِ الفِئَوِيَّةِ المُتَوَقَّعَةِ مِن خِلالَ التَعَلُّمِ الواعِي لِلنَمُوذَج وَالمُصَنَّف، مِمّا يَحْفِز النَمُوذَجِ بِشَكْلٍ ضِمْنِيٍّ عَلَى تَعْلَم مِيزاتِ أَكْثَرَ تَمْيِيزاً. نَحْنُ ننمذج النَمُوذَجِ الأُولَى لِلحالَةِ كَمَرْساه وَنَسْتَخْرِج نَماذِجَ أَوَّلِيَّةً سياقيه مِن بَنْكِ الدَعْمِ كَمَجْمُوعَةٍ مُرَشَّحَةٌ لِلجِيران، وَالَّتِي يَتِمّ وَصَفَها فِي القِسْمِ [3.2]. جَوْهَر مَنْهَجنا هُوَ الوَعْيِ بِالنَمُوذَج الأُولَى لَاِلْتِقاط التَبايُنات داخِلَ الفِئَةِ، كَما هُوَ مُفَصَّلٍ فِي القِسْمِ [3.3]. نَقِيس بِلُطْف إِيجابِيَّةً كُلِّ جارَ مُرَشَّحِ عَلَى الحالَةِ الحالِيَّةِ، نَقُوم بِتَصْفِيَةِ الجِيرانِ اِنْتِقائِيّا وَنُعَدِّل مُساهَماتهم. فِي الوَقْتِ نَفْسِهِ، يُوَجِّه مُحاذاةِ تَوْزِيعِ المِيزاتِ مِيزاتِ الحالَةِ الحالِيَّةِ نَحْوَ مَرْكَزِ العُنْقُود لِلمِيزات الكَثِيفَةِ فِي البَنْكِ.

نَمُوذَجَ التَحْسِين الذاتِيِّ المُشَرِّفِ

تَحْسِينِ الشَبَكَةِ. يُبْنَى إِطارِ عَمَلِنا عَلَى شَبَكَةِ تَصْنِيفِ، مُسْتَخْدَمِينَ هٰذِهِ الشَبَكَةِ \(\theta\) لَاِسْتِخْراج إِشْرافٍ فَعّالٌ مِن تَسْمِيات الصُوَرِ، مُلْتَقِطَيْنِ مَناطِقِ الكائِنِ لِكُلِّ فِئَةٌ (\(i.e.,\) خَرائِطِ التَنْشِيط الفِئَوِيّ). نَقْتَرِح تَعْلَم النَمُوذَجِ الأُولَى السياقي لَتَوْلِيد خَرِيطَةِ التَنْشِيط الفِئَوِيّ الأُولَى الأَكْثَرَ اِكْتِمالاً (PACAM)، موفرين إِشاراتٍ إِشْرافَيْهِ إِضافِيَّةً لَخَرِيطَة التَنْشِيط الأَوَّلِيَّةِ وَتَشْكِيلِ نَمُوذَجَ ذاتِيٍّ الإِشْرافِ. العُنْصُرُ الأَساسِيُّ لِهٰذا النَمُوذَجِ هُوَ تَنْظِيمِ الاِتِّساق، مِمّا يُقَلِّل بِشَكْلٍ ضِمْنِيٍّ المَسافَةِ المُمَيَّزَةِ بَيِّنَ البكسلات التمييزيه وَالمَفْقُودَة، مُشَجِّعاً النَمُوذَجِ عَلَى تَعْلَم مِيزاتِ أَكْثَرَ اِتِّساقاً وَتَمَيَّزا. هٰذا التَعْدِيلِ البَسِيطِ يُؤَدِّي إِلَى تَحْسِيناتٍ كَبِيرَةٍ. دالَّةٍ الخَسارَةِ المُوَحَّدَةِ تَحَسُّنِ النَمُوذَجِ: \[\label{coefficients} \mathcal{L}=\lambda_{BCE}\mathcal{L}^{{BCE}}+\lambda_{Self}\mathcal{L}^{ {Self}}\] حَيْثُ \(\lambda_{BCE}\) وَ \(\lambda_{Self}\) هُما مُعامَلاتِ، \(\mathcal{L}^{{BCE}}\) هِيَ خَسارَةِ التَصْنِيفِ، وَ \(\mathcal{L}^{ {Self}}\) هِيَ الخَسارَةِ الذاتِيَّةِ الإِشْرافِيَّة. الخَسائِرِ مَوْصُوفَةً بِالتَفْصِيلِ فِي الأَقْسام التالِيَةِ.

خَسارَةِ التَصْنِيفِ وَخَرائِط التَنْشِيط الفِئَوِيّ. كُلِّ صُورَةِ تَدْرِيبِ \(I \in \mathbb{R}^{w \times h \times 3}\) فِي مَجْمُوعَةِ البَياناتِ \(\mathcal{I}\) مُرْتَبِطَةً فَقَط بِمُتَّجِه تَسْمِيَةِ عَلَى مُسْتَوَى الصُورَةِ \(\boldsymbol{y}=\{y_n\}^N_{n=1} \in \{0,1\}^N\) لِ \(N\) هِيَ فِئاتِ مُحَدَّدَةٍ مُسْبَقاً. يَقْتَرِح CAM لِتَحْدِيدِ مَواقِعِ الكائِنات الأَمامِيَّةِ مِن خِلالَ تَدْرِيبِ شَبَكَةِ تَصْنِيفِ. يَأْخُذ CAM صُورَةِ دَفْعَةً صَغِيرَةٌ \(I\) كَمَدْخَلٍ لَاِسْتِخْراج خَرائِطِ المِيزاتِ \(f\in \mathbb{R}^{W \times H \times D}\)، ب \(D\) قَنَواتٍ وَحَجْمُ مَكانِي \(H \times W\). لِتَقْرِيبِ الفَجْوَةِ بَيِّنَ مُهِمَّةً التَصْنِيفِ وَمُهِمَّةً التَجْزِئَةِ، يَتِمّ اِسْتِخْدامِ وَزْنِ المُصَنَّفُ \(\mathbf{w}_n\) وَطَبَقَة التَجْمِيع المُتَوَسِّطِ العالَمِيِّ (GAP) لِإِنْتاجِ تَنَبُّؤ اللوجيت \(\hat{y}_i \in \mathbb{R}^N\). أَثْناءَ التَدْرِيبِ، يَسْتَخْدِم الخَسارَةِ التبادليه الثُنائِيَّةِ كَما يَلِي: \[\mathcal{L}^{BCE}=\frac{1}{N} \sum_{i=1}^N y_i \log \sigma\left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\sigma\left(\hat{y}_i\right)\right),\] حَيْثُ \(\sigma(\cdot)\) هِيَ الدالَّةِ السيجمويديه. لِلحُصُولِ عَلَى مَعْلُوماتٍ تَقْرِيبِيّه عَن المَوْقِعِ لِلخَلْفِيَّة وَالأَمام. يُمْكِن تَمْثِيلِ خَرِيطَةِ التَنْشِيط الفِئَوِيّ \({M}_{\boldsymbol{f}}=\left\{{M}_n\right\}_{n=1}^N\) عَلَى \(N\) فِئاتِ إِمامَيْهِ كَما يَلِي: \[{M}_{n}=\frac{\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)}{\max \left(\operatorname{ReLU}\left(\boldsymbol{\mathbf{w}_n^{\top} f}\right)\right)}, \quad \forall n \in N.\] مَعَ الأَخْذِ فِي الاِعْتِبارِ أَهَمِّيَّةً الخَلْفِيَّةِ فِي مُهِمَّةً التَجْزِئَةِ، نَتْبَع (wang2020self) لَتَقْدِير خَرِيطَةِ تَنْشِيطِ الخَلْفِيَّةِ \({M}_{b}=1-\max_{1 \leq n \leq N} M_n\) اِسْتِناداً إِلَى \(M_f\). نَجْمَع خَرِيطَةِ تَنْشِيطِ الخَلْفِيَّةِ المُعالَجَةِ مَعَ خَرِيطَةِ تَنْشِيطِ الأَمامِ كَكُلٍّ، i.e. \({M} = M_f \cup M_b\)، لِمُساعَدَةِ النَمُوذَجِ عَلَى فَهُم المَعْرِفَةِ الخَلْفِيَّةِ.

نمذجه النَمُوذَجِ الأُولَى

مُسْتَوْحاة مِن التَعَلُّمِ القائِمِ عَلَى النَماذِجِ الأَوَّلِيَّةِ، تَهْدِف إِسْتراتِيجِيَّتنا لِلوَعْي بِالنَماذِج الأَوَّلِيَّةِ إِلَى اِسْتِكْشافٍ الخَصائِص بِشَكْلٍ فَعّالٌ ضِمْنَ مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ. نَقْتَرِح إِجْراءِ بَحَثَ عَن النَمُوذَجِ الأُولَى ضِمْنَ مَجْمُوعَةِ النَماذِجِ الأَوَّلِيَّةِ السياقيه لِكُلِّ فِئَةٌ، مَوْقِعاً النَمُوذَجِ الأُولَى لِلحالَةِ الحالِيَّةِ كَمَرْساه لِتَعْزِيزِ فَهُم خَصائِصِ الحالَةِ.

نمذجه النَمُوذَجِ الأُولَى لِلحالَةِ كَمَرْساه. لِكُلِّ صُورَةِ \(I\)، يَتِمّ تَعْيِينِ خَرائِطِ المِيزاتِ إِلَى فَضاءِ الإِسْقاط \(z=v(f)\) بِواسِطَةِ رَأْسِ الإِسْقاط \(v\) لنمذجه النَمُوذَجِ الأُولَى لِلحالَةِ. يُمَثِّل كُلِّ نَمُوذَجَ أُولَى لِلحالَةِ الدَلالات الإِقْلِيمِيَّةِ لِلفِئات المُلاحَظَةُ فِي \(I\) اِسْتِناداً إِلَى \(M\). عَلَى وَجْهِ التَحْدِيدِ، بِالنِسْبَةِ لِلفِئَةِ \(n\)-th الَّتِي تُظْهِر فِي \(I\) (\(i.e.,\) \(y_c=1\))، يَتِمّ تَلْخِيصُ مِيزاتها المَعْرُوضَةِ إِلَى مُتَّجِه \(\mathcal{P}^{I}_n \in \mathbb{R}^D\) بِواسِطَةِ التَجْمِيع المُتَوَسِّطِ المُقْنِع (MAP) (siam2019amp): \[\mathcal{P}^{I}_n=\frac{\sum_{x=1, y=1}^{W, H} \textbf{P}_n(x,y) * z(x,y)}{\sum_{x=1, y=1}^{W, H} \textbf{P}(x,y)}, \label{tau}\] حَيْثُ \(\textbf{P}_n= \mathbbm{1}\left({M}_n>\tau\right) \in \{0,1\}^{W \times H}\) هُوَ قِناع ثُنائِيٍّ، يُؤَكِّد فَقَط عَلَى البكسلات المُنَشِّطَة بِقُوَّةٍ لِلفِئَةِ \(n\) فِي خَرِيطَةِ التَنْشِيط. \(\mathbbm{1}(\cdot)\) هِيَ دالَّةٍ مُؤَشِّرُ، وَالعَتَبَة \(\tau\) هِيَ مُعَلِّمَةُ فائِقه وَتَدُلّ عَلَى عَتَبَةِ دَرَجَةِ الثِقَةِ. هُنا، \(\mathcal{P}^{I}_n\) مَضْغُوط وَخَفِيف، مِمّا يَسْمَح بِالاِسْتِكْشاف القابِل لِلتَطْبِيقِ لَعَلاقاته مَعَ العَدِيدَ مِن العَيْنات الأُخْرَى وتموضعه كَمَرْساه.

نمذجه النَماذِجِ الأَوَّلِيَّةِ السياقيه كَجِيران مُرَشَّحِينَ. نَفْتَرِض أَنَّ المِيزاتِ الفِئَوِيَّةِ داخِلَ الصُوَرِ أَو الدُفْعات تُوَفِّر فَقَط نَظْرَةٌ مَحْدُودَةٍ لِلفِئَةِ. لِذٰلِكَ، نَسْتَخْدِم بَنْكِ الدَعْمِ كَمَجْمُوعَةٍ مُرَشَّحَةٌ \(\mathcal{C}\)، حَيْثُ يَكُون كُلِّ عُنْصُرٍ هُوَ النَمُوذَجِ الأُولَى السياقي لِفِئاتٍ مُخْتَلِفَةٍ. عِنْدَ اِسْتِخْدامِ دُفْعاتٍ العَيْنات لِتَدْرِيبِ الشَبَكَةِ، نَخَزْنَ نَماذِجها الأَوَّلِيَّةِ \(\mathcal{P}^{I}_n\) فِي \(\mathcal{C}\) وَنَسْتَخْدِم إِسْتراتِيجِيَّةِ الأَوَّلِ الداخِلِ أَوَّلِ الخارِجِ لِتَحْدِيثِ مَجْمُوعَةِ المُرَشَّحِينَ. تُحافِظ هٰذِهِ المَجْمُوعَةِ عَلَى طُولِ نِسْبِيّاً كَبِيرٍ لِكُلِّ فِئَةٌ نَمُوذَجَ أُولَى لِتَوْفِيرِ نَماذِجَ أَوَّلِيَّةً سياقيه مُحْتَمَلَةٍ بِشَكْلٍ كافٍ. اِسْتِناداً إِلَى هٰذِهِ المَجْمُوعَةِ، يَتِمّ تَطْبِيقِ تَجْمِيعِ \(\mathrm{k}\)-means عَبْرَ الإِنْتِرْنِت لَتَنْقِيح كُلِّ فِئَةٌ إِلَى مَجْمُوعاتٍ نَمُوذَجَ أُولَى مَجْمَعه \(\mathcal{G}=\left\{G_i\right\}_{i=1}^{N_p}\) لِكَشْفِ الخَصائِص العَمِيقَةِ لِكُلِّ فِئَةٌ. نَقُوم بِعَمَلِيّاتِ التوسيط عَلَى كُلِّ مَجْمُوعَةِ نَمُوذَجَ أُولَى مَجْمَعه مِن \(\mathcal{G}\) لَتَوْلِيد \(N_p\) جِيران مُرَشَّحِينَ \(\mathbf{p}_i\) كَما يَلِي: \[\mathbf{p}_i=\frac{1}{\left|G_i\right|} \sum_{\mathbf{r}_j \in G_i} \mathbf{r}_j,\] حَيْثُ \(\mathbf{r}_j\) يُشِير إِلَى النَمُوذَجِ الأُولَى \(j\)-th الَّذِي يَنْتَمِي إِلَى مَجْمُوعَةِ العُنْقُود \(i\)-th \(G_i\). \(\mathbf{p}_i\) يُمَثِّل النَمُوذَجِ الأُولَى السياقي \(i\)-th لِمَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\).

التَعَلُّمِ المُدْرِك لَنَمُوذَج السِياقِ

مَعَ نَماذِجَ الرَبْطِ الأَساسِيَّةِ وَمَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ مِن القِسْمِ [3.2]، تُدْرِك مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ أَو تَدْعَم مِيزَةً الرَبْطِ. يُمْكِن لِلتَعَلُّمِ المُدْرِك لَنَمُوذَج السِياقِ قِياسُ وَضَبْطُ مَدَى هٰذا الدَعْمِ.

تَحْدِيدِ الجار الإِيجابِيِّ الناعِم. اِخْتِيارِ النَمُوذَجِ أَمْرٌ حاسِمٍ فِي نَهْجنا المُقْتَرَحِ حَيْثُ يُحَدِّد إِلَى حَدٍّ كَبِيرٍ جُودَة الإِشْرافِ. يُمْكِن لَنَماذِج الحالاتِ تَمْثِيلِ الصِفاتِ الفِئَوِيَّةِ لِلصُورَةِ الحالِيَّةِ بِشَكْلٍ خاصٍّ، بَيْنَما تُظْهِر نَماذِجَ السِياقِ أَنْماطُ فِئَوِيَّةٍ أَكْثَرَ شُمُولاً وَتَنَوُّعاً. تُسْتَخْدَم إِسْتراتِيجِيَّتنا دَرَجاتٍ الإِيجابِيَّةِ \(w_i\) لَقِياس صِلَةٍ الجِيرانِ المُرَشَّحِينَ فِي الفِئَةِ بِصِفات الحالَةِ الحالِيَّةِ. نَقْتَرِح اِخْتِيارِ أَعْلَى \(K\) جِيران مُعَدَّلَيْنِ بِدَرَجات الإِيجابِيَّةِ، المَوْجُودِينَ بِالقُرْبِ مِن الرَبْطِ. يُمْكِن صِياغَةِ الجار الإِيجابِيِّ الناعِم كَما يَلِي: \[\tilde{\mathcal{P}}_n^{\text {c}}=\left\{w_i \mathbf{p}_{\mathbf{i}}: i \in \underset{i \in N_p}{ \arg \max }\left(d\left(w_i \mathbf{p}_{\mathbf{i}}, \mathcal{P}_n^I\right), \text { top } =K\right)\right\} \label{value_K}\] حَيْثُ \(d()\) تَدُلّ عَلَى التَشابُه الجَيْبِيّ التمامي كَمِقْياس مَحْسُوب، وَ\(\tilde{\mathcal{P}}^{c}_n\) يُمَثِّل أَعْلَى \(K\) نَماذِجَ واعِيَةٌ بِالسِياق مُصَمِّمَةً لِلحالَةِ الحالِيَّةِ.

تَوَقُّعاتٍ الإِيجابِيَّةِ. لَقَد صَمَّمْنا دَرَجاتٍ إِيجابِيَّةً زَوْجَيْهِ لَقِياس (بِشَكْلٍ غَيْرِ ثُنائِيٍّ) الصِلَةِ بَيِّنَ نَمُوذَجَ الحالَةِ وَالجِيران المُرَشَّحِينَ فِي نَفْسِ الفِئَةِ. بِالنِسْبَةِ لَزَوْج النَمُوذَجِ (\(\mathbf{p}_i\) , \(\mathcal{P}^I_{n}\))، يُمْكِن حِسابِ دَرَجَةِ الإِيجابِيَّةِ \(w_{i}\) كَما يَلِي: \[w_i=\frac{1}{\gamma_i} \texttt{softmax}\left[l_1\left(\mathbf {\mathcal{P}}^{I}_n\right) \times l_2\left(\mathbf {p}_i\right)^{\top}\right], \quad {\mathbf{p}}_{i} \in {\mathcal{P}}^{c}_n, \label{eq7}\] حَيْثُ \(l_1(\cdot)\) وَ\(l_2(\cdot)\) هُما طَبَقاتِ تَحْوِيلِ مِيزاتِ خالِيَةً مِن المُعامَلاتِ. \(\gamma_i\) هُوَ عامِلٍ تَحْجِيم لِضَبْطِ دَرَجَةِ الإِيجابِيَّةِ \(w_i\). تَمَّ اِسْتِكْشافٍ هَياكِلِ مُخْتَلِفَةٍ لِلدَرَجَةِ \(w_{i}\) فِي القِسْمِ [Ablation].

الاِدِّعاءِ 1. نَفْتَرِض أَنَّنا نُدَرِّب نَمُوذَجَ \(\theta\) بِاِسْتِخْدامِ طَرِيقَةِ التَحْسِين المُقْتَرَحَةِ، \(\mathcal{P}_n^I\) وَ\(\tilde{\mathcal{P}}_n^c\) هُما نَمُوذَجَ الحالَةِ الحالِيَّةِ لِلفِئَةِ النَوْعِيَّةِ وَنَماذِجِ السِياقِ عَلَى التَوالِي. يُمْكِن التَعْبِيرِ عَن القِيمَةِ الأَمْثَلُ لَمِقْياس التَشابُه \(s_i^*\) ك \(\frac{w_{i}}{\sum_{k=1}^{K} w_{k}}\)، حَيْثُ \(w_{i}\) هِيَ دَرَجَةِ الإِيجابِيَّةِ المُقابَلَةِ لَزَوْج النَمُوذَجِ (\(\mathcal{P}_n^I, \quad {\mathbf{p}}_{i} \in {\tilde{\mathcal{P}}}_n^{c}\)) فِي المُعادَلَةَ [eq7].

يُمْكِن العُثُورِ عَلَى البُرْهانُ فِي المُلْحَقِ A. يُشِير الاِدِّعاءِ 1 إِلَى أَنَّنا نُحْسِن النَمُوذَجِ لَتَعْظِيم التَشابُه بَيِّنَ نَمُوذَجَ السِياقِ وَالحالَة الحالِيَّةِ مِن نَفْسِ الفِئَةِ بِنِسْبَةِ مُباشَرَةً إِلَى دَرَجَةِ الإِيجابِيَّةِ المُقابَلَةِ. نَحْنُ نَنْقُل المَعْرِفَةِ بِفَعّالِيَّةٍ مِن الفَرْعِ الذاتِيِّ الإِشْرافِ إِلَى النَمُوذَجِ، فَضْلاً عَن أَداءِ النَمُوذَجِ العامِّ وَقُدْراته عَلَى التَعْمِيمِ.

مُحاذاةِ تَوْزِيعِ المِيزاتِ. تُشَكِّل المِيزاتِ المُتَفَرِّقَة (hoefler2021sparsity) وَتَنَوُّعٍ الفِئَةِ الداخِلِيِّ تَحَدِّياتٍ لِتَمْثِيلِ المِيزاتِ المُحَدَّدَةِ لِلفِئَةِ بِدِقَّةٍ، مِمّا يُعِيق التَمْيِيزِ بَيِّنَ الفِئاتِ. وَبِالتالِي، نَفْتَرِض تَحِيزا بَيِّنَ مِيزاتِ الحالَةِ وَمِيزات الفِئَةِ الداخِلِيَّةِ. لِمُعالَجَةِ هٰذا، نُوَجِّه المِيزاتِ لَمُحاذاة مِيزاتها المُحَدَّدَةِ لِلفِئَةِ المتجمعه بِكَثافَةٍ لِتَعْزِيزِ كَثافَةُ المِيزَة الداخِلِيَّةِ لِلفِئَةِ. بِالنَظَرِ إِلَى أَنَّ تَطْبِيعِ الدُفْعات الصَغِيرَةِ (ioffe2015batch) أَو تَطْبِيعِ الحالَةِ (ulyanov2016instance) يَتْبَع اِتِّجاهِ التَعَلُّمِ بِالدُفْعات، يَتِمّ مُحاذاةِ مِيزاتِ الدُفْعات الصَغِيرَةِ مِن خِلالَ إِدْخالُ مُصْطَلَحاتٍ الاِنْتِقالِ \(\delta_n\) لِدَفْعِها نَحْوَ مَراكِزِ العُنْقُود. يَتِمّ اِسْتِنْتاجِ ذٰلِكَ كَما يَلِي.

نُحَدِّد مِقْياسِ التَقْيِيم لِلتَشابُه الجَيْبِيّ التمامي الأَمْثَلُ (OCSEM) لَتَقْيِيم التَشابُه الجَيْبِيّ التمامي بَيِّنَ العَيِّنَةُ الحالِيَّةِ وَالعَيْنات الأُخْرَى، بِهَدَفِ تَعْزِيزِ دِقَّةٍ النَمُوذَجِ مِن خِلالَ تَعْظِيمِ هٰذا المِقْياسُ. يَعْرِف الهَدَفَ الأَمْثَلُ كَما يَلِي: \[\begin{split} \text{OCSEM} = \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} & \cos({\mathbf {p}}_{i},\mathcal P^I_{n,q}) > \\ & \max_{h \neq i}\{\cos({\mathbf {p}}_{h},\mathcal P^I_{n,q})\}, \end{split}\] حَيْثُ \({\mathbf {p}}_{i}\) هُوَ نَمُوذَجَ السِياقِ فِي مَجْمُوعَةِ الجِيرانِ المُرَشَّحِينَ \(\mathcal{P}_n^c=\left\{\mathbf{p}_i\right\}_{i=1}^{N_p}\) لِلفِئَةِ النَوْعِيَّةِ، وَ\(\mathcal P^I_{n,q}\) هُوَ نَمُوذَجَ الحالَةِ المُقابِلِ فِي المَجْمُوعَةِ \(\mathcal{P}_n^b=\left\{\mathcal P^I_{n,q}\right\}_{q=1}^{Q_n}\) فِي الدُفْعَةِ الصَغِيرَةِ. \(Q_n\) يَدُلّ عَلَى عَدَدٍ النَماذِجِ لِلفِئَةِ النَوْعِيَّةِ فِي الدُفْعَةِ الصَغِيرَةِ. نَفْتَرِض أَنَّ التَحَيُّزِ يُمْكِن تَقْلِيله بِإِضافَة مُصْطَلَحُ الاِنْتِقالِ \(\delta_n\) إِلَى مِيزَةً الحالَةِ. يَجِب أَنَّ يَتْبَع المُصْطَلَحِ \(\delta_n\) الهَدَفَ: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, \mathcal P^I_{n,q}+\delta_n\right). \label{9}\] نَفْتَرِض أَنَّ كُلِّ مِيزاتِ النَمُوذَجِ \(\mathcal P^I_{n,q}\) يُمْكِن تَمْثِيلَها ك \({\mathbf {p}}_{i} + \epsilon_{i,q}\). يُمْكِن صِياغَةِ المُعادَلَةَ [9] بِشَكْلٍ أَكْثَرَ تَفْصِيلاً كَما يَلِي: \[\underset{\delta_n}{\arg \max } \frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \cos \left({\mathbf {p}}_{i}, {\mathbf {p}}_{i}+\delta_n+\epsilon_{i, q}\right).\] لَتَعْظِيم التَشابُه الجَيْبِيّ التمامي، يَجِب تَقْلِيلِ الهَدَفَ التالِي: \[\min \frac{1}{{N_p}{Q_n}} \sum^{{N_p}}_{i=1} \sum^{{Q_n}}_{q=1} (\epsilon_{i,q}+\delta_n).\] يَتِمّ حِسابِ المُصْطَلَحِ \(\delta_n\) عَلَى النَحْوِ التالِي: \[\delta_n=-\mathbb{E}\left[\epsilon_{i,q}\right]=\frac{1}{{N_p}{Q_n}} \sum_{i=1}^{N_p} \sum_{q=1}^{Q_n} \left({\mathbf {p}}_{i}-\mathcal{P}_{n, q}^I\right). \label{shift}\]

الوَعْيِ بِالنَمُوذَج فِي CAM وَالخَسارَةِ الذاتِيَّةِ التَوْجِيهِيَّةِ

الوَعْيِ بِالنَمُوذَج فِي CAM. مَعَ وُضُوحٍ مَعْنَى النَماذِجِ، يُمْكِن فَهُم إِجْراءِ CAM المُتَوَقَّعِ بِشَكْلٍ حَدْسِي كَاِسْتِرْجاع النَماذِجِ الأَكْثَرَ تُشابِها. لِكُلِّ نَمُوذَجَ \(\tilde{\mathcal{P}}^{c}_n\) فِي المُعادَلَةَ [value_K]، نَحْسِب تُشابِه الجِيْب التمامي بَيِّنَ المِيزاتِ فِي كُلِّ مَوْضِعَ وَنَمُوذَجٌ الفِئَةِ المُقابِلِ. ثُمَّ يَتِمّ تَجْمِيعِ خَرائِطِ التَشابُه كَما يَلِي: \[{\tilde{M}}_n(j) = \ ReLU \left(\frac{1}{K} \sum_{{\mathcal{\mathbf p}}_i \in {\tilde{\mathcal{P}}}^{c}_n} \frac{{{f}}{(j)} \cdot {\mathcal{\mathbf p}}_i}{\left\|{{f}}(j)\right\| \cdot\left\|{\mathcal{\mathbf p}}_i\right\|}\right),\] حَيْثُ يُشِير \(\|\cdot\|\) إِلَى القاعِدَةِ L2 لَمُتَّجِه. يُمَثِّل \(\tilde{M}_n(j)\) PACAM لِلفِئَةِ \(n\)-th فِي البكسل \(j\).

الخَسارَةِ الذاتِيَّةِ التَوْجِيهِيَّةِ. لِلاِسْتِفادَةِ أَكْثَرَ مِن المَعْرِفَةِ السياقيه، نُقَدِّم نَمُوذَجاً لِلتَعَلُّمِ الذاتِيِّ التَوْجِيهِيِّ يُشَجِّع عَلَى الاِتِّساق بَيِّنَ النَتائِجِ مِن التَنَبُّؤات المُدْرِكَة لِلنَمُوذَج وَمُصَنَّف مُشَرَّف. هٰذا يُعَزِّز مِن قُدْرَةِ النَمُوذَجِ عَلَى التَعَرُّفُ عَلَى المِيزاتِ التمييزيه بِشَكْلٍ أَكْبَرَ وَيُدْمَج المَعْرِفَةِ المُدْرِكَة لِلنَمُوذَج فِي تَمْثِيلِ المِيزَة، مِمّا يُعَزِّز التَحْسِين التَعاوُنِيّ طِوالَ دَوْراتِ التَدْرِيبِ. تَعْرِيفٍ التَنْظِيمِ الاتساقي بِتَطْبِيعِ L1 لِاِثْنَيْنِ مِن CAMs: \[\mathcal{L}^{self}=\frac{1}{N+1}\|{M}- {\tilde{M}}\|_1, \label{self}\] حَيْثُ \(M\) وَ \(\tilde{M}\) تُمَثِّلانِ CAM الأَصْلِيُّ وَ PACAM عَلَى التَوالِي.

التَجارِبِ

مَجْمُوعاتٍ البَياناتِ وَتَفاصِيل التَنْفِيذِ

مَجْمُوعَةِ البَياناتِ وَمِقْياس التَقْيِيم. تُجْرَى التَجارِبِ عَلَى مِعْيارَيْنِ: PASCAL VOC 2012 (everingham2010pascal) ب 21 فِئَةٌ وَ MS COCO 2014 (lin2014microsoft) ب 81 فِئَةٌ. بِالنِسْبَةِ لِ PASCAL VOC 2012، وِفْقاً لِ (wang2020self, lee2021anti, chen2022self, li2022expansion)، نَسْتَخْدِم SBD المُعَزِّز (hariharan2011semantic) ب 10,582 صُورَةِ مَوْسُومه. نُقِيم CPAL مِن حَيْثُ i) جُودَة تَوْلِيدِ تَسْمِيات التَجْزِئَةِ الزائِفَة عَلَى VOC 2012 train، وَ ii) التَجْزِئَةِ الدَلالِيَّة عَلَى VOC 2012 val/test وَ COCO 2014 val. يَسْتَخْدِم مُتَوَسِّطُ التَقاطُعِ عَلَى الاِتِّحادِ (mIoU) (long2015fully) كَمِقْياس فِي كُلّاً الحالَتَيْنِ. تَحْصُل النَتائِجِ عَلَى اِخْتِبارِ VOC 2012 test مِن الخادِم التقييمي الرَسْمِيِّ.

تَفاصِيلَ التَنْفِيذِ. فِي تَجارِبنا، يَتِمّ اِعْتِمادِ ResNet50 (he2016deep) المُدَرِّبِ مُسْبَقاً عَلَى ImageNet (deng2009imagenet) كَالعَمُود الفَقْرِيِّ بِخَطْوَةٍ إِخْراجِ قَدْرُها 16، حَيْثُ يُحِلّ مُصَنَّف مَحَلَّ الطَبَقَةِ المُتَّصِلَةِ بِالكامِلِ بِقَنَوات إِخْراجِ تَبْلُغ 20. إِسْتراتِيجِيَّةِ التَعْزِيز هِيَ نَفْسِها كَما فِي (chen2022self, ahn2019weakly, chen2023extracting)، بِما فِي ذٰلِكَ القَلْبِ العَشْوائِيِّ، التَحْجِيم، وَالقِطَعُ. يَتِمّ تَدْرِيبِ النَمُوذَجِ بِحَجْمِ دَفْعَةً 16 عَلَى 8 وَحَداتٍ مُعالَجَةِ رُسُومات Nvidia 4090. يَتِمّ اِعْتِمادِ مُحْسِن SGD لِتَدْرِيبِ نَمُوذَجنا لِمُدَّةِ 5 دَوْراتِ، بِزَخِم قَدَّرَهُ 0.9 وَتَأْكُل الوَزْنِ 1e-4. تُحَدِّد مُعَدَّلاتِ التَعَلُّمِ لِلعَمُود الفَقْرِيِّ وَالطَبَقاتُ المُضافَةِ حَدِيثاً عَلَى 0.1 و1، عَلَى التَوالِي. نَسْتَخْدِم جَدْوَلِ تَعْلَم البَوْلِيّ المُتَضائِل بِقُوَّةٍ 0.9 لَمُعَدَّل التَعَلُّمِ.

تُحَدِّد مُعامَلاتِ الخَسارَةِ \(\lambda_{BCE}\) وَ \(\lambda_{Self}\) ك 1 فِي المُعادَلَةَ [coefficients]. بِالنِسْبَةِ لِ VOC 2012، يُحَدِّد العَتَبَةَ \(\tau\) فِي المُعادَلَةَ [tau] عَلَى 0.1. حَجْمِ البَنْكِ الداعِمِ لِكُلِّ فِئَةٌ لَتَخْزِين التَضْمِينات الإِقْلِيمِيَّةِ، مَعَ تَحْدِيدِ الحَجْمِ عَلَى 1000 لِتَجَنُّبِ اِسْتِهْلاكِ الدَعْمِ الكَبِيرِ. يَتِمّ إِجْراءِ تَجْمِيعِ النَماذِجِ الأَوَّلِيَّةِ \(k\)-means فِي القِسْمِ [3.2] مَرَّةً واحِدَةٍ فَقَط فِي بِدايَةِ كُلِّ دَوْرَةِ، وَيُحَدَّد عَدَدٍ النَماذِجِ الأَوَّلِيَّةِ لِكُلِّ فِئَةٌ \(N_p\) عَلَى 50، وَيُحَدَّد عَدَدٍ الجِيرانِ المُرَشَّحِينَ الأَعْلَى \(K\) عَلَى 20 فِي المُعادَلَةَ [value_K]. بِالنِسْبَةِ لِشَبَكَةِ التَجْزِئَةِ، أَجْرَيْنا تَجارِبِ مَعَ DeepLab-v2 (chen2017deeplab) مَعَ العَمُودِ الفَقْرِيِّ ResNet101 وَ ResNet38. المَزِيدِ مِن التَفاصِيلِ (بِما فِي ذٰلِكَ COCO) مَوْجُودَةٌ فِي المُلْحَقِ.

دِراسَةٌ الاِسْتِئْصال

لِدِراسَةِ مُساهَماتِ كُلِّ مُكَوِّن مِن مُكَوِّناتِ طَرِيقَتِنا، أَجْرَيْنا دِراساتٍ اِسْتِئْصال عَلَى مَجْمُوعَةِ بَياناتٍ VOC 2012. جَمِيعِ التَجارِبِ اُسْتُخْدِمَت Resnet-50 كَالعَمُود الفَقْرِيِّ. فَعّالِيَّةِ كُلِّ مُكَوِّن. فِي الجَدْوَلُ [abl]، نُجْرِي دِراساتٍ اِسْتِئْصال لِإِظْهارِ فَعّالِيَّةِ نَهْجنا. نَسْتَخْدِم نَمُوذَجاً تَمَّ تَدْرِيبه فَقَط بِإِشْراف التَصْنِيفِ (التَجْرِبَةِ الأُولَى) كَخَطّ أَساسِ. ثُمَّ يَتِمّ تَقْدِيمِ إِسْتراتِيجِيَّةِ تَعْلَم النَمُوذَجِ الأُولَى لِلسِياق بَسِيطَةً فِي التَجْرِبَةِ الثانِيَةِ وَالَّتِي تَحَقَّقَ مَكاسِبَ مَحْدُودَةٍ فِي mIoU عَلَى مَجْمُوعَةِ train. تُظْهِر التَجْرِبَةِ الثالِثَةِ أَنَّ تَقْدِيمِ تَعْلَم النَمُوذَجِ الأُولَى لِلسِياق المُدْرِك (مَجْمُوعَةِ المُرَشَّحِينَ الأَعْلَى-\(K\) وَتَنَبُّؤ الإِيجابِيَّةِ) لَتَوْلِيد PACAM يُعَزِّز الأَداءِ بِشَكْلٍ كَبِيرٍ بِنِسْبَةِ +3.3%. فِي التَجْرِبَةِ الرابِعَةِ، عِنْدَ تَقْدِيمِ وَحْدَةِ مُحاذاةِ المِيزاتِ، يَزْداد الأَداءِ بِمِقْدارِ +2.3%. فِي التَجْرِبَةِ الخامِسَةِ، يَتَحَسَّن الأَداءِ بِمِقْدارِ +5.7% عِنْدَ تَقْدِيمُهُ لِلتَدْرِيبِ الذاتِيِّ كَإِشْراف تَكْمِيلِيّ، مِمّا يَدُلّ عَلَى أَهَمِّيَّتِهِ فِي إِطارِ عَمَلِنا. خَسارَةِ الاِتِّساق تُجْبَر النَمُوذَجِ عَلَى التَرْكِيزِ عَلَى التَفاصِيلِ الدَقِيقَةِ لِلدَلالات، مِمّا يُعَزِّز إِدْراكَهُ لِلبُنْيَة الجَوْهَرِيَّة وَالمِيزات الدَلالِيَّة.
فَعّالِيَّةِ الجِيرانِ المُرَشَّحِينَ وَالإِيجابِيَّة. نُحَلِّل أَهَمِّيَّةً الجِيرانِ المُرَشَّحِينَ وَالإِيجابِيَّة، كَما هُوَ مُوَضِّح فِي الجَدْوَلُ [neighbor]. إِزالَةِ الإِيجابِيَّةِ وَاِسْتِخْدامِ جَمِيعِ الجِيرانِ لِلتَنَبُّؤ، تُقِلّ دِقَّةٍ Miou فِي CAM مِن 62.5% إِلَى 60.3%. يُشِير ذٰلِكَ إِلَى أَنَّ الإِيجابِيَّةِ لَيِسَت مُجَرَّدَ زَخْرَفَة بَسِيطَةً بَل تُوَفِّر آلِيَّةِ فَعّالَةٍ لِلنَمُوذَج. تَمَكَّنَ النَمُوذَجِ مِن التَرْكِيزِ بِشَكْلٍ تَكَيُّفِي وَاِنْتِقائَيَّ عَلَى الجِيرانِ الَّذِينَ يُساهِمُونَ بِشَكْلٍ كَبِيرٍ فِي المُهِمَّةِ أَثْناءَ عَمَلِيَّةِ التَعَلُّمِ مَعَ تَجاهُلُ الجِيرانِ غَيْرِ المَعْلُوماتِيَّيْنِ لِلتَنَبُّؤات. فِي الكُتْلَةِ الثالِثَةِ مِن الجَدْوَلُ [neighbor]، نُجْرِي أَيْضاً تَجارِبِ لِتَحْلِيلِ تَأْثِيرِ عَدَدٍ الجِيرانِ. مِن ناحِيَةٍ، يُعَزِّز وُجُودِ عَدَدٍ كافٍ مِن الجِيرانِ تَنَوُّعِ المِيزاتِ. مِن ناحِيَةٍ أُخْرَى، قَد يُؤَدِّي تَضْمِينِ النَماذِجِ الأَوَّلِيَّةِ ذاتِ الاِرْتِباطِ الضَعِيفُ إِلَى إِدْخالُ الكَثِيرَ مِن الضَوْضاء أَثْناءَ عَمَلِيَّةِ التَدْرِيبِ وَيَقْلِل مِن قُدْرَةِ النَمُوذَجِ عَلَى إِدْراكٌ المِيزاتِ التمييزيه. القِياس الناعِم المُقْتَرَحِ يُقَدِّم إِيجابِيَّةً زَوْجَيْهِ لِضَبْطِ مُساهَمَةً النَماذِجِ الأَوَّلِيَّةِ المُخْتَلِفَةِ فِي الحالَةِ المِرْساة فِي المُعادَلَةَ [coefficients]. نُطَبِّق مَقايِيسِ تُشابِه مُخْتَلِفَةٍ لِحِسابِ دَرَجَةِ الإِيجابِيَّةِ. كَما هُوَ مُوَضِّح فِي الجَدْوَلُ [function]، تَمَّ اِسْتِكْشافٍ أَرْبَع خِياراتٍ: المَسافَةِ المانْهاتَن (\(L_1\))، المَسافَةِ الأُقْلِيدِيَّة (\(L_2\))، التَشابُه الجِيْب التمامي، وَالمُنْتِجُ النقطي. يُظْهِر المُنْتِجِ النقطي أَداءِ مُتَفَوِّقا بِشَكْلٍ كَبِيرٍ مُقارَنَةً بِالإِسْتراتِيجِيّات الأُخْرَى وَيَسْتَخْدِم كَطَرِيقَتنا لَقِياس الإِيجابِيَّةِ.

تَحْلِيلِ الإِيجابِيَّةِ وَعَدَدٌ الجِيرانِ المُرَشَّحِينَ \(K\). تَمَّ تَقْيِيمِ قِيَمِ mIoU عَلَى مَجْمُوعَةِ PASCAL VOC 2012 train.
الجار الإِيجابِيَّةِ \(K\) mIou(%)
20 62.5
- 59.2
20 60.3
10 61.3
20 62.5
50 60.1
[neighbor]
مُقارَنَةً كَمِّيَّةِ لَإِسْتراتِيجِيّات قِياسُ المَسافَةِ المُخْتَلِفَةِ فِي \(الإِيجابِيَّةِ\) عَلَى مَجْمُوعَةِ PASCAL VOC train. النَتائِجِ الأَفْضَلِ مَعْرُوضه بِخَطِّ عَرِيض.
\(L_1\) \(L_2\) Cosine Dot
mIou (%) 59.6 58.7 61.9 62.5

[function]

فَعّالِيَّةِ مُحاذاةِ المِيزاتِ. فِي الجَدْوَلُ [abl]، نُقَدِّم نَتائِجِ تَحْسِينِ الأَداءِ الَّتِي تَمَّ تَحْقِيقِها مِن خِلالَ تَقْلِيلِ التَحَيُّزِ فِي التَوْزِيعِ. بِالإِضافَةِ إِلَى ذٰلِكَ، أَجْرَيْنا مُقارَنَةً بَصَرِيّه بِاِسْتِخْدامِ t-SNE (van2008visualizing) فِي الشَكْلِ [tsnet]. تُشِير النَتائِجِ إِلَى أَنَّهُ بُعْدَ مُحاذاةِ تَوْزِيعات المِيزاتِ، يُمْكِن لِلنَمُوذَج أَنَّ يُولَد مَجْمُوعاتٍ أَكْثَرَ تَماسُكاً مَعَ قابِلِيَّةِ فَصْلِ أَعْلَى بَيِّنَ المَجْمُوعاتِ. تَعْدِيلِ المُتَغَيِّر الدِينامِيكِيّ لِلإِزاحَة يُساعِد فِي تَخْفِيفِ الاِخْتِلافاتِ بَيِّنَ مِيزاتِ الحالاتِ مِن نَفْسِ الفِئَةِ، مِمّا يَجْعَل الحالاتِ الَّتِي تَنْتَمِي إِلَى نَفْسِ الفِئَةِ أَكْثَرَ تُشابِها. هٰذا بِدَوْرِهِ، يُسَهِّل عَلَى النَمُوذَجِ التَمْيِيزِ بَيِّنَ الحالاتِ مِن فِئاتِ مُخْتَلِفَةٍ بِدِقَّةٍ أَكْبَرَ.
تَحْلِيلِ العَوامِلُ الفائِقَةِ. نُجْرِي تَحْلِيلا لِحَسّاسَيْهِ العَوامِلُ الفائِقَةِ، بِتَغْيِيرِ قِيَمِ مِثْلَ (أَ) العَتَبَةَ \(\tau\) لَتَوْلِيد قِناع البُذُورِ 0-1. الشَكْلِ [hyperparameter] (أَ) يُشِير إِلَى أَنَّ القِيمَةِ الأَمْثَلُ لِ \(\tau\) هِيَ 0.1. بِالإِضافَةِ إِلَى ذٰلِكَ، نَفْحَص (ب) طُولِ مَجْمُوعَةِ الدَعْمِ، حَيْثُ نَجِد أَنَّ مَجْمُوعَةِ أَكْبَرَ تُعَزِّز أَداءِ النَمُوذَجِ. الشَكْلِ [hyperparameter] (ب) يُوَضِّح هٰذِهِ النَتائِجِ.

تَحْلِيلِ نَوْعِيٍّ

نَقُوم بِتَصَوُّرٍ مَناطِقِ الاِسْتِجابَةُ وَنَتائِجَ التَنَبُّؤ لِلوَعْي بِالنَماذِج فِي الشَكْلِ [fig31] (أَ). يُوَضِّح ذٰلِكَ بِوُضُوحٍ أَنَّ النَماذِجِ مُرْتَبِطَةً بِسِمات مُعَيَّنَةٍ لِلحالات. عَلَى وَجْهِ التَحْدِيدِ، عَلَى سَبِيلِ المِثالِ، بِالنَظَرِ إِلَى الصُوَرِ (مَثَلاً، horse وَ cat)، يَتَوافَق كُلِّ نَمُوذَجَ مَعَ أَجْزاءِ مُخْتَلِفَةٍ مِن الحالَةِ، مِمّا يُتِيح نمذجه أَفْضَلَ لِلتَبايُناتِ داخِلَ الفِئَةِ فِي الأَجْسام الدَلالِيَّة. فِي الشَكْلِ [fig31] (ب)، نَقُوم بِتَصَوُّرٍ دِراساتٍ اِسْتِقْطاع عَلَى مُكَوِّناتِ مُخْتَلِفَةٍ مِن طَرِيقَتِنا. عِنْدَ إِزالَةِ الوَعْيِ بِالنَمُوذَج (الإِيجابِيَّةِ وَالجِيران الأَعْلَى-\(K\))، يُنَشِّط النَمُوذَجِ مَناطِقِ بِشَكْلٍ خاطِئٍ تَتَزامَن بِقُوَّةٍ (مَثَلاً، train وَ railroad) أَو تُظْهِر مَظاهِرِ مُتَشابِهَةً (مَثَلاً، cat وَ dog)، مِمّا يُشِير إِلَى نَقْصِ فِي التَعَلُّمِ الدَقِيقِ وَالقُدْراتِ التمييزيه لِلمِيزات المُحَدَّدَةِ لِلحالَةِ. بِدُونِ خَسارَةِ الإِشْرافِ الذاتِيِّ \(\mathcal{L}^{Self}\)، يُظْهِر CAM تَحْتَ التَنْشِيط، مِمّا يُشِير إِلَى عَدَمِ كِفايَةِ تَعْلَم مِيزاتِ الفِئَةِ. تُشِير هٰذِهِ النَتائِجِ إِلَى أَنَّ طَرِيقَتِنا، مَعَ إِدْخالُ هٰذِهِ المُكَوِّناتِ، يُمْكِن أَنَّ تُدْرِك وَتُمَيِّز سِماتِ الفِئَةِ المُخْتَلِفَةِ بِدِقَّةٍ أَكْبَرَ.

مُقارَناتٍ بَيِّنَ طَرِيقَتِنا وَطُرُقِ التَعَلُّمِ شِبْهِ المُشَرِّفِ الأُخْرَى. نُقِيم mIoU (%) عَلَى مَجْمُوعَةِ train مِن PASCAL VOC 2012 عَلَى المُسْتَوَياتِ: CAM، مَعَ CRF، وَالقِناع الزائِف.
الطَرِيقَةِ البِذْرَة مَعَ CRF القِناع
SEAM (wang2020self) 55.4 56.8 63.6
AdvCAM (lee2021anti) 55.6 62.1 68.0
CLIMS (xie2022clims) 56.6 - 70.5
SIPE (chen2022self) 58.6 64.7 68.0
ESOL (li2022expansion) 53.6 61.4 68.7
AEFT (yoon2022adversarial) 56.0 63.5 71.0
PPC (du2022weakly) 61.5 64.0 64.0
ReCAM (chen2022class) 54.8 60.4 69.7
Mat-Label (wang2023treating) 62.3 65.8 72.9
FPR (chen2023fpr) 63.8 66.4 68.5
LPCAM (chen2023extracting) 62.1 - 72.2
ACR (kweon2023weakly) 60.3 65.9 72.3
SFC (zhao2024sfc) 64.7 69.4 73.7
IRN (ahn2019weakly) 48.8 53.7 66.5
+CPAL (لَنا) 62.5 66.2 72.7
AMN (lee2022threshold) 62.1 66.1 72.2
+CPAL (لَنا) 65.7 68.2 74.1
MCTformer (xu2022multi) 61.7 64.5 69.1
+CPAL (لَنا) 66.8 69.3 74.7
CLIP-ES (lin2023clip) 70.8 - 75.0
+CPAL (لَنا) 71.9 - 75.8

[labelVOC]

مُقارَناتٍ مَعَ الطُرُقِ الحَدِيثَةِ

تَحْسِينِ خَرائِطِ التَحْدِيدِ: بِما أَنَّ الطَرِيقَةِ المُقْتَرَحَةِ CPAL لا تُعَدِّل هَنْدَسَةُ شَبَكَةِ CAM، فَإِنَّها تُدْمِج فَرْعِ CPAL كَإِشْراف فِي طُرُقٍ مُتَعَدِّدَةِ. الجَدْوَلُ [labelVOC] يُعَرِّض نَتائِجِ تَطْبِيقِ CPAL عَلَى طُرُقٍ مَعْرُوفَةٍ (IRN (ahn2019weakly), AMN (lee2022threshold), MCTformer (xu2022multi)، وَ CLIP-ES (lin2023clip)) وَيُظْهَر تَحْسِيناتٍ فِي خَرائِطِ التَحْدِيدِ عَلَى VOC 2012. عَلَى سَبِيلِ المِثالِ، دَمْجِ CPAL فِي AMN يُحَسِّن الأَداءِ بِنِسْبَةِ 3.6% فِي البُذُورِ وَ 2.1% فِي الأَقْنِعَة الزائِفَة. عِنْدَ دَمْجِ CPAL فِي نَمُوذَجَ CLIP-ES، هُناكَ مَكْسَبٍ بِنِسْبَةِ 1.1% فِي البُذُورِ.

تَحْسِينِ نَتائِجِ التَجْزِئَةِ: الجَدْوَلُ [miou_results] يُظْهِر أَداءِ نَمُوذَجَ التَجْزِئَةِ الدَلالِيَّة المُدَرِّبِ بِالتَسْمِيات الزائِفَة الَّتِي تَمَّ إِنْشاؤها بِواسِطَةِ طَرِيقَتِنا. التَسْمِيات الزائِفَة تُسْتَخْدَم لِتَدْرِيبِ نَمُوذَجَ التَجْزِئَةِ DeepLabV2. المُقارَناتِ مَعَ الأَعْمالِ ذاتِ الصِلَةِ. يُحَقِّق AMN+CPAL لَدَينا نَتائِجِ رائِدَةٍ عَلَى VOC (mIoU بِنِسْبَةِ 72.5% عَلَى مَجْمُوعَةِ التَحَقُّقِ وَ 72.9% عَلَى مَجْمُوعَةِ الاِخْتِبارُ). عَلَى مَجْمُوعَةِ البَياناتِ MS COCO الأَكْثَرَ تَحَدِّيا، يَتَفَوَّق MCTformer+CPAL لَدَينا (مَعَ ResNet-38 كَالعَمُود الفَقْرِيِّ) عَلَى النَتِيجَةُ الرائِدَةِ AMN وَجَمِيعِ الأَعْمالِ ذاتِ الصِلَةِ المَبْنِيَّةُ عَلَى ResNet-38. بِالنِسْبَةِ لِ CLIP-ES، يُحَسِّن CPAL الأَداءِ (+1.4% mIoU عَلَى COCO val). تُؤَكِّد هٰذِهِ النَتائِجِ المُتَفَوِّقَةِ عَلَى كُلّاً المَجْمُوعَتَيْنِ فَعّالِيَّةِ CPAL لَدَينا، وَالَّتِي تَلْتَقِط بِدِقَّةٍ المِيزاتِ الدَلالِيَّة وَهَياكِلَ الكائِنات.

الخُلاصَةِ

فِي هٰذا العَمَلِ، نَقْتَرِح إِسْتراتِيجِيَّةِ تَعْلَم جَدِيدَةٍ تَعْتَمِد عَلَى نَماذِجَ السِياقِ الواعِيَة بِالنَمُوذَج (CPAL) لِطُرُقِ WSSS، وَالَّتِي تَهْدِف إِلَى التَخْفِيفِ مِن التَحَيُّزِ المَعْرِفِيِّ بَيِّنَ الحالاتِ والسياقات. تَقُوم هٰذِهِ الطَرِيقَةِ بِتَعْدِين خَصائِصِ المِيزاتِ الفَعّالَةَ فِي مَجْمُوعاتٍ السِياقِ وَتَخْتار وَتُعَدِّل نَماذِجَ السِياقِ بِشَكْلٍ تَكَيُّفِي لِتَعْزِيزِ قُدْراتٍ التَمْثِيلِ. جَوْهَر هٰذِهِ الطَرِيقَةِ هُوَ الوَعْيِ بِالنَمُوذَج، وَالَّذِي يَتَحَقَّق مِن خِلالَ نَماذِجَ واعِيَةٌ بِالسِياق لَاِلْتِقاط التَبايُنِ داخِلَ الفِئَةِ وَمُحاذاة تَوْزِيعِ المِيزاتِ بِدِقَّةٍ. تُظْهِر التَجارِبِ المُوسِعَةِ تَحْتَ إِعْدادات مُخْتَلِفَةٍ أَنَّ الطَرِيقَةِ المُقْتَرَحَةِ تَتَفَوَّق عَلَى الطُرُقِ الحَدِيثَةِ الأُخْرَى، وَتَكْشِف الدِراساتِ التَجْرِيبِيَّة عَن فَعّالِيَّةِ CPAL لَدَينا.