مِعْيار ImageNet-D: قِياسُ مَتانَةَ الشَبَكاتِ العَصَبِيَّةِ عَلَى الأَجْسام الاِصْطِناعِيَّةِ بِالاِنْتِشارِ

Chenshuang Zhang     Fei Pan    Junmo Kim     In So Kweon       Chengzhi Mao
KAIST\(^{1}\), University of Michigan, Ann Arbor\(^{2}\), McGill University\(^{3}\), MILA\(^{4}\)

latex

مُلَخَّصُ

نَحْنُ نُقِيم مَعايِيرِ صارِمَةٍ لَمِتانه الإِدْراك البَصْرِيّ. تُوَفِّر الصُوَرِ الاِصْطِناعِيَّةِ مِثْلَ ImageNet-C، ImageNet-9، وَStylized ImageNet نَوْعاً مُحَدَّداً مِن التَقْيِيم عَلَى التَلَوُّثات الاِصْطِناعِيَّةِ، وَالخَلْفِيّات، وَالقِوام، وَلٰكِن تِلْكَ المَعايِيرِ المَتانَة مَحْدُودَةٍ فِي التَبايُنات المُحَدَّدَةِ وَلَها جُودَة اِصْطِناعِيَّةٍ مُنْخَفَضه. فِي هٰذا العَمَلِ، نُقَدِّم نَمُوذَجاً توليديا كَمَصْدَر بَياناتٍ لَتَوْلِيد صُور صَعْبَةً تَقِيس مَتانَةَ النَماذِجِ العَمِيقَةِ. مِن خِلالَ اِسْتِخْدامِ نَماذِجَ الاِنْتِشارِ، نَحْنُ قادِرُونَ عَلَى تَوْلِيدِ صُور بِخَلْفِيّات، وَقِوام، وَمَوادِّ أَكْثَرَ تَنَوُّعاً مِن أَيّ عَمَلٍ سابِقٍ، حَيْثُ نُطْلَق عَلَى هٰذا المِعْيار اِسْمَ ImageNet-D. تُظْهِر النَتائِجِ التَجْرِيبِيَّة أَنَّ ImageNet-D يُؤَدِّي إِلَى اِنْخِفاضِ كَبِيرٍ فِي الدِقَّةِ لِمَجْمُوعَةِ مِن نَماذِجَ الرُؤْيَةِ، مِن مُصَنَّف الرُؤْيَةِ ResNet القِياسِيَّ إِلَى أَحْدَثِ النَماذِجِ الأَساسِيَّةِ مِثْلَ CLIP وَMiniGPT-4، مِمّا يُقَلِّل دِقَّتِها بِنِسْبَةِ تَصِل إِلَى 60%. يُشِير عَمَلِنا إِلَى أَنَّ نَماذِجَ الاِنْتِشارِ يُمْكِن أَنَّ تَكُون مَصْدَراً فَعّالا لِاِخْتِبارِ نَماذِجَ الرُؤْيَةِ. الشَفْرَة وَمَجْمُوعَةِ البَياناتِ مُتاحَةٍ عَلَى .

مُقَدِّمَةِ

لَقَد حَقَّقَت الشَبَكاتِ العَصَبِيَّةِ أَداءِ مَلْحُوظاً فِي مَهامِّ تَتَراوَح مِن تَصْنِيفِ الصُوَرِ (vaswani2017attention, liu2021swin, liu2022convnet) إِلَى الإِجابَةَ عَلَى الأَسْئِلَةِ البَصَرِيَّةِ (li2023blip, dai2023instructblip, liu2023visual, zhu2023minigpt). لَقَد أَلْهَمَت هٰذِهِ التَقَدُّمات تَطْبِيقِ الشَبَكاتِ العَصَبِيَّةِ فِي مَجالاتِ مُتَنَوِّعَةٍ، بِما فِي ذٰلِكَ الأَنْظِمَةِ الأَمْنِيَّةِ وَالحَرَجَة مِثْلَ السَيّاراتِ ذاتِيَّةٍ القِيادَةِ (kangsepp2022calibrated, nesti2023ultra, liu2023vectormapnet)، وَكَشَفَ البَرْمَجِيّات الخَبِيثَةِ (yuan2014droid, chen2019believe, pei2017deepxplore) وَالرُوبُوتات (brohan2022rt, brohan2023rt, huang2023voxposer). وَنَظَراً لَتَوَسُّع اِسْتِخْدامُها، أَصْبَحَ مِن المُهِمِّ بِشَكْلٍ مُتَزايِدٍ تَحْدِيدِ مَتانَةَ الشَبَكاتِ العَصَبِيَّةِ (ming2022delving, li2023distilling) لِأَسْبابٍ تَتَعَلَّق بِالسَلامَة.

لَتَقْيِيم مَتانَةَ الشَبَكاتِ العَصَبِيَّةِ، يَجْمَع ObjectNet (barbu2019objectnet) صُور الأَشْياءَ الواقِعِيَّةِ عَلَى عَوامِلِ مُسَيْطِر عَلَيها مِثْلَ الخَلْفِيَّةِ بِواسِطَةِ العُمّالِ البَشَرِيَّيْنِ، وَهُوَ ما يَسْتَغْرِق وَقْتاً طَوِيلاً وَيَتَطَلَّب جُهْداً كَبِيراً. لِزِيادَةِ جَمْعِ البَياناتِ، تَمَّ اِقْتِراحِ الصُوَرِ الاِصْطِناعِيَّةِ كَصُوَر اِخْتِبارِ (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). عَلَى سَبِيلِ المِثالِ، يُقَدِّم ImageNet-C (hendrycks2019benchmarking) مَجْمُوعَةِ مِن التَشَوُّهاتِ البَصَرِيَّةِ الشائِعَةُ مُنْخَفَضه المُسْتَوَى، مِثْلَ الضَوْضاء الغاوسيه وَالضَبابِيَّةُ، لِاِخْتِبارِ مَتانَةَ النَماذِجِ. يَسْتَخْدِم ImageNet-9 (xiao2020noise) تَقْنِيَّةٍ القِطَعِ وَاللَصِق البَسِيطَةِ لِإِنْشاءِ مِعْيار لِلمَتانَة عَلَى خَلْفِيَّةِ الكائِنِ، وَلٰكِن الصُوَرِ لَيِسَت واقِعِيَّةٍ. يُولَد Stylized-ImageNet (geirhos2018imagenet) صُوَراً جَدِيدَةٍ مِن خِلالَ تَغْيِيرٍ نَسِيجِ صُور ImageNet، وَالَّتِي لا يُمْكِنها التَحَكُّمِ فِي العَوامِلُ العالَمِيَّةِ مِثْلَ الخَلْفِيَّةِ.

فِي هٰذا العَمَلِ، نُقَدِّم ImageNet-D، مَجْمُوعَةِ اِخْتِبارِ اِصْطِناعِيَّةٍ تَمَّ إِنْشاؤها بِواسِطَةِ نَماذِجَ الاِنْتِشارِ لِمُهِمَّةِ التَعَرُّفُ عَلَى الأَشْياءَ. مِن خِلالَ الاِسْتِفادَةِ مِن قُدْراتٍ نَماذِجَ الاِنْتِشارِ الرائِدَةِ (rombach2022high)، نُظْهِر أَنَّنا يُمْكِن أَنَّ نُوَجِّه نَماذِجَ الاِنْتِشارِ بِاللُغَةِ لِإِنْشاءِ صُور اِخْتِبارِ واقِعِيَّةٍ تَتَسَبَّب فِي فَشَلِ نَماذِجَ الرُؤْيَةِ. نَظَراً لِأَنَّنا نَعْتَمِد عَلَى اللُغَةِ لِإِنْشاءِ الصُوَرِ، يُمْكِننا تَنْوِيعِ العَوامِلُ عالِيَةٍ المُسْتَوَى فِي الصُوَرِ عَلَى عَكْسَ التَشَوُّهاتِ المَحَلِّيَّةِ وَالنَسِيجِ فِي الأَعْمالِ السابِقَةِ، مِمّا يُقَدِّم عَوامِلِ إِضافِيَّةً يُمْكِن تَقْيِيمِ المَتانَة عَلَيها.

لِتَعْزِيزِ صُعُوبَةِ العَيْنات فِي مَجْمُوعَةِ البَياناتِ الخاصَّةِ بِنا، نَحْتَفِظ بِشَكْلٍ اِنْتِقائَيَّ بِالصُوَر الَّتِي تَسَبَّبَ الفَشَلِ فِي نَماذِجَ الرُؤْيَةِ المُخْتارَة. تُظْهِر نَتائِجنا أَنَّ الصُوَرِ الَّتِي تُثِير الأَخْطاءِ فِي النَماذِجِ المُخْتارَة يُمْكِن أَنَّ تَنْقُل طَبِيعَتِها الصَعْبَةِ بِشَكْلٍ مَوْثُوقٌ إِلَى نَماذِجَ أُخْرَى لَم يَتِمّ اِخْتِبارها سابِقاً. وَهٰذا يُؤَدِّي إِلَى اِنْخِفاضِ مَلْحُوظٍ فِي الدِقَّةِ، حَتَّى فِي نَماذِجَ الأَساسِ الحَدِيثَةِ مِثْلَ MiniGPT-4 (zhu2023minigpt) وَ LLaVa (liu2023visual)، مِمّا يُشِير إِلَى أَنَّ مَجْمُوعَةِ البَياناتِ الخاصَّةِ بِنا تَكْشِف عَن الفَشَلِ الشائِعُ فِي نَماذِجَ الرُؤْيَةِ.

تُظْهِر التَصَوُّرات أَنَّ ImageNet-D يُعَزِّز بِشَكْلٍ كَبِيرٍ جُودَة الصُورَةِ مُقارَنَةً بِمَعايِيرِ المَتانَة الاِصْطِناعِيَّةِ السابِقَةِ. يَعْمَل ImageNet-D كَأَداة فَعّالَةٍ لِتَقْلِيلِ الأَداءِ وَتَقْيِيم مَتانَةَ النَمُوذَجِ، بِما فِي ذٰلِكَ ResNet 101 (تَقْلِيلِ 55.02%)، ViT-L/16 (تَقْلِيلِ 59.40%)، CLIP (تَقْلِيلِ 46.05%)، وَيَنْتَقِل جَيِّداً إِلَى نَماذِجَ لُغَةً الرُؤْيَةِ الكَبِيرَةِ غَيْرِ المُتَوَقَّعَةِ مِثْلَ LLaVa (liu2023visual) (تَقْلِيلِ 29.67%)، وَ MiniGPT-4 (zhu2023minigpt) (تَقْلِيلِ 16.81%). يُعْتَبَر نَهْجنا فِي اِسْتِخْدامِ النَماذِجِ التوليديه لَتَقْيِيم مَتانَةَ النَمُوذَجِ عاماً، وَيُظْهَر إِمْكانِيَّةَ كَبِيرَةٍ لَفَعّالِيَّة أَكْبَرَ مَعَ التَقَدُّمِ المُسْتَقْبَلِيِّ فِي النَماذِجِ التوليديه.

الأَعْمالِ ذاتِ الصِلَةِ

مَتانَةَ الشَبَكاتِ العَصَبِيَّةِ. تَطَوَّرَت الشَبَكاتِ العَصَبِيَّةِ مِن شَبَكاتِ الاِلْتِفافِ العَصَبِيِّ (CNN) (he2016deep, huang2017densely)، وَشَبَكاتِ التَحْوِيلِ البَصْرِيّ (ViT) (vaswani2017attention, liu2021swin)، إِلَى النَماذِجِ الأَساسِيَّةِ الكَبِيرَةِ (bommasani2021opportunities, devlin2018bert, touvron2023llama). وَقَد تَناوَلَت الأَعْمالِ السابِقَةِ مَتانَةَ الشَبَكاتِ العَصَبِيَّةِ مِن عِدَّةٍ جَوانِبَ، مِثْلَ الأَمْثِلَة المُعادِيَةِ (mao2022understanding, mahmood2021robustness, madry2017towards, zhao2023evaluating, zhang2019theoretically) وَعَيْنات خارِجَ النِطاقِ (MAE, mao2021discrete, hendrycks2021many, augmix). وَقَد أَظْهَرَت النَماذِجِ الأَساسِيَّةِ مَتانَةَ أَكْبَرَ عَلَى عَيِّناتٍ خارِجَ التَوْزِيعِ (radford2021learning). كَما تَمَّ التَحْقِيقِ فِي التَفْسِيرَ القُوَى أَيْضاً (mao2023doubly, liu2023visual, zhu2023minigpt). لَتَقْيِيم مَتانَةَ النَماذِجِ العَمِيقَةِ بِشَكْلٍ مَنْهَجِيٍّ، مِن الضَرُورِيِّ وُجُودِ مَجْمُوعاتٍ اِخْتِبارِ تُغَطِّي عَوامِلِ مُخْتَلِفَةٍ.

مَجْمُوعَةِ بَياناتٍ لَتَقْيِيم المَتانَة. لَتَقْيِيم مَتانَةَ الشَبَكاتِ العَصَبِيَّةِ، يَسْتَخْدِم فَرْعِ مِن الدِراساتِ صُوَراً مِن الإِنْتِرْنِت، بِما فِي ذٰلِكَ ImageNet-A (hendrycks2021natural), Imagenet-R (hendrycks2021many) وَImageNet-Sketch (wang2019learning). وَمَعَ ذٰلِكَ، فَهِيَ مَحْدُودَةٍ بِالصُوَر المَوْجُودَةِ عَلَى الوِيب. ObjectNet (barbu2019objectnet) يَجْمَع الصُوَرِ يَدَوِيّاً بِمُساعَدَةِ 5982 عامِلٍ، وَهُوَ ما يَسْتَغْرِق وَقْتاً طَوِيلاً وَيَتَطَلَّب مَوارِدِ كَبِيرَةٍ.

لِلتَغَلُّبِ عَلَى قُيُودٍ الصُوَرِ الوِيب وَتَقْلِيل تَكْلِفَةِ الجَمْع اليَدَوِيِّ، تَمَّ اِقْتِراحِ الصُوَرِ الاِصْطِناعِيَّةِ لَتَقْيِيم المَتانَة (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). ImageNet-C (hendrycks2019benchmarking) تَقْيِيمِ مَتانَةَ النَمُوذَجِ عَلَى التلفيات مُنْخَفَضه المُسْتَوَى. ImageNet-9 (xiao2020noise) يُولَد صُوَراً جَدِيدَةٍ بِدَمْجِ الخَلْفِيَّةِ وَالمُقَدِّمَة مِن صُور مُخْتَلِفَةٍ، وَلٰكِنَّهُ مَحْدُودٍ بِضُعْفِ جُودَة الصُورَةِ. Stylized-ImageNet (geirhos2018imagenet) يُغَيِّر نَسِيجِ صُور ImageNet بِاِسْتِخْدامِ نَقْلِ أُسْلُوبِ AdaIN (huang2017arbitrary) أَو بِإِدْخال تُعارِض بَيِّنَ النَسِيج وَالشَكْل، وَالَّذِي لا يُمْكِنه التَحَكُّمِ فِي عَوامِلِ أُخْرَى مِثْلَ الخَلْفِيّات. فِي هٰذا العَمَلِ، نُقَدِّم مَجْمُوعَةِ اِخْتِبارِ جَدِيدَةٍ ImageNet-D، وَالَّتِي يَتِمّ تَوْلِيدها بِالتَحَكُّم فِي نَماذِجَ الاِنْتِشارِ وَتَشْمَل صُوَراً جَدِيدَةٍ مَعَ خَلْفِيّاتٌ وَنَسِيجُ وَمَوادِّ مُتَنَوِّعَةٍ.

تَوْلِيدِ الصُوَرِ. حَقَّقَت نَماذِجَ الاِنْتِشارِ نَجاحاً كَبِيراً فِي مَهامِّ مُتَنَوِّعَةٍ بِما فِي ذٰلِكَ تَوْلِيدِ الصُوَرِ (saharia2022photorealistic, ramesh2022hierarchical, ruiz2023dreambooth, zhang2023text). كَعَمَل رائِد، يُمْكِن Stable Diffusion (rombach2022high) مِن تَوْلِيدِ صُور عالِيَةٍ الدِقَّةِ يَتِمّ التَحَكُّمِ فِيها بِواسِطَةِ اللُغَةِ. InstructPix2Pix (brooks2023instructpix2pix) يُوَفِّر تَحْكُما أَكْثَرَ تَعْقِيداً مِن خِلالَ تَعْدِيلِ صُورَةِ مُعَيَّنَةٍ وِفْقاً لَتَعْلِيمات بَشَرِيَّةٍ. فِي هٰذِهِ الوَرَقَةَ، نَبْنِي خَطِّ أَنابِيبنا بِاِسْتِخْدامِ نَمُوذَجَ Stable Diffusion القِياسِيَّ، وَمَعَ ذٰلِكَ، فَإِنَّ خوارزميتنا متوافقه مَعَ نَماذِجَ توليديه أُخْرَى يُمْكِن تَوْجِيهُها بِاللُغَةِ.

تَعْزِيزِ الإِدْراك بِاِسْتِخْدامِ صُور الاِنْتِشارِ. تَمَّ اِسْتِخْدامِ الصُوَرِ المُوَلِّدَة بِالاِنْتِشارِ لَمَهامّ إِدْراكٌ الرُؤْيَةِ. فَرْعِ مِن الدِراساتِ (yuan2023not, bansal2023leaving, azizi2023synthetic, tian2023stablerep) يُحَسِّن دِقَّةٍ التَصْنِيفِ بِاِسْتِخْدامِ الصُوَرِ الاِصْطِناعِيَّةِ كَتَوْسِيع لَبَيانات التَدْرِيبِ. DREAM-OOD (du2023dream) يَجِد القِيَمِ الشاذَّة مِن خِلالَ فَكِّ تشفير العَيْنات الكامِنَةِ المُسْتَخْلَصَة إِلَى صُور. وَمَعَ ذٰلِكَ، فَإِنَّ طَرِيقَتِهِم تَفْتَقِر إِلَى التَحَكُّمِ المُحَدَّدِ فِي فَضاءِ الصُوَرِ، وَهُوَ أَمْرٌ حاسِمٍ لَمَعايِير مِثْلَ ImageNet-D. (metzen2023identification) يُحَدِّد أَزْواج السِمات غَيْرِ المُمَثَّلَةِ بِشَكْلٍ كافٍ، بَيْنَما يُرَكِّز بَحَثْنا عَلَى الصُوَرِ الصَعْبَةِ ذاتِ السِمَةُ الواحِدَةِ. عَلَى عَكْسَ (li2023imagenet, vendrow2023dataset, prabhu2023lance) الَّذِينَ يُعَدِّلُونَ مَجْمُوعاتٍ البَياناتِ الحالِيَّةِ، يُولَد عَمَلِنا صُوَراً جَدِيدَةٍ وَيَسْتَخْرِج الأَكْثَرَ تَحَدِّيا كَمَجْمُوعَةٍ اِخْتِبارِ، مِمّا يُحَقِّق اِنْخِفاضاً أَكْبَرَ فِي الدِقَّةِ مُقارَنَةً ب (li2023imagenet, vendrow2023dataset, prabhu2023lance).

ImageNet-D

نُقَدِّم أَوَّلاً كَيْفِيَّةِ إِنْشاءِ ImageNet-D فِي القِسْمِ [sec:dataset_design]، يَلِيه نَظْرَةٌ عامَّةٍ عَلَى إِحْصائِيّاته فِي القِسْمِ [sec:statistics].

تَصْمِيمِ مَجْمُوعَةِ البَياناتِ

بَيْنَما تَتَفَوَّق الشَبَكاتِ العَصَبِيَّةِ فِي تَطْبِيقات مُتَعَدِّدَةِ، فَإِنَّ مَتانَتها تَحْتاج إِلَى تَقْيِيمِ دَقِيقٍ لِلسَلامَةِ. التَقْيِيمات التَقْلِيدِيَّةِ تُسْتَخْدَم مَجْمُوعاتٍ اِخْتِبارِ مَوْجُودَةٌ، تَشْمَل إِمّا صُور طَبِيعِيَّةٍ (barbu2019objectnet, hendrycks2021natural) أَو صُور اِصْطِناعِيَّةٍ (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). مُقارَنَةً بِجَمْعِ الصُوَرِ يَدَوِيّاً، فَإِنَّ جَمْعِ مَجْمُوعَةِ اِخْتِبارِ اِصْطِناعِيَّةٍ أَكْثَرَ كَفاءَةِ (geirhos2018imagenet, xiao2020noise). وَمَعَ ذٰلِكَ، فَإِنَّ تَنَوُّعِ مَجْمُوعاتٍ الاِخْتِبارُ الاِصْطِناعِيَّةِ الحالِيَّةِ مَحْدُودٍ بِسَبَبِ اِعْتِمادِها عَلَى الصُوَرِ المَوْجُودَةِ لَاِسْتِخْراج السِمات. هٰذِهِ الصُوَرِ الاِصْطِناعِيَّةِ لَيِسَت واقِعِيَّةٍ أَيْضاً، كَما هُوَ مُوَضِّح فِي الشَكْلِ [fig:test_set_comparison]. يَتِمّ تَقْدِيمِ ImageNet-D لَتَقْيِيم مَتانَةَ النَمُوذَجِ عَبْرَ مَجْمُوعاتٍ مُتَنَوِّعَةٍ مِن الأَشْياءَ وَالمُتَغَيِّرات الطارِئَةِ، مُعالَجَةِ هٰذِهِ القُيُودِ.

تَوْلِيدِ الصُوَرِ بِواسِطَةِ نَماذِجَ الاِنْتِشارِ. لِبِناءِ ImageNet-D، يَتِمّ اِسْتِخْدامِ نَماذِجَ الاِنْتِشارِ لِإِنْشاءِ مَجْمُوعَةِ ضَخْمَةٍ مِن الصُوَرِ عَن طَرِيقِ دَمْجِ جَمِيعِ الأَشْياءَ المُمْكِنَةِ وَالمُتَغَيِّرات الطارِئَةِ، مِمّا يُتِيح تَوْلِيدِ صُور عالِيَةٍ الدِقَّةِ بِناءَ عَلَى مدخلات نَصَّيْهِ مُحَدَّدَةٍ مِن المُسْتَخْدِمُ. نَسْتَخْدِم نَمُوذَجَ الاِنْتِشارِ المُسْتَقِرُّ (rombach2022high) لَتَوْلِيد الصُوَرِ، بَيْنَما يَتَوافَق نَهْجنا مَعَ نَماذِجَ توليديه أُخْرَى يُمْكِن تَوْجِيهُها بِاللُغَةِ. يَتِمّ صِياغَةِ عَمَلِيَّةِ تَوْلِيدِ الصُوَرِ عَلَى النَحْوِ التالِي: \[\text{Image}(C, N) = \text{Stable Diffusion}(\text{Prompt}(C,N)), \label{eq:image_generation}\] حَيْثُ يُشِير \(C\) وَ \(N\) إِلَى فِئَةٌ الشَيْء وَالمُتَغَيِّر الطارِئِ، عَلَى التَوالِي. المُتَغَيِّر الطارِئِ \(N\) يَشْمَل الخَلْفِيَّةِ، المادَّةُ، وَالمَلْمَس فِي هٰذا العَمَلِ. الجَدْوَلُ [tab:prompt_list] يُقَدِّم نَظْرَةٌ عامَّةٍ عَلَى المُتَغَيِّراتِ الطارِئَةِ وَالمُطالَبات لَنَماذِج الاِنْتِشارِ. بِاِسْتِخْدامِ فِئَةٌ الحَقائِبِ كَمِثال، نُولَد أَوَّلاً صُوَراً لِلحَقائِب مَعَ خَلْفِيّاتٌ مُتَنَوِّعَةٍ، مَوادِّ، وَمَلْمَس (مَثَلاً، حَقِيبَةٍ فِي حَقْلِ قَمْحٍ)، مِمّا يُوَفِّر مَجْمُوعَةِ أَوْسَعِ مِن المَجْمُوعاتِ مُقارَنَةً بِمَجْمُوعات الاِخْتِبارُ الحالِيَّةِ. يَتِمّ تَصْنِيفِ كُلِّ صُورَةِ بِفِئَةٍ المُطالَبَةِ \(C\) كَحَقِيقَة أَساسِيَّةٍ لِلتَصْنِيفِ. تُعْتَبَر الصُورَةِ مُصَنَّفَةٍ بِشَكْلٍ خاطِئٍ إِذا لَم يَتَطابَق تَصْنِيفِ النَمُوذَجِ المُتَوَقَّعِ مَعَ الحَقِيقَةِ الأَساسِيَّةِ \(C\).

بُعْدَ إِنْشاءِ مَجْمُوعَةِ كَبِيرَةٍ مِن الصُوَرِ مَعَ جَمِيعِ أَزْواج فِئاتِ الأَشْياءَ وَالمُتَغَيِّرات الطارِئَةِ، نَقُوم بِتَقْيِيم نَمُوذَجَ CLIP (ViT-L/14) عَلَى هٰذِهِ الصُوَرِ فِي الجَدْوَلُ [tab:vanilla_generation]. يَتِمّ الإِبْلاغ عَن التَفاصِيلِ التَجْرِيبِيَّة فِي القِسْمِ [sec:experimental_setup]. الجَدْوَلُ [tab:vanilla_generation] يُظْهِر أَنَّ CLIP يُحَقِّق دِقَّةٍ عالِيَةٍ عَلَى جَمِيعِ مَجْمُوعاتٍ الاِخْتِبارُ، بِدِقَّةٍ حِوالِي 94% عَلَى مَجْمُوعَةِ الصُوَرِ الاِصْطِناعِيَّةِ. لِإِنْشاءِ مَجْمُوعَةِ اِخْتِبارِ تَحَدِّي لَتَقْيِيم المَتانَة، نَقْتَرِح إِسْتراتِيجِيَّةِ فَعّالَةٍ لِلعُثُور عَلَى العَيْنات الصَعْبَةِ مِن جَمِيعِ الصُوَرِ المُوَلِّدَة عَلَى النَحْوِ التالِي.

اِسْتِخْراج الصُوَرِ الصَعْبَةِ مَعَ فَشَلِ الإِدْراك المُشْتَرَكِ. قِبَلَ تَقْدِيمِ كَيْفِيَّةِ تَحْدِيدِ العَيْنات الصَعْبَةِ مِن مَجْمُوعَةِ الصُوَرِ الاِصْطِناعِيَّةِ، نَعْرِف أَوَّلاً مَفْهُومِ فَشَلِ الإِدْراك المُشْتَرَكِ عَلَى النَحْوِ التالِي.

الفَشَلِ المُشْتَرَكِ: صُورَةِ هِيَ فَشَلِ مُشْتَرَكٍ إِذا أَدَّت إِلَى تَنَبُّؤ عِدَّةٍ نَماذِجَ بِتَصْنِيف الشَيْء بِشَكْلٍ غَيْرِ صَحِيحٌ.

يَجِب أَنَّ تَشْمَل مَجْمُوعَةِ الاِخْتِبارُ الصَعْبَةِ المِثالِيَّةِ صُوَراً تَفْشَل جَمِيعِ النَماذِجِ المختبره فِي تَحْدِيدِها. وَمَعَ ذٰلِكَ، فَإِنَّ هٰذا غَيْرِ عَمَلِيٍّ بِسَبَبِ عَدَمِ إِمْكانِيَّةَ الوُصُولِ إِلَى نَماذِجَ الاِخْتِبارُ المُسْتَقْبَلِيَّةِ، المُسَمّاةَ بِالنَمُوذَج الهَدَفَ. بَدَلاً مِن ذٰلِكَ، نَقُوم بِبِناءِ مَجْمُوعَةِ الاِخْتِبارُ بِاِسْتِخْدامِ فَشَلِ النَماذِجِ البَدِيلَةِ المَعْرُوفَةِ. إِذا أَدَّى فَشَلِ النَماذِجِ البَدِيلَةِ إِلَى دِقَّةٍ مُنْخَفَضه فِي النَماذِجِ غَيْرِ المَعْرُوفَةِ، فَإِنَّ مَجْمُوعَةِ الاِخْتِبارُ تُعْتَبَر تَحَدِّيا. يَتِمّ تَعْرِيفٍ هٰذا عَلَى أَنَّهُ فَشَلِ قابِلٌ لِلنَقْلِ عَلَى النَحْوِ التالِي:

الفَشَلِ القابِل لِلنَقْلِ: فَشَلِ النَماذِجِ البَدِيلَةِ المَعْرُوفَةِ قابِلٌ لِلنَقْلِ إِذا أَدَّى أَيْضاً إِلَى دِقَّةٍ مُنْخَفَضه لِلنَماذِج الهَدَفَ غَيْرِ المَعْرُوفَةِ.

لَتَقْيِيم ما إِذا كانَ فَشَلِ النَماذِجِ البَدِيلَةِ المَعْرُوفَةِ قابِلٌ لِلنَقْلِ لِلصُوَرِ المُوَلِّدَة بِالاِنْتِشارِ، نَقُوم بِتَقْيِيم مَجْمُوعاتٍ الاِخْتِبارُ المُنْشَأَةِ بِفَشَل مُشْتَرَكٍ مِن 1 إِلَى 8 نَماذِجَ بَدِيلَةٍ فِي الشَكْلِ [fig:filter_consistency]. نَقُوم بِتَقْيِيم دِقَّةٍ ثَلاثَةِ نَماذِجَ هَدَفَ لَم تُسْتَخْدَم أَثْناءَ بِناءَ مَجْمُوعَةِ الاِخْتِبارُ، بِما فِي ذٰلِكَ CLIP(ViT-B/16), LLaVa، وَ MiniGPT-4. الشَكْلِ [fig:filter_consistency] يُظْهِر أَنَّ دِقَّةٍ النَمُوذَجِ الهَدَفَ تُقِلّ كَلْماً زادَ عَدَدٍ النَماذِجِ البَدِيلَةِ المُسْتَخْدَمَةِ. تَمَّ إِنْشاءِ مَجْمُوعاتٍ الاِخْتِبارُ مَعَ خَلْفِيّاتٌ مُتَنَوِّعَةٍ، بَيْنَما تُظْهِر التَجارِبِ لِلمَلْمَس وَالمادَّةُ نَفْسِ الاِتِّجاهِ.

التَحَكُّمِ بِالجُودَةِ بِواسِطَةِ التَدَخُّلِ البَشَرِيِّ

يُتِيح لَنا العَمَلِيَّةِ المَذْكُورَةِ أَعْلاه العُثُورِ تِلْقائِيّا عَلَى مَجْمُوعَةِ اِخْتِبارِ صَعْبَةً لِلنَماذِج غَيْرِ المَرْئِيَّةِ. وَمَعَ ذٰلِكَ، يُمْكِن لِلنَماذِج التوليديه أَنَّ تُنْتِج صُوَراً غَيْرِ صَحِيحَةٍ لا تَتَطابَق مَعَ فِئَةٌ المُطالَبَةِ. نَلْجَأ إِلَى التَعْلِيقَ التوضيحي البَشَرِيِّ لِضَمانِ أَنَّ تَكُون صُور ImageNet-D صالِحَةٌ وَمِن فِئَةٌ واحِدَةٍ وَعالِيَة الجُودَةِ فِي الوَقْتِ نَفْسِهِ. بُعْدَ الجَوْلَةِ الأُولَى مِن التَعْلِيقَ التوضيحي بِواسِطَةِ طُلّابُ الدِراساتِ العُلْيا، نَسْتَخْدِم Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) لَتَقْيِيم جُودَة التَسْمِيَة. نَطْلُب مِن العُمّالِ اِخْتِيارِ الصُوَرِ الَّتِي يُمْكِنهم إِمّا التَعَرُّفُ عَلَى الكائِنِ الرَئِيسِيُّ أَو يُمْكِن اِسْتِخْدامِ الكائِنِ الرَئِيسِيُّ وَظِيفِيّا كَفِئَة الحَقِيقَةِ الأَرْضِيَّة. عِلاوَةً عَلَى ذٰلِكَ، نُصَمِّم حُرّاساً لِضَمانِ اِسْتِجابات عالِيَةٍ الجُودَةِ، بِما فِي ذٰلِكَ الحُرّاسُ الإِيجابِيُّونَ وَالسَلْبِيُّونَ وَالمُتَّسِقُونَ. نُقَدِّم تَفاصِيلَ مُهِمَّةً التَسْمِيَة فِي المُلْحَقِ. شارَكَ ما مَجْمُوعُهُ 679 عامِلاً مُؤَهَّلاً فِي 1540 مُهِمَّةً تَسْمِيَةِ، مُحَقِّقِينَ اِتِّفاقاً بِنِسْبَةِ 91.09%.

إِحْصائِيّات قاعِدَةِ البَياناتِ

تَتَضَمَّن ImageNet-D 113 فِئَةٌ متداخله بَيِّنَ ImageNet وObjectNet، و547 مُرَشَّحاً لِلعَوامِل المُؤَثِّرَةِ مِن مَجْمُوعَةِ بَياناتٍ Broden (bau2017network) (أَنْظُر الجَدْوَلُ [tab:prompt_list])، مِمّا يُنْتِج عَنهُ 4835 صُورَةِ صَعْبَةً تَتَمَيَّز بِخَلْفِيّات مُتَنَوِّعَةٍ (3764)، وَأَنْسِجَة (498)، وَمَوادِّ (573). تُعْتَبَر عَمَلِيَّةِ إِنْشاءِ ImageNet-D عامَّةٍ وَفَعّالَةً، مِمّا يَسْمَح بِإِضافَة فِئاتِ وَعَوامِل مُؤَثِّرَةٍ جَدِيدَةٍ بِسُهُولَةٍ. تُظْهِر تَوْزِيعِ فِئاتِ ImageNet-D نَمَطا طَبِيعِيّاً طَوِيلٍ الذَيْل، كَما هُوَ مُوَضِّح فِي الشَكْلِ [fig:hist_category]. تُظْهِر التَوْزِيعِ النادِرِ وَغَيْرِ المُنْتَظِم لِفِئاتٍ الصِفاتِ فِي الشَكْلِ [fig:heatmap] ضَرُورَةِ استنفاد جَمِيعِ أَزْواج الفِئاتِ وَالعَوامِل المُؤَثِّرَةِ فِي إِنْشاءِ مَجْمُوعَةِ الاِخْتِبارُ.

التَجارِبِ

نَقُوم بِتَقْيِيم نَماذِجَ مُخْتَلِفَةٍ عَلَى مِعْيار ImageNet-D. نَجِد أَنَّ ImageNet-D يُقَلِّل بِشَكْلٍ كَبِيرٍ مِن دِقَّةٍ جَمِيعِ النَماذِجِ بِما يَصِل إِلَى 60%. ثُمَّ نَعْرِض ما إِذا كانَت التَطَوُّراتِ السابِقَةِ يُمْكِن أَنَّ تَحَسُّنِ مِن قُوَّةٍ ImageNet-D، مِثْلَ تَوْسِيعِ البَياناتِ. أَخِيراً، نُناقِش ImageNet-D مِن جَوانِبَ مُخْتَلِفَةٍ، مِثْلَ اِسْتِرْجاعِ الجار الأَقْرَبُ.

إِعْدادات التَجْرِبَةِ

إِعْدادات بِناءَ مَجْمُوعَةِ الاِخْتِبارُ. نَسْتَخْدِم الاِنْتِشارِ الثابِتُ (Stable Diffusion) مِن (rombach2022high) لِإِنْشاءِ ImageNet-D، وَنَعْتَمِد عَلَى الوَزْنِ المُدَرِّبِ مُسْبَقاً لِلإِصْدار stable-diffusion-2-1 مِن Hugging Face. لِلعُثُور عَلَى الصُوَرِ الصَعْبَةِ، نُنْهَى ImageNet-D بِالفَشَلِ المُشْتَرَكِ لِأَرْبَعَةِ نَماذِجَ بَدِيلَةٍ، بِما فِي ذٰلِكَ CLIP (radford2021learning) (ViT-L/14, ViT-L/14-336px وَ ResNet50)، وَنَمُوذَجٌ الرُؤْيَةِ (ResNet50 (he2016deep)). يَشْمَل مَجْمُوعَةِ المُرَشَّحِينَ لِلنَماذِج البَدِيلَةِ فِي الشَكْلِ المحذوف أَيْضاً CLIP (Resnet101,ViT-B/32) وَنَمُوذَجٌ الرُؤْيَةِ (ViT-L/16 (dosovitskiy2010image) وَ VGG16 (simonyan2014very)).

تَقْيِيمِ نَماذِجَ التَصْنِيفِ. يُقاس الثَباتِ عَلَى ImageNet-D بِدِقَّةٍ الأَعْلَى-1 فِي التَعَرُّفُ عَلَى الأَشْياءَ، نِسْبَةَ الصُوَرِ المُصَنَّفَةُ بِشَكْلٍ صَحِيحٌ إِلَى إِجْمالِيِّ الصُوَرِ. نَقُوم بِتَقْيِيم نَماذِجَ التَصْنِيفِ بِاِسْتِخْدامِ الاوزان المُدَرِّبَة مُسْبَقاً المَفْتُوحَةِ المَصْدَرُ. بِالنِسْبَةِ لِ CLIP (radford2021learning)، نَتْبَع الوَرَقَةَ الأَصْلِيَّةِ (radford2021learning) لَاِعْتِماد صُورَةِ لِ \(\left[ \text{category} \right]\) كَقالَب نَصَّيَّ. يَتِمّ الإِبْلاغ عَن دِقَّةٍ الصِفْرِ لِ CLIP.

تَقْيِيمِ نَماذِجَ الإِجابَةَ عَلَى الأَسْئِلَةِ البَصَرِيَّةِ (VQA). نُقِيم دِقَّةٍ نَماذِجَ VQA الحَدِيثَةِ المَفْتُوحَةِ المَصْدَرُ عَلَى ImageNet-D، بِما فِي ذٰلِكَ LLaVa (liu2023visual)، وَ MiniGPT-4 (zhu2023minigpt). بِناءَ عَلَى مدخلات الصُورَةِ، تَخْرُج نَماذِجَ VQA الإِجاباتِ اِسْتِناداً إِلَى مُطالَبَةِ النَصِّ المَدْخَلِ. وَمَعَ ذٰلِكَ، لا يَقْتَصِر الإِخْراج النصي لَنَماذِج VQA عَلَى قالَب مُعَيَّنٍ، وَبِالتالِي قَد لا يَتَضَمَّن اِسْمَ الفِئَةِ فِي قائِمَةً الفِئاتِ المُحَدَّدَةِ مُسْبَقاً لَمَهامّ التَعَرُّفُ عَلَى الأَشْياءَ. هٰذا يَجْعَل مِن الصَعْبِ تَقْيِيمِ الدِقَّةِ اِسْتِناداً إِلَى الإِجاباتِ المُتَنَوِّعَةَ.

المُطالَبَةِ الشائِعَةُ الَّتِي تَطْلُب مِن نَماذِجَ VQA التَعَرُّفُ عَلَى الكائِنِ هِيَ: ما هُوَ الكائِنِ الرَئِيسِيُّ فِي هٰذِهِ الصُورَةِ؟ لِجَعْلِ نَماذِجَ VQA تَخْتار مِن قائِمَةً الفِئاتِ المُحَدَّدَةِ مُسْبَقاً، نَسْأَل نَماذِجَ VQA كَما يَلِي: ما هُوَ الكائِنِ الرَئِيسِيُّ فِي هٰذِهِ الصُورَةِ؟ أَخْتِر مِن القائِمَةِ التالِيَةِ: \left[ \text{GT category} \right], \left[ \text{failure category} \right]. تُشِير فِئَةٌ GT إِلَى فِئَةٌ الحَقِيقَةِ الأَرْضِيَّة لِلصُورَةِ. أَمّا بِالنِسْبَةِ لِفِئَةِ الفَشَلِ، فَإِنَّنا نَعْتَمِد الفِئَةِ الَّتِي تَحَقَّقَ أَعْلَى ثِقَةِ CLIP (ViT-L/14) بَيِّنَ جَمِيعِ الفِئاتِ الخاطِئَةِ. مَعَ هٰذِهِ المُطالَبَةِ، نَجِد أَنَّ كُلّاً مِن MiniGPT-4 وَ LLaVa يُمْكِنهما اِخْتِيارِ مِن قائِمَةً الفِئاتِ المُقَدَّمَةِ فِي إِخْراجهما. إِذا اِخْتارَ النَمُوذَجِ فِئَةٌ الحَقِيقَةِ الأَرْضِيَّة، يُعْتَبَر هٰذا الكائِنِ مُعْتَرَفاً بِهِ بِشَكْلٍ صَحِيحٌ. لِذٰلِكَ، يُمْكِننا حِسابِ دِقَّةٍ نَماذِجَ VQA.

تَقْيِيمِ القُوَّةِ

النَتائِجِ الكَمِّيَّةِ. نَقُوم بِتَقْيِيم ImageNet-D عَلَى 25 نَمُوذَجاً، وَنَرْسُم اِتِّجاهِ دِقَّةٍ الاِخْتِبارُ فِي الشَكْلِ [fig:main_result_figure]. المِحْوَرُ الأُفُقِيّ وَالمِحْوَر العَمُودِيّ يُشِيرانِ إِلَى دِقَّةٍ الاِخْتِبارُ عَلَى ImageNet وImageNet-D عَلَى التَوالِي. يُظْهِر الشَكْلِ [fig:main_result_figure] أَنَّهُ كَلْماً زادَت دِقَّةٍ ImageNet، زادَت دِقَّةٍ ImageNet-D أَيْضاً. دِقَّةٍ ImageNet-D أَقَلَّ بِكَثِيرٍ مِن دِقَّةٍ ImageNet لِجَمِيعِ النَماذِجِ، كَما يَتَّضِح مِن التَوْزِيعِ الأَدْنَى أَسْفَل خَطِّ الإِشارَةُ \(y=x\). نَحْنُ نَبْلُغ عَن دِقَّةٍ 14 نَمُوذَجاً عَلَى مَجْمُوعاتٍ اِخْتِبارِ مُخْتَلِفَةٍ فِي الجَدْوَلُ [tab:benchmark_results]، وَدِقَّة جَمِيعِ النَماذِجِ فِي المُلْحَقِ. يُظْهِر الجَدْوَلُ [tab:benchmark_results] أَنَّ ImageNet-D يُحَقِّق أَدَّنِي دِقَّةٍ اِخْتِبارِ لِجَمِيعِ النَماذِجِ، بِاِسْتِثْناءِ النَتِيجَةُ المُماثِلَةِ عَلَى Stylized-ImageNet لَنَماذِج VQA. لاحَظَ أَنَّ ImageNet-D يُحَقِّق دِقَّةٍ صُورَةِ أَعْلَى مِن Stylized-ImageNet كَما هُوَ مُوَضِّح فِي الشَكْلِ [fig:test_set_comparison]. عَلَى الرَغْمِ مِن أَنَّ ObjectNet يُغَيِّر العَدِيدَ مِن السِمات لِكُلِّ صُورَةِ، إِلّا أَنَّهُ لا يَزال يُؤَدِّي إِلَى دِقَّةٍ أَعْلَى مِن ImageNet-D الَّتِي تُحَدِّد سِمَةً واحِدَةٍ فَقَط لِكُلِّ صُورَةِ. مُقارَنَةً ب ImageNet، يُؤَدِّي ImageNet-D إِلَى اِنْخِفاضِ فِي دِقَّةٍ الاِخْتِبارُ بِأَكْثَرِ مِن 16% لِجَمِيعِ النَماذِجِ، بِما فِي ذٰلِكَ LLaVa (تَقْلِيلِ 29.67%) وMiniGPT-4 (تَقْلِيلِ 16.81%).

نَتائِجِ التَصَوُّرُ

يُعَرِّض ImageNet-D أُمَثِّله صُور تُظْهِر جُودَة عالِيَةٍ. عَلَى الرَغْمِ مِن أَنَّ البَشَرِ يُمْكِنهم التَعَرُّفُ بِسُهُولَةٍ عَلَى الكائِنِ الرَئِيسِيُّ، إِلّا أَنَّ CLIP (ViT-L/14) يُصَنِّف هٰذِهِ الصُوَرِ بِشَكْلٍ خاطِئٍ فِي فِئَةٌ غَيْرِ صَحِيحَةٍ. يُظْهِر أَنَّ MiniGPT-4 وَ (LLaVa-1.5) يُمْكِن أَنَّ يَفْشَلا أَيْضاً فِي التَعَرُّفُ عَلَى الكائِنِ الرَئِيسِيُّ مِن صُور ImageNet-D.

تَحْسِينِ القُوَّةِ

تَوْسِيعِ البَياناتِ. تَكْشِف الدِراساتِ السابِقَةِ أَنَّ تَوْسِيعِ البَياناتِ فَعّالٌ لِتَحْسِينِ قُوَّةٍ النَمُوذَجِ، مِثْلَما هُوَ الحالِ فِي ImageNet-C (hendrycks2019benchmarking). نَقُوم بِتَقْيِيم طُرُقٍ تَوْسِيعِ البَياناتِ عَلَى ImageNet-D، بِما فِي ذٰلِكَ SIN (geirhos2018imagenet)، AugMix (hendrycks2019augmix)، ANT (rusak2020simple) وَ DeepAugment (hendrycks2021many). تُظْهِر الجَدْوَلُ [tab:result_augmentation] النَتائِجِ بِاِسْتِخْدامِ العَمُودِ الفَقْرِيِّ ResNet50 لِجَمِيعِ الطُرُقِ. نَحْنُ نُقَدِّم دِقَّةٍ الاِخْتِبارُ لِ ImageNet وَ ImageNet-D، وَمُتَوَسِّطِ خَطَأ التَلَف (mCE) لِ ImageNet-C بِاِتِّباعِ (hendrycks2019benchmarking,hendrycks2019augmix,rusak2020simple,hendrycks2021many). عَلَى الرَغْمِ مِن أَنَّ هٰذِهِ الطُرُقِ تَحَسُّنِ قُوَّةٍ ImageNet-C (اِنْخِفاضِ mCE) مُقارَنَةً بِالنَمُوذَج الأَساسِيُّ، تُظْهِر الجَدْوَلُ [tab:result_augmentation] أَنَّ قُوَّةٍ ImageNet-D الخاصَّةِ بِها مُماثِلَةٍ أَو حَتَّى أَسْوَأ مِن النَمُوذَجِ الأَساسِيُّ. هٰذا يُشِير إِلَى أَنَّ المَعايِيرِ الحالِيَّةِ مِثْلَ ImageNet-C لا تُمَثِّل بِدِقَّةٍ القُوَّةِ الحَقِيقِيَّةِ لِلشَبَكات العَصَبِيَّةِ فِي أَعْدادنا، مِمّا يَجْعَل ImageNet-D مِعْياراً ضَرُورِيّاً لَتَقْيِيم القُوَّةِ.

هَنْدَسَةُ النَمُوذَجِ. نُقارَن قُوَّةٍ ImageNet-D لهندسات نَمُوذَجَ مُخْتَلِفَةٍ فِي الشَكْلِ [fig:result_arch]. عِنْدَما نُغَيِّر النَمُوذَجِ مِن ViT إِلَى Swin Transformer (liu2021swin) وَ ConvNeXt (liu2022convnet)، تَتَحَسَّن دِقَّةٍ الاِخْتِبارُ عَلَى كُلِّ مِن ImageNet-D (الخَلْفِيَّةِ) وَ ImageNet. وَمَعَ ذٰلِكَ، تَنْخَفِض القُوَّةِ قَلِيلاً حَتَّى عَلَى مَجْمُوعَةِ اِخْتِبارِ النَسِيج وَالمَوادِّ. تُظْهِر هٰذِهِ النَتائِجِ صُعُوبَةِ تَحْسِينِ قُوَّةٍ ImageNet-D مِن خِلالَ هَنْدَسَةُ النَمُوذَجِ.

التَدْرِيبِ المُسْبَقِ بِمَزِيدٍ مِن البَياناتِ. التَدْرِيبِ المُسْبَقِ عَلَى مَجْمُوعَةِ بَياناتٍ كَبِيرَةٍ فَعّالٌ لِتَحْسِينِ أَداءِ النَمُوذَجِ، مِثْلَ دِقَّةٍ ImageNet (he2022masked). يُقارِن الشَكْلِ [fig:result_arch] بَيِّنَ ConvNext، الَّذِي يَتِمّ تَدْرِيبه مُباشَرَةً عَلَى ImageNet-1K، وَ ConvNext (المُدَرِّبِ مُسْبَقاً) الَّذِي يَتِمّ تَدْرِيبه أَوَّلاً عَلَى ImageNet-22K. نَجِد أَنَّ ConvNext (المُدَرِّبِ مُسْبَقاً) يُحَقِّق قُوَّةٍ أَعْلَى مِن ConvNext عَلَى جَمِيعِ مَجْمُوعاتٍ ImageNet-D الثَلاثِ، خاصَّةٍ لِمَجْمُوعَةِ الخَلْفِيَّةِ. تُظْهِر هٰذِهِ النَتائِجِ أَنَّ التَدْرِيبِ المُسْبَقِ عَلَى مَجْمُوعَةِ بَياناتٍ كَبِيرَةٍ يُساعِد فِي تَحْسِينِ القُوَّةِ عَلَى ImageNet-D.

مُناقَشاتٍ إِضافِيَّةً

هَل يُمْكِن لَنَمُوذَج CLIP أَنَّ يَجِد الجِيرانِ الصَحِيحَيْنِ لِصُوَرٍ ImageNet-D؟ يُظْهِر نَمُوذَجَ CLIP (radford2021learning) إِمْكانِيّات فِي مَهامِّ البَحْثِ عَن الجِيرانِ الأَقْرَبُ. بِاِسْتِخْدامِ صُور ImageNet-D كَصُوَر اِسْتِعْلام، نَسْتَرْجِع الصُوَرِ الأَكْثَرَ تُشابِها مِن ImageNet لِلتَحْقِيقِ فِيما إِذا كانَ CLIP يُمْكِن أَنَّ يَجِد الجِيرانِ الصَحِيحَيْنِ، كَما هُوَ مُوَضِّح فِي الشَكْلِ. خُذْ الخَلْفِيَّةِ عَلَى سَبِيلِ المِثالِ، قَد تَحْتَوِي الصُوَرِ المسترجعه إِمّا عَلَى خَلْفِيَّةِ مُشابِهَةٍ لِصُورَةِ الاِسْتِعْلام أَو تَشْمَل الكائِنِ الَّذِي يَتَعَلَّق بِخَلْفِيَّة صُورَةِ الاِسْتِعْلام. تُظْهِر نَتائِجنا أَنَّ ImageNet-D يُمْكِن أَنَّ يَجِد حالاتِ الفَشَلِ لِلشَبَكات العَصَبِيَّةِ فِي اِسْتِرْجاعِ الجِيرانِ الأَقْرَبُ.

هَل يُمْكِن لِ ImageNet-D مُطابَقَة مَجْمُوعاتٍ الاِخْتِبارُ الطَبِيعِيَّةِ فِي قابِلِيَّةِ نَقْلِ الفَشَلِ؟ يَعْرِف القِسْمِ [sec:dataset_design] الفَشَلِ القابِل لِلنَقْلِ وَيُنْهِي ImageNet-D بِفَشَل مُشْتَرَكٍ لَنَماذِج البَدِيلُ. نُجْرِي نَفْسِ التَجْرِبَةِ عَلَى ImageNet، مُقَدَّمَيْنِ ImageNet (الفَشَلِ) مَعَ صُور الفَشَلِ المُشْتَرَكَةِ لَنَماذِج البَدِيلُ. تُظْهِر الجَدْوَلُ [tab:transferability] أَنَّ ImageNet-D يُحَقِّق دِقَّةٍ مُماثِلَةٍ لِ ImageNet (الفَشَلِ)، مِمّا يُشِير إِلَى أَنَّ الصُوَرِ الاِصْطِناعِيَّةِ يُمْكِن أَنَّ تَحَقَّقَ قابِلِيَّةِ نَقْلِ الفَشَلِ مُماثِلَةٍ لِلصُوَرِ الطَبِيعِيَّةِ. عَلَى عَكْسَ مَجْمُوعاتٍ البَياناتِ الطَبِيعِيَّةِ مِثْلَ ImageNet، يَتَمَتَّع ImageNet-D بِتَكْلِفَةٍ أَقَلَّ فِي جَمْعِ البَياناتِ وَيُمْكِن تَوْسِيعه بِكَفاءَة.

التَدْرِيبِ عَلَى صُور مَوْلِده بِالاِنْتِشارِ. بِالمُقارَنَةِ مَعَ صُور الفَشَلِ المُشْتَرَكَةِ فِي ImageNet-D، نُطْلَق عَلَى الصُوَرِ المُوَلِّدَة الَّتِي تَمَّ تَصْنِيفِها بِشَكْلٍ صَحِيحٌ مِن قِبَلَ نَماذِجَ البَدِيلُ Synthetic-easy، وَنَسْتَكْشِف تَأْثِيرِها كَبَيانات تَدْرِيبِ. نَقُوم بِتَنْعِيم نَمُوذَجَ ResNet18 المُدَرِّبِ مُسْبَقاً عَلَى مَجْمُوعاتٍ تَدْرِيبِ مُخْتَلِفَةٍ فِي الجَدْوَلُ [tab:finetune_experiment]. يُظْهِر الجَدْوَلُ [tab:finetune_experiment] أَنَّ التَدْرِيبِ عَلَى Synthetic-easy يُحَسِّن بِشَكْلٍ كَبِيرٍ مِن قُوَّةٍ ImageNet-D بِنِسْبَةِ 19.26%. بِشَكْلٍ مَلْحُوظٍ، يَتَفَوَّق النَمُوذَجِ C عَلَى النَمُوذَجِ B فِي دِقَّةٍ ObjectNet بِنِسْبَةِ 1.34%، مِمّا يُشِير إِلَى تَعْمِيمِ أَفْضَلَ لِلنَمُوذَج C. تُشِير هٰذِهِ النَتائِجِ إِلَى أَنَّ الصُوَرِ المُوَلِّدَة بِالاِنْتِشارِ مَعَ أَزْواج الكائِنات وَالمَتاعِبِ المُتَنَوِّعَةَ يُمْكِن أَنَّ تُعَزِّز قُوَّةٍ النَمُوذَجِ كَعَيْنات تَدْرِيبِ.

الخُلاصَةِ

فِي هٰذِهِ الوَرَقَةَ، نُقَدِّم مَجْمُوعَةِ اِخْتِبارِ ImageNet-D وَنُقِيم مِعْياراً صارِما لَمِتانه الإِدْراك البَصْرِيّ. مِن خِلالَ اِسْتِغْلالِ قُدْرَةِ تَوْلِيدِ الصُوَرِ لَنَماذِج الاِنْتِشارِ، تَتَضَمَّن ImageNet-D صُوَراً بِعَوامِلِ مُتَنَوِّعَةٍ تَشْمَل الخَلْفِيَّةِ وَالمَلْمَس وَالمادَّةُ. تُظْهِر النَتائِجِ التَجْرِيبِيَّة أَنَّ ImageNet-D تُقَلِّل بِشَكْلٍ كَبِيرٍ مِن دِقَّةٍ النَماذِجِ المُخْتَلِفَةِ، بِما فِي ذٰلِكَ CLIP (تَقْلِيلِ 46.05%)، LLaVa (liu2023visual) (تَقْلِيلِ 29.67%)، وَ MiniGPT-4 (zhu2023minigpt) (تَقْلِيلِ 16.81%)، مِمّا يَدُلّ عَلَى فَعّالِيَّتها فِي تَقْيِيمِ النَماذِجِ. تَعُد أَعْمالنا خَطْوَةٍ إِلَى الأَمامِ فِي تَحْسِينِ مَجْمُوعاتٍ الاِخْتِبارُ الاِصْطِناعِيَّةِ، وَسَتَخْلُق صُور اِخْتِبارِ أَكْثَرَ تَنَوُّعاً وَتَحَدِّيا مَعَ تَحَسُّنِ النَماذِجِ التوليديه.

الشُكْرِ وَالتَقْدِيرِ: تَمَّ دَعْمِ هٰذا العَمَلِ مِن قِبَلَ مِنْحَةً مَعْهَدِ تَخْطِيطِ وَتَقْيِيم تِكْنُولُوجِيا المَعْلُوماتِ وَالاِتِّصالاتِ (IITP) المُمَوَّلَة مِن قِبَلَ حُكُومَةِ كُورِيا (MSIT) (رَقْمِ 2022-0-00951, تَطْوِيرِ عَوامِلِ غَيْرِ مُؤَكَّدَةً تَتَعَلَّم مِن خِلالَ طَرْحِ الأَسْئِلَةِ).

مُهِمَّةً التَسْمِيَة عَلَى آمازُون ميكانيكال تُوركَ

لِلحُصُولِ عَلَى مَعايِيرِ مَوْثُوقه، نَسْتَخْدِم آمازُون ميكانيكال تُوركَ (deng2009imagenet, recht2019imagenet, hendrycks2021many) لَتَقْيِيم جُودَة التَسْمِيَة لِ ImageNet-D.

تَصْمِيمِ مُهِمَّةً التَسْمِيَة

تَعْلِيماتٍ التَسْمِيَة. نَظَراً لِأَنَّ ImageNet-D يَتَضَمَّن صُوَراً تَحْتَوِي عَلَى أَزْواج مِن الأَشْياءَ وَالمُعَوِّقات الَّتِي قَد تَكُون نادِرَةً فِي العالَمِ الحَقِيقِيِّ، فَإِنَّنا نَأْخُذ فِي الاِعْتِبارِ كُلِّ مِن المَظْهَرُ وَالوَظِيفَةِ لِلكائِن الرَئِيسِيُّ كَمَعايِير لِلتَسْمِيَةِ. عَلَى وَجْهِ التَحْدِيدِ، نَطْلُب مِن العُمّالِ مِن MTurk الإِجابَةَ عَلَى السُؤالَيْنِ التالِيَيْنِ:

السُؤالُ 1: هَل يُمْكِنكَ التَعَرُّفُ عَلَى الكائِنِ المَطْلُوبِ (فِئَةٌ الحَقِيقَةِ الأَرْضِيَّة) فِي الصُورَةِ؟ قَد تَحْتَوِي عَلَى خَلْفِيّاتٌ، نَسِيجِ، مَوادِّ، أَو أَنْماطُ نادِرَةً.

السُؤالُ 2: هَل يُمْكِن اِسْتِخْدامِ الكائِنِ فِي الصُورَةِ كَالكائِن المَطْلُوبِ (فِئَةٌ الحَقِيقَةِ الأَرْضِيَّة

خَطِّ سَيْرِ التَسْمِيَة. لِضَمانِ فَهُم العُمّالِ لِهٰذَيْنِ المِعْيارَيْنِ، نَطْلُب مِن العُمّالِ تَسْمِيَةِ صُورَتَيْنِ تَمْثِيلِيَّتَيْنِ لِلتَدْرِيبِ، وَالَّتِي تُوَفِّر الإِجابَةَ الصَحِيحَةِ لِلسُؤالَيْنِ المَذْكُورَيْنِ أَعْلاه. بُعْدَ جَلْسَةٍ التَدْرِيبِ، يَطْلُب مِن العُمّالِ تَسْمِيَةِ ما يَصِل إِلَى 20 صُورَةِ فِي مُهِمَّةً واحِدَةٍ، وَالإِجابَة عَلَى كُلّاً السُؤالَيْنِ لِكُلِّ صُورَةِ. يَخْتار العامِلِ ’نَعَم’ أَو ’لا’ لِكُلِّ سُؤالٍ.

واجِهَةِ المُسْتَخْدِمُ لِلتَسْمِيَةِ. تَمَّ تَصْمِيمِ صَفْحَةً التَسْمِيَة كَما فِي الشَكْلِ المحذوف. يُمْكِن لِلعُمّالِ الاِنْتِقالِ إِلَى الصُورَةِ التالِيَةِ فَقَط إِذا أَنْهَوْا الإِجابَةَ عَلَى كُلّاً السُؤالَيْنِ فِي الصَفْحَةِ الحالِيَّةِ.

مُراقَبَةِ جُودَة التَصْنِيفِ البَشَرِيِّ

نَسْتَخْدِم الحُرّاسُ لِضَمانِ التَعْلِيقاتِ التوضيحيه عالِيَةٍ الجُودَةِ. لِكُلِّ مُهِمَّةً تَصْنِيفِ تَشْمَل صُوَراً مُتَعَدِّدَةِ، نُصَمِّم ثَلاثَةِ أَنْواعِ مِن الحُرّاسُ كَما يَلِي.

الحارِسُ الإِيجابِيِّ: صُورَةِ تَنْتَمِي إِلَى الفِئَةِ المَطْلُوبَةِ وَتَمَّ تَصْنِيفِها بِشَكْلٍ صَحِيحٌ مِن قِبَلَ عِدَّةٍ نَماذِجَ. إِذا لَم يَخْتار العُمّالِ ’نَعَم’ لِهٰذِهِ الصُورَةِ، فَقَد لا يَفْهَمُونَ المَفْهُومُ جَيِّداً وَسَيَتِمّ إِزالَةِ تَعْلِيقاتهم التوضيحيه.

الحارِسُ السَلْبِيِّ: صُورَةِ لا تَنْتَمِي إِلَى الفِئَةِ المَطْلُوبَةِ. عَلَى سَبِيلِ المِثالِ، إِذا كانَت الفِئَةِ المَطْلُوبَةِ هِيَ كُرْسِيِّ، فَقَد يَكُون الحارِسُ السَلْبِيِّ مِغْرَفَة. إِذا اِخْتارَ العُمّالِ ’نَعَم’ لِصُورَةِ المِغْرَفَة، فَقَد لا يُجِيبُونَ عَلَى الأَسْئِلَةِ بِجِدِّيَّةٍ وَسَيَتِمّ إِزالَةِ تَعْلِيقاتهم التوضيحيه.

الحارِسُ المُتَّسِق. نَفْتَرِض أَنَّ العُمّالِ يَجِب أَنَّ يَخْتارُوا نَفْسِ الإِجابَةَ لَنَفْس الصُورَةِ إِذا ظَهَرَت عِدَّةٍ مَرّاتٍ. الحُرّاسُ المُتَّسِقُونَ هُم صُور تُظْهِر مَرَّتَيْنِ بِتَرْتِيب عَشْوائِيٍّ. إِذا أَجابَ العُمّالِ بِشَكْلٍ مُخْتَلِفِ عَن نَفْسِ الصُورَةِ، فَإِنَّ تَعْلِيقاتهم التوضيحيه لَيِسَت مُتَّسِقه وَسَيَتِمّ إِزالَتِها.

لِكُلِّ مُهِمَّةً تَصْنِيفِ تَشْمَل ما يَصِل إِلَى 20 صُورَةِ، نَشْمَل حارِساً إِيجابِيّاً واحِداً، وَحارِسا سَلْبِيّاً واحِداً، وَحارِسَيْنِ مُتَّسِقَيْنِ. نَتَجاهَل الرُدُود إِذا لَم يَجْتاز العُمّالِ جَمِيعِ فُحُوصات الحُرّاسُ.

النَتائِجِ

لِكُلِّ صُورَةِ، نَجْمَع تَعْلِيقاتِ مُسْتَقِلَّةٍ مِن 10 عُمّالِ وَنَقُوم بِتَصْفِيَةِ الرُدُود مِن العُمّالِ الَّذِينَ لا يَجْتازُونَ فَحْص الجُودَةِ. بَلَغَ مَجْمُوعُ العُمّالِ المُؤَهَّلَيْنِ 679 عامِلاً قَدِمُوا 1540 مُهِمَّةً تَصْنِيفِ، مِمّا أَسْفَرَ عَن تَوافُقٌ نِسْبَتُهُ 91.09% عَلَى صُورَةِ مُعَيَّنَةٍ مِن ImageNet-D.

نَتائِجِ تَجْرِيبِيَّةٍ عَلَى ImageNet-D

المَزِيدِ مِن النَتائِجِ لِلقِسَم 4. نُقارَن دِقَّةٍ النَمُوذَجِ لِ Image-D مَعَ مَجْمُوعاتٍ الاِخْتِبارُ الحالِيَّةِ، بِما فِي ذٰلِكَ ImageNet (russakovsky2015imagenet)، ObjectNet (barbu2019objectnet)، ImageNet-9 (xiao2020noise) وَ Stylized-ImageNet (geirhos2018imagenet). يَتِمّ الإِبْلاغ عَن جَمِيعِ أَرْقامِ الدِقَّةِ فِي الجَدْوَلُ [tab:appendix_benchmark_results]، وَالَّذِي يَتَضَمَّن أَيْضاً أَرْقامِ الشَكْلِ 8 فِي المَخْطُوطَة الرَئِيسِيَّةِ.

إِعْدادات التَدْرِيبِ لِلجَدْوَل 6. نُقَدِّم تَفاصِيلَ تَجْرِيبِيَّةٍ لِلجَدْوَل 6 فِي المَخْطُوطَة الرَئِيسِيَّةِ. نَقُوم بِتَحْسِين نَمُوذَجَ ResNet18 المُدَرِّبِ مُسْبَقاً عَلَى مَجْمُوعاتٍ تَدْرِيبِ مُتَنَوِّعَةٍ. لِفَحْصٍ تَأْثِيرِ دَمْجِ الصُوَرِ الاِصْطِناعِيَّةِ فِي مَجْمُوعَةِ تَدْرِيبِ التَحْسِين، نَقُوم بِأَخْذِ عَيِّناتٍ مِن ImageNet وَ Synthetic-easy لَتَوْزِيعات بَياناتٍ مُتَماثِله، حَيْثُ يَتَضَمَّن Synthetic-easy صُوَراً مَوْلِده بِالاِنْتِشارِ تَمَّ تَصْنِيفِها بِشَكْلٍ صَحِيحٌ مِن قِبَلَ نَماذِجَ بَدِيلَةٍ. يَحْتَوِي كُلِّ مَجْمُوعَةِ عَلَى 111098 صُورَةِ، وَكَلّا المَجْمُوعَتَيْنِ لَدَيهِما نَفْسِ عَدَدٍ الصُوَرِ لِكُلِّ فِئَةٌ. يَتِمّ تَحْسِينِ جَمِيعِ النَماذِجِ عَلَى ResNet18 المُدَرِّبِ مُسْبَقاً فِي الحِقْبَةِ 90 لِ 10 حُقْب إِضافِيَّةً، بِاِسْتِخْدامِ مُحْسِن SGD بِمُعَدَّلِ تَعْلَم 0.0001. بِخِلافِ ImageNet المَأْخُوذَةِ وَ Synthetic-easy، نَتَضَمَّن ImageNet-1K الأَصْلِيُّ كَبَيانات تَدْرِيبِ لِلتَدْرِيبِ السَلِس.