مِعيار ImageNet-D: قِياسُ مَتانةِ الشَّبكاتِ العَصبيّة على أشياءٍ مُولَّدةٍ بنماذجِ الاِنتشار

Chenshuang Zhang Fei Pan Junmo Kim In So Kweon Chengzhi Mao
KAIST\(^{1}\)، University of Michigan, Ann Arbor\(^{2}\)، McGill University\(^{3}\)، MILA\(^{4}\)

مُلَخَّص

نُقَدِّم مِعياراً صارِماً لِمَتانةِ الإدراكِ البَصري. تُوَفِّر المَعایيرُ القائِمة على صورٍ مُصطنَعة مثل ImageNet-C وImageNet-9 وStylized ImageNet نوعاً مُحَدَّداً من التقييم على التشوُّهات الاصطناعية والخلفيّات والأنسجة، غير أنّ هذه المعايير محدودةٌ بتبايناتٍ مُعيَّنة وبواقعيّةٍ مُتدنّية. في هذا العمل، نَستخدِم نِموذجاً توليديّاً كمَصدرِ بياناتٍ لابتكار صورٍ صعبةٍ تقيس متانة النماذج العميقة. بالاعتماد على نماذجِ الاِنتشار نستطيع توليد صورٍ ذات خلفيّات وأنسجة وموادّ أكثر تنوُّعاً من أيّ عملٍ سابق، ونُطلِق على هذا المعيار اسم ImageNet-D. تُظهِر تجاربُنا أنّ ImageNet-D يُسبِّب انخفاضاً كبيراً في الدقّة عبر طيفٍ واسعٍ من نماذج الرؤية، من المُصنِّفات التقليدية مثل ResNet إلى النماذج الأساس الحديثة مثل CLIP وMiniGPT-4، مع تقليص الدقّة بما يصل إلى 60\%. يُشير عملُنا إلى أنّ نماذج الاِنتشار يُمكِن أن تكون مَصدراً فعّالاً لاختبار نماذج الرؤية. الشيفرة والمجموعة مُتاحتان على GitHub للتوثيق والتنزيل.

مُقَدِّمَة

حقَّقت الشبكاتُ العصبيّة أداءً ملحوظاً في مهامّ تمتدّ من تصنيف الصور (vaswani2017attention, liu2021swin, liu2022convnet) إلى الإجابةِ عن الأسئلةِ البصريّة (li2023blip, dai2023instructblip, liu2023visual, zhu2023minigpt). وقد ألهمت هذه التقدُّماتِ تطبيقَ الشبكات العصبيّة في مجالاتٍ متنوّعة، بما في ذلك الأنظمة الأمنيّة والحَرِجة مثل المركباتِ ذاتية القيادة (kangsepp2022calibrated, nesti2023ultra, liu2023vectormapnet)، وكشفِ البرمجياتِ الخبيثة (yuan2014droid, chen2019believe, pei2017deepxplore) والروبوتات (brohan2022rt, brohan2023rt, huang2023voxposer). ونظراً لاتّساع استخدامها، بات من المُهمّ أكثر فأكثر تحديدُ متانةِ الشبكات العصبيّة (ming2022delving, li2023distilling) لأسبابٍ تتعلّق بالسلامة.

لتقييم متانة الشبكات العصبيّة، يجمع ObjectNet (barbu2019objectnet) صورَ أشياءَ واقعيّة على عواملَ يمكن التحكُّم بها، مثل الخلفيّة، وذلك بواسطة عُمّال بشريّين، وهو ما يستهلك وقتاً وجهداً كبيرين. ولتوسيع جمع البيانات، استُخدمت الصورُ الاصطناعية كصور اختبار (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). على سبيل المثال، يُقدِّم ImageNet-C (hendrycks2019benchmarking) مجموعةً من التشوُّهات البصريّة الشائعة منخفضةِ المستوى، مثل الضوضاء الغاوسيّة والطمس، لاختبار متانة النماذج. ويستخدم ImageNet-9 (xiao2020noise) تقنيةً بسيطةً للقصّ واللصق لإنشاء معيارٍ لمتانة الخلفيّة، لكن الصور تبدو أقلّ واقعيّة. أمّا Stylized-ImageNet (geirhos2018imagenet) فيُولِّد صوراً جديدة عبر تغيير نسيج صور ImageNet، لكنه لا يتحكّم في العوامل عاليةِ المستوى مثل الخلفيّة.

في هذا العمل، نُقدِّم ImageNet-D، وهي مجموعةُ اختبارٍ اصطناعية مُولَّدة بواسطة نماذج الاِنتشار لمَهمّةِ التعرّف على الأشياء. بالاستفادة من قدرات نماذج الاِنتشار الرائدة (rombach2022high)، نُظهِر أنه يمكن توجيه هذه النماذج باللغة الطبيعية لإنشاء صورِ اختبارٍ واقعيّة تُوقِع نماذج الرؤية في الخطأ. وبفضل قابليّتها للتوجيه باللغة، نستطيع تنويع العوامل عاليةِ المستوى في الصور، على خلاف التشوُّهات المحليّة والنسيج في الأعمال السابقة، بما يوفِّر أبعاداً إضافيّة لتقييم المتانة.

لِتعزيز صعوبة العيّنات في مجموعتنا، نحتفظ انتقائياً بالصور التي تُسبِّب فشلَ نماذجِ الرؤية المُختارة. وتُظهر نتائجُنا أنّ الصور التي تُثيرُ الأخطاء في النماذج المُستخدمة للاختيار تنقلُ صعوبتَها على نحوٍ موثوق إلى نماذج أخرى لم تُستَخدم مسبقاً، ممّا يؤدّي إلى انخفاضٍ ملحوظٍ في الدقّة حتى في النماذجِ الأساس الحديثة مثل MiniGPT-4 (zhu2023minigpt) وLLaVa (liu2023visual)، وهذا يُشير إلى أنّ مجموعة البيانات تكشف فشلاً شائعاً في نماذج الرؤية.

تُظهر التصوُّرات أنّ ImageNet-D يُحسِّن بدرجةٍ كبيرة جودةَ الصورة مقارنةً بمعايير المتانة الاصطناعية السابقة. يعمل ImageNet-D كأداةٍ فعّالةٍ لكشف قصور الأداء وتقييم متانة النماذج، بما في ذلك ResNet 101 (انخفاض 55.02\%)، وViT-L/16 (انخفاض 59.40\%)، وCLIP (انخفاض 46.05\%)، كما يتعمَّم جيداً إلى نماذج اللغة-الرؤية الكبيرة مثل LLaVa (liu2023visual) (انخفاض 29.67\%) وMiniGPT-4 (zhu2023minigpt) (انخفاض 16.81\%). يُعتَبَر نهجُنا في استخدام النماذج التوليدية لتقييم المتانة منهجاً عامّاً، ويُظهِر إمكاناتٍ كبيرة لتحسيناتٍ مستقبليّة مع تطوُّر النماذج التوليدية.

الأَعْمال ذات الصِلَة

مَتانة الشبكات العصبيّة. تطوَّرت النماذج من الشبكاتِ الاِلتفافيّة (CNN) (he2016deep, huang2017densely)، إلى المحوِّلات الرؤيويّة (ViT) (vaswani2017attention, liu2021swin)، وصولاً إلى النماذج الأساس الكبيرة (bommasani2021opportunities, devlin2018bert, touvron2023llama). وقد تناولت أعمالٌ سابقة متانةَ الشبكات العصبيّة من جوانب عدّة، مثل الأمثلة المُعادية (mao2022understanding, mahmood2021robustness, madry2017towards, zhao2023evaluating, zhang2019theoretically) والعينات خارج التوزيع (MAE, mao2021discrete, hendrycks2021many, augmix). كما أظهرت النماذج الأساس متانةً أعلى على العينات خارج التوزيع (radford2021learning). وإلى جانب ذلك، جرى بحثُ التفسير المتين أيضاً (mao2023doubly, liu2023visual, zhu2023minigpt). ولتقييم متانة النماذج العميقة بشكلٍ منهجي، لا بُدّ من مجموعات اختبارٍ تُغطّي عوامل متنوّعة.

مجموعات بيانات لتقييم المتانة. تستخدم دراساتٌ عديدة صوراً من الإنترنت، ومنها ImageNet-A (hendrycks2021natural) وImagenet-R (hendrycks2021many) وImageNet-Sketch (wang2019learning). غير أنّها مقيّدةٌ بما هو مُتاح على الويب. يجمع ObjectNet (barbu2019objectnet) الصورَ يدوياً بمساعدة آلاف العُمّال، ما يستغرق وقتاً وجهداً كبيرين.

لتجاوز قيودِ الاعتماد على الويب وتقليل كلفة الجمع اليدوي، اقتُرحت الصورُ الاصطناعية لتقييم المتانة (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). يُقيِّم ImageNet-C (hendrycks2019benchmarking) متانةَ النموذج حيال التشوُّهات منخفضة المستوى. ويُولّد ImageNet-9 (xiao2020noise) صوراً جديدة بدمج الخلفيّة والمقدّمة من صورٍ مختلفة، لكنه محدودٌ بجودةٍ أدنى نسبياً. أمّا Stylized-ImageNet (geirhos2018imagenet) فيُغيِّر نسيجَ صور ImageNet باستخدام نقل الأسلوب AdaIN (huang2017arbitrary) أو بإدخال تعارضٍ بين النسيج والشكل، لكنه لا يتحكّم في عوامل أخرى مثل الخلفيات. في هذا العمل، نُقدِّم مجموعة اختبارٍ جديدة ImageNet-D، تُولَّد بالتحكُّم عبر نماذج الاِنتشار، وتَشمل صوراً جديدة مع خلفيّات وأنسجة وموادّ متنوّعة.

توليد الصور. حقَّقت نماذجُ الاِنتشار نجاحاً كبيراً في مهامّ متعدّدة، منها توليدُ الصور (saharia2022photorealistic, ramesh2022hierarchical, ruiz2023dreambooth, zhang2023text). وبخاصةٍ، يُمكِّن Stable Diffusion (rombach2022high) من توليد صورٍ عاليةِ الدقّة مُوجَّهةٍ باللغة. كما يُتيح InstructPix2Pix (brooks2023instructpix2pix) تحكُّماً أدقّ عبر تعديل صورةٍ معيّنة وفق تعليماتٍ بشريّة. في هذه الورقة، نبني خطّ أنابيبنا باستخدام نموذج Stable Diffusion القياسي، مع أنّ طريقتنا متوافقةٌ مع نماذج توليديّة أخرى قابلةٍ للتوجيه باللغة.

تعزيز الإدراك باستخدام صور الاِنتشار. استُخدمت الصورُ المُولَّدة بالاِنتشار لتعزيز مهامّ الإدراك الرؤيوي. فَقطّ حسَّن فرعٌ من الدراسات (yuan2023not, bansal2023leaving, azizi2023synthetic, tian2023stablerep) دقّةَ التصنيف باستعمال الصور الاصطناعية كتوسيعٍ لبيانات التدريب. بينما يكشف DREAM-OOD (du2023dream) القيمَ الشاذّة عبر فكّ ترميز العينات الكامنة إلى صور، لكن طريقتهم تفتقر إلى التحكّم الدقيق في فضاء الصور، وهو أمرٌ محوريّ لمِثل ImageNet-D. كما يُحدِّد (metzen2023identification) أزواج سماتٍ غير ممثّلةٍ بما يكفي، بينما يركّز بحثنا على استخراج الصور الصعبة لكلّ سمةٍ على حِدة. وعلى عكس (li2023imagenet, vendrow2023dataset, prabhu2023lance) الذين يُعدّلون مجموعات البيانات القائمة، يُولِّد عملُنا صوراً جديدة ويختار أصعبَها كمجموعة اختبار، مُحقِّقاً انخفاضاً أكبر في الدقّة.

ImageNet-D

نُقدِّم أولاً كيفيّة إنشاء ImageNet-D في قسم تصميم مجموعة البيانات، ثم نعرض لمحةً عن إحصاءاته في قسم الإحصاءات.

تَصْمِيم مجموعة البيانات

بينما تتفوّق الشبكاتُ العصبيّة في تطبيقاتٍ متعدّدة، فإنّ متانتَها تحتاج إلى تقييمٍ دقيق لأغراض السلامة. تعتمد التقييمات التقليدية على مجموعات اختبارٍ قائمة تتضمن إمّا صوراً طبيعيّة (barbu2019objectnet, hendrycks2021natural) أو صوراً اصطناعية (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). ومقارنةً بجمع الصور يدوياً، فإن بناءَ مجموعة اختبارٍ اصطناعية أكثر كفاءةً (geirhos2018imagenet, xiao2020noise). غير أنّ تنوّع مجموعات الاختبار الاصطناعية الحالية محدودٌ لاعتمادها على صورٍ قائمةٍ لاستخراج السمات، كما أنّ واقعيّتَها منخفضةٌ أيضاً، كما هو موضّحٌ في الشكل [fig:test_set_comparison]. نُقدِّم ImageNet-D لمعالجة هذه القيود، عبر تقييم متانة النموذج على مجموعاتٍ متنوّعة من الأشياء والعوامل الطارئة.

توليد الصور بواسطة نماذج الاِنتشار. لبناء ImageNet-D، نستخدم نماذجَ الاِنتشار لإنشاء مجموعةٍ ضخمةٍ من الصور عبر الجمع الطولي لجميع فئات الأشياء الممكنة والعوامل الطارئة، بما يُتيح توليد صورٍ عالية الدقّة انطلاقاً من مُدخلاتٍ نصّيةٍ مُحدّدة. نعتمد نموذج Stable Diffusion (rombach2022high) للتوليد، مع أنّ نهجَنا متوافقٌ مع نماذج توليديّة أخرى قابلةٍ للتوجيه باللغة. تُصاغ عمليةُ التوليد على النحو التالي: \[ \text{Image}(C, N) = \text{Stable Diffusion}(\text{Prompt}(C,N)), \] حيث يُشير \(C\) و\(N\) إلى فئةِ الشيء والعاملِ الطارئ، على التوالي. ويشمل العامل الطارئ \(N\) الخلفيّةَ والنسيجَ والمادّة. يقدّم الجدول [tab:prompt_list] نظرةً عامّة على العوامل والقوالب النصّية. وبالاستعانة بفئةِ الحقيبة مثالاً، نُولِّد صوراً لـ«حقيبةٍ في حقلِ قمحٍ» و«حقيبةٍ في غرفةٍ خشبيّة» وغير ذلك، بما يوفّر تنوُّعاً أوسع من المجموعات القائمة. نَعُدّ فئةَ المُطالَبة النصّية \(C\) هي الحقيقةَ الأرضية. وتُعدّ الصورةُ مُصنّفةً خطأً إذا لم يُطابِق تصنيفُ النموذج الحقيقةَ الأرضية \(C\).

بعد إنشاء مجموعةٍ كبيرةٍ من الصور لكلّ أزواجِ الفئات والعوامل، نقيّم نموذج CLIP (ViT-L/14) على هذه الصور في الجدول [tab:vanilla_generation] (التفاصيل التجريبية في قسم الإعدادات). ويُظهر الجدول أنّ CLIP يُحقّق دقّةً مرتفعة (نحو 94\%) على الصور الاصطناعية. ولإنشاء مجموعةِ اختبارٍ تحدٍّ، نقترح استراتيجيةً فعّالة لاستخراج العينات الصعبة بالاعتماد على الفشل المُشترَك.

استخراج الصور الصعبة عبر فشلِ الإدراك المُشترَك. قبل شرحِ كيفية تحديدِ العينات الصعبة، نُعرِّف مفهومَ فشل الإدراك المُشترَك:

الفشل المُشترَك: تُعَدّ صورةٌ ما فشلاً مُشترَكاً إذا أدّت إلى تنبؤٍ خاطئ بفئةِ الشيء لدى عدّةِ نماذج.

المجموعةُ الصعبة المثاليّة تضمّ صوراً يفشل فيها جميعُ النماذج المُختبَرة، لكن ذلك غير عمليّ لعدم إمكان الوصول إلى النماذج المستقبلية (النماذج الهدف). بدلاً من ذلك، نبني مجموعةَ الاختبار انطلاقاً من فشلِ نماذج بديلةٍ معروفة. فإذا أدّى فشل هذه النماذج إلى انخفاضٍ في الدقّة لدى النماذج الهدف غير المعروفة، نَعُدّ الفشل «قابلاً للنقل»:

الفشل القابل للنقل: فشلُ النماذج البديلة المعروفة يكون قابلاً للنقل إذا أدّى أيضاً إلى دقّةٍ متدنّية لدى النماذج الهدف غير المعروفة.

لتقييم قابليّة نقل الفشل من الصور المُولَّدة، نُقيِّم مجموعاتِ اختبارٍ جرى إنشاؤها بفشلٍ مُشترَك من 1 إلى 8 نماذج بديلة (الشكل [fig:filter_consistency]). كما نُقيِّم ثلاثة نماذج هدف لم تُستخدَم في بناء مجموعة الاختبار، وهي CLIP (ViT-B/16) وLLaVa وMiniGPT-4. ويُظهر الشكل [fig:filter_consistency] أنّ دقّة النماذج الهدف تنخفض كلّما زاد عدد النماذج البديلة. وقد أُنتِجت مجموعاتُ الاختبار للعوامل الثلاثة (الخلفية والنسيج والمادّة) وتُظهِر الاتّجاه نفسه.

التَحَكُّمُ بالجودة بواسطة تدخُّلٍ بشريّ

تُوفِّر العمليةُ السابقة اكتشافاً تلقائيّاً لمجموعةِ اختبارٍ صعبة، غير أنّ النماذج التوليدية قد تُنتِج صوراً لا تتطابق مع فئةِ المُطالبة. لذا نَلجأ إلى التعليق التوضيحي البشري لضمان أن تكون صور ImageNet-D صالحةً ومن فئةٍ واحدة وعاليةَ الجودة. بعد الجولة الأولى من التعليق بواسطة طلاب دراساتٍ عليا متخصصين، نستخدم Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) للتدقيق في جودة التسمية. نطلب من العُمّال اختيار الصور التي يمكنهم التعرّف فيها على الكائنِ الرئيسي أو التي تُظهر الكائن في وظيفته الحقيقيّة كفئةِ الحقيقة الأرضية. كما نُصمِّم عناصرَ تحكّمٍ بالجودة لضمان استجاباتٍ دقيقة، ومنها عناصرٌ إيجابيّة وسلبيّة واختباراتُ اتّساق. التفاصيل في الملحق. شارك 679 عاملاً في 1540 مهمّة، مُحقِّقين توافُقاً نسبته 91.09\%.

إحصاءاتُ قاعدةِ البيانات

تتضمن ImageNet-D 113 فئةً مشتركةً بين ImageNet وObjectNet، و547 مُرشِّحاً للعوامل المؤثّرة من Broden (bau2017network) (انظر الجدول [tab:prompt_list])، ما يُنتِج 4835 صورةً صعبة: خلفياتٌ متنوّعة (3764)، وأنسجة (498)، وموادّ (573). إنّ عملية إنشاء ImageNet-D عامّةٌ وفعّالة، وتُتيح إضافةَ فئاتٍ وعواملَ جديدة بسهولة. ويُظهِر توزيعُ الفئات نمطاً طبيعيّاً طويلَ الذيل (الشكل [fig:hist_category])، كما يُسلِّط التوزيعُ النادر وغيرُ المنتظم للعوامل في الشكل [fig:heatmap] الضوءَ على أهميّة استنفادِ أزواجِ الفئات والعوامل في إنشاء مجموعة الاختبار.

التجارب

نُقيِّم نماذج مختلفة على معيار ImageNet-D، فتُبيِّن النتائجُ انخفاضاً في الدقّة يصل إلى 60\% لدى جميعها. ثم ندرس ما إذا كانت تقنياتٌ سابقة، مثل توسيع البيانات، تُحسِّن المتانة. أخيراً، نُناقش ImageNet-D من زوايا متنوّعة، مثل استرجاع الجار الأقرب.

إعداداتُ التجربة

إعدادات بناء مجموعة الاختبار. نستخدم نموذج Stable Diffusion 2.1 (stable-diffusion-2-1) من Hugging Face لإنشاء ImageNet-D. لاستخراج الصور الصعبة، نحتفظ بالصور التي تفشل فيها أربعةُ نماذج بديلة: CLIP (ViT-L/14, ViT-L/14-336px, ResNet50) ونموذج الرؤية ResNet50 (he2016deep). وتشمل قائمةُ النماذج البديلة أيضاً CLIP (ResNet101, ViT-B/32) ونماذجَ رؤيةٍ أخرى (ViT-L/16, VGG16).

تقييم نماذج التصنيف. تُقاس المتانة على ImageNet-D بدقّة Top-1 في التعرّف على الأشياء. نستخدم الأوزانَ المُدرَّبة مُسبقاً المفتوحة المصدر للنماذج. وبالنسبة إلى CLIP (radford2021learning)، نتبع الإرشاداتِ الأصليّة لاعتماد قالبٍ نصّيّ من قبيل: «صورةٌ لـ \(\left[\text{category}\right]\)». ونُبلِغ عن دقّة الضبط الصفري (zero-shot) لـ CLIP.

تقييم نماذج الإجابة عن الأسئلة البصريّة (VQA). نُقيِّم دقّة نماذج VQA الحديثة المفتوحة المصدر على ImageNet-D، مثل LLaVa وMiniGPT-4. وبما أنّ الإخراج النصّي قد لا يتضمن اسمَ الفئة تماماً، يصعُب تقييم الدقّة مباشرة.

لجعل نماذج VQA تختار من قائمةٍ محدّدة، نستخدم المطالبة: ما هو الكائن الرئيسي في هذه الصورة؟ اختر من القائمة التالية: [GT category], [failure category]. تُمثِّل فئة GT الحقيقةَ الأرضية، وتكون «فئةُ الفشل» هي أفضل فئةٍ خاطئة وفقاً لثقة CLIP. إذا اختار النموذج فئةَ الحقيقة الأرضية، نَعُدّ التصنيف صحيحاً، وبذلك نحسب دقّة VQA.

تقييمُ المتانة

النتائج الكميّة. نُقيِّم ImageNet-D على 25 نموذجاً، ونرسم دقّة الاختبار في الشكل [fig:main_result_figure]، حيث يمثّل المحورُ الأفقي دقّةَ ImageNet والعمودي دقّة ImageNet-D. ويُظهر الشكل أنّ دقّة ImageNet-D أدنى بوضوح لدى جميع النماذج (تحت الخط \(y=x\)). نُبلِغ عن دقّات 14 نموذجاً على مجموعاتِ اختبارٍ مختلفة في الجدول [tab:benchmark_results]، مع باقي النماذج في الملحق. ويُظهر الجدول أنّ ImageNet-D يُسجِّل أدنى دقّة اختبار، باستثناء تقارُبٍ في النتائج على Stylized-ImageNet لنماذج VQA. وعلى الرغم من أنّ ObjectNet يغيّر سماتٍ عديدة لكلّ صورة، تبقى دقّتُه أعلى من ImageNet-D الذي يغيّر سمةً واحدة. مقارنةً بـ ImageNet، يُفضي ImageNet-D إلى انخفاضٍ في الدقّة يزيد على 16\% لدى جميع النماذج، بما في ذلك LLaVa (انخفاض 29.67\%) وMiniGPT-4 (انخفاض 16.81\%).

نتائجُ التصوُّر

يعرض ImageNet-D أمثلةً لصورٍ عاليةِ الجودة مفهومةٍ بسهولةٍ للبشر، بينما يُخطئ CLIP (ViT-L/14) في تصنيفها. كما قد يُخطئ كلٌّ من MiniGPT-4 وLLaVa-1.5 في التعرّف على الكائن الرئيسي في هذه الصور.

تحسينُ المتانة

توسيع البيانات. أوضحت أعمالٌ سابقة فعاليّةَ توسيع البيانات في تحسين المتانة، كما في ImageNet-C. نختبر طرق SIN وAugMix وANT وDeepAugment على ImageNet-D. ويُبيِّن الجدول [tab:result_augmentation] دقّتَي ImageNet وImageNet-D ومتوسط خطأ الفساد (mCE) لـ ImageNet-C باستخدام ResNet50 كنموذجٍ أساسيّ. ورغم أنّ هذه الطرق تُحسِّن متانة ImageNet-C، فإنّها لا تُحسِّن – وقد تُضعِف – متانة ImageNet-D، ما يُبرهن الحاجةَ إلى هذا المعيار الجديد.

هندسة النموذج. نُقارِن تنويعاتِ النموذج في الشكل [fig:result_arch]. عند الانتقال من ViT إلى Swin Transformer وConvNeXt تتحسّن دقّتَا ImageNet وImageNet-D، لكن تبقى المتانةُ صعبةً بخاصّة على مجموعاتِ النسيج والمواد. وتُظهِر النتائج صعوبةَ تحسين متانة ImageNet-D بهندسةِ النموذج وحدها.

التدريب المسبق بمزيدٍ من البيانات. للتدريبِ المسبق على مجموعةِ بياناتٍ أكبر أثرٌ إيجابيّ على الدقّة. يُقارِن الشكل [fig:result_arch] بين ConvNeXt المُدرَّب مباشرةً على ImageNet-1K ونظيره المُدرَّب أوّلاً على ImageNet-22K. ويُحقّق الأخير متانةً أعلى على جميع مجموعات ImageNet-D، ولا سيّما الخلفيات، ما يدلّ على فائدة التدريب المسبق واسعِ النطاق.

مناقشاتٌ إضافيّة

هل يجد CLIP الجيرانَ الأقرب الصحيحين لصور ImageNet-D؟ يستخدم CLIP قدراتِه في استرجاع الجار الأقرب. وباعتبار صور ImageNet-D استعلامات، نسترجع صوراً من ImageNet للتحقُّق من التشابه. ويُظهر الشكل أنّ الصور المُسترجَعة غالباً ما تحمل خلفياتٍ أو كائناتٍ مشابهة لصورة الاستعلام، ما يكشف حالاتِ فشلٍ في استرجاع الجيران الأقرب.

هل تُضاهي ImageNet-D مجموعاتِ الاختبار الطبيعيّة في قابليّة نقل الفشل؟ كما عرّفنا الفشل القابل للنقل في قسم تصميم مجموعة البيانات، نُجري التجربةَ نفسها على ImageNet (الفشل) باستخدام صور الفشل المُشترَك. ويُظهر الجدول [tab:transferability] أنّ ImageNet-D تُحقّق دقّةً مُشابهةً لـ ImageNet (الفشل)، ما يُشير إلى أنّ الصور الاصطناعية قادرةٌ على نقل الفشل كما في الطبيعي، لكن بتكلفةٍ أدنى وسهولةِ توسيعٍ أكبر.

التدريب على صورٍ مُولَّدة بالاِنتشار. نُسمّي الصورَ المُولَّدة التي صُنِّفت تصنيفاً صحيحاً من النماذج البديلة Synthetic-easy، ونستكشف أثرَها في التدريب. نُحسِّن ResNet18 المُدرَّب مسبقاً على مجموعاتِ تدريبٍ مختلفة (الجدول [tab:finetune_experiment]). ويُظهر الجدول أنّ التدريب على Synthetic-easy يعزّز متانةَ ImageNet-D بنسبة 19.26\%، وأنّ «النموذج C» يتفوّق على «النموذج B» في دقّة ObjectNet بنسبة 1.34\%، ما يدلّ على تعميمٍ أفضل. وتُشير النتائج إلى أنّ الصور المُولَّدة بالاِنتشار مع أزواجٍ متنوّعة من الكائنات والعوامل تُحسِّن المتانةَ كعيناتِ تدريب.

الخُلاصَة

نُقدِّم في هذه الورقة مجموعةَ اختبار ImageNet-D ونُطوِّر معياراً صارماً لمتانة الإدراك البصري. باستثمار قدرةِ توليد الصور لدى نماذج الاِنتشار، تتضمّن ImageNet-D صوراً بعواملَ متنوّعة تشمل الخلفياتِ والأنسجةَ والمواد. وتُظهِر النتائج التجريبية أنّ ImageNet-D تُقلِّص بدرجةٍ كبيرة دقّةَ نماذجَ متنوّعة، بما في ذلك CLIP (انخفاض 46.05\%) وLLaVa (انخفاض 29.67\%) وMiniGPT-4 (انخفاض 16.81\%)، مؤكِّدةً فاعليّتها في تقييم المتانة. يُمثّل عملُنا خطوةً إلى الأمام في تحسين معايير الاختبار الاصطناعية، ومع تقدُّم النماذج التوليدية ستزداد الصورُ الاختبارية تنوُّعاً وتحدّياً.

الشكر والتقدير: حظِي هذا العملُ بدعمِ منحةٍ من معهد تخطيط وتقييم تكنولوجيا المعلومات والاتصالات (IITP) المموَّل من حكومة كوريا (MSIT) (رقم 2022-0-00951) لتطوير عواملَ غيرِ مؤكَّدة تتعلّم عبر طرح الأسئلة.

مهمّة التسمية على أمازون ميكانيكال تورك

لضمان معاييرَ موثوقة، اعتمدنا على Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) لتقييم جودة تسمية صور ImageNet-D.

تصميمُ مهمّةِ التسمية

تعليمات التسمية. نظراً لتنوّع الصور التي قد تتضمّن أزواجاً نادرة من الأشياء والعوامل، طلبنا من العُمّال مُراعاة مظهرِ الكائن الرئيسي ووظيفته. ونطلب منهم الإجابة عن السؤالين التاليين:

السؤال 1: هل يمكنك التعرّف على الكائن المطلوب (فئة الحقيقة الأرضية) في الصورة، على الرغم من الخلفية أو النسيج أو المادّة؟

السؤال 2: هل يمكن استخدام الكائن في الصورة فعليّاً كالكائن المطلوب (فئة الحقيقة الأرضية)؟

خطّ سير التسمية. لضمان فهم المعيارَين، يبدأ العاملُ بتسمية صورتين تدريبيّتَين مع الإجابة الصحيحة على السؤالين. بعدها يُصنِّف حتى 20 صورة في المهمّة الواحدة، ويُجيب بـ«نعم» أو «لا» لكلّ سؤال.

واجهة المستخدم للتسمية. صُمِّمت واجهةٌ سهلةُ الاستخدام (الشكل محذوف)، بحيث لا يمكن الانتقال إلى الصورة التالية إلا بعد إكمال الإجابتَين.

مراقبةُ جودةِ التصنيف البشري

استخدمنا عناصرَ تحكّمٍ بالجودة لضمان جودة التعليقات. ضمن كلّ مهمّة تصنيف تشمل صوراً متعدّدة، نُدرِج ثلاثة أنواع:

الحارس الإيجابي: صورةٌ تنتمي إلى الفئة المطلوبة وقد صُنِّفت بشكلٍ صحيح من قِبل عدّة نماذج. إن لم يختر العُمّال «نعم»، تُرفض تعليقاتُهم.

الحارس السلبي: صورةٌ لا تنتمي إلى الفئة. على سبيل المثال، إذا كانت الفئة «كرسي»، نستخدم صورة «مِغرفة» كحارسٍ سلبي. إن اختار العُمّال «نعم» للمِغرفة، تُزال تعليقاتُهم.

حارس الاتّساق: صورةٌ تظهر مرّتَين بترتيبٍ عشوائي داخل المهمّة. إن أجاب العامل إجابتَين مُتعارضتَين، تُستبعَد تعليقاته لعدم الاتّساق.

لكلّ مهمّةٍ تضمّ حتى 20 صورة، نُدرج حارساً إيجابيّاً واحداً، وحارساً سلبيّاً واحداً، وحارسين للاّتّساق. ونتجاهل الردود التي لا تجتاز جميع عناصر التحكّم.

النتائج

لضمان التنوّع والجودة، جمعنا تعليقاتِ 10 عُمّالٍ مستقلّين لكلّ صورة، واستبعدنا من لم يجتز فحوصَ الجودة. وقد شارك 679 عاملاً في 1540 مهمّة، مُحقِّقين توافُقاً نسبته 91.09\% لكلّ صورةٍ من ImageNet-D.

نتائجٌ تجريبية على ImageNet-D

المزيد من النتائج للقسم 4. نُقارِن دقّةَ النماذج على ImageNet-D مع مجموعاتِ الاختبار الحالية، بما فيها ImageNet (russakovsky2015imagenet) وObjectNet (barbu2019objectnet) وImageNet-9 (xiao2020noise) وStylized-ImageNet (geirhos2018imagenet). نُبلِغ عن جميع أرقام الدقّة في الجدول [tab:appendix_benchmark_results]، والذي يتضمّن أيضاً أرقام الشكل 8.

إعداداتُ التدريب للجدول 6. نُقدِّم التفاصيلَ التجريبية لجدول 6 في الورقة الرئيسية. نُحسِّن ResNet18 المُدرَّب مسبقاً على مجموعاتِ تدريبٍ مختلفة. ولاستكشاف أثر دمج الصور الاصطناعية، نأخذ عيناتٍ مُتساوية من ImageNet وSynthetic-easy، حيث يتضمّن الأخير صوراً مُولَّدةً بالاِنتشار وصُنِّفت تصنيفاً صحيحاً من النماذج البديلة. يبلغ عدد الصور في كلّ مجموعة 111098، مع توزيعٍ مُتساوٍ لكلّ فئة. نُجري التحسين لمدة 10 حِقبٍ إضافية باستخدام SGD ومُعدّلِ تعلُّمٍ قدرُه 0.0001، مع تضمين بيانات ImageNet-1K الأصليّة كجزءٍ من التدريب.