مِعْيار ImageNet-D: قِياسُ مَتانَةِ الشَبَكاتِ العَصَبِيَّةِ عَلَى الأَجْسامِ الاِصْطِناعِيَّةِ بِالاِنْتِشارِ

Chenshuang Zhang Fei Pan Junmo Kim In So Kweon Chengzhi Mao
KAIST\(^{1}\), University of Michigan, Ann Arbor\(^{2}\), McGill University\(^{3}\), MILA\(^{4}\)

latex

مُلَخَّص

نُقَدِّم مَعايير صارِمة لِمَتانة الإِدراك البَصَري. تُوَفِّر الصُوَر الاِصْطِناعِيَّة مثل ImageNet-C، ImageNet-9، وStylized ImageNet نوعاً مُحَدَّداً من التقييم على التلوثات الاصطناعية، والخلفيات، والقِوام، ولكن تلك المعايير لِلمتانة محدودة في التباينات المُحددة ولها جودة اصطناعية منخفضة. في هذا العمل، نُقَدِّم نموذجاً توليدياً كمصدر بيانات لتوليد صور صعبة تقيس متانة النماذج العميقة. من خلال استخدام نماذج الانتشار، نستطيع توليد صور بخلفيات وقِوام ومواد أكثر تنوعاً من أي عمل سابق، حيث نُطلق على هذا المعيار اسم ImageNet-D. تُظهِر النتائج التجريبية أن ImageNet-D يؤدي إلى انخفاض كبير في الدقة لمجموعة من نماذج الرؤية، من مصنف الرؤية ResNet القياسي إلى أحدث النماذج الأساسية مثل CLIP وMiniGPT-4، مما يقلل دقتها بنسبة تصل إلى 60%. يُشير عملنا إلى أن نماذج الانتشار يمكن أن تكون مصدراً فعالاً لاختبار نماذج الرؤية. الشفرة ومجموعة البيانات متاحة على .

مُقَدِّمَة

لقد حققت الشبكات العصبية أداءً ملحوظاً في مهام تتراوح من تصنيف الصور (vaswani2017attention, liu2021swin, liu2022convnet) إلى الإجابة على الأسئلة البصرية (li2023blip, dai2023instructblip, liu2023visual, zhu2023minigpt). وقد ألهمت هذه التقدمات تطبيق الشبكات العصبية في مجالات متنوعة، بما في ذلك الأنظمة الأمنية والحرجة مثل السيارات ذاتية القيادة (kangsepp2022calibrated, nesti2023ultra, liu2023vectormapnet)، وكشف البرمجيات الخبيثة (yuan2014droid, chen2019believe, pei2017deepxplore) والروبوتات (brohan2022rt, brohan2023rt, huang2023voxposer). ونظراً لتوسع استخدامها، أصبح من المهم بشكل متزايد تحديد متانة الشبكات العصبية (ming2022delving, li2023distilling) لأسباب تتعلق بالسلامة.

لتقييم متانة الشبكات العصبية، يجمع ObjectNet (barbu2019objectnet) صور الأشياء الواقعية على عوامل يمكن التحكم بها مثل الخلفية بواسطة العمال البشريين، وهو ما يستغرق وقتاً طويلاً ويتطلب جهداً كبيراً. لزيادة جمع البيانات، تم اقتراح الصور الاصطناعية كصور اختبار (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). على سبيل المثال، يقدم ImageNet-C (hendrycks2019benchmarking) مجموعة من التشوهات البصرية الشائعة منخفضة المستوى، مثل الضوضاء الغاوسية والضبابية، لاختبار متانة النماذج. يستخدم ImageNet-9 (xiao2020noise) تقنية القص واللصق البسيطة لإنشاء معيار للمتانة على خلفية الكائن، لكن الصور ليست واقعية. يُولِّد Stylized-ImageNet (geirhos2018imagenet) صوراً جديدة من خلال تغيير نسيج صور ImageNet، والتي لا يمكنها التحكم في العوامل العالمية مثل الخلفية.

في هذا العمل، نقدم ImageNet-D، مجموعة اختبار اصطناعية تم إنشاؤها بواسطة نماذج الانتشار لمهمة التعرف على الأشياء. من خلال الاستفادة من قدرات نماذج الانتشار الرائدة (rombach2022high)، نظهر أنه يمكننا توجيه نماذج الانتشار باللغة لإنشاء صور اختبار واقعية تتسبب في فشل نماذج الرؤية. ونظراً لاعتمادنا على اللغة لإنشاء الصور، يمكننا تنويع العوامل عالية المستوى في الصور على عكس التشوهات المحلية والنسيج في الأعمال السابقة، مما يوفر عوامل إضافية يمكن تقييم المتانة عليها.

لتعزيز صعوبة العينات في مجموعة البيانات الخاصة بنا، نحتفظ بشكل انتقائي بالصور التي تسببت في فشل نماذج الرؤية المختارة. تظهر نتائجنا أن الصور التي تثير الأخطاء في النماذج المختارة يمكن أن تنقل طبيعتها الصعبة بشكل موثوق إلى نماذج أخرى لم يتم اختبارها سابقاً. وهذا يؤدي إلى انخفاض ملحوظ في الدقة، حتى في النماذج الأساسية الحديثة مثل MiniGPT-4 (zhu2023minigpt) و LLaVa (liu2023visual)، مما يشير إلى أن مجموعة البيانات الخاصة بنا تكشف عن الفشل الشائع في نماذج الرؤية.

تُظهر التصورات أن ImageNet-D يعزز بشكل كبير جودة الصورة مقارنة بمعايير المتانة الاصطناعية السابقة. يعمل ImageNet-D كأداة فعالة لتقليل الأداء وتقييم متانة النموذج، بما في ذلك ResNet 101 (انخفاض 55.02%)، ViT-L/16 (انخفاض 59.40%)، CLIP (انخفاض 46.05%)، وينتقل جيداً إلى نماذج لغة الرؤية الكبيرة غير المتوقعة مثل LLaVa (liu2023visual) (انخفاض 29.67%)، و MiniGPT-4 (zhu2023minigpt) (انخفاض 16.81%). يُعتَبَر نهجنا في استخدام النماذج التوليدية لتقييم متانة النموذج عاماً، ويُظهِر إمكانية كبيرة لفعالية أكبر مع التقدم المستقبلي في النماذج التوليدية.

الأَعْمال ذات الصِلَة

مَتانة الشبكات العصبية. تطورت الشبكات العصبية من شبكات الالتفاف العصبي (CNN) (he2016deep, huang2017densely)، وشبكات التحويل البصري (ViT) (vaswani2017attention, liu2021swin)، إلى النماذج الأساسية الكبيرة (bommasani2021opportunities, devlin2018bert, touvron2023llama). وقد تناولت الأعمال السابقة متانة الشبكات العصبية من عدة جوانب، مثل الأمثلة المعادية (mao2022understanding, mahmood2021robustness, madry2017towards, zhao2023evaluating, zhang2019theoretically) وعينات خارج النطاق (MAE, mao2021discrete, hendrycks2021many, augmix). وقد أظهرت النماذج الأساسية متانة أكبر على عينات خارج التوزيع (radford2021learning). كما تم التحقيق في التفسير القوي أيضاً (mao2023doubly, liu2023visual, zhu2023minigpt). لتقييم متانة النماذج العميقة بشكل منهجي، من الضروري وجود مجموعات اختبار تغطي عوامل مختلفة.

مجموعات بيانات لتقييم المتانة. لتقييم متانة الشبكات العصبية، يستخدم فرع من الدراسات صوراً من الإنترنت، بما في ذلك ImageNet-A (hendrycks2021natural), Imagenet-R (hendrycks2021many) وImageNet-Sketch (wang2019learning). ومع ذلك، فهي محدودة بالصور الموجودة على الويب. ObjectNet (barbu2019objectnet) يجمع الصور يدوياً بمساعدة 5982 عاملاً، وهو ما يستغرق وقتاً طويلاً ويتطلب موارد كبيرة.

للتغلب على قيود الصور من الويب وتقليل تكلفة الجمع اليدوي، تم اقتراح الصور الاصطناعية لتقييم المتانة (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). ImageNet-C (hendrycks2019benchmarking) يقيم متانة النموذج على التلفيات منخفضة المستوى. ImageNet-9 (xiao2020noise) يُولِّد صوراً جديدة بدمج الخلفية والمقدمة من صور مختلفة، لكنه محدود بضعف جودة الصورة. Stylized-ImageNet (geirhos2018imagenet) يغير نسيج صور ImageNet باستخدام نقل أسلوب AdaIN (huang2017arbitrary) أو بإدخال تعارض بين النسيج والشكل، والذي لا يمكنه التحكم في عوامل أخرى مثل الخلفيات. في هذا العمل، نقدم مجموعة اختبار جديدة ImageNet-D، والتي يتم توليدها بالتحكم في نماذج الانتشار وتشمل صوراً جديدة مع خلفيات وأنسجة ومواد متنوعة.

توليد الصور. حققت نماذج الانتشار نجاحاً كبيراً في مهام متنوعة بما في ذلك توليد الصور (saharia2022photorealistic, ramesh2022hierarchical, ruiz2023dreambooth, zhang2023text). كعمل رائد، يمكن Stable Diffusion (rombach2022high) من توليد صور عالية الدقة يتم التحكم فيها بواسطة اللغة. InstructPix2Pix (brooks2023instructpix2pix) يوفر تحكماً أكثر تعقيداً من خلال تعديل صورة معينة وفقاً لتعليمات بشرية. في هذه الورقة، نبني خط أنابيبنا باستخدام نموذج Stable Diffusion القياسي، ومع ذلك، فإن خوارزميتنا متوافقة مع نماذج توليدية أخرى يمكن توجيهها باللغة.

تعزيز الإدراك باستخدام صور الانتشار. تم استخدام الصور المولدة بالانتشار لمهام إدراك الرؤية. فرع من الدراسات (yuan2023not, bansal2023leaving, azizi2023synthetic, tian2023stablerep) يحسن دقة التصنيف باستخدام الصور الاصطناعية كتوسيع لبيانات التدريب. DREAM-OOD (du2023dream) يكتشف القيم الشاذة من خلال فك تشفير العينات الكامنة المستخلصة إلى صور. ومع ذلك، فإن طريقتهم تفتقر إلى التحكم المحدد في فضاء الصور، وهو أمر حاسم لمعايير مثل ImageNet-D. (metzen2023identification) يحدد أزواج السمات غير الممثلة بشكل كافٍ، بينما يركز بحثنا على الصور الصعبة ذات السمة الواحدة. على عكس (li2023imagenet, vendrow2023dataset, prabhu2023lance) الذين يعدلون مجموعات البيانات الحالية، يولد عملنا صوراً جديدة ويستخرج الأكثر تحدياً كمجموعة اختبار، مما يحقق انخفاضاً أكبر في الدقة مقارنة بـ (li2023imagenet, vendrow2023dataset, prabhu2023lance).

ImageNet-D

نقدم أولاً كيفية إنشاء ImageNet-D في القسم [sec:dataset_design]، يليه نظرة عامة على إحصائياته في القسم [sec:statistics].

تَصْمِيم مجموعة البيانات

بينما تتفوق الشبكات العصبية في تطبيقات متعددة، فإن متانتها تحتاج إلى تقييم دقيق للسلامة. التقييمات التقليدية تستخدم مجموعات اختبار موجودة، تشمل إما صوراً طبيعية (barbu2019objectnet, hendrycks2021natural) أو صوراً اصطناعية (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). مقارنة بجمع الصور يدوياً، فإن جمع مجموعة اختبار اصطناعية أكثر كفاءة (geirhos2018imagenet, xiao2020noise). ومع ذلك، فإن تنوع مجموعات الاختبار الاصطناعية الحالية محدود بسبب اعتمادها على الصور الموجودة لاستخراج السمات. هذه الصور الاصطناعية ليست واقعية أيضاً، كما هو موضح في الشكل [fig:test_set_comparison]. يتم تقديم ImageNet-D لتقييم متانة النموذج عبر مجموعات متنوعة من الأشياء والمتغيرات الطارئة، لمعالجة هذه القيود.

توليد الصور بواسطة نماذج الانتشار. لبناء ImageNet-D، يتم استخدام نماذج الانتشار لإنشاء مجموعة ضخمة من الصور عن طريق دمج جميع الأشياء الممكنة والمتغيرات الطارئة، مما يتيح توليد صور عالية الدقة بناءً على مدخلات نصية محددة من المستخدم. نستخدم نموذج الانتشار المستقر (rombach2022high) لتوليد الصور، بينما يتوافق نهجنا مع نماذج توليدية أخرى يمكن توجيهها باللغة. يتم صياغة عملية توليد الصور على النحو التالي: \[\text{Image}(C, N) = \text{Stable Diffusion}(\text{Prompt}(C,N)), \label{eq:image_generation}\] حيث يشير \(C\) و \(N\) إلى فئة الشيء والمتغير الطارئ، على التوالي. المتغير الطارئ \(N\) يشمل الخلفية، المادة، والملمس في هذا العمل. الجدول [tab:prompt_list] يقدم نظرة عامة على المتغيرات الطارئة والمطالبات لنماذج الانتشار. باستخدام فئة الحقائب كمثال، نولد أولاً صوراً للحقائب مع خلفيات متنوعة، ومواد، وملمس (مثلاً، حقيبة في حقل قمح)، مما يوفر مجموعة أوسع من المجموعات مقارنة بمجموعات الاختبار الحالية. يتم تصنيف كل صورة بفئة المطالبة \(C\) كحقيقة أساسية للتصنيف. تعتبر الصورة مصنفة بشكل خاطئ إذا لم يتطابق تصنيف النموذج المتوقع مع الحقيقة الأساسية \(C\).

بعد إنشاء مجموعة كبيرة من الصور مع جميع أزواج فئات الأشياء والمتغيرات الطارئة، نقوم بتقييم نموذج CLIP (ViT-L/14) على هذه الصور في الجدول [tab:vanilla_generation]. يتم الإبلاغ عن التفاصيل التجريبية في القسم [sec:experimental_setup]. الجدول [tab:vanilla_generation] يُظهِر أن CLIP يحقق دقة عالية على جميع مجموعات الاختبار، بدقة حوالي 94% على مجموعة الصور الاصطناعية. لإنشاء مجموعة اختبار تحدي لتقييم المتانة، نقترح استراتيجية فعالة للعثور على العينات الصعبة من جميع الصور المولدة على النحو التالي.

استخراج الصور الصعبة مع فشل الإدراك المشترك. قبل تقديم كيفية تحديد العينات الصعبة من مجموعة الصور الاصطناعية، نعرّف أولاً مفهوم فشل الإدراك المشترك على النحو التالي.

الفشل المشترك: صورة تُعتَبَر فشلاً مشتركاً إذا أدت إلى تنبؤ عدة نماذج بتصنيف الشيء بشكل غير صحيح.

يجب أن تشمل مجموعة الاختبار الصعبة المثالية صوراً تفشل جميع النماذج المختبرة في تحديدها. ومع ذلك، فإن هذا غير عملي بسبب عدم إمكانية الوصول إلى نماذج الاختبار المستقبلية، المسماة بالنموذج الهدف. بدلاً من ذلك، نقوم ببناء مجموعة الاختبار باستخدام فشل النماذج البديلة المعروفة. إذا أدى فشل النماذج البديلة إلى دقة منخفضة في النماذج غير المعروفة، فإن مجموعة الاختبار تعتبر تحدياً. يتم تعريف هذا على أنه فشل قابل للنقل على النحو التالي:

الفشل القابل للنقل: فشل النماذج البديلة المعروفة قابل للنقل إذا أدى أيضاً إلى دقة منخفضة للنماذج الهدف غير المعروفة.

لتقييم ما إذا كان فشل النماذج البديلة المعروفة قابلاً للنقل للصور المولدة بالانتشار، نقوم بتقييم مجموعات الاختبار المنشأة بفشل مشترك من 1 إلى 8 نماذج بديلة في الشكل [fig:filter_consistency]. نقوم بتقييم دقة ثلاثة نماذج هدف لم تُستخدم أثناء بناء مجموعة الاختبار، بما في ذلك CLIP(ViT-B/16), LLaVa، و MiniGPT-4. الشكل [fig:filter_consistency] يُظهِر أن دقة النموذج الهدف تقل كلما زاد عدد النماذج البديلة المستخدمة. تم إنشاء مجموعات اختبار مع خلفيات متنوعة، بينما تظهر التجارب للملمس والمادة نفس الاتجاه.

التَحَكُّم بالجودة بواسطة التدخل البشري

تتيح لنا العملية المذكورة أعلاه العثور تلقائياً على مجموعة اختبار صعبة للنماذج غير المرئية. ومع ذلك، يمكن للنماذج التوليدية أن تنتج صوراً غير صحيحة لا تتطابق مع فئة المطالبة. نلجأ إلى التعليق التوضيحي البشري لضمان أن تكون صور ImageNet-D صالحة ومن فئة واحدة وعالية الجودة في الوقت نفسه. بعد الجولة الأولى من التعليق التوضيحي بواسطة طلاب الدراسات العليا، نستخدم Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) لتقييم جودة التسمية. نطلب من العمال اختيار الصور التي يمكنهم إما التعرف على الكائن الرئيسي أو يمكن استخدام الكائن الرئيسي وظيفياً كفئة الحقيقة الأرضية. بالإضافة إلى ذلك، نصمم حراساً لضمان استجابات عالية الجودة، بما في ذلك الحراس الإيجابيين والسلبيين والمتسقين. نقدم تفاصيل مهمة التسمية في الملحق. شارك ما مجموعه 679 عاملاً مؤهلاً في 1540 مهمة تسمية، محققين اتفاقاً بنسبة 91.09%.

إحصائيات قاعدة البيانات

تتضمن ImageNet-D 113 فئة متداخلة بين ImageNet وObjectNet، و547 مرشحاً للعوامل المؤثرة من مجموعة بيانات Broden (bau2017network) (انظر الجدول [tab:prompt_list])، مما ينتج عنه 4835 صورة صعبة تتميز بخلفيات متنوعة (3764)، وأنسجة (498)، ومواد (573). تعتبر عملية إنشاء ImageNet-D عامة وفعالة، مما يسمح بإضافة فئات وعوامل مؤثرة جديدة بسهولة. يُظهر توزيع فئات ImageNet-D نمطاً طبيعياً طويل الذيل، كما هو موضح في الشكل [fig:hist_category]. يُظهر التوزيع النادر وغير المنتظم لفئات الصفات في الشكل [fig:heatmap] ضرورة استنفاد جميع أزواج الفئات والعوامل المؤثرة في إنشاء مجموعة الاختبار.

التجارب

نقوم بتقييم نماذج مختلفة على معيار ImageNet-D. نجد أن ImageNet-D يقلل بشكل كبير من دقة جميع النماذج بما يصل إلى 60%. ثم نعرض ما إذا كانت التطورات السابقة يمكن أن تحسن من قوة ImageNet-D، مثل توسيع البيانات. أخيراً، نناقش ImageNet-D من جوانب مختلفة، مثل استرجاع الجار الأقرب.

إعدادات التجربة

إعدادات بناء مجموعة الاختبار. نستخدم الانتشار الثابت (Stable Diffusion) من (rombach2022high) لإنشاء ImageNet-D، ونعتمد على الوزن المدرب مسبقاً للإصدار stable-diffusion-2-1 من Hugging Face. للعثور على الصور الصعبة، ننهي ImageNet-D بالفشل المشترك لأربعة نماذج بديلة، بما في ذلك CLIP (radford2021learning) (ViT-L/14, ViT-L/14-336px و ResNet50)، ونموذج الرؤية (ResNet50 (he2016deep)). تشمل مجموعة المرشحين للنماذج البديلة في الشكل المحذوف أيضاً CLIP (Resnet101,ViT-B/32) ونموذج الرؤية (ViT-L/16 (dosovitskiy2010image) و VGG16 (simonyan2014very)).

تقييم نماذج التصنيف. يُقاس الثبات على ImageNet-D بدقة الأعلى-1 في التعرف على الأشياء، نسبة الصور المصنفة بشكل صحيح إلى إجمالي الصور. نقوم بتقييم نماذج التصنيف باستخدام الأوزان المدربة مسبقاً المفتوحة المصدر. بالنسبة لـ CLIP (radford2021learning)، نتبع الورقة الأصلية (radford2021learning) لاعتماد صورة لـ \(\left[ \text{category} \right]\) كقالب نصي. يتم الإبلاغ عن دقة الصفر لـ CLIP.

تقييم نماذج الإجابة على الأسئلة البصرية (VQA). نقيم دقة نماذج VQA الحديثة المفتوحة المصدر على ImageNet-D، بما في ذلك LLaVa (liu2023visual)، و MiniGPT-4 (zhu2023minigpt). بناءً على مدخلات الصورة، تخرج نماذج VQA الإجابات استناداً إلى مطالبة النص المدخل. ومع ذلك، لا يقتصر الإخراج النصي لنماذج VQA على قالب معين، وبالتالي قد لا يتضمن اسم الفئة في قائمة الفئات المحددة مسبقاً لمهام التعرف على الأشياء. هذا يجعل من الصعب تقييم الدقة استناداً إلى الإجابات المتنوعة.

المطالبة الشائعة التي تطلب من نماذج VQA التعرف على الكائن هي: ما هو الكائن الرئيسي في هذه الصورة؟ لجعل نماذج VQA تختار من قائمة الفئات المحددة مسبقاً، نسأل نماذج VQA كما يلي: ما هو الكائن الرئيسي في هذه الصورة؟ اختر من القائمة التالية: \left[ \text{GT category} \right], \left[ \text{failure category} \right]. تشير فئة GT إلى فئة الحقيقة الأرضية للصورة. أما بالنسبة لفئة الفشل، فإننا نعتمد الفئة التي تحقق أعلى ثقة CLIP (ViT-L/14) بين جميع الفئات الخاطئة. مع هذه المطالبة، نجد أن كلاً من MiniGPT-4 و LLaVa يمكنهما اختيار من قائمة الفئات المقدمة في إخراجهما. إذا اختار النموذج فئة الحقيقة الأرضية، يعتبر هذا الكائن معترفاً به بشكل صحيح. لذلك، يمكننا حساب دقة نماذج VQA.

تقييم المتانة

النتائج الكمية. نقوم بتقييم ImageNet-D على 25 نموذجاً، ونرسم اتجاه دقة الاختبار في الشكل [fig:main_result_figure]. المحور الأفقي والمحور العمودي يشيران إلى دقة الاختبار على ImageNet وImageNet-D على التوالي. يُظهر الشكل [fig:main_result_figure] أنه كلما زادت دقة ImageNet، زادت دقة ImageNet-D أيضاً. دقة ImageNet-D أقل بكثير من دقة ImageNet لجميع النماذج، كما يتضح من التوزيع الأدنى أسفل خط الإشارة \(y=x\). نبلغ عن دقة 14 نموذجاً على مجموعات اختبار مختلفة في الجدول [tab:benchmark_results]، ودقة جميع النماذج في الملحق. يُظهر الجدول [tab:benchmark_results] أن ImageNet-D يحقق أدنى دقة اختبار لجميع النماذج، باستثناء النتيجة المماثلة على Stylized-ImageNet لنماذج VQA. لاحظ أن ImageNet-D يحقق جودة صورة أعلى من Stylized-ImageNet كما هو موضح في الشكل [fig:test_set_comparison]. على الرغم من أن ObjectNet يغير العديد من السمات لكل صورة، إلا أنه لا يزال يؤدي إلى دقة أعلى من ImageNet-D التي تحدد سمة واحدة فقط لكل صورة. مقارنة بـ ImageNet، يؤدي ImageNet-D إلى انخفاض في دقة الاختبار بأكثر من 16% لجميع النماذج، بما في ذلك LLaVa (انخفاض 29.67%) وMiniGPT-4 (انخفاض 16.81%).

نتائج التصور

يعرض ImageNet-D أمثلة صور تُظهِر جودة عالية. على الرغم من أن البشر يمكنهم التعرف بسهولة على الكائن الرئيسي، إلا أن CLIP (ViT-L/14) يصنف هذه الصور بشكل خاطئ في فئة غير صحيحة. يظهر أن MiniGPT-4 و (LLaVa-1.5) يمكن أن يفشلا أيضاً في التعرف على الكائن الرئيسي من صور ImageNet-D.

تحسين المتانة

توسيع البيانات. تكشف الدراسات السابقة أن توسيع البيانات فعال لتحسين متانة النموذج، كما هو الحال في ImageNet-C (hendrycks2019benchmarking). نقوم بتقييم طرق توسيع البيانات على ImageNet-D، بما في ذلك SIN (geirhos2018imagenet)، AugMix (hendrycks2019augmix)، ANT (rusak2020simple) و DeepAugment (hendrycks2021many). يُظهر الجدول [tab:result_augmentation] النتائج باستخدام العمود الفقري ResNet50 لجميع الطرق. نقدم دقة الاختبار لـ ImageNet و ImageNet-D، ومتوسط خطأ التلف (mCE) لـ ImageNet-C باتباع (hendrycks2019benchmarking,hendrycks2019augmix,rusak2020simple,hendrycks2021many). على الرغم من أن هذه الطرق تحسن متانة ImageNet-C (انخفاض mCE) مقارنة بالنموذج الأساسي، يُظهر الجدول [tab:result_augmentation] أن متانة ImageNet-D الخاصة بها مماثلة أو حتى أسوأ من النموذج الأساسي. هذا يشير إلى أن المعايير الحالية مثل ImageNet-C لا تمثل بدقة المتانة الحقيقية للشبكات العصبية في إعداداتنا، مما يجعل ImageNet-D معياراً ضرورياً لتقييم المتانة.

هندسة النموذج. نقارن متانة ImageNet-D لهندسات نموذج مختلفة في الشكل [fig:result_arch]. عندما نغير النموذج من ViT إلى Swin Transformer (liu2021swin) و ConvNeXt (liu2022convnet)، تتحسن دقة الاختبار على كل من ImageNet-D (الخلفية) و ImageNet. ومع ذلك، تنخفض المتانة قليلاً حتى على مجموعة اختبار النسيج والمواد. تُظهر هذه النتائج صعوبة تحسين متانة ImageNet-D من خلال هندسة النموذج.

التدريب المسبق بمزيد من البيانات. التدريب المسبق على مجموعة بيانات كبيرة فعال لتحسين أداء النموذج، مثل دقة ImageNet (he2022masked). يقارن الشكل [fig:result_arch] بين ConvNext، الذي يتم تدريبه مباشرة على ImageNet-1K، و ConvNext (المدرب مسبقاً) الذي يتم تدريبه أولاً على ImageNet-22K. نجد أن ConvNext (المدرب مسبقاً) يحقق متانة أعلى من ConvNext على جميع مجموعات ImageNet-D الثلاث، خاصة لمجموعة الخلفية. تُظهر هذه النتائج أن التدريب المسبق على مجموعة بيانات كبيرة يساعد في تحسين المتانة على ImageNet-D.

مناقشات إضافية

هل يمكن لنموذج CLIP أن يجد الجيران الصحيحين لصور ImageNet-D؟ يُظهر نموذج CLIP (radford2021learning) إمكانيات في مهام البحث عن الجيران الأقرب. باستخدام صور ImageNet-D كصور استعلام، نسترجع الصور الأكثر تشابهاً من ImageNet للتحقق مما إذا كان CLIP يمكن أن يجد الجيران الصحيحين، كما هو موضح في الشكل. خذ الخلفية على سبيل المثال، قد تحتوي الصور المسترجعة إما على خلفية مشابهة لصورة الاستعلام أو تشمل الكائن الذي يتعلق بخلفية صورة الاستعلام. تظهر نتائجنا أن ImageNet-D يمكن أن يجد حالات الفشل للشبكات العصبية في استرجاع الجيران الأقرب.

هل يمكن لـ ImageNet-D مطابقة مجموعات الاختبار الطبيعية في قابلية نقل الفشل؟ يعرف القسم [sec:dataset_design] الفشل القابل للنقل وينهي ImageNet-D بفشل مشترك لنماذج البديل. نجري نفس التجربة على ImageNet، مقدمين ImageNet (الفشل) مع صور الفشل المشتركة لنماذج البديل. يُظهر الجدول [tab:transferability] أن ImageNet-D يحقق دقة مماثلة لـ ImageNet (الفشل)، مما يشير إلى أن الصور الاصطناعية يمكن أن تحقق قابلية نقل فشل مماثلة للصور الطبيعية. على عكس مجموعات البيانات الطبيعية مثل ImageNet، يتمتع ImageNet-D بتكلفة أقل في جمع البيانات ويمكن توسيعه بكفاءة.

التدريب على صور مولدة بالانتشار. بالمقارنة مع صور الفشل المشتركة في ImageNet-D، نطلق على الصور المولدة التي تم تصنيفها بشكل صحيح من قبل نماذج البديل Synthetic-easy، ونستكشف تأثيرها كبيانات تدريب. نقوم بتحسين نموذج ResNet18 المدرب مسبقاً على مجموعات تدريب مختلفة في الجدول [tab:finetune_experiment]. يُظهر الجدول [tab:finetune_experiment] أن التدريب على Synthetic-easy يحسن بشكل كبير من متانة ImageNet-D بنسبة 19.26%. بشكل ملحوظ، يتفوق النموذج C على النموذج B في دقة ObjectNet بنسبة 1.34%، مما يشير إلى تعميم أفضل للنموذج C. تشير هذه النتائج إلى أن الصور المولدة بالانتشار مع أزواج الكائنات والمتغيرات المتنوعة يمكن أن تعزز متانة النموذج كعينات تدريب.

الخُلاصَة

في هذه الورقة، نقدم مجموعة اختبار ImageNet-D ونقيم معياراً صارماً لمتانة الإدراك البصري. من خلال استغلال قدرة توليد الصور لنماذج الانتشار، تتضمن ImageNet-D صوراً بعوامل متنوعة تشمل الخلفية والملمس والمادة. تُظهر النتائج التجريبية أن ImageNet-D تقلل بشكل كبير من دقة النماذج المختلفة، بما في ذلك CLIP (انخفاض 46.05%)، LLaVa (liu2023visual) (انخفاض 29.67%)، و MiniGPT-4 (zhu2023minigpt) (انخفاض 16.81%)، مما يدل على فعاليتها في تقييم النماذج. تُعَد أعمالنا خطوة إلى الأمام في تحسين مجموعات الاختبار الاصطناعية، وستخلق صور اختبار أكثر تنوعاً وتحدياً مع تحسن النماذج التوليدية.

الشكر والتقدير: تم دعم هذا العمل من قبل منحة معهد تخطيط وتقييم تكنولوجيا المعلومات والاتصالات (IITP) الممولة من حكومة كوريا (MSIT) (رقم 2022-0-00951، تطوير عوامل غير مؤكدة تتعلم من خلال طرح الأسئلة).

مهمة التسمية على أمازون ميكانيكال تورك

للحصول على معايير موثوقة، نستخدم أمازون ميكانيكال تورك (deng2009imagenet, recht2019imagenet, hendrycks2021many) لتقييم جودة التسمية لـ ImageNet-D.

تصميم مهمة التسمية

تعليمات التسمية. نظراً لأن ImageNet-D يتضمن صوراً تحتوي على أزواج من الأشياء والمعوّقات التي قد تكون نادرة في العالم الحقيقي، فإننا نأخذ في الاعتبار كل من المظهر والوظيفة للكائن الرئيسي كمعايير للتسمية. على وجه التحديد، نطلب من العمال من MTurk الإجابة على السؤالين التاليين:

السؤال 1: هل يمكنك التعرف على الكائن المطلوب (فئة الحقيقة الأرضية) في الصورة؟ قد تحتوي على خلفيات أو أنسجة أو مواد أو أنماط نادرة.

السؤال 2: هل يمكن استخدام الكائن في الصورة كالكائن المطلوب (فئة الحقيقة الأرضية)؟

خط سير التسمية. لضمان فهم العمال لهذين المعيارين، نطلب من العمال تسمية صورتين تمثيليتين للتدريب، والتي توفر الإجابة الصحيحة للسؤالين المذكورين أعلاه. بعد جلسة التدريب، يُطلب من العمال تسمية ما يصل إلى 20 صورة في مهمة واحدة، والإجابة على كلا السؤالين لكل صورة. يختار العامل "نعم" أو "لا" لكل سؤال.

واجهة المستخدم للتسمية. تم تصميم صفحة التسمية كما في الشكل المحذوف. يمكن للعمال الانتقال إلى الصورة التالية فقط إذا أنهوا الإجابة على كلا السؤالين في الصفحة الحالية.

مراقبة جودة التصنيف البشري

نستخدم الحراس لضمان التعليقات التوضيحية عالية الجودة. لكل مهمة تصنيف تشمل صوراً متعددة، نصمم ثلاثة أنواع من الحراس كما يلي.

الحارس الإيجابي: صورة تنتمي إلى الفئة المطلوبة وتم تصنيفها بشكل صحيح من قبل عدة نماذج. إذا لم يختَر العمال "نعم" لهذه الصورة، فقد لا يفهمون المفهوم جيداً وسيتم إزالة تعليقاتهم التوضيحية.

الحارس السلبي: صورة لا تنتمي إلى الفئة المطلوبة. على سبيل المثال، إذا كانت الفئة المطلوبة هي كرسي، فقد يكون الحارس السلبي مغرفة. إذا اختار العمال "نعم" لصورة المغرفة، فقد لا يجيبون على الأسئلة بجدية وسيتم إزالة تعليقاتهم التوضيحية.

الحارس المتسق. نفترض أن العمال يجب أن يختاروا نفس الإجابة لنفس الصورة إذا ظهرت عدة مرات. الحراس المتسقون هم صور تظهر مرتين بترتيب عشوائي. إذا أجاب العمال بشكل مختلف عن نفس الصورة، فإن تعليقاتهم التوضيحية ليست متسقة وسيتم إزالتها.

لكل مهمة تصنيف تشمل ما يصل إلى 20 صورة، نشمل حارساً إيجابياً واحداً، وحارساً سلبياً واحداً، وحارسين متسقين. نتجاهل الردود إذا لم يجتز العمال جميع فحوصات الحراس.

النتائج

لكل صورة، نجمع تعليقات مستقلة من 10 عمال ونقوم بتصفية الردود من العمال الذين لا يجتازون فحص الجودة. بلغ مجموع العمال المؤهلين 679 عاملاً قدموا 1540 مهمة تصنيف، مما أسفر عن توافق نسبته 91.09% على صورة معينة من ImageNet-D.

نتائج تجريبية على ImageNet-D

المزيد من النتائج للقسم 4. نقارن دقة النموذج لـ Image-D مع مجموعات الاختبار الحالية، بما في ذلك ImageNet (russakovsky2015imagenet)، ObjectNet (barbu2019objectnet)، ImageNet-9 (xiao2020noise) و Stylized-ImageNet (geirhos2018imagenet). يتم الإبلاغ عن جميع أرقام الدقة في الجدول [tab:appendix_benchmark_results]، والذي يتضمن أيضاً أرقام الشكل 8 في المخطوطة الرئيسية.

إعدادات التدريب للجدول 6. نقدم تفاصيل تجريبية للجدول 6 في المخطوطة الرئيسية. نقوم بتحسين نموذج ResNet18 المدرب مسبقاً على مجموعات تدريب متنوعة. لفحص تأثير دمج الصور الاصطناعية في مجموعة تدريب التحسين، نقوم بأخذ عينات من ImageNet و Synthetic-easy لتوزيعات بيانات متماثلة، حيث يتضمن Synthetic-easy صوراً مولدة بالانتشار تم تصنيفها بشكل صحيح من قبل نماذج بديلة. يحتوي كل مجموعة على 111098 صورة، وكلا المجموعتين لديهما نفس عدد الصور لكل فئة. يتم تحسين جميع النماذج على ResNet18 المدرب مسبقاً في الحقبة 90 لـ 10 حقب إضافية، باستخدام محسن SGD بمعدل تعلم 0.0001. بخلاف ImageNet المأخوذة و Synthetic-easy، نُضمِّن ImageNet-1K الأصلي كبيانات تدريب للتدريب السلس.