مِعْيار ImageNet-D: قياس متانة الشبكات العصبية على الصور الاصطناعية المولَّدة بنماذج الانتشار

Chenshuang Zhang Fei Pan Junmo Kim In So Kweon Chengzhi Mao
KAIST\(^{1}\), University of Michigan, Ann Arbor\(^{2}\), McGill University\(^{3}\), MILA\(^{4}\)

لاتيكس

مُلَخَّص

نُقدِّم معايير صارمة لمتانة الإدراك البصري. توفر الصور الاصطناعية مثل ImageNet-C، ImageNet-9 وStylized ImageNet نوعاً محدّداً من التقييم للتشوهات الاصطناعية والخلفيات والملمس، لكنّ هذه المعايير تظل محدودة في تنوع التشوهات وجودتها الاصطناعية منخفضة الواقعية. في هذا العمل، نقدم نموذجاً توليدياً كمصدر بيانات لإنشاء صور صعبة تقيس متانة النماذج العميقة. من خلال الاستعانة بنماذج الانتشار، نستطيع توليد صور ذات خلفيات وملمس ومواد أكثر تنوّعاً من أي عمل سابق، لذا سمّينا هذا المعيار ImageNet-D. تُظهر النتائج التجريبية أن ImageNet-D يُسفر عن انخفاض كبير في الدقة عبر مجموعة من نماذج الرؤية، بدءاً من مصنف ResNet القياسي ووصولاً إلى النماذج الأساسية الأحدث مثل CLIP وMiniGPT-4، مع انخفاض يصل إلى 60%. يشير عملنا إلى أن نماذج الانتشار يمكن أن تكون مصدراً فعالاً لاختبار نماذج الرؤية. الكود ومجموعة البيانات متاحة على GitHub للمزيد من التوثيق والتنزيل.

مُقَدِّمَة

لقد حققت الشبكات العصبية أداءً ملحوظاً في مهام تتراوح من تصنيف الصور (vaswani2017attention, liu2021swin, liu2022convnet) إلى الإجابة على الأسئلة البصرية (li2023blip, dai2023instructblip, liu2023visual, zhu2023minigpt). وقد ألهمت هذه التطورات تطبيق الشبكات العصبية في مجالات متنوّعة، بما في ذلك الأنظمة الحرجة والآمنة مثل السيارات ذاتية القيادة (kangsepp2022calibrated, nesti2023ultra, liu2023vectormapnet) وكشف البرمجيات الخبيثة (yuan2014droid, chen2019believe, pei2017deepxplore) والروبوتات (brohan2022rt, brohan2023rt, huang2023voxposer). ونظراً لتوسّع استخدامها، أصبح من المهم بشكل متزايد تقييم متانة الشبكات العصبية (ming2022delving, li2023distilling) لأسباب تتعلق بالسلامة.

لتقييم المتانة، جمع ObjectNet (barbu2019objectnet) صوراً حقيقية لأشياء مع التحكم بعوامل مثل الخلفية بواسطة عمال بشريين، وهو ما يستغرق وقتاً طويلاً وجهداً كبيراً. ولزيادة فعالية الجمع، طُرحت الصور الاصطناعية كمعايير اختبار (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). على سبيل المثال، يقدم ImageNet-C (hendrycks2019benchmarking) مجموعة من التشوهات البصرية منخفضة المستوى، مثل الضوضاء الغاوسية والطمس، لاختبار المتانة. يستخدم ImageNet-9 (xiao2020noise) تقنية القص واللصق لخلط الخلفيات، لكن الصور تظهر غير واقعية. ينتج Stylized-ImageNet (geirhos2018imagenet) صوراً جديدة عبر نقل الأسلوب، لكنه لا يتحكم في عوامل على مستوى الصورة ككل مثل الخلفية.

في هذا العمل، نقدم ImageNet-D، مجموعة اختبار اصطناعية مولَّدة بواسطة نماذج الانتشار لمهمة التعرف على الأشياء. من خلال الاستفادة من قدرات نماذج الانتشار الرائدة (rombach2022high)، نُظهر أنه يمكن توجيه هذه النماذج نصياً لإنشاء صور اختبار واقعية تُؤدِّي إلى فشل نماذج الرؤية. وبفضل التوجيه النصي، يمكننا تنويع العوامل عالية المستوى في الصور خلافاً للتشوهات المحلية والنسيج في الأعمال السابقة، مما يوفر أبعاداً إضافية لتقييم المتانة.

لتعزيز صعوبة العينات، نحافظ بشكل انتقائي على الصور التي تُسبّب فشل نماذج الرؤية المختارة. تُبيّن نتائجنا أن الصور التي تُثير أخطاءً في نماذج معينة تنقل صعوبتها بشكل موثوق إلى نماذج أخرى لم تُختَبَر سابقاً. يؤدي ذلك إلى انخفاض ملحوظ في الدقة، حتى في النماذج الأساسية الحديثة مثل MiniGPT-4 (zhu2023minigpt) وLLaVa (liu2023visual)، مما يشير إلى أن المجموعة تكشف عن نقاط ضعف شائعة في نماذج الرؤية.

تُظهر التصوّرات أن ImageNet-D يعزّز جودة الصورة بشكل كبير مقارنة بالمعايير الاصطناعية السابقة. يعمل ImageNet-D كأداة فعّالة لخفض الأداء وتقييم المتانة عبر نماذج مختلفة، من ResNet-101 (انخفاض 55.02%) وViT-L/16 (انخفاض 59.40%) إلى CLIP (انخفاض 46.05%)، وينتقل جيداً إلى نماذج لغة الرؤية الضخمة مثل LLaVa (انخفاض 29.67%) وMiniGPT-4 (انخفاض 16.81%). يُعتَبَر نهجنا في استخدام النماذج التوليدية لتقييم المتانة منهجاً عاماً، ويُظهر إمكانيات كبيرة للتحسين مع تقدّم النماذج التوليدية.

الأعمال ذات الصلة

متانة الشبكات العصبية. تحوّلت الشبكات العصبية من الشبكات الالتفافية (CNN) (he2016deep, huang2017densely) وشبكات التحويل البصري (ViT) (vaswani2017attention, liu2021swin) إلى النماذج الأساسية الكبيرة (bommasani2021opportunities, devlin2018bert, touvron2023llama). تناولت الأعمال السابقة متانة الشبكات من عدة جوانب، مثل الأمثلة العدائية (mao2022understanding, mahmood2021robustness, madry2017towards, zhao2023evaluating, zhang2019theoretically) وعينات خارج النطاق (MAE, mao2021discrete, hendrycks2021many, augmix). كما أظهرت النماذج الأساسية متانة أكبر على العينات خارج التوزيع (radford2021learning), واستُدرِس التفسير القوي أيضاً (mao2023doubly, liu2023visual, zhu2023minigpt). لتقييم المتانة بشكل منهجي، نحتاج إلى مجموعات اختبار تغطي عوامل متعددة.

مجموعات بيانات لتقييم المتانة. تستخدم الدراسات صوراً من الإنترنت مثل ImageNet-A (hendrycks2021natural), Imagenet-R (hendrycks2021many) وImageNet-Sketch (wang2019learning), لكنها محدودة بما هو متاح على الويب. يجمع ObjectNet (barbu2019objectnet) الصور يدوياً بواسطة آلاف العاملين، مما يستغرق وقتاً وجهداً كبيرين.

لتجاوز قيود الصور من الويب وتقليل تكلفة الجمع اليدوي، طُرحت الصور الاصطناعية لتقييم المتانة (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). يقيس ImageNet-C (hendrycks2019benchmarking) المتانة عبر تشوهات منخفضة المستوى. يُولّد ImageNet-9 (xiao2020noise) صوراً بدمج الخلفية والمقدمة من صور مختلفة، لكنه محدود جودةً. يغيّر Stylized-ImageNet (geirhos2018imagenet) نسيج الصور باستخدام نقل الأسلوب (AdaIN), لكنه لا يتحكم في عوامل أخرى مثل الخلفية. في هذا العمل، نقدم مجموعة اختبار جديدة ImageNet-D، المولَّدة بواسطة نماذج الانتشار وتشتمل على صور بخلفيات وأنسجة ومواد متنوعة.

توليد الصور. حققت نماذج الانتشار نجاحاً باهراً في مهام متعددة منها توليد الصور (saharia2022photorealistic, ramesh2022hierarchical, ruiz2023dreambooth, zhang2023text). على وجه الخصوص، يمكن لـ Stable Diffusion (rombach2022high) توليد صور عالية الدقة وفقاً لتوجيه نصي. يقدم InstructPix2Pix (brooks2023instructpix2pix) تحكماً أدق من خلال تعديل صورة معينة حسب تعليمات بشرية. في هذه الورقة، بنينا خط أنابيبنا باستخدام نموذج Stable Diffusion القياسي، رغم أن خوارزميتنا تتوافق مع نماذج توليدية أخرى قابلة للتوجيه باللغة.

تعزيز الإدراك باستخدام صور الانتشار. استُخدمت الصور المولَّدة بنماذج الانتشار لتعزيز مهام إدراك الرؤية. يحسن بعض الأبحاث (yuan2023not, bansal2023leaving, azizi2023synthetic, tian2023stablerep) دقة التصنيف باستخدام الصور الاصطناعية كتوسيع لبيانات التدريب. بينما يكشف DREAM-OOD (du2023dream) الشواذ عبر فك تشفير العينات الكامنة إلى صور. إلا أن نهجهم يفتقر إلى التحكم الدقيق في فضاء الصور، وهو أمر حاسم لمعايير مثل ImageNet-D. كما يحدد (metzen2023identification) أزواج السمات غير ممثلة جيداً، بينما يركّز بحثنا على استخراج الصور الصعبة لكل سمة. بخلاف (li2023imagenet, vendrow2023dataset, prabhu2023lance) الذين يعدّلون مجموعات حالية، يولد عملنا صوراً جديدة ويختار الأصعب منها كمجموعة اختبار، مما يحقق انخفاضاً أكبر في الدقة.

ImageNet-D

نستعرض أولاً كيفية إنشاء ImageNet-D في القسم [sec:dataset_design]، ثم نظرة عامة على إحصائياته في القسم [sec:statistics].

تصميم مجموعة البيانات

بينما تتفوق الشبكات العصبية في تطبيقات عدة، تحتاج متانتها إلى تقييم دقيق لأسباب تتعلق بالسلامة. التقييمات التقليدية تستخدم مجموعات اختبار موجودة، تشمل صوراً طبيعية (barbu2019objectnet, hendrycks2021natural) أو اصطناعية (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). مقارنةً بجمع الصور يدوياً، يعد جمع مجموعة اختبار اصطناعية أكثر كفاءة (geirhos2018imagenet, xiao2020noise). مع ذلك، يقين تنوع هذه المجموعات الاصطناعية محدود بسبب اعتمادها على الصور الحالية لاستخراج السمات، وهي كذلك تفتقر إلى الطابع الواقعي كما في الشكل [fig:test_set_comparison]. يهدف ImageNet-D إلى تقييم متانة النموذج عبر مجموعات متنوعة من الفئات والعوامل الطارئة، لمعالجة هذه القيود.

توليد الصور بنماذج الانتشار. لبناء ImageNet-D، نستخدم نماذج الانتشار لإنشاء مجموعة ضخمة من الصور بدمج جميع فئات الأشياء والعوامل الطارئة، مما يتيح توليد صور عالية الدقة بناءً على مدخلات نصية محدّدة. نعتمد نموذج Stable Diffusion (rombach2022high) للتوليد، لكن نهجنا يتوافق مع نماذج أخرى قابلة للتوجيه النصي. تصاغ عملية التوليد كما يلي: \[\text{Image}(C, N) = \text{Stable Diffusion}(\text{Prompt}(C,N)), \label{eq:image_generation}\] حيث يشير كل من \(C\) و\(N\) إلى فئة الشيء والعامل الطارئ على التوالي، ويشمل العامل الطارئ الخلفية والمادة والملمس. يوضح الجدول [tab:prompt_list] العوامل والإعدادات. باستخدام فئة الحقائب مثالاً، نولد صوراً لحقيبة في حقل قمح، وغرف خشبية، وما إلى ذلك، مما يوفر تنوعاً أوسع من المجموعات الحالية. تُصنَّف الصورة حسب فئة \(C\) كحقيقة أساسية وتعتبر مصنّفة خاطئة إذا لم يتطابق تصنيف النموذج مع الحقيقة الأساسية.

بعد إنشاء مجموعة كبيرة لكل أزواج الفئات والعوامل، نقيم نموذج CLIP (ViT-L/14) على هذه الصور في الجدول [tab:vanilla_generation]. التفاصيل في القسم [sec:experimental_setup]. يبين الجدول أن CLIP يحقق دقة عالية تقريباً (94%) على الصور الاصطناعية. لإنشاء مجموعة اختبار تحدّي، نقترح استراتيجية فعّالة لاستخراج العينات الصعبة استناداً إلى فشل مشترك.

استخراج الصور الصعبة عبر الفشل المشترك. قبل شرح كيفية تحديد العينات الصعبة، نعرف مفهوم الفشل المشترك:

الفشل المشترك: صورة تُعد فاشلة بشكل مشترك إذا أدت إلى تصنيف غير صحيح لعدة نماذج.

المجموعة الصعبة المثالية تشمل صوراً يفشل فيها جميع النماذج المختبرة، لكن ذلك غير عملي نظراً لعدم إمكانية الوصول إلى النماذج المستقبلية (النماذج الهدف). بدلاً من ذلك، نبني مجموعة الاختبار انطلاقاً من فشل النماذج البديلة المعروفة. إذا أدى فشل هذه النماذج إلى انخفاض دقة في النماذج الهدف غير المعروفة، نعتبر الفشل قابلاً للنقل:

الفشل القابل للنقل: فشل النماذج البديلة المعروفة يعتبر قابلاً للنقل إذا أدّى أيضاً إلى دقة منخفضة في النماذج الهدف غير المعروفة.

لتقييم قابلية نقل الفشل، نقيم مجموعات اختبار مولّدة بفشل مشترك من 1 إلى 8 نماذج بديلة (الشكل [fig:filter_consistency]). كذلك نقيّم ثلاثة نماذج هدف لم تُستخدم في بناء مجموعة الاختبار: CLIP (ViT-B/16)، LLaVa وMiniGPT-4. يوضح الشكل أن دقة النموذج الهدف تنخفض كلما زاد عدد النماذج البديلة. وُلدت مجموعات الاختبار لكل من الخلفية والملمس والمواد وتظهر نفس الاتجاه.

التحكم بالجودة بواسطة التدخل البشري

توفر العملية السابقة اكتشافاً آلياً لمجموعة اختبار صعبة، لكن النماذج التوليدية قد تنتج صوراً لا تتطابق مع فئة الطلب. لذا، نلجأ إلى التعليق التوضيحي البشري لضمان صحة ووضوح صور ImageNet-D. بعد الجولة الأولى من التعليق بواسطة طلاب الدراسات العليا المتخصصين، نستخدم Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) للتدقيق في جودة التسمية. نطلب من العمال اختيار الصور التي يمكنهم التعرف فيها على الكائن الرئيسي أو التي تظهر وظيفته الحقيقية كفئة الحقيقة الأرضية. كما صممنا حراساً لضمان استجابات دقيقة: الحراس الإيجابيون والسلب…