```html
لايتيكس
نُقَدِّم مَعايير صارِمة لِمَتانة الإِدراك البَصَري. تُوَفِّر الصُوَر الاِصْطِناعِيَّة مثل ImageNet-C، ImageNet-9، وStylized ImageNet نوعاً مُحَدَّداً من التقييم على التلوثات الاصطناعية، والخلفيات، والقِوام، ولكن تلك المعايير لِلمتانة محدودة في التباينات المُحددة ولها جودة اصطناعية منخفضة. في هذا العمل، نُقَدِّم نموذجاً توليدياً كمصدر بيانات لتوليد صور صعبة تقيس متانة النماذج العميقة. من خلال استخدام نماذج الانتشار، نستطيع توليد صور بخلفيات وقِوام ومواد أكثر تنوعاً من أي عمل سابق، حيث نُطلق على هذا المعيار اسم ImageNet-D. تُظهِر النتائج التجريبية أن ImageNet-D يؤدي إلى انخفاض كبير في الدقة لمجموعة من نماذج الرؤية، من مصنف الرؤية ResNet القياسي إلى أحدث النماذج الأساسية مثل CLIP وMiniGPT-4، مما يقلل دقتها بنسبة تصل إلى 60\%. يُشير عملنا إلى أن نماذج الانتشار يمكن أن تكون مصدراً فعالاً لاختبار نماذج الرؤية. الشفرة ومجموعة البيانات متاحة على GitHub لمزيد من التوثيق والتنزيل.
لقد حققت الشبكات العصبية أداءً ملحوظاً في مهام تتراوح من تصنيف الصور (vaswani2017attention, liu2021swin, liu2022convnet) إلى الإجابة على الأسئلة البصرية (li2023blip, dai2023instructblip, liu2023visual, zhu2023minigpt). وقد ألهمت هذه التقدمات تطبيق الشبكات العصبية في مجالات متنوعة، بما في ذلك الأنظمة الأمنية والحرجة مثل السيارات ذاتية القيادة (kangsepp2022calibrated, nesti2023ultra, liu2023vectormapnet)، وكشف البرمجيات الخبيثة (yuan2014droid, chen2019believe, pei2017deepxplore) والروبوتات (brohan2022rt, brohan2023rt, huang2023voxposer). ونظراً لتوسع استخدامها، أصبح من المهم بشكل متزايد تحديد متانة الشبكات العصبية (ming2022delving, li2023distilling) لأسباب تتعلق بالسلامة.
لتقييم متانة الشبكات العصبية، يجمع ObjectNet (barbu2019objectnet) صور الأشياء الواقعية على عوامل يمكن التحكم بها مثل الخلفية بواسطة العمال البشريين، وهو ما يستغرق وقتاً طويلاً ويتطلب جهداً كبيراً. لزيادة جمع البيانات، تم اقتراح الصور الاصطناعية كصور اختبار (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). على سبيل المثال، يقدم ImageNet-C (hendrycks2019benchmarking) مجموعة من التشوهات البصرية الشائعة منخفضة المستوى، مثل الضوضاء الغاوسية والطمس، لاختبار متانة النماذج. يستخدم ImageNet-9 (xiao2020noise) تقنية القص واللصق البسيطة لإنشاء معيار للمتانة على خلفية الكائن، لكن الصور تبدو غير واقعية. يُولِّد Stylized-ImageNet (geirhos2018imagenet) صوراً جديدة من خلال تغيير نسيج صور ImageNet، ولكنها لا تتحكم في العوامل العالمية مثل الخلفية.
في هذا العمل، نقدم ImageNet-D، مجموعة اختبار اصطناعية تم إنشاؤها بواسطة نماذج الانتشار لمهمة التعرف على الأشياء. من خلال الاستفادة من قدرات نماذج الانتشار الرائدة (rombach2022high)، نظهر أنه يمكننا توجيه هذه النماذج باللغة لإنشاء صور اختبار واقعية تتسبب في فشل نماذج الرؤية. وبفضل الاعتماد على اللغة، يمكننا تنويع العوامل عالية المستوى في الصور على خلاف التشوهات المحلية والنسيج في الأعمال السابقة، مما يوفر أبعاداً إضافية لتقييم المتانة.
لتعزيز صعوبة العينات في مجموعة البيانات الخاصة بنا، نحتفظ بشكل انتقائي بالصور التي تسبب فشل نماذج الرؤية المختارة. تظهر نتائجنا أن الصور التي تثير الأخطاء في النماذج المختبرة تنقل صعوبتها بشكل موثوق إلى نماذج أخرى لم تخضع للاختبار مسبقاً. وهذا يؤدي إلى انخفاض ملحوظ في الدقة، حتى في النماذج الأساسية الحديثة مثل MiniGPT-4 (zhu2023minigpt) وLLaVa (liu2023visual)، مما يشير إلى أن مجموعة البيانات تكشف عن الفشل الشائع في نماذج الرؤية.
تُظهر التصورات أن ImageNet-D يعزز بشكل كبير جودة الصورة مقارنة بمعايير المتانة الاصطناعية السابقة. يعمل ImageNet-D كأداة فعالة لخفض الأداء وتقييم متانة النموذج، بما في ذلك ResNet 101 (انخفاض 55.02\%)، ViT-L/16 (انخفاض 59.40\%)، CLIP (انخفاض 46.05\%)، وينتقل جيداً إلى نماذج لغة الرؤية الكبيرة مثل LLaVa (liu2023visual) (انخفاض 29.67\%) وMiniGPT-4 (zhu2023minigpt) (انخفاض 16.81\%). يُعتَبَر نهجنا في استخدام النماذج التوليدية لتقييم المتانة منهجاً عاماً، ويُظهر إمكانية كبيرة لتحسينات مستقبلية مع تطور النماذج التوليدية.
مَتانة الشبكات العصبية. تطورت الشبكات العصبية من شبكات الالتفاف العصبي (CNN) (he2016deep, huang2017densely)، وشبكات التحويل البصري (ViT) (vaswani2017attention, liu2021swin)، إلى النماذج الأساسية الكبيرة (bommasani2021opportunities, devlin2018bert, touvron2023llama). وقد تناولت الأعمال السابقة متانة الشبكات العصبية من عدة جوانب، مثل الأمثلة المعادية (mao2022understanding, mahmood2021robustness, madry2017towards, zhao2023evaluating, zhang2019theoretically) وعينات خارج النطاق (MAE, mao2021discrete, hendrycks2021many, augmix). كما أظهرت النماذج الأساسية متانة أكبر على العينات خارج التوزيع (radford2021learning). بالإضافة إلى ذلك، تم التحقيق في التفسير القوي أيضاً (mao2023doubly, liu2023visual, zhu2023minigpt). لتقييم متانة النماذج العميقة بشكل منهجي، من الضروري وجود مجموعات اختبار تغطي عوامل مختلفة.
مجموعات بيانات لتقييم المتانة. تستخدم الدراسات صوراً من الإنترنت، بما في ذلك ImageNet-A (hendrycks2021natural), Imagenet-R (hendrycks2021many) وImageNet-Sketch (wang2019learning). ومع ذلك، فهي محدودة بما هو متاح على الويب. يجمع ObjectNet (barbu2019objectnet) الصور يدوياً بمساعدة آلاف العاملين، مما يستغرق وقتاً وجهداً كبيرين.
للتغلب على قيود الصور من الويب وتقليل تكلفة الجمع اليدوي، تم اقتراح الصور الاصطناعية لتقييم المتانة (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). ImageNet-C (hendrycks2019benchmarking) يقيم متانة النموذج على التلفيات منخفضة المستوى. ImageNet-9 (xiao2020noise) يُولِّد صوراً جديدة بدمج الخلفية والمقدمة من صور مختلفة، ولكنه محدود بجودة منخفضة نسبياً. Stylized-ImageNet (geirhos2018imagenet) يغير نسيج صور ImageNet باستخدام نقل أسلوب AdaIN (huang2017arbitrary) أو بإدخال تعارض بين النسيج والشكل، ولكنه لا يتحكم في عوامل أخرى مثل الخلفيات. في هذا العمل، نقدم مجموعة اختبار جديدة ImageNet-D، التي تُولَّد بالتحكم في نماذج الانتشار وتشمل صوراً جديدة مع خلفيات وأنسجة ومواد متنوعة.
توليد الصور. حققت نماذج الانتشار نجاحاً كبيراً في مهام متنوعة بما في ذلك توليد الصور (saharia2022photorealistic, ramesh2022hierarchical, ruiz2023dreambooth, zhang2023text). على وجه الخصوص، يمكن Stable Diffusion (rombach2022high) من توليد صور عالية الدقة يتم التحكم فيها بواسطة اللغة. InstructPix2Pix (brooks2023instructpix2pix) يوفر تحكماً أكثر تعقيداً من خلال تعديل صورة معينة وفقاً لتعليمات بشرية. في هذه الورقة، نبني خط أنابيبنا باستخدام نموذج Stable Diffusion القياسي، رغم أن خوارزميتنا متوافقة مع نماذج توليدية أخرى قابلة للتوجيه باللغة.
تعزيز الإدراك باستخدام صور الانتشار. استُخدمت الصور المولدة بالانتشار لتعزيز مهام إدراك الرؤية. يحسن فرع من الدراسات (yuan2023not, bansal2023leaving, azizi2023synthetic, tian2023stablerep) دقة التصنيف باستخدام الصور الاصطناعية كتوسيع لبيانات التدريب. أما DREAM-OOD (du2023dream)، فيكشف القيم الشاذة عبر فك تشفير العينات الكامنة إلى صور. إلا أن طريقتهم تفتقر إلى التحكم المحدد في فضاء الصور، وهو أمر حاسم لمعايير مثل ImageNet-D. كما يحدد (metzen2023identification) أزواج السمات غير الممثلة بشكل كافٍ، بينما يركز بحثنا على استخراج الصور الصعبة لكل سمة على حدة. على عكس (li2023imagenet, vendrow2023dataset, prabhu2023lance) الذين يعدلون مجموعات البيانات الحالية، يولد عملنا صوراً جديدة ويختار الأصعب منها كمجموعة اختبار، مما يحقق انخفاضاً أكبر في الدقة.
نقدم أولاً كيفية إنشاء ImageNet-D في القسم [sec:dataset_design]، ثم نظرة عامة على إحصائياته في القسم [sec:statistics].
بينما تتفوق الشبكات العصبية في تطبيقات متعددة، فإن متانتها تحتاج إلى تقييم دقيق للسلامة. التقييمات التقليدية تستخدم مجموعات اختبار موجودة، تشمل إما صوراً طبيعية (barbu2019objectnet, hendrycks2021natural) أو صوراً اصطناعية (geirhos2018imagenet, hendrycks2019benchmarking, xiao2020noise). مقارنة بجمع الصور يدوياً، فإن جمع مجموعة اختبار اصطناعية أكثر كفاءة (geirhos2018imagenet, xiao2020noise). ومع ذلك، فإن تنوع مجموعات الاختبار الاصطناعية الحالية محدود بسبب اعتمادها على الصور الموجودة لاستخراج السمات. هذه الصور الاصطناعية ليست واقعية أيضاً، كما هو موضح في الشكل [fig:test_set_comparison]. يتم تقديم ImageNet-D لتقييم متانة النموذج عبر مجموعات متنوعة من الأشياء والعوامل الطارئة، لمعالجة هذه القيود.
توليد الصور بواسطة نماذج الانتشار. لبناء ImageNet-D، نستخدم نماذج الانتشار لإنشاء مجموعة ضخمة من الصور عن طريق دمج جميع فئات الأشياء المحتملة والعوامل الطارئة، مما يتيح توليد صور عالية الدقة بناءً على مدخلات نصية محددة. نعتمد نموذج Stable Diffusion (rombach2022high) للتوليد، رغم أن نهجنا يتوافق مع نماذج توليدية أخرى قابلة للتوجيه باللغة. تُصاغ عملية توليد الصور على النحو التالي: \[ \text{Image}(C, N) = \text{Stable Diffusion}(\text{Prompt}(C,N)), \] حيث يشير \(C\) و \(N\) إلى فئة الشيء والعامل الطارئ، على التوالي. يشمل العامل الطارئ \(N\) الخلفية والمادة والملمس. يقدم الجدول [tab:prompt_list] نظرة عامة على العوامل والط¶ليات. باستخدام فئة الحقائب كمثال، نولد صوراً لحقيبة في حقل قمح، حجرات خشبية، وما إلى ذلك، مما يوفر تنوعاً أوسع من المجموعات الحالية. تُصنَّف الصورة بحسب فئة الPrompt \(C\) كحقيقة أساسية. تُعتَبَر الصورة مصنفة بشكل خاطئ إذا لم يتطابق تصنيف النموذج مع الحقيقة الأساسية \(C\).
بعد إنشاء مجموعة كبيرة من الصور لكل أزواج الفئات والعوامل، نقيم نموذج CLIP (ViT-L/14) على هذه الصور في الجدول [tab:vanilla_generation]. التفاصيل التجريبية في القسم [sec:experimental_setup]. يُظهر الجدول [tab:vanilla_generation] أن CLIP يحقق دقة عالية (حوالي 94\%) على الصور الاصطناعية. لإنشاء مجموعة اختبار تحدي، نقترح استراتيجية فعالة لاستخراج العينات الصعبة بالاعتماد على فشل مشترك.
استخراج الصور الصعبة مع فشل الإدراك المشترك. قبل شرح كيفية تحديد العينات الصعبة، نُعرِّف مفهوم فشل الإدراك المشترك:
الفشل المشترك:
صورة تُعتَبَر فشلاً مشتركاً إذا أدت إلى تنبؤ عدة نماذج بتصنيف الشيء بشكل غير صحيح.
المجموعة الصعبة المثالية تشمل صوراً يفشل فيها جميع النماذج المختبرة، لكن هذا غير عملي نظراً لعدم إمكانية الوصول إلى النماذج المستقبلية (النماذج الهدف). بدلاً من ذلك، نبني مجموعة الاختبار انطلاقاً من فشل النماذج البديلة المعروفة. إذا أدى فشل هذه النماذج إلى انخفاض دقة في النماذج الهدف غير المعروفة، نعدّ الفشل قابلاً للنقل:
الفشل القابل للنقل:
فشل النماذج البديلة المعروفة قابل للنقل إذا أدى أيضاً إلى دقة منخفضة في النماذج الهدف غير المعروفة.
لتقييم قابلية نقل الفشل من الصور المولدة، نقيم مجموعات اختبار تم إنشاؤها بفشل مشترك من 1 إلى 8 نماذج بديلة (الشكل [fig:filter_consistency]). كما نقيم ثلاثة نماذج هدف لم تُستخدم في بناء مجموعة الاختبار، هي CLIP (ViT-B/16)، LLaVa، وMiniGPT-4. يُظهر الشكل [fig:filter_consistency] أن دقة النموذج الهدف تنخفض كلما زاد عدد النماذج البديلة. وُلدت مجموعات الاختبار للعوامل الثلاثة (الخلفية والملمس والمادة) وتظهر نفس الاتجاه.
توفر العملية السابقة اكتشافاً تلقائياً لمجموعة اختبار صعبة، إلا أن النماذج التوليدية قد تُنتِج صوراً لا تتطابق مع فئة الطلب. لذلك، نلجأ إلى التعليق التوضيحي البشري لضمان أن تكون صور ImageNet-D صالحة، من فئة واحدة، وعالية الجودة. بعد الجولة الأولى من التعليق بواسطة طلاب الدراسات العليا المتخصصين، نستخدم Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) للتدقيق في جودة التسمية. نطلب من العمال اختيار الصور التي يمكنهم التعرف فيها على الكائن الرئيسي أو التي تُظهر الكائن في وظيفته الحقيقية كفئة الحقيقة الأرضية. كما نصمم حراساً لضمان استجابات دقيقة، منهم الحراس الإيجابيون والسلبيون والمتسقون. التفاصيل في الملحق. شارك 679 عاملاً في 1540 مهمة، محققين اتفاقاً بنسبة 91.09\%.
تتضمن ImageNet-D 113 فئة متداخلة بين ImageNet وObjectNet، و547 مرشحاً للعوامل المؤثرة من Broden (bau2017network) (انظر الجدول [tab:prompt_list])، مما ينتج عنه 4835 صورة صعبة: خلفيات متنوعة (3764)، أنسجة (498)، ومواد (573). تعتبر عملية إنشاء ImageNet-D عامة وفعالة، مما يسمح بإضافة فئات وعوامل جديدة بسهولة. يُظهر توزيع الفئات نمطاً طبيعياً طويل الذيل (الشكل [fig:hist_category])، والتوزيع النادر وغير المنتظم للعوامل في الشكل [fig:heatmap] يسلط الضوء على أهمية استنفاد أزواج الفئات والعوامل في إنشاء مجموعة الاختبار.
نقيم نماذج مختلفة على معيار ImageNet-D، فتبيّن النتائج انخفاض دقة يصل إلى 60\% لجميعها. ثم نستعرض ما إذا كانت تقنيات سابقة، مثل توسيع البيانات، تُحسن المتانة. أخيراً، نناقش ImageNet-D من زوايا مختلفة، مثل استرجاع الجار الأقرب.
إعدادات بناء مجموعة الاختبار. نستخدم نموذج Stable Diffusion 2.1 (stable-diffusion-2-1) من Hugging Face لإنشاء ImageNet-D. لاستخراج الصور الصعبة، نحتفظ بالصور التي تفشل فيها أربعة نماذج بديلة: CLIP (ViT-L/14, ViT-L/14-336px, ResNet50) ونموذج الرؤية ResNet50 (he2016deep). تشمل قائمة النماذج البديلة أيضاً CLIP (ResNet101, ViT-B/32) ونماذج رؤية أخرى (ViT-L/16, VGG16).
تقييم نماذج التصنيف. تُقاس المتانة على ImageNet-D بدقة أعلى-1 في التعرف على الأجسام. نستخدم الأوزان المدربة مسبقاً المفتوحة المصدر للنماذج. بالنسبة لـ CLIP (radford2021learning)، نتبع الإرشادات الأصلية لاعتماد قالب نصي “صورة لـ \(\left[\text{category}\right]\)”. نبلغ عن دقة التصفير لـ CLIP.
تقييم نماذج الإجابة على الأسئلة البصرية (VQA). نقيم دقة نماذج VQA الحديثة المفتوحة المصدر على ImageNet-D، مثل LLaVa وMiniGPT-4. تستند الإجابة إلى مطالبة النص المدخل، لكن الإخراج النصي قد لا يتضمن اسم الفئة بالضبط، مما يصعب تقييم الدقة مباشرة.
لجعل نماذج VQA تختار من قائمة محددة، نستخدم المطالبة: ما هو الكائن الرئيسي في هذه الصورة؟ اختر من القائمة التالية: [GT category], [failure category]
. تمثل فئة GT الحقيقة الأرضية، وأفضل فئة خاطئة من حيث ثقة CLIP هي فئة الفشل. إذا اختار النموذج فئة الحقيقة الأرضية، نعدّ التصنيف صحيحاً، وبذلك نحسب دقة VQA.
النتائج الكمية. نقيم ImageNet-D على 25 نموذجاً، ونرسم دقة الاختبار في الشكل [fig:main_result_figure]، حيث المحور الأفقي دقة ImageNet والعمودي دقة ImageNet-D. يوضح الشكل أن دقة ImageNet-D أقل بوضوح على جميع النماذج (تحت خط \(y=x\)). نبلغ عن دقة 14 نموذجاً على مجموعات اختبار مختلفة في الجدول [tab:benchmark_results]، مع باقي النماذج في الملحق. يُظهر الجدول أن ImageNet-D يحقق أقل دقة اختبار، باستثناء تشابه النتائج على Stylized-ImageNet لنماذج VQA. رغم أن ObjectNet يغير العديد من السمات لكل صورة، فإن دقته تبقى أعلى من ImageNet-D الذي يغيّر سمة واحدة. مقارنة بـ ImageNet، يؤدي ImageNet-D إلى انخفاض دقة يزيد عن 16\% لجميع النماذج، بما في ذلك LLaVa (انخفاض 29.67\%) وMiniGPT-4 (انخفاض 16.81\%).
يعرض ImageNet-D أمثلة لصور عالية الجودة يفهمها البشر بسهولة، بينما يصنفها CLIP (ViT-L/14) بشكل خاطئ. كما يمكن لـ MiniGPT-4 وLLaVa-1.5 أن يخطئا في التعرف على الكائن الرئيسي في هذه الصور.
توسيع البيانات. وضّحت الأعمال السابقة فعالية توسيع البيانات لتحسين المتانة، كما في ImageNet-C. نختبر طرق SIN، AugMix، ANT، وDeepAugment على ImageNet-D. يوضح الجدول [tab:result_augmentation] دقة ImageNet وImageNet-D ومتوسط خطأ التلف (mCE) لـ ImageNet-C باستخدام ResNet50 كعمود فقري. بالرغم من أن هذه الطرق تحسن متانة ImageNet-C، فإنها لا تحسن – وقد تضعف – متانة ImageNet-D، مما يثبت حاجة هذا المعيار الجديد.
هندسة النموذج. نُقارن تنويعات النموذج في الشكل [fig:result_arch]. عند الانتقال من ViT إلى Swin Transformer وConvNeXt، تتحسن دقة ImageNet وImageNet-D، لكن المتانة تبقى صعبة خاصة على مجموعات النسيج والمواد. تظهر النتائج صعوبة تحسين متانة ImageNet-D بهندسة النموذج فقط.
التدريب المسبق بمزيد من البيانات. للتدريب المسبق على مجموعة بيانات أكبر أثر إيجابي على الدقة. يقارن الشكل [fig:result_arch] ConvNeXt المدرب مباشرة على ImageNet-1K مع نظيره المدرب أولاً على ImageNet-22K. يحقق الأخير متانة أعلى على جميع مجموعات ImageNet-D، لا سيما الخلفيات، مما يدل على فوائد التدريب المسبق الشامل.
هل يجد CLIP الجيران الصحيحين لصور ImageNet-D؟ يستخدم CLIP إمكانياته في استرجاع الجار الأقرب. باعتبار صور ImageNet-D استعلامات، نسترجع صوراً من ImageNet للتحقق من التشابه. يوضح الشكل أن الصور المسترجعة تنطوي على خلفيات أو كائنات مشابهة لصورة الاستعلام، مما يكشف عن حالات فشل في استرجاع الجيران الأقرب.
هل تطابق ImageNet-D مجموعات الاختبار الطبيعية في قابلية نقل الفشل؟ كما عرّفنا الفشل القابل للنقل في القسم [sec:dataset_design]، نجري التجربة نفسها على ImageNet (الفشل) باستخدام صور الفشل المشتركة. يوضح الجدول [tab:transferability] أن ImageNet-D يحقق دقة مماثلة لـ ImageNet (الفشل)، مما يشير إلى أن الصور الاصطناعية يمكن أن تنقل الفشل بشكل يشابه الطبيعي، بتكلفة أقل وسهولة توسعة.
التدريب على صور مولدة بالانتشار. نسمي الصور المولدة المصنفة صحياً من النماذج البديلة Synthetic-easy، ونستكشف تأثيرها في التدريب. نحسن ResNet18 المدرب مسبقاً على مجموعات تدريب مختلفة (الجدول [tab:finetune_experiment]). يُظهر الجدول أن التدريب على Synthetic-easy يعزز متانة ImageNet-D بنسبة 19.26\%، وأن النموذج C يتفوق على النموذج B في دقة ObjectNet بنسبة 1.34\%، مما يدل على تعميم أفضل. تشير النتائج إلى أن الصور المولدة بالانتشار مع أزواج متنوعة من الكائنات والعوامل تعزز المتانة كعينات تدريب.
في هذه الورقة، نقدم مجموعة اختبار ImageNet-D ونطور معياراً صارماً لمتانة الإدراك البصري. من خلال استغلال قدرة توليد الصور لنماذج الانتشار، تتضمن ImageNet-D صوراً بعوامل متنوعة تشمل الخلفيات والملمس والمادة. تُظهر النتائج التجريبية أن ImageNet-D تقلل بشكل كبير من دقة النماذج المختلفة، بما في ذلك CLIP (انخفاض 46.05\%)، LLaVa (انخفاض 29.67\%)، وMiniGPT-4 (انخفاض 16.81\%)، مما يؤكد فعاليته في تقييم المتانة. تُعَد أعمالنا خطوة إلى الأمام في تحسين معايير الاختبار الاصطناعية، وستؤدي الصور الاختبارية المستقبلية إلى مزيد من التنوع والتحدي مع تقدم النماذج التوليدية.
الشكر والتقدير: قدَّم هذا العمل منحة من معهد تخطيط وتقييم تكنولوجيا المعلومات والاتصالات (IITP) الممولة من حكومة كوريا (MSIT) (رقم 2022-0-00951) لتطوير عوامل غير مؤكدة تتعلم من خلال طرح الأسئلة.
لتحقيق معايير موثوقة، اعتمدنا على Amazon Mechanical Turk (deng2009imagenet, recht2019imagenet, hendrycks2021many) لتقييم جودة تسمية صور ImageNet-D.
تعليمات التسمية. نظراً لتنوع الصور التي قد تتضمن أزواجاً نادرة من الأشياء والعوامل، طلبنا من العمال مراعاة مظهر ووظيفة الكائن الرئيسي. نطلب من العمال الإجابة عن السؤالين التاليين:
السؤال 1:
هل يمكنك التعرف على الكائن المطلوب (فئة الحقيقة الأرضية
) في الصورة، رغم الخلفية أو النسيج أو المادة؟
السؤال 2:
هل يمكن استخدام الكائن في الصورة فعلياً كالكائن المطلوب (فئة الحقيقة الأرضية
)؟
خط سير التسمية. لضمان فهم المعيارين، يبدأ العامل بتسمية صورتين تدريبيتين مع الإجابة الصحيحة على السؤالين. بعدها، يصنف حتى 20 صورة في المهمة الواحدة، ويجيب بـ”نعم“ أو ”لا“ لكل سؤال.
واجهة المستخدم للتسمية. صُممت واجهة سهلة الاستخدام (الشكل المحذوف)، بحيث لا يمكن الانتقال إلى الصورة التالية إلا بعد إكمال الإجابتين.
استخدمنا حراساً لضمان جودة التعليقات. ضمن كل مهمة تصنيف تشمل صوراً متعددة، ندرج ثلاثة أنواع من الحراس:
الحارس الإيجابي: صورة تنتمي إلى الفئة المطلوبة وتم تصنيفها بشكل صحيح من قبل عدة نماذج. إن لم يختَر العمال ”نعم“، تُرفض تعليقاتهم.
الحارس السلبي: صورة لا تنتمي إلى الفئة. على سبيل المثال، إذا كانت الفئة ”كرسي“، نستخدم صورة ”مغرفة“ كحارس سلبي. إن اختار العمال ”نعم“ للمغرفة، تُزال تعليقاتهم.
الحارس المتسق: صورة تظهر مرتين بترتيب عشوائي داخل المهمة. إن أجاب العامل اختلافاً، تُستبعد تعليقاته لعدم الاتساق.
لكل مهمة حتى 20 صورة، ندرج حارساً إيجابياً واحداً، وحارساً سلبياً واحداً، وحارسين متسقين. نتجاهل الردود التي لا تجتاز جميع الحراس.
لضمان التنوع والجودة، جمعنا تعليقات 10 عمال مستقلين لكل صورة، واستبعدنا من لم يجتازوا فحوص الجودة. شارك 679 عاملاً في 1540 مهمة، محققين توافقاً نسبته 91.09\% لكل صورة من ImageNet-D.
المزيد من النتائج للقسم 4. نقارن دقة نموذج ImageNet-D مع مجموعات الاختبار الحالية، بما في ذلك ImageNet (russakovsky2015imagenet), ObjectNet (barbu2019objectnet), ImageNet-9 (xiao2020noise) وStylized-ImageNet (geirhos2018imagenet). نبلغ عن جميع أرقام الدقة في الجدول [tab:appendix_benchmark_results]، والذي يتضمن أيضاً أرقام الشكل 8.
إعدادات التدريب للجدول 6. نقدم التفاصيل التجريبية لجدول 6 في الورقة الرئيسية. نحسن ResNet18 المدرب مسبقاً على مجموعات تدريب مختلفة. لاستكشاف تأثير دمج الصور الاصطناعية، نأخذ عينات متساوية من ImageNet وSynthetic-easy، حيث يتضمن الأخير صوراً مولدة مولتاً بالانتشار وصُنفت بشكل صحيح من قبل النماذج البديلة. يبلغ عدد الصور في كل مجموعة 111098، مع توزيع متساوٍ لكل فئة. نُجري تحسينا لمدة 10 حقب إضافية باستخدام SGD ومعدل تعلم 0.0001، مع تضمين بيانات ImageNet-1K الأصلية كجزء من التدريب.
``` **تم إصلاح جميع معادلات LaTeX بحيث تُغلق بشكل صحيح وتُكتب بصيغة سليمة. تم التأكد من أن جميع النسب المئوية مكتوبة \% داخل LaTeX. جميع المعادلات الآن ستعمل بشكل صحيح مع MathJax. لم يتم تغيير أي كلمة من النص الأصلي.**