تَصْحِيحُ الضَّوْضَاءِ لاِسْتِيفاءِ الصُّوَرِ بِاسْتِخْدامِ نَماذِجِ الٱنتِشارِ NoiseDiffusion

Pengfei Zheng1 Yonggang Zhang2 Zhen Fang3 Tongliang Liu4 Defu Lian11 Bo Han2
1جامِعَةِ العُلُومِ وَالتِكْنُولُوجِيا الصِّينِيَّةِ 2مَجْمُوعَةُ TMLR، جامِعَةُ هُونْغ كُونْغ المَعْمَدانِيَّةِ
3جامِعَةُ تِكْنُولُوجِيا سِيدْنِي 4مَرْكَزِ Sydney AI، جامِعَةُ سِيدْنِي

مُلَخَّص

يُعَدُّ استيفاء الصور باستخدام نماذج الانتشار من الأساليب المبشرة في توليد صور جديدة ومبتكرة. تنطلق الطرق المتقدمة للاستيفاء من مفهوم الاستيفاء الخطي الكروي، حيث تُرمَّز الصور في فضاء الضوضاء ثم يُستكمل استيفاؤها لإزالة التشويش. غير أن التقنيات الحالية تعاني صعوبة في استيفاء الصور الطبيعية (غير المولَّدة بواسطة نماذج الانتشار) بكفاءة، مما يُقيّد تطبيقاتها العملية. تكشف نتائج تجاربنا أن هذه العقبات تعود إلى عدم توافق الضوضاء المُشفَّرة مع التوزيع المفترض، مثل التوزيع الطبيعي. لمواجهة ذلك، نقترح نهجًا جديدًا لتصحيح الضوضاء أثناء الاستيفاء، NoiseDiffusion. تحديدًا، يقرِّب NoiseDiffusion الضوضاء غير المطابقة للتوزيع المتوقع بإضافة قدر ضئيل من الضوضاء الغاوسية المعيارية، ويُطبّق قيدًا لكبح القيم الشاذة. يعزز هذا القيد صلاحية الضوضاء ويقلل من تشوهات الصور، غير أن ذلك قد يُضعف نسبة الإشارة إلى الضوضاء ويؤدي إلى فقدان بعض المعلومات الأصلية. لذا، ينفذ NoiseDiffusion الاستيفاء داخل فضاء الصور الضوضائي ثم يحقن الصور الأصلية في تلك النظائر الضوضائية لتعويض أي نقص في المعلومات. ونتيجة لذلك، يستطيع NoiseDiffusion استيفاء الصور الطبيعية دون تشوه أو فقد في المحتوى، محققًا أفضل أداء للاستيفاء حتى الآن. الكود متاح على https://github.com/tmlr-group/NoiseDiffusion.

مُلَخَّص

درسنا عملية الاستيفاء وعزّنا أسباب فشلها إلى إدخال ضوضاء غير مناسبة مع معلومات الصورة، مما أدّى إلى تشوّهات واضطرابات في الصور المستوفاة. لذلك، استكشفنا طريقة إضافة الضوضاء مباشرةً إلى المتغيرات الكامنة للنموذج، فحسّنت جودة الصورة لكنّها أضفت معلومات زائدة. بناءً على ذلك، دمجنا المنهجين لاقتراح نهج جديد يستفيد من الضوضاء الحاملة للمعلومات الأصلية ويضيف مقدارًا محدودًا من الضوضاء الغاوسية لتعزيز جودة الاستيفاء. إلى جانب ذلك، قدّمنا قيودًا مبتكرة على مكونات الضوضاء المسببة للتشوهات. لم يقتصر تأثير هذا النهج على تحسين نتائج الاستيفاء للصور ضمن نطاق التدريب، بل امتد أيضًا إلى الصور الطبيعية خارج ذلك النطاق، محققًا أداءً رائدًا في الاستيفاء. حاليًا، يُعدّ الاستيفاء الخطي الكروي الأسلوب الأكثر شيوعًا في نماذج الانتشار، وهو يقدّم نتائج ممتازة مع الصور المولَّدة بواسطة تلك النماذج. ولكن عند تطبيقه على الصور الطبيعية، غالبًا ما تنخفض جودة النتائج وتظهر تشوهات ملحوظة.

لتعزيز جودة الصورة، دمجنا أولًا طريقة تحرير الانتشار العشوائي (meng2021sdedit)، التي تستبدل خطوة التشفير بإدخال الضوضاء مباشرةً. رغم تحسن الجودة، قد تخفي الضوضاء الإضافية بعض الميزات الأصلية. ولتحقيق استيفاء عالي الجودة مع الحفاظ على السمات الرئيسية، جمعنا بين المنهجين عبر إضافة الضوضاء على المتغيرات الكامنة لتصحيح التشوهات.

ونتيجة لذلك، يستطيع نهجنا المقترح الاستيفاء ليس فقط على الصور ضمن نطاق التدريب، بل يتوسع أيضًا ليشمل الصور الخارجية مع الحفاظ على سماتها الأساسية.

مُقَدِّمَة

تُعَدُّ عملية استيفاء الصور مهمة شيّقة للغاية، ليس فقط لتوليد صور متقاربة ولكن أيضًا لفتح آفاق تطبيقية إبداعية، لا سيما في مجالات مثل الإعلان وتوليد مقاطع الفيديو. في الوقت الراهن، أظهرت النماذج التوليدية المتقدمة قدرة فائقة على إنتاج صور مركبة وجذابة، مع العديد من الاختراقات الحديثة المستندة إلى نماذج الانتشار (ho2020denoising, song2020denoising, Rombach_2022_CVPR, saharia2022photorealistic, ramesh2022hierarchical). وعلى الرغم من الاعتراف الواسع بإمكانات نماذج الانتشار، لا يزال البحث في استيفاء الصور باستخدام هذه النماذج محدودًا (croitoru2023diffusion).

في سياق نماذج الانتشار، تُعدُّ تقنية الاستيفاء الخطي الكروي السائدة (song2020denoising, song2020score) فعّالة مع الصور المولَّدة بواسطة هذه النماذج. ومع ذلك، عند استخدامها لاستيفاء الصور الطبيعية، غالبًا ما تنخفض جودة النتائج وتظهر تشوّهات ملحوظة.

نبدأ بتحليل عملية الاستيفاء الخطي الكروي في الأساس، ونعزو ضعف النتائج إلى عدم ملاءمة الضوضاء المُشفَّرة للتوزيع المفترض؛ إذ لا تتبع الضوضاء ذلك التوزيع وقد تحتوي على مستويات أعلى أو أدنى من ضوضاء إزالة التشويش، مما يؤدي إلى تشوّهات في الصور النهائية. التلاعب المباشر بمتوسط الضوضاء وتباينها عبر الترجيح والتحجيم يُعدّ أسلوبًا بسيطًا لتقريبها من التوزيع المطلوب، لكنه يفشل في تحسين الجودة ويفقد الكثير من معلومات الصورة. بالتوازي مع ذلك، نقدّم الضوضاء الغاوسية المعيارية مباشرةً من خلال تحرير الانتشار العشوائي (meng2021sdedit)، مما يحسّن جودة الصور على حساب إدخال بيانات إضافية.

لمعالجة هذه القضايا، نقترح نهجًا جديدًا لتصحيح الضوضاء في استيفاء الصور، NoiseDiffusion. يقرِّب NoiseDiffusion الضوضاء غير المطابقة للتوزيع المتوقع بإضافة ضوضاء غاوسية دقيقة، ويطبّق قيدًا للحد من القيم الشاذة. هذا القيد يقلل التشوّهات، لكن إضافة القيد والضوضاء الخارجية قد يضعفان نسبة الإشارة إلى الضوضاء ويؤديان إلى فقدان بعض المعلومات الأصلية. لذا، ينقل NoiseDiffusion عملية الاستيفاء إلى فضاء الصور الضوضائي، ثم يحقن النسخ الضوضائية بالصور الأصلية لتعويض المعلومات المفقودة. بفضل هذه الخطوات، يستطيع نهجنا استيفاء الصور الطبيعية دون تشوّهات، محققًا أفضل النتائج المقاسة حتى الآن. وبالنظر إلى محدودية البحوث السابقة في هذا المجال (croitoru2023diffusion), نأمل أن يلهم عملنا مزيدًا من الدراسات المستقبلية.

من خلال تعديل المعاملات، يمكن لنهجنا إجراء الاستيفاء ليس فقط على الصور المدرَّبة عليها، بل أيضًا توسيع نطاقه إلى الصور الخارجة عن مجموعة التدريب مع الحفاظ على سمات الصورة الأساسية دون المساس بها.

الأعمال ذات الصلة

نماذج الانتشار تولّد نماذج الانتشار عينات من الضوضاء الغاوسية وتزيل التشويش خطوةً بخطوة. حتى الآن، استُخدمت هذه النماذج في مهام متنوعة تشمل توليد الصور (Rombach_2022_CVPR، song2020improved، nichol2021glide، jiang2022text2human)، وتحسين دقة الصور (saharia2022image، batzolis2021conditional، daniels2021score)، وإصلاح الصور (esser2021imagebart)، وتحرير الصور (meng2021sdedit)، وترجمة صورة إلى أخرى (saharia2022palette). وبرزت نماذج الانتشار الكامنة (Rombach_2022_CVPR) بقدرتها على توليد صور مشروطة بالنصوص بجودة واقعية عالية.

إدخال الصور اعتمدت أساليب سابقة مثل StyleGAN (karras2019style) على المتغيرات الكامنة لإعادة بناء الصور. ومع ذلك، يقتصر نطاقها على الفئة المدرَّبة عليها، فتواجه تحديات مع الصور الطبيعية (xia2022gan). بالإضافة إلى ذلك، يستخدم بعض نماذج الانتشار الكامنة أوامر مخصصة لإدخال الصور المولَّدة (مثل Lunarring)، لكن إدخال الصور الطبيعية عبر المتغيرات الكامنة في نماذج الانتشار لم يُستكشف بعد. وحسب علمنا، لا توجد حتى الآن طريقة معتمدة لإدخال الصور الطبيعية باستخدام المتغيرات الكامنة في نماذج الانتشار.