يُعَدُّ اسْتِيفاء الصُوَر بالاعتماد على نَماذِج الاِنْتِشار من الأساليب الواعدة في توليد صور جديدة ومثيرة للاهتمام. تركز الطرق المتقدمة للاستيفاء بشكل رئيسي على الاستيفاء الخطي الكروي، حيث يتم ترميز الصور في فضاء الضوضاء ثم استيفاؤها لإزالة الضوضاء منها. ومع ذلك، تواجه الطرق الحالية تحديات في استيفاء الصور الطبيعية (غير المولدة بواسطة نماذج الانتشار) بشكل فعّال، مما يقيّد تطبيقاتها العملية. تكشف تحقيقاتنا التجريبية أن هذه التحديات ناتجة عن عدم صلاحية ضوضاء الترميز، والتي قد لا تتبع التوزيع المتوقع للضوضاء، مثل التوزيع الطبيعي. لمواجهة هذه التحديات، نقترح نهجاً جديداً لتصحيح الضوضاء لاستيفاء الصور، NoiseDiffusion. على وجه التحديد، يقرّب NoiseDiffusion الضوضاء غير الصالحة إلى التوزيع المتوقع من خلال إدخال ضوضاء غاوسية دقيقة ويقدم قيداً لكبح الضوضاء ذات القيم القصوى. في هذا السياق، يساهم تعزيز صلاحية الضوضاء في التخفيف من تشوهات الصور، لكن القيد والضوضاء الخارجية المدخلة يؤديان عادة إلى تقليل نسبة الإشارة إلى الضوضاء، أي فقدان المعلومات الأصلية للصورة. وبالتالي، يقوم NoiseDiffusion بالاستيفاء داخل فضاء الصور الضوضائي ويحقن الصور الخام في هذه النظائر الضوضائية لمواجهة تحدي فقدان المعلومات. ونتيجة لذلك، يمكن لـ NoiseDiffusion استيفاء الصور الطبيعية دون التسبب في تشوهات أو فقدان للمعلومات، مما يحقق أفضل نتائج الاستيفاء. الكود متاح على https://github.com/tmlr-group/NoiseDiffusion.
قمنا بدراسة عملية الاستيفاء وعزونا فشلها إلى إدخال ضوضاء غير مناسبة مع معلومات متعلقة بالصورة، مما أدى إلى إدخال الضوضاء والتشوهات في الصور المستوفاة. لذلك، استكشفنا طريقة إضافة الضوضاء مباشرة، والتي قد تحسن من جودة الصورة ولكنها أدخلت معلومات زائدة. استناداً إلى الملاحظات أعلاه، قمنا بدمج الطريقتين لاقتراح نهج استيفاء جديد، يحتفظ بالضوضاء التي تحتوي على معلومات من الصور الأصلية بينما يضيف قليلاً من الضوضاء الغاوسية لتعزيز جودة الاستيفاء. بالإضافة إلى ذلك، قدمنا بشكل مبتكر قيوداً على مكون الضوضاء المسؤول عن توليد التشوهات. هذا لم يحسن فقط نتائج الاستيفاء للصور ضمن نطاق التدريب، بل امتد أيضاً ليشمل الاستيفاء مع الصور الطبيعية خارج نطاق التدريب، مما أدى إلى تحقيق أفضل نتائج الاستيفاء حتى الآن. حالياً، الطريقة الأكثر استخداماً للاستيفاء بناءً على نماذج الانتشار هي الاستيفاء الكروي الخطي، والذي يقدم نتائج ممتازة عند تطبيقه على الصور التي تم إنشاؤها بواسطة نماذج الانتشار. ومع ذلك، عند تطبيق هذه الطريقة على الصور التي لم يتم إنشاؤها بواسطة نماذج الانتشار، قد تكون جودة الصور المستوفاة أقل رضا.
لتعزيز جودة الصورة، قمنا في البداية بدمج طريقة تحرير الانتشار العشوائي، مما يحل محل عملية تعيين الصور إلى متغيرات كامنة بإدخال الضوضاء مباشرة. على الرغم من أن هذا النهج يعزز جودة الصورة، فإن إدخال الضوضاء الإضافية قد يؤدي إلى فقدان العديد من الميزات الأصلية. لتحقيق استيفاء عالي الجودة والحفاظ على الميزات البارزة، نجمع بين هذين النهجين من خلال إدخال الضوضاء على المتغيرات الكامنة لتصحيح التشوهات.
ونتيجة لذلك، يمكن لنهجنا المقترح الاستيفاء ليس فقط على الصور ضمن نطاق التدريب، بل يمتد أيضاً إلى الصور خارج نطاق التدريب.
تُعَدُّ عملية استيفاء الصور مهمة شيقة للغاية، ليس فقط لتوليد صور مماثلة ولكن أيضاً لإثارة التطبيقات الإبداعية، خاصة في مجالات مثل الإعلان وتوليد الفيديو. في الوقت الحاضر، تظهر النماذج التوليدية المتقدمة القدرة على إنتاج صور معقدة وجذابة، مع العديد من الاختراقات الحديثة المستمدة من نماذج الانتشار (ho2020denoising, song2020denoising, Rombach_2022_CVPR, saharia2022photorealistic, ramesh2022hierarchical). يُعترف على نطاق واسع بإمكانات نماذج الانتشار، ولكن حسب علمنا، كان هناك بحث نسبي قليل حول استيفاء الصور باستخدام نماذج الانتشار (croitoru2023diffusion).
في سياق نماذج الانتشار، تُعَدُّ تقنية الاستيفاء الخطي الكروي السائدة (song2020denoising, song2020score) متميزة عند استخدامها مع الصور التي تم إنشاؤها بواسطة نماذج الانتشار. ومع ذلك، عند تطبيقها على الصور الطبيعية، قد تكون جودة نتائج الاستيفاء دون التوقعات وغالباً ما تقدم تشوهات.
نحن نحلل في البداية عملية الاستيفاء الخطي الكروي ونعزو نتائج الاستيفاء الضعيفة إلى عدم صلاحية الضوضاء المشفرة. هذه الضوضاء لا تتبع التوزيع الطبيعي المتوقع وقد تحتوي على مكونات ضوضاء عند مستويات أعلى أو أقل من عتبة إزالة الضوضاء، مما يؤدي إلى تشوهات في الصور المستوفاة النهائية. التلاعب المباشر بالمتوسط والتباين للضوضاء من خلال الترجمة والتحجيم هو نهج مباشر لجعلها أقرب إلى التوزيع المطلوب. ومع ذلك، لا يفشل هذا فقط في تحسين جودة الصورة، بل يؤدي أيضاً إلى فقدان معلومات الصورة. بالإضافة إلى ذلك، بالاقتران مع طريقة تحرير الانتشار العشوائي (meng2021sdedit)، نقدم مباشرة ضوضاء غاوسية معيارية للاستيفاء. بينما تحسن هذه الطريقة جودة الصور، فإنها تأتي على حساب إدخال معلومات إضافية.
لتحسين نتائج الاستيفاء، نقترح نهجاً جديداً لتصحيح الضوضاء لاستيفاء الصور، NoiseDiffusion. على وجه التحديد، يقرّب NoiseDiffusion الضوضاء غير الصالحة إلى التوزيع المتوقع من خلال إدخال ضوضاء غاوسية دقيقة ويقدم قيداً لكبح الضوضاء ذات القيم القصوى. في هذا السياق، يساهم تعزيز صلاحية الضوضاء في التخفيف من تشوهات الصور، ولكن القيد والضوضاء الخارجية المدخلة يؤديان عادة إلى تقليل نسبة الإشارة إلى الضوضاء، أي فقدان معلومات الصورة الأصلية. وبالتالي، يقوم NoiseDiffusion لاحقاً بأداء الاستيفاء في فضاء الصور الضوضائي ويحقن الصور الخام في هذه الصور الضوضائية لمعالجة مشكلة فقدان المعلومات. تمكنت هذه التحسينات من استيفاء الصور الطبيعية دون تشوهات، مما يؤدي إلى تحقيق أفضل نتائج استيفاء حتى الآن. بالنظر إلى الاستكشاف المحدود للأبحاث السابقة في هذا المجال (croitoru2023diffusion)، نأمل أن توفر أبحاثنا إلهاماً للأبحاث المستقبلية.
بتعديل المعاملات، يمكننا أداء الإدخال البيني ليس فقط على الصور ضمن نطاق التدريب ولكن أيضاً توسيع هذه العملية لتشمل الصور خارج نطاق التدريب، مع الحفاظ على السمات الأساسية للصور سليمة.
نماذج الانتشار تقوم نماذج الانتشار بإنشاء عينات من الضوضاء الغاوسية باستخدام خطوات إزالة التشويش التسلسلية. حتى الآن، تم تطبيق نماذج الانتشار على مهام متنوعة، بما في ذلك توليد الصور (Rombach_2022_CVPR, song2020improved, nichol2021glide, jiang2022text2human)، تحسين دقة الصور (saharia2022image, batzolis2021conditional, daniels2021score)، إصلاح الصور (esser2021imagebart)، تحرير الصور (meng2021sdedit)، وترجمة الصور إلى صور (saharia2022palette). بشكل خاص، تتفوق نماذج الانتشار الكامنة (Rombach_2022_CVPR) في توليد الصور المشروطة بالنصوص، حيث حازت على إشادة واسعة لقدرتها على إنتاج صور واقعية.
إدخال الصور كانت النهج السابقة، مثل StyleGAN (karras2019style)، تسمح بالإدخال باستخدام المتغيرات الكامنة للصور. ومع ذلك، فإن فعاليتها مقيدة بقدرة النموذج على تمثيل مجموعة فرعية فقط من فضاء الصور، مما يطرح تحديات عند تطبيقها على الصور الطبيعية (xia2022gan). علاوة على ذلك، يمكن لنماذج الانتشار الكامنة استخدام الأوامر لإدخال الصور المولدة (مثل Lunarring)، ولكن لم يتم استكشاف إمكانية الإدخال على الصور الطبيعية بعد. حسب علمنا، لم يتم بعد العثور على طريقة لإدخال الصور الطبيعية باستخدام المتغيرات الكامنة مع نماذج الانتشار.