ملخّص

يُعَدّ استيفاء الصور المعتمد على نماذج الانتشار من الأساليب الواعدة لتوليد انتقالات سلسة بين الصور. تعتمد الأساليب المتقدمة على الاستيفاء الخطي الكروي، حيث تُعكَس الصور إلى فضاء الضوضاء ثم يُجرى الاستيفاء ويُزال التشويش. غير أنّ الطرائق الحالية تتعثّر عند استيفاء الصور الطبيعية (غير المولّدة بواسطة نماذج الانتشار)، مما يقيّد تطبيقاتها العملية. تُظهر تجاربنا أنّ السبب الجوهري هو عدم اتّساق الضوضاء المُرمَّزة مع التوزيع المفترض، مثل التوزيع الطبيعي القياسي. لمواجهة ذلك نقترح نهجًا جديدًا لتصحيح الضوضاء أثناء الاستيفاء، NoiseDiffusion. تحديدًا، يقرّب NoiseDiffusion الضوضاء غير الملائمة من التوزيع المستهدف بإضافة قدر صغير من ضوضاء غاوسية قياسية، ويطبّق قصًّا للقيم الشاذة. يُحسّن هذا صلاحية الضوضاء ويخفّف التشوّهات، لكن قد يَخفض نسبة الإشارة إلى الضوضاء ويؤدي إلى فقد بعض المعلومات الأصلية. لذلك، يُنجز NoiseDiffusion الاستيفاء في فضاء الصور المُشوَّشة ثم يَحقن الصور الأصلية في نظائرها المُشوَّشة لتعويض أيّ نقص معلوماتي. نتيجةً لذلك، يستطيع NoiseDiffusion استيفاء الصور الطبيعية دون تشوّه أو فقد للمحتوى، مُحقِّقًا أفضل أداء للاستيفاء حتى الآن. الكود متاح على https://github.com/tmlr-group/NoiseDiffusion.

الملخّص الموسَّع

ندرس آلية الاستيفاء ونُرجِع تعثّرها إلى مزج ضوضاء غير ملائمة بمعلومات الصورة عند العكس إلى فضاء الضوضاء، وهو ما يفضي إلى تشوّهات واضطراب في الصور المستوفاة. استكشفنا كذلك إضافة الضوضاء مباشرةً إلى الصورة (تحرير الانتشار العشوائي، meng2021sdedit)، فزاد ذلك جودة النتائج لكنه أدخل معلومات خارجية قد تحجب بعض السمات الأصلية. انطلاقًا من هاتين الملاحظتين، ندمج المسارين: نستفيد من الضوضاء الحاملة للمعلومات الأصلية الناتجة عن العكس، ونضيف مقدارًا محدودًا من ضوضاء غاوسية لضبط التوزيع وتحسين الاستيفاء، مع فرض قيود مبتكرة على مركّبات الضوضاء المُسبِّبة للتشوّه.

بهذه الصيغة، لا يقتصر التحسّن على الصور ضمن نطاق التدريب، بل يمتد أيضًا إلى الصور الطبيعية خارج النطاق، مع الحفاظ على السمات الجوهرية. في الوقت الراهن، يُعَدّ الاستيفاء الخطي الكروي الأسلوب الأشيع مع نماذج الانتشار ويعطي نتائج ممتازة على الصور المُولَّدة بها؛ غير أنّ تطبيقه على الصور الطبيعية كثيرًا ما يُنتج تشوّهات ويُضعِف الجودة، وهو ما يعالجه نهجنا بصورة فعّالة.

مقدّمة

يُعَدّ استيفاء الصور مهمّةً محورية، ليس فقط لتوليد لقطات وسيطة متقاربة، بل أيضًا لفتح آفاق تطبيقية إبداعية في مجالات مثل الإعلان وتوليد الفيديو. أظهرت النماذج التوليدية الحديثة قدرةً كبيرة على إنتاج صور مركّبة وواقعية، مع اختراقات لافتة اعتمدت على نماذج الانتشار (ho2020denoising, song2020denoising, Rombach_2022_CVPR, saharia2022photorealistic, ramesh2022hierarchical). وعلى الرغم من هذا الزخم، ما يزال البحث في استيفاء الصور بواسطة نماذج الانتشار محدودًا (croitoru2023diffusion).

في سياق نماذج الانتشار، يُعَدّ الاستيفاء الخطي الكروي (song2020denoising, song2020score) فعّالًا مع الصور المُولَّدة بالنموذج نفسه. لكن عند استخدامه لاستيفاء الصور الطبيعية، تظهر غالبًا تشوّهات ملحوظة وتتراجع الجودة.

نحلّل أولًا الاستيفاء الخطي الكروي، ونُرجِع ضعف النتائج إلى عدم صلاحية الضوضاء المُشفَّرة (المُستخرجة بالانعكاس)، إذ لا تتبع التوزيع المفترض وقد تحمل مستوى ضوضاء أعلى أو أدنى من عتبة إزالة التشويش، ما يفضي إلى تشوّهات في الصور النهائية. التلاعب المباشر بالمتوسّط والتباين عبر الترجيح والتحجيم طريقٌ بسيطٌ لتقريب الضوضاء من التوزيع المطلوب، لكنه يفشل في تحسين الجودة ويُفقِد كثيرًا من معلومات الصورة. بالتوازي مع ذلك، نُدخِل ضوضاء غاوسية قياسية مباشرةً وفق تحرير الانتشار العشوائي (meng2021sdedit)، فيتحسّن المظهر العام على حساب إدخال معلومات إضافية خارجية.

لمعالجة هذه الإشكالات، نقترح تصحيح الضوضاء أثناء الاستيفاء عبر NoiseDiffusion. يقرّب NoiseDiffusion الضوضاء غير الصالحة من التوزيع المستهدف بإضافة ضوضاء غاوسية صغيرة، ويطبّق قصًّا للقيم الشاذة. هذا التعزيز لصلاحية الضوضاء يُقلّل التشوّهات، لكن إدخال الضوضاء الخارجية والقصّ قد يُضعفان نسبة الإشارة إلى الضوضاء ويُخرجان بعض المعلومات الأصلية؛ لذا ننقل الاستيفاء إلى فضاء الصور المُشوَّشة، ثم نَحقن الصور الخام في نظائرها المُشوَّشة لتعويض ما فُقِد من معلومات. بهذه الخطوات، نستوفي الصور الطبيعية دون تشوّهات ملحوظة، مُحقِّقين أفضل نتائج مُقاسة حتى الآن. وبالنظر إلى محدودية الأعمال السابقة في هذا المسار (croitoru2023diffusion)، نأمل أن يُلهِم عملُنا مزيدًا من الدراسات المستقبلية.

عبر ضبط المعاملات، يمكن لنهجنا إجراء الاستيفاء على الصور ضمن نطاق التدريب، كما يتوسّع ليشمل الصور الخارجة عنه مع المحافظة على السمات الأساسية سليمة.

الأعمال ذات الصلة

نماذج الانتشار تتولّد العينات من ضوضاء غاوسية ثم تُنقّى خطوةً بخطوة. وقد استُخدمت هذه النماذج حتى الآن في طيف واسع من المهام، يشمل توليد الصور (Rombach_2022_CVPR, song2020improved, nichol2021glide, jiang2022text2human)، تحسين الدقة الفائقة (saharia2022image, batzolis2021conditional, daniels2021score)، ترميم الصور (esser2021imagebart)، تحرير الصور (meng2021sdedit)، وترجمة صورة إلى أخرى (saharia2022palette). كما برزت نماذج الانتشار الكامنة (Rombach_2022_CVPR) بقدرتها على توليد صور مشروطة بالنصوص بجودة واقعية عالية.

عكس الصور (Inversion) اعتمدت أساليب سابقة مثل StyleGAN على عكس الصور إلى المتغيّرات الكامنة لإعادة بنائها (karras2019style)، لكنها غالبًا ما تقتصر على نطاق توزيع التدريب وتُواجِه صعوبة مع الصور الطبيعية خارج ذلك النطاق (xia2022gan). وإضافةً إلى ذلك، تستعمل بعض نماذج الانتشار الكامنة أوامر مخصّصة لإدخال صور مُولَّدة، غير أنّ عكس الصور الطبيعية إلى المتغيّرات الكامنة في نماذج الانتشار لم يُستكشَف على نحو وافٍ بعد. وحسب علمنا، لا توجد حتى الآن طريقة معيارية راسخة لعكس الصور الطبيعية ضمن فضاء نماذج الانتشار.