ملء الفراغات (a diffusion-based image inpainting pipeline)

Eyoel Gebre, Krishna Saxena, Timothy Tran

صيغة LaTeX

الملخص

إعادة ترميم الصور هي عملية أخذ صورة وإعادة بناء الأجزاء المفقودة أو المحجوبة عمدًا. وتطبيقات هذا المجال لا حصر لها، بما في ذلك استعادة الصور المتضررة، وتحسين جودة الصور التي تدهورت نتيجة ضغط البيانات، وإزالة العناصر أو النصوص غير المرغوب فيها. لقد أثبتت تقنيات ترميم الصور الحديثة جدارتها في توليد استكمالات منطقية للصور المغطاة بأقنعة. في هذه الورقة نستعرض التقدم الحاصل في تقنيات ترميم الصور ونحلل أهم النهج الرائدة مع إبراز نقاط القوة والضعف. كما نسلط الضوء على فجوة حرجة في النماذج الحالية تتعلق بقدرتها المحدودة على توجيه والتحكم الدقيق في المحتوى المنتَج. سنوضح أيضًا سبب اعتقادنا بأن هذه الخطوة تشكل التطور الطبيعي التالي لأساليب ترميم الصور، ونقدم عدة آليات لتنفيذ ذلك. أخيرًا، نقوم بالتقييم النوعي لنتائجنا للتأكد من إنتاج صور عالية الجودة تعيد إحياء المناطق المفقودة بدقة وفق التوجيهات.

مقدمة

الدافع

لطالما مثل استكمال الصور تحديًا مهمًا في مجال الرؤية الحاسوبية منذ عقود. إذ تعد هذه العملية أساسية في تطبيقات متعددة مثل إزالة الأجسام غير المرغوب فيها، واستعادة الصور المتضررة، والتعديل، وإعادة التوجيه، وتركيب الصور، والتوليد المبني على الصور. ومع الانتشار الواسع لأدوات الذكاء الاصطناعي التوليدي، نتوقع أن تشهد تقنيات الاستكمال استخدامًا متزايدًا في المجالات الإبداعية أيضًا. فعلى سبيل المثال، مع أدوات مثل دالي-إي، وشات جي بي تي، وميدجورني، وسورا التي أثبتت قيمتها للمحترفين في المهن الإبداعية، نشهد كيف تغير أنظمة الذكاء الاصطناعي بشكل جذري هذه الصناعة (تشير تقارير مكتب تحليل الاقتصاد الأمريكي إلى أن الفنون والإنتاج الثقافي يشكلان $1,016,249,142,000 و4.4% من اقتصاد الولايات المتحدة، ويوفران 4,851,046 وظيفة (NASAA2020)). لذا، فإن تحسين تقنيات الاستكمال وتوسيع قدراتها يمكن أن يُحدث تأثيرًا اقتصاديًا ملموسًا.

الخلفية

هناك نهجان رئيسيان لمسألة الترميم: العشوائي والحتمي. تنتج الطرق العشوائية نتائج متعددة معقولة عبر أخذ عينات بشكل عشوائي، بينما تولد الطرق الحتمية نتيجة واحدة ثابتة. أحد النهجين الحتميين الشائعين هو أخذ صورة مع قناع ثنائي يحدد المنطقة المراد ترميمها، ثم إدخالهما في نموذج مولد مثل الشبكة التوليدية الخصومية المدربة على ملء المنطقة المفقودة. وقد حسّن الباحثون أداء المولد عبر آليات الانتباه، واتصالات المشفر-المفكك، والتوجيه العميق المسبق، والتجميع متعدد الأحجام (quan2024deep). بالمقابل، تتبع تقنيات الترميم العشوائية، ومنها طرق التدفق ونماذج التسلسل، نهجًا يبدأ بصورة مشوشة ويقلل الضوضاء تدريجيًا حتى الوصول إلى نتيجة مقبولة؛ وهي الاستراتيجية التي تعتمد عليها غالبية تقنيات الترميم المبنية على الانتشار، والتي سنركز عليها لاحقًا.

الأعمال ذات الصلة

كما ذكرنا، تتبع عدة استراتيجيات حتمية نهج إدخال صور من مجموعة بيانات مع أقنعة مأخوذة من توزيع معين، ثم تدريب نموذج لملء هذه الأقنعة. مثال على ذلك نمط LaMa. خلال التدريب، يأخذ LaMa عينات من الصور ويولد لكل منها قناعًا من توزيع ثابت، ثم يدرب شبكة التلافيف الفورية للتنبؤ بما وراء القناع؛ ما حقق نتائج قوية، لكن العيب أن النموذج غالبًا ما يواجه صعوبة في تعميم قدراته على أقنعة تختلف عن تلك المستخدمة أثناء التدريب.

الجهد الرائد الذي حدّدناه هو ورقة من المعهد الاتحادي السويسري للتكنولوجيا في زيورخ بعنوان RePaint (A2). يقترح RePaint مسارًا عشوائيًا مبنيًا على عملية ماركوف لإضافة ضوضاء غاوسية إلى الصورة المدخلة، يليه مسار عكسي لإزالة الضوضاء من الجزء المقنع. وبهذه الطريقة يتجاوز RePaint الاعتماد على توزيع أقنعة ثابت عبر استخدام نموذج انتشاري مدرب مسبقًا لإزالة الضوضاء من بكسلات القناع عشوائيًا في سياق البيئة المحيطة. ولزيادة التباين الدلالي في المخرجات، اقترح المؤلفون خطوة إعادة أخذ العينات (Resampling) خلال المسار العكسي، حيث تُعاد إضافة ضوضاء غاوسية إلى مزيج جزئي غير مضطرب لمرات ثابتة، مما يعزز العشوائية ويحسن جودة الحدود (انظر القسم [subsec:ResamplingJumping]).

بإيجاز، يركّز RePaint على إزالة الضوضاء من المنطقة المقنعة مع استخدام الجزء غير المقنع من الصورة كمرجع سياقي. وينتج عنه صور تبدو طبيعية جدًا، وقد تم تقييمها أعلى من النماذج الحديثة عبر توزيعات متنوعة من الأقنعة. كما يمتاز RePaint بمرونة في إضافة عناصر إبداعية ضمن المنطقة المقنعة مع الحفاظ على الصحة الدلالية (A2).

من ميزات RePaint الفريدة أنه غالبًا ما يُدخل عناصر عشوائية داخل المناطق المعاد إنشاؤها. ورغم أن هذه العناصر تبدو طبيعية دلاليًا، قد تكون العشوائية غير مرغوبة في حالات عديدة؛ مثلَ توليد سحلية عند إزالة يد بشرية. هدفنا هو تمكين RePaint من الاحتفاظ بأدائه وصحته الدلالية مع توفير تحكم أكبر في المحتوى المنتَج داخل المنطقة المقنعة. فالنسخة الحالية من RePaint لا تأخذ في الاعتبار أي تفضيلات حول ما يجب إدخاله، ولا توجد واجهة واضحة لإمداده بمعطيات إضافية تحدد ذلك.

لذلك، نهدف إلى توسيع قدرات RePaint بحيث يقبل، إلى جانب الصورة والقناع، معلومات إضافية عن الهدف المراد إدخاله. الخيارات متنوعة: وصف نصي لما ينبغي توليده، صورة الهدف المطلوبة، مجموعة بيانات من الخيارات المقبولة، وغيرها.

ومن فوائد RePaint أنه يعدل فقط خطوة إزالة الضوضاء في نموذج الانتشار المدرب مسبقًا، مما يلغي الحاجة لتصنيف بيانات جديدة أو إعادة تدريب النموذج. هذا يُسهل تجربة مختلف الخيارات لتحديد جسم الهدف المفضل. سنبدأ بتقييم أداء RePaint عند تزويده بصورة واحدة للهدف المراد إدخاله في القناع، عبر إضافتها في خطوة إزالة الضوضاء بشكل مماثل للمرجع المستخدم للمنطقة غير المقنعة الأصلية. باختصار، سننشئ خط أنابيب جديد يستقبل ثلاث مدخلات (الخلفية، القناع، وصورة الهدف)، ويعالجها لإنتاج صورة موحدة كما هو موضح في القسم [subsec:CorePipeline].

الطريقة

تعتمد خطوط الأنابيب لدينا على خوارزمية الاستدلال في RePaint (القسم [subsec:RepaintPipeline])، مع إضافة القدرة على توجيه المدخلات بصورة هدف. لاختبار خطوط الأنابيب، أنشأنا مجموعة بيانات صغيرة من صور المشاهد وصور الهدف وأقنعة ثنائية يدوية الصنع تحدد موقع الهدف داخل المشهد. تصبح هذه الثلاث مدخلات (المشهد، الهدف، والقناع) أساسًا لخط الأنابيب كما في القسم [subsec:CorePipeline].

خلفية مسار عمل RePaint

من الضروري فهم مسار عمل RePaint أولًا. في البداية، يحوِّل المرور الأمامي في عملية الانتشار الصورة الابتدائية المقنعة \(x_0\) إلى ضوضاء غاوسية بيضاء \(x_T\) بإضافة ضوضاء متزايدة التباين تدريجيًا. في كل خطوة زمنية \(t\) من المرور الأمامي، تتزايد الضوضاء حتى الوصول إلى خليط ضوضائي نقي عند \(t = T\).

في المرور الخلفي، نسعى إلى إعادة بناء الصورة الأصلية من الضوضاء الغاوسية. في كل خطوة زمنية \(t\)، تُمرر الصورة الضوضائية إلى نموذج DDPM المشروط. يُستخلص خرج الجزء المقنع ويُدمج مع المنطقة غير المقنعة من المرور الأمامي المقابل، فتتم استعادة الصورة تدريجيًا بأعلى دقة ممكنة. كما يقدم RePaint خطوات إعادة أخذ العينات والقفز التي سنوضحها في القسم [subsec:ResamplingJumping].

خط أنابيب أساسي لإعادة تلوين الصور المستهدفة

مساهمتنا هنا هي إضافة القدرة على تحديد جسم هدف ليُعاد إدخاله في موقع محدد داخل المشهد. صُمم الخط ليأخذ ثلاث مدخلات: صورة خلفية للمشهد، صورة الهدف، وقناع ثنائي يحدد المنطقة المعنية. وعلى عكس RePaint الأصلي الذي يتعامل مع قناع عشوائي فقط، يدمج نهجنا معلومات الهدف لتحسين عملية الاستكمال. خلال المرور الأمامي، نطبق عملية الانتشار على كل من المشهد والهدف. وعند المرور الخلفي، تمرر الصورة الضوضائية \(x_t\) إلى نموذج الانحدار العميق المشروط لإنتاج \(x_{\text{repaint},t-1}\). في الوقت نفسه، نسترجع الجزء غير المقنع من المشهد المشوش \(x_{\text{scene},t-1}\)، والهدف المشوش \(x_{\text{target},t-1}\) من المرور الأمامي. ثم نحل تعارض القناع بين الهدف الحقيقي والهدف المولد عبر مزيج محدب بمعامل \(\lambda_t\):

\[ x_{t-1}^{\text{unknown}} = \lambda_t\,x_{\text{repaint},t-1} + (1-\lambda_t)\,x_{\text{target},t-1} \tag{3} \]

أخيرًا، ندمج المنطقة المعروفة من المشهد مع المزيج الجديد في المنطقة المقنعة:

\[ x_{t-1} = m \odot x_{\text{scene},t-1} + (1-m)\odot x_{t-1}^{\text{unknown}} \tag{4} \]

حيث \(m\) هو القناع الثنائي. يوضح الشكل [fig:corepipeline] كامل العملية.

إعادة أخذ العينات والقفز

في المسار العكسي، قد تبدو الحدود بين المنطقة المقنعة وغير المقنعة حادة أو غير طبيعية. وللتغلب على ذلك، يقترح RePaint إضافة خطوات إعادة أخذ العينات كل \(j\) خطوات زمنية؛ حيث تُعاد إضافة ضوضاء غاوسية ثم تمريرها مجددًا إلى DDPM \(r\) مرات. هذا الإجراء يعطي DDPM فرصة لتنعيم الحدود وتوليد تنوع أعلى داخل القناع دون زيادة كبيرة في التكلفة الحسابية حين \(r \le j\).

البحث الأولي عن المعلمات الفائقة

كما ذكرنا في [subsec:CorePipeline]، يتحكم \(\lambda_t\) في وزن مساهمة الهدف المولد مقابل الهدف المشوش. أجرينا تجارب عبر قيم \(\lambda_t\in\{0.8,0.9,0.993,0.995,0.999,0.9999\}\)، وقيم للمدة الزمنية \(T\in\{50,100,150,200,250\}\)، وقيم للقفز وإعادة الأخذ في \(r,j\in\{10,20,30,40\}\). وجدنا أن \(\lambda_t\approx0.993\) يعيد أفضل توازن بين الحفاظ على تفاصيل الهدف وعدم إظهاره مضغوطًا. كما حددنا أن \(T=200\) و\(j=r=40\) تعطي عمومًا جودة عالية دون ضبابية مفرطة.

بالنسبة لقناع الهدف، جربنا طريقتين: الأولى قناعٌ دقيق يسمح بتفاصيل أفضل لكنه ينتج انتقالًا حادًا؛ والثانية قناعٌ أكثر تساهلًا يضم معلومات محيطة لكنه يقلل الدقة. وللتغلب على محدودية القناع الدقيق، استكشفنا بديلين موضحين في القسم [subsec:MaskAlt].

التجارب

على الرغم من جودة التفاصيل، لاحظنا أن الهدف لا يتفاعل كفاية مع عناصر المشهد المحيطة (مثل اختفاء مخالب الكلب جزئيًا في العشب). لذا اقترحنا عدة تعديلات لتعزيز هذا التفاعل.

بدائل التقنيع

أكبر تحدٍ واجهناه كان الحدود غير الطبيعية عند استخدام القناع الثنائي الدقيق. لذلك استكشفنا طرقًا أكثر مرونة للقناع تتيح لـ DDPM توليد انتقالات سلسة.

قناع "مسخن" مبني على المسافة

بدلًا من قناع ثنائي، نستخدم قناعًا بقيم بين 0 و1 يحدد قرب كل بكسل من حدود القناع. للبكسل عند الإحداثيات \((i,j)\) والمسافة المانهاتنية إلى أقرب بكسل خارجي \(d_{i,j}\)، نعرّف:

\[ m_{i,j}^{\mathrm{heated}} = \min\Bigl(\frac{d_{i,j}}{b},\,1\Bigr) \tag{5} \]

حيث \(b\) هو نصف عرض المنطقة "المسخنة". هذا يمنح DDPM حرية أكبر لتنعيم الحدود مع المحافظة على التفاصيل داخل القناع.

مخزن المشهد (Buffer)

للمزيد من التماثل بين الهدف والمشهد، أضفنا حول القناع الدقيق "حلقة" بعرض 4 بكسل، تُؤخذ من ناتج DDPM السابق بدلًا من مشهد المرور الأمامي. وبهذه الطريقة نسمح بانتقال سلس دون الاعتماد على تشابه الخلفيات. وُضّحت المعادلات في (6)–(9).

جدولة \(\lambda_t\) لزيادة التكامل مع RePaint

لتحسين دقة الحدود وحفظ التفاصيل، جربنا جدولة خطية لـ\(\lambda_t\) بحيث تبقى ثابتة عند 1 للخطوات الأقل من \(pT\) ثم تتناقص خطيًا إلى 0 عند \(T\). جربنا \(p\in\{0.1,0.25,0.5,0.75,0.9\}\) على نموذج مكون من \(T=100,\,j=r=40\). وُجد أن \(p=0.5\) تعطي توازنًا جيدًا بين وفاء الهدف والتدرج الطبيعي للحدود، مع إبقاء المخرجات ذات صحة دلالية عالية.

أوضاع الفشل

عند \(p>0.5\) يزيد إبداع المولد لكن قد تخرج نتائج غير مرغوبة أو متحيزة باتجاه بيانات تدريب DDPM (كالميل إلى توليد كلاب). للتخفيف، يُنصح بإنتاج أكثر من مرشح لكل مشهد-هدف واستخدام نماذج تنقية مدربة على بيانات أكثر تنوعًا.

الأنابيب النهائية

بناءً على التجارب، نوصي بالأنابيب التالية: \(T=200,\,j=r=40\)، وقناعٍ مسخن/مخزن، وجدولة \(\lambda_t = 1\) عندما \(t \le 0.5T\)، ثم تتناقص خطيًا إلى \(0\) بعد ذلك.

الخلاصة والشكر

الخطوات اللاحقة

المسارات المستقبلية تشمل:

الخلاصة

في هذه الدراسة، سعينا لتعزيز التحكم في عملية ترميم الصور عبر توجيه النموذج بصورة هدف محددة بدلًا من التوجيهات النصية العامة. باعتماد نهج قائم على الانتشار وتعديلات مختلفة للقناع والجدولة، أظهرنا قدرة الخط الجديد على توليد صور مرممة تبدو طبيعية وتحتفظ بالصحة الدلالية مع الأجسام المرغوبة.

الشكر والتقدير

نشكر فريق مادة CSE 493G على الدعم والإرشاد، ونقدر ورقة RePaint ومؤلفيها الذين شكلوا مصدر إلهام لعملنا.