```html مِلْء الفراغات (a diffusion-based image inpainting pipeline)

مِلْء الفراغات (a diffusion-based image inpainting pipeline)

Eyoel Gebre, Krishna Saxena, Timothy Tran

صيغة LaTeX

مُلَخَّص

إعادة ترميم الصور هي عملية أخذ صورة وإعادة بناء الأجزاء المفقودة أو المحجوبة عمدًا. وتطبيقات هذا المجال لا حصر لها، بما في ذلك استعادة الصور المتضررة، وتحسين جودة الصور التي تدهورت نتيجة لضغط البيانات، وإزالة العناصر أو النصوص غير المرغوب فيها. لقد أثبتت تقنيات ترميم الصور الحديثة جدارتها في توليد استكمالات منطقية للصور المغطاة بأقنعة. في هذه الورقة، نستعرض التقدم الحاصل في تقنيات ترميم الصور ونحلل أهم النهج الرائدة، مع إبراز نقاط القوة والضعف. كما نسلط الضوء على فجوة حرجة في النماذج الحالية، تتعلق بقدرتها المحدودة على توجيه والتحكم الدقيق في المحتوى المُنتج. سنوضح كذلك لماذا نعتقد أن هذه الخطوة هي التطور الطبيعي التالي لأساليب ترميم الصور، ونقدم عدة آليات لتنفيذ ذلك. أخيرًا، نقوم بتقييم نتائجنا بشكل نوعي للتأكد من إنتاج صور عالية الجودة تعيد إحياء المناطق المفقودة بدقة وفق التوجيهات المقدمة.

مُقَدِّمَة

الدافِع

لطالما شكلت مسألة استكمال الصور تحديًا مهمًا في مجال الرؤية الحاسوبية منذ عقود. إذ تعد هذه العملية أساسية في تطبيقات متعددة مثل إزالة الأجسام غير المرغوب فيها، واستعادة الصور المتضررة، والتعديل، وإعادة التوجيه، وتركيب الصور، والتوليد المبني على الصور. ومع الانتشار الواسع لأدوات الذكاء الاصطناعي التوليدي، نتوقع أن تشهد تقنيات الاستكمال استخدامًا متزايدًا في المجالات الإبداعية أيضًا. فمع أدوات مثل دالي-إي، شات جي بي تي، ميدجورني، وسورا التي أثبتت قيمتها للمحترفين في المهن الإبداعية، نشهد كيف تغير أنظمة الذكاء الاصطناعي بشكل جذري هذه الصناعة (تشير تقارير مكتب تحليل الاقتصاد الأمريكي إلى أن الفنون والإنتاج الثقافي يشكلان $1,016,249,142,000$ و4.4% من اقتصاد الولايات المتحدة، ويوفران 4,851,046 وظيفة (NASAA2020)). لذا فإن تحسين تقنيات الاستكمال وتوسيع قدراتها يمكن أن يُحدث تأثيرًا اقتصاديًا ملموسًا.

الخَلْفِيَّة

هناك نهجان رئيسيان لمشكلة الترميم: العشوائي والحتمي. تنتج الطرق العشوائية نتائج متعددة معقولة عبر أخذ عينات عشوائية، بينما تولد الطرق الحتمية نتيجة واحدة فقط. وأحد النهج الحتمية الشائعة هو أخذ صورة وقناع ثنائي يحدد المنطقة المراد ترميمها، ثم إدخالهما في نموذج مولد مثل شبكة الخصومة التوليدية المدربة على ملء المنطقة المفقودة. وقد حسّن الباحثون أداء المولد عبر آليات الانتباه، واتصالات المشفر-المفكك، والتوجيه العميق المسبق، والتجميع متعدد الأحجام (quan2024deep). بالمقابل، تتبع تقنيات الترميم العشوائية، ومنها طرق الجريان ونماذج التسلسل، نهجًا يبدأ بصورة مشوشة ويقلل الضوضاء تدريجيًا حتى الوصول إلى نتيجة معقولة؛ وهي الاستراتيجية التي تعتمد عليها غالبية تقنيات الترميم المبنية على الانتشار، والتي سنركز عليها لاحقًا.

الأعمال ذات الصلة

كما ذكرنا، تتبع عدة استراتيجيات حتمية نهج إدخال صور من مجموعة بيانات مع أقنعة منتجة من توزيع معين، ثم تدريب نموذج لملء هذه الأقنعة. مثال على ذلك هو نمط LaMa. خلال التدريب، يأخذ LaMa عينات من الصور ويولد لكل منها قناعًا من توزيع ثابت، ثم يدرب شبكة إلتفاف فورية للتنبؤ بما وراء القناع، مما حقق نتائج قوية. لكن العيب أن النموذج غالبًا ما يواجه صعوبة في تعميم قدراته على أقنعة خارج التوزيع التدريبي.

الجهد الرائد الذي حدّدناه هو ورقة من المعهد التقني في زيورخ بعنوان RePaint (A2). يقترح RePaint سيرًا عشوائيًا مبنيًا على عملية ماركوف لإضافة ضوضاء غاوسية إلى الصورة المدخلة، يليه مسار عكسي لإزالة الضوضاء من الجزء المقنع. بهذه الطريقة، يتجاوز RePaint الاعتماد على توزيع أقنعة ثابت عبر استخدام نموذج تفاضلي مدرب مسبقًا لإزالة الضوضاء من بكسلات القناع عشوائيًا مع سياقها المجاور. ولزيادة التباين الدلالي في المخرجات، اقترح المؤلفون خطوة إعادة أخذ العينات (Resampling) خلال المسار العكسي. ففي هذه الخطوة تُعاد إضافة ضوضاء غاوسية إلى مزيج جزئي غير مضطرب لمرات ثابتة، مما يعزز العشوائية ويُحسّن جودة الحدود (انظر القسم [subsec:ResamplingJumping]).

بإيجاز، يركّز RePaint على إزالة الضوضاء من المنطقة المقنعة مع استخدام الجزء غير المقنع من الصورة كمرجع سياقي. وينتج عنه صور تبدو طبيعية جدًا، وتم تقييمها أعلى من النماذج الحديثة عبر توزيعات متنوعة من الأقنعة. كما يمتاز RePaint بمرونة في إضافة عناصر إبداعية ضمن المنطقة المقنعة مع الحفاظ على الصحة الدلالية (A2).

من ميزات RePaint الفريدة أنه غالبًا ما يُدخل أشياء عشوائية داخل المناطق المعاد إنشاؤها. ورغم أن هذه العناصر تبدو طبيعية دلاليًا، قد تكون العشوائية غير مرغوبة في حالات عديدة؛ كإنشاء سحلية عند إزالة يد بشرية. هدفنا هو تمكين RePaint من الاحتفاظ بأدائه وصحته الدلالية مع توفير تحكم أكبر في المحتوى المُنتج داخل المنطقة المقنعة. فالنسخة الحالية من RePaint لا تأخذ في الاعتبار أي تفضيلات حول ما يجب إدخاله، ولا توجد واجهة واضحة لإمداده بمعطيات إضافية تحدد ذلك.

لذلك، نهدف إلى توسيع قدرات RePaint بحيث يقبل، إلى جانب الصورة والقناع، معلومات إضافية عن الهدف المراد إدخاله. الخيارات متنوعة: وصف نصي لما ينبغي توليده، صورة الهدف المطلوبة، مجموعة بيانات من الخيارات المقبولة، وغيرها.

ومن فوائد RePaint أنه يعدل فقط خطوة إزالة الضوضاء في نموذج الانتشار المدرب مسبقًا، مما يلغي الحاجة لتصنيف بيانات جديدة أو إعادة تدريب النموذج. هذا يُسهل تجربة مختلف الخيارات لتحديد جسم الهدف المفضل. سنبدأ بتقييم أداء RePaint عند تزويده بصورة واحدة للهدف المراد إدخاله في القناع، عبر إضافتها في خطوة إزالة الضوضاء مماثلة للمرجع المستخدم للمنطقة غير المقنعة الأصلية. باختصار، سننشئ خط أنابيب جديد يستقبل ثلاث مدخلات (الخلفية، القناع، وصورة الهدف)، ويعالجها لإنتاج صورة موحدة كما هو موضح في القسم [subsec:CorePipeline].

الطَرِيقَة

تعتمد خطوط الأنابيب لدينا على خوارزمية الاستدلال في RePaint (القسم [subsec:RepaintPipeline])، مع إضافة القدرة على توجيه المدخلات بصورة هدف. لاختبار خطوط الأنابيب، أنشأنا مجموعة بيانات صغيرة من صور المشهد وصور الهدف وأقنعة ثنائية يدوية الصنع تحدد موقع الهدف داخل المشهد. تصبح هذه الثلاث مدخلات (المشهد، الهدف، والقناع) أساسًا لخط الأنابيب كما في القسم [subsec:CorePipeline].

خلفية مسار عمل RePaint

من الضروري فهم مسار عمل RePaint أولًا. في البداية، يحول المرور الأمامي في عملية الانتشار الصورة الابتدائية المقنعة \(x_0\) إلى ضوضاء غاوسية بيضاء \(x_T\) بإضافة ضوضاء مستقلة متزايدة التباين تدريجيًا. في كل خطوة زمنية \(t\) من المرور الأمامي، تتزايد الضوضاء حتى الوصول الى خليط ضوضائي نقي عند \(t = T\).

في المرور الخلفي، نسعى إلى إعادة بناء الصورة الأصلية من الضوضاء الغاوسية. في كل خطوة زمنية \(t\)، تُمرر الصورة الضوضائية إلى نموذج DDPM المشروط. يُستخلص ناتج الجزء المقنع ويُدمج مع المنطقة غير المقنعة من المرور الأمامي المقابل، فتتم استعادة الصورة تدريجيًا بأعلى دقة ممكنة. كما يقدم RePaint خطوات إعادة أخذ العينات والقفز التي سنوضحها في القسم [subsec:ResamplingJumping].

خط أنابيب الأساسي لإعادة تلوين الصور المستهدفة

مساهمتنا هنا هي إضافة القدرة على تحديد جسم هدف ليُعاد إدخاله في موقع محدد داخل المشهد. صُمم الخط ليأخذ ثلاث مدخلات: صورة خلفية للمشهد، صورة الهدف، وقناع ثنائي يحدد المنطقة المعنية. وعلى عكس RePaint الأصلي الذي يتعامل مع قناع عشوائي فقط، يدمج نهجنا معلومات الهدف لتحسين عملية الاستكمال. خلال المرور الأمامي، نطبق عملية الانتشار على كل من الصورة الكاملة والمشهد والهدف. وعند المرور الخلفي، تمرر الصورة الضوضائية \(x_t\) إلى نموذج الانحدار العميق المشروط لإنتاج \(x_{\text{repaint},t-1}\). في الوقت نفسه، نسترجع الجزء غير المقنع من المشهد المشوش \(x_{\text{scene},t-1}\)، والهدف المشوش \(x_{\text{target},t-1}\) من الضغط الأمامي. ثم نحل تعارض القناع بين الهدف الحقيقي والهدف المولد عبر مزيج محدب بمعامل \(\lambda_t\):

\[ x_{t-1}^{\text{unknown}} = \lambda_t\,x_{\text{repaint},t-1} + (1-\lambda_t)\,x_{\text{target},t-1} \tag{3} \]

أخيرًا، ندمج المنطقة المعروفة من المشهد مع المزيج الجديد في المنطقة المقنعة:

\[ x_{t-1} = m \odot x_{\text{scene},t-1} + (1-m)\odot x_{t-1}^{\text{unknown}} \tag{4} \]

حيث \(m\) هو القناع الثنائي. يوضح الشكل [fig:corepipeline] كامل العملية.

إعادة الأخذ والقفز

في المسار العكسي، قد تبدو الحدود بين المنطقة المقنعة وغير المقنعة حادة أو غير طبيعية. وللتغلب على ذلك، يقترح RePaint إضافة خطوات إعادة أخذ العينات (Resampling) كل \(j\) خطوات زمنية، بإعادة إضافة ضوضاء غاوسية ثم تمريرها مجددًا إلى DDPM \(r\) مرات. هذا الإجراء يُعطي DDPM فرصة لتنعيم الحدود وتوليد تنوع أعلى داخل القناع دون زيادة في الموارد حسابيًا حين \(r\le j\).

البحث الأولي عن المعلمات الفائقة

كما ذكرنا في [subsec:CorePipeline]، يتحكم \(\lambda_t\) في وزن مساهمة الهدف المولد مقابل الهدف المشوش. أجرينا تجارب عبر قيم \(\lambda_t\in\{0.8,0.9,0.993,0.995,0.999,0.9999\}\)، وقيم للمدة الزمنية \([50,100,150,200,250]\)، وقيم للقفز وإعادة الأخذ ضمن \([10,20,30,40]\). وجدنا أن \(\lambda_t\approx0.993\) يعيد أفضل توازن بين الحفاظ على تفاصيل الهدف وعدم إظهاره ملصوقًا. كما حددنا أن \(T=200\)، \(j=r=40\) تعطي عمومًا جودة عالية دون ضبابية مفرطة.

بالنسبة لقناع الهدف، جربنا طريقتين: الأولى قناع دقيق يسمح بتفاصيل أفضل لكن ينتج انتقالًا حادًا؛ والثانية قناع أكثر تساهلًا يضم معلومات محيطة لكنه يقلل الدقة. وللتغلب على محدودية القناع الدقيق، استكشفنا بديلين موضحين في القسم [subsec:MaskAlt].

التجارب

على الرغم من جودة التفاصيل، لاحظنا أن الهدف لا يتفاعل كفاية مع عناصر المشهد المحيطة (كأن تخفي مخالب الكلب العشب جزئيًا). لذا اقترحنا عدة تعديلات لتعزيز هذا التفاعل.

بدائل التقنيع

أكبر تحدٍ واجهناه كان الحدود غير الطبيعية عند القناع الثنائي الدقيق. لذلك استكشفنا طرقًا أكثر مرونة للقناع تتيح للـDDPM توليد انتقالات سلسة.

قناع "مسخن" مبني على المسافة

بدلًا من قناع ثنائي، نستخدم قناعًا بقيم بين 0 و1 يُحدد قرب كل بكسل من حدود القناع. للبكسل عند الإحداثيات \((i,j)\) والمسافة Manhattan إلى أقرب بكسل خارجي \(d_{i,j}\)، نعرّف:

\[ m_{i,j}^{\mathrm{heated}} = \min\left(\frac{d_{i,j}}{b},\,1\right) \tag{5} \]

حيث \(b\) هو نصف عرض المنطقة المسخنة. هذا يمنح DDPM حرية أكبر لتنعيم الحدود مع المحافظة على تفاصيل داخل القناع.

مخزن المشهد (Buffer)

للمزيد من التماثل بين الهدف والمشهد، أضفنا حول القناع الدقيق "حلقة" عرضها 4 بكسل، تُؤخذ من ناتج DDPM السابق بدلًا من مشهد المرور الأمامي. بذلك نسمح بانتقال سلس دون الاعتماد على تشابه الخلفيات. وُضّحت المعادلات في 6–9.

جدولة \(\lambda_t\) لزيادة التكامل مع RePaint

لتحسين دقة الحدود وقالبة التفاصيل، جربنا جدولة خطية للقيمة \(\lambda_t\) بحيث تبقى 1 للخطوات الأقل من \(pT\) ثم تتناقص خطيًا إلى 0 في \(T\). جربنا \(p\in\{0.1,0.25,0.5,0.75,0.9\}\) على نموذج مكون من \(T=100,\,j=r=40\). وُجد أن \(p=0.5\) تعطي توازنًا جيدًا بين وفاء الهدف والتدرج الطبيعي للحدود، مع إبقاء مخرجات ذات صحة دلالية عالية.

أوضاع الفشل

عند \(p>0.5\) يزيد إبداع المولد لكن قد يخرج بنتائج غير مرغوبة أو متحيزة من بيانات تدريب DDPM (كالميل لتوليد كلاب). للتخفيف، يُنصح بإنتاج أكثر من مرشح لكل مشهد-هدف واستخدام نماذج تنقية مدربة على بيانات أكثر تنوعًا.

الأنابيب النهائية

بناءً على التجارب، نوصي بالأنابيب التالية: \(T=200,\,j=r=40\)، وقناع مسخن/مخزن، وجدول \(\lambda_t\) حسب \(\lambda_t=1\) for \(t\le0.5T\), linear to 0 afterward.

الخلاصة والشكر

الخطوات اللاحقة

المسارات المستقبلية تشمل:

الخلاصة

في هذه الدراسة، سعينا لتعزيز التحكم في عملية ترميم الصور عبر توجيه النموذج بصورة هدف محددة بدلًا من التوجيهات النصية العامة. باعتماد نهج قائم على الانتشار وتعديلات مختلفة للقناع والجدولة، أظهرنا قدرة الخط الجديد على توليد صور مرممة تبدو طبيعية وتحتفظ بالصحة الدلالية مع الأجسام المرغوبة.

الشكر والتقدير

نشكر فريق مادة CSE 493G على الدعم والإرشاد، ونقدّر ورقة RePaint ومؤلفيها الذين كانوا مصدر إلهام لعملنا.

``` **ملاحظات التصحيح:** - تم تصحيح جميع معادلات LaTeX لتكون مغلقة بشكل صحيح وتستخدم الأقواس المناسبة (`\left`, `\right` حيث يلزم). - تم تصحيح معادلة القناع المسخن لتستخدم `\left` و`\right` بدلاً من `\Bigl` و`\Bigr` (لضمان التوافق). - تم التأكد من أن جميع المعادلات محاطة بـ `\[` و `\]` أو `\( ... \)` حسب السياق. - تم تصحيح جميع المتتاليات الرياضية لتكون داخل أقواس رياضية صحيحة. - تم التأكد من أن جميع الرموز الرياضية (مثل `\odot`) مكتوبة بشكل صحيح. - لم يتم تغيير أي نص أو محتوى خارج التصحيحات الرياضية. - تمت مراجعة جميع المعادلات للتأكد من خلوها من الأخطاء النحوية في LaTeX.