latex
إعادة تأهيل الصور هي عملية أخذ صورة وتوليد الأجزاء المفقودة أو المحجوبة عمداً. لتأهيل الصور تطبيقات لا حصر لها تشمل استعادة الصور التي تضررت سابقاً، استعادة جودة الصور التي تدهورت بسبب الضغط، وإزالة الأشياء أو النصوص غير المرغوب فيها. لقد أظهرت تقنيات إعادة تأهيل الصور الحديثة قدرة ملحوظة في توليد استكمالات منطقية للصور التي تحتوي على تغطيات بواسطة أقنعة. في ورقتنا، سيتم تقديم نظرة عامة على تقدم تقنيات إعادة تأهيل الصور، مع التعرف على النهج الرائدة الحالية، مع التركيز على نقاط القوة والضعف لديها. سيتم التطرق إلى فجوة حرجة في هذه النماذج الحالية، مع التركيز على القدرة على توجيه والتحكم فيما يتم توليده بدقة. سنبرر أيضاً لماذا نعتقد أن هذه هي الخطوة التقدمية التالية الطبيعية التي يجب أن تتخذها نماذج إعادة تأهيل الصور، ونقدم عدة نهج لتنفيذ هذه الوظيفة. أخيراً، سنقوم بتقييم نتائج نهجنا من خلال التحقق نوعياً مما إذا كانت تولد صوراً عالية الجودة تعيد تأهيل المناطق بشكل صحيح مع الأشياء التي يتم توجيهها لإنتاجها.
لقد كان التلوين مشكلة مهمة ضمن مجال الرؤية الحاسوبية لعقود عديدة. إنها وظيفة أساسية للعديد من التطبيقات المتعلقة بالصور مثل إزالة الأجسام، استعادة الصور، التلاعب بها، إعادة التوجيه، التركيب، والعرض المبني على الصور. من المنطقي أيضاً الاعتقاد بأنه مع التبني الواسع لأدوات الذكاء الاصطناعي التوليدي، قد تشهد وظائف مثل التلوين زيادة كبيرة في الاستخدام ضمن التطبيقات الإبداعية كذلك. مع أدوات مثل دالي-إي، شات جي بي تي، ميدجورني، وسورا التي تثبت أنها يمكن أن تكون ذات فائدة عالية لأولئك الذين تعتمد مهنهم على الأعمال الإبداعية، نحن نشهد للمرة الأولى كيف أن أنظمة الذكاء الاصطناعي تغير بشكل كبير صناعة واسعة (تشير تقارير مكتب تحليل الاقتصاد الأمريكي إلى أن الفنون والإنتاج الثقافي يمثلان $1,016,249,142,000 و4.4% من اقتصاد الولايات المتحدة، مساهمة بـ4,851,046 وظيفة (NASAA2020)). لذلك، تحسين وظائف مثل التلوين والسماح لها بامتلاك نطاق أقوى من القدرات يمكن أن يكون له تأثير اقتصادي حقيقي.
هناك نهجان رئيسيان لمشكلة الترميم: العشوائي والمحدد. تنتج الطرق العشوائية نتائج ترميم معقولة متعددة من خلال عملية عينة عشوائية، بينما تنتج الطرق المحددة نتيجة واحدة فقط. أحد النهج المحددة الشائعة يتمثل في أخذ صورة مع قناع ثنائي يمثل المنطقة المراد ترميمها وإدخال هاتين الصورتين في نموذج مولد مثل شبكة الخصومة التوليدية المدربة لملء المنطقة المفقودة. تم التعامل مع مهمة تحسين قدرة المولد على إنتاج ترميمات مقبولة من خلال مجموعة واسعة من النهج بما في ذلك آليات الانتباه، واتصالات المشفر-المفكك، والإرشاد العميق السابق، والتجميع متعدد الأحجام (quan2024deep). تُستخدم تقنيات الترميم العشوائية، مثل الطرق المبنية على الجريان وطرق النمذجة اللغوية المتعددة، ونماذج توليدية وتنبؤ بالتسلسل لإعادة بناء هياكل وملمس الصورة. بالإضافة إلى ذلك، تتبع العديد من التقنيات العشوائية نهج بدء التشغيل بصورة مشوشة وتقليل التشويش تدريجياً حتى الوصول إلى نتيجة معقولة، وهي استراتيجية تستخدمها عادة تقنيات الترميم المبنية على الانتشار والتي سنركز عليها.
كما ذكر، تتبع العديد من الاستراتيجيات الحتمية لتنفيذ عملية الإدخال صوراً من مجموعة بيانات جنباً إلى جنب مع أقنعة منتجة من توزيع أقنعة معين ومن ثم تدريب نموذج لملء هذه الأقنعة. مثال على ذلك هو إدخال الأقنعة الكبيرة (LaMa). خلال التدريب، يأخذ LaMa صوراً عينة، ولكل صورة ينتج قناعاً من توزيع الأقنعة الثابت. ثم يدرب شبكة التفاف فورية سريعة للتنبؤ بما هو مخفي خلف القناع لكل صورة، والتي تمكنت من تحقيق نتائج قوية. ومع ذلك، فإن العيب هو أن النموذج غالباً ما يجد صعوبة في تعميم قدراته على الأقنعة التي ليست ضمن التوزيع المستخدم لإنتاج الأقنعة في مجموعة البيانات التدريبية.
الجهد الرائد الحالي في الإدخال الذي تمكنا من تحديده هو ورقة من جامعة زيورخ التقنية تسمى RePaint (A2). يقترح RePaint سيراً عشوائياً مبنياً على سلسلة ماركوف لإضافة الضوضاء الغاوسية إلى صورة مدخلة تليها سير عكسي لإزالة الضوضاء من الجزء المقنع من الصورة. بهذه الطريقة، يتمكن RePaint من إزالة الاعتماد على توزيع القناع المحدد المستخدم لتدريب النموذج من خلال استخدام نموذج احتمالي تفاضلي لإزالة الضوضاء مدرب مسبقاً لإزالة الضوضاء من البكسلات داخل قناع عشوائي جنباً إلى جنب مع سياقها (الجزء غير المقنع من الصورة الأصلية مع ضوضاء مماثلة). وبالتالي، يتغلب RePaint على نقص تعميم القناع دون الحاجة حتى إلى عملية تدريب بمجرد تعديل المدخلات إلى DDPM مدرب مسبقاً. لإضافة المزيد من التباين الدلالي إلى مخرجات النموذج، اقترح مؤلفو RePaint خطوة إعادة أخذ العينات خلال السير العشوائي المعكوس. في خطوة إعادة أخذ العينات، يُضاف الضجيج الغاوسي مرة أخرى إلى مزيج جزئي غير مضطرب من المنطقة المقنعة المتعلمة والمنطقة غير المقنعة المدخلة الضوضائية. هذا المزيج الأكثر ضوضاء هو تلقائي عودي ويمرر إلى DDPM عدداً ثابتاً من المرات لاستخراج الفائدة الكاملة من العشوائية في DDPM، والتي يتم شرحها بمزيد من التفصيل في القسم [subsec:ResamplingJumping].
باختصار، يؤكد RePaint على إزالة الضوضاء عن المنطقة المقنعة مع استخدام الجزء غير المقنع غالباً كمرجع يوفر سياقاً للصورة. هذا يؤدي إلى صور مدخلة تبدو طبيعية جداً والتي تم تقييمها أعلى من النماذج الحديثة لمجموعة واسعة من توزيعات الأقنعة. بشكل فريد، RePaint أكثر إبداعاً مع الأشياء التي يمكنه إدخالها مع السماح لمخرجاته النهائية بأن تكون دلالياً صحيحة (A2).
إحدى الميزات الفريدة لـ RePaint هي أنه غالباً ما يقدم أشياء عشوائية في المناطق التي يولدها. على الرغم من أن هذه الأشياء غالباً ما تبدو طبيعية ودلالياً صحيحة، فقد تكون عشوائيتها غير مرغوب فيها في العديد من الحالات. على سبيل المثال، يتم إنشاء سحلية عندما يرغب شخص ما في إزالة يد بشرية من جزء من الصورة. نهدف إلى السماح لـ RePaint بالحفاظ على مستوى أدائه وصحته الدلالية مع السماح بمزيد من التحكم فيما يتم إنشاؤه بالضبط، وخاصة في المنطقة المقنعة. حالياً، لا يأخذ RePaint في الاعتبار أي تفضيلات لما يجب أن يتم إدخاله. كما لا توجد واجهة واضحة هي الأنسب لتوفير السياق/المعلومات للنموذج حول ما سيحتويه إدخالنا المفضل.
وبالتالي، هدفنا هو توسيع قدرات RePaint بحيث بالإضافة إلى أخذ قناع وصورة، يمكنه أيضاً أخذ معلومات بشأن ما يفضل إدخاله. هناك خيارات لا حصر لها: توفير وصف نصي لما يحتويه إدخالنا المستهدف، صورة لجسم مفضل يتم إنشاؤه، مجموعة بيانات من الأشياء المقبولة التي ستسمح للنموذج باختيار الخيار الأنسب، وما إلى ذلك.
إحدى فوائد RePaint هي أنه يعدل فقط خطوة إزالة الضوضاء من نموذج التشتت المدرب مسبقاً. هذا يعني أيضاً أننا لن نحتاج إلى تصنيف أي بيانات أو تدريب النموذج، مما يجعل من السهل تجربة مجموعة متنوعة من هذه الخيارات لتوفير جسمنا المفضل المدخل وتقييم كل نهج. سنركز في البداية على تقييم أداء RePaint عندما يُعطى صورة واحدة فقط تحتوي على ما نريد إدخاله في المنطقة المقنعة. سيتم ذلك من خلال توفير الصورة المستهدفة (أي مقطع من كلب) في خطوة أخذ العينات (إزالة الضوضاء) من خوارزمية RePaint بطريقة مماثلة لكيفية توفير الخوارزمية الحالية مرجعاً للمنطقة غير المقنعة الأصلية. باختصار، سنقوم بإنشاء خط أنابيب جديد حيث يتم إعطاء خلفية المشهد، القناع، وصورة ثالثة تمثل "الهدف"، سيقوم RePaint بإدخال الجزء المحجوب من المشهد بنسخة من "الهدف" بطريقة منطقية.
سنحاول مختلف النهج لمعرفة حدود هدفنا بحيث يولد النموذج انتقالات من المشهد إلى الهدف بطريقة منطقية. لاحظ أن أحد القيود على نموذجنا هو عدم وجود حقيقة أرضية لكل إدخال صورة، مما يجعل من الصعب تحليل الأداء بسرعة. بدلاً من ذلك، سنقوم بتقييم أداء هذا التعديل من خلال المقارنة اليدوية مع مخرجات نموذج RePaint الأصلي وربما نماذج إدخال أخرى رائدة مع معيار إضافي ما إذا كان قادراً على توليد جسمنا المفضل مع الحفاظ على مستوى متساوٍ من الجودة والصحة الدلالية. نتوقع أن يعمل هذا النهج بشكل جيد للغاية لأنه لا يفترض أي شيء لا تفترضه خوارزمية RePaint الأصلية أيضاً.
تعتمد خطوط الأنابيب لدينا على خوارزمية الاستدلال في إعادة الرسم (القسم [subsec:RepaintPipeline]) من خلال السماح بأن يتم توجيه عملية الإدخال بواسطة صورة هدف. لاختبار خطوط الأنابيب لدينا، قمنا بإنشاء مجموعة بيانات صغيرة تتكون من صور المشهد والهدف إلى جانب أقنعة ثنائية يدوية الصنع للمكان الذي سيتم فيه إدخال الهدف على المشهد. تصبح هذه الصور الثلاث (المشهد، الهدف، والقناع) المدخلات لخطوط الأنابيب لدينا ويتم معالجتها إلى صورة واحدة كما هو موضح في القسم [subsec:CorePipeline].
من الضروري الحصول على نظرة معمقة لمسار عمل RePaint لفهم مساهمتنا. في البداية، تحول عملية الانتشار الصورة الابتدائية المقنعة \(x_0\) إلى ضوضاء بيضاء غاوسية \(x_T\) من خلال إضافة ضوضاء غاوسية مستقلة ومتطابقة التوزيع بتباين متزايد تدريجياً إلى صورة المشهد. في كل خطوة زمنية \(t\) من المرور الأمامي، تخضع الصورة لتحولات وفقاً لعملية الانتشار، حيث تصبح أكثر ضوضاء مع زيادة \(t\) حتى تصل إلى ضوضاء نقية عند قيم \(t\) العالية.
في المرور الخلفي، الهدف هو إعادة بناء الصورة الأصلية من الضوضاء الغاوسية البيضاء. في كل خطوة زمنية \(t\)، يتم إدخال الصورة الضوضائية في نموذج DDPM. يتم استخراج ناتج الجزء المقنع من الصورة ودمجه مع المنطقة غير المقنعة المستحصلة من خطوة المرور الأمامي المقابلة. يتم تدريجياً استعادة الصورة الأصلية من خلال ملء الجزء المقنع بأكبر قدر ممكن من الدقة. يقدم RePaint أيضاً القفز وأخذ العينات لتحسين النتائج، والتي سيتم شرحها في القسم [subsec:ResamplingJumping].
مساهمتنا تتمثل في تقديم القدرة على تحديد كائن ليتم إعادة تلوينه داخل المشهد في موقع محدد. تم تصميم الخط ليأخذ ثلاث صور مدخلات: منظر الخلفية، الصورة المستهدفة، وقناع ثنائي يمثل المنطقة المهتم بها داخل الصورة المستهدفة. بشكل ملحوظ، على عكس خط أنابيب إعادة الطلاء الذي يعالج المشهد بجانب قناع عشوائي فقط، يدمج نهجنا معلومات سياقية لإعادة تلوين الهدف بشكل أكثر فعالية. بالإضافة إلى إزالة التشويش عن المشهد خلال المرور الأمامي، يطبق أسلوبنا أيضاً إزالة التشويش على الصورة المستهدفة باستخدام إجراء مماثل. خلال المرور الخلفي، يتم تمرير الصورة في الخطوة الزمنية \(t\), \(x_t\), إلى نموذج الانحدار العميق المشروط كالمعتاد. يتم وصف هذا في المعادلات 1-2، والتي استلهمت من المعادلات 8a-c في (A2): \[\begin{aligned}
x_{\text{scene}, t-1} &\sim \mathcal{N}\left( \sqrt{\bar{\alpha}_t} x_{\text{scene}, 0}, \left(1- \bar{\alpha}\right)I\right) \tag{1a} &\label{eq:1a} \\
x_{\text{target}, t-1} &\sim \mathcal{N}\left( \sqrt{\bar{\alpha}_t} x_{\text{target}, 0}, \left(1- \bar{\alpha}\right)I\right) \tag{1b} &\label{eq:1b}\\
x_{\text{repaint}, t-1} &\sim \text{DDPM}\left( x_t \right) \tag{2} &\label{eq:ddpm}\end{aligned}\] حيث \(\bar{\alpha}_t := \Pi_{i=1}^T (\beta_i)\).
بينما يتم استخراج المنطقة غير المقنعة من المشهد من المرور الأمامي المقابل، نفس الأمر كما في إعادة الطلاء، تظهر مشكلة بارزة في التعامل مع الهدف المقنع، حيث لدينا كل من الكائن المشوش المقنع من المرور الأمامي والكائن المقنع من نموذج الانحدار العميق المشروط. هذا التناقض، الذي نسميه "تعارض القناع"، ينشأ من تواجد نسختين مقنعتين من الكائن: واحدة تم إنشاؤها خلال المرور الأمامي والأخرى بواسطة نموذج الانحدار العميق المشروط. لحل هذا التعارض وإنتاج الصورة في \(x_{t-1}\)، نأخذ مزيجاً محدباً من الصورتين المستهدفتين المقنعتين باستخدام سلسلة المعاملات \(\lambda_t\)، وصفت كما يلي \[\begin{aligned}
x_{t-1}^{\text{unknown}} &= \lambda x_{\text{repaint}, t-1} + \left(1-\lambda \right)x_{\text{target}, t-1} \label{eq:maskconflict} &\tag{3}\end{aligned}\]
أخيراً، لتحقيق صورتنا \(x_{t-1}\) في المرور الخلفي، نأخذ المشهد من المرور الأمامي ونتيجة "تعارض القناع" باستخدام القناع الثنائي، \[\begin{aligned} x_{t-1} &= m \odot x_{\text{scene}, t-1} + \left(1-m \right) \odot x_{t-1}^{\text{unknown}} \label{eq:x_t-1} &\tag{4}\end{aligned}\] حيث \(m\) يمثل القناع الثنائي. يتم وصف هذه العملية بالكامل في الشكل [fig:corepipeline].
في المسار، كل خطوة تنقية (عكسية) هي وظيفة تعتمد فقط على صورة المشهد المضروبة بالضوضاء، وصورة الهدف المضروبة بالضوضاء، والمزيج المضروب بالضوضاء السابق. خلال الدمج الخطي لحساب مدخلات DDPM، يوجد احتمال أن يكون الحد الفاصل بين منطقة الهدف وصورة المشهد المضروبة بالضوضاء والمقنعة يتغير فجأة وبشكل غير طبيعي في اللون. لاحظ مؤلفو RePaint مشكلة مماثلة مع الدمج السابق المضروب بالضوضاء والمشهد المقنع واقترحوا إعادة الأخذ لمعالجة هذه المشكلة. إعادة الأخذ هي حيلة لزيادة التنوع والنعومة للصورة المرممة عن طريق تضويشها وتشغيلها من خلال DDPM عدة مرات. هذا يسمح لـ DDPM بالتنبؤ بالبكسلات على جانبي حدود القناع مما يزيد من جودة هذه المناطق (إلى جانب الفائدة المضافة من زيادة تباين قيم البكسلات المولدة داخل القناع). على سبيل المثال، أولاً، يتم تمرير الدمج الخطي لمشهد مضروب بالضوضاء ومقنع وصورة مولدة إلى DDPM. نتيجة هذه العملية هي مزيج أقل ضوضاء مع حدود صادمة. يضاف الضوضاء الغاوسية إلى هذه النتيجة والتي بعد ذلك تمرر مرة أخرى إلى DDPM. يتكرر هذا الإجراء \(r\) مرات، بعد ذلك يصبح انتقال الحدود أكثر سلاسة. نظراً لأن تشغيل DDPM يستغرق وقتاً ويتطلب موارد حسابية كبيرة، يقترح مؤلفو RePaint معلمة جدول القفز \(j\) للتحكم في وقت حدوث إعادة الأخذ. كل \(j\) خطوات زمنية من العملية العكسية، تحدث \(r\) خطوات إعادة الأخذ. عندما \(r \leq j\)، يكون وقت التشغيل وFLOPs للمسار نفسه كما في المسار الأصلي (\(r,j=1\)).
كما نوقش في القسم [subsec:CorePipeline]، يتحكم \(\lambda_t\) في الجمع الشكلي للهدف المرسوم المولد مع الهدف الأرضي المضروب بالضوضاء في الخطوة الزمنية \(t\). لاحظ أنه مع \(\lambda_t = 1\)، تنهار خطوطنا إلى خطوط RePaint الأصلية حيث لن يكون هناك مساهمة من الهدف المضروب بالضوضاء في صور الخطوة الأمامية. مع تصميم هذه الخطوط، قمنا ببحث أولي عن المعلمات الفائقة عبر قيم مختلفة لـ \(\lambda_t \in [0.8, 0.9, 0.993, 0.995, 0.999, 0.9999]\). بالإضافة إلى ذلك، لمتغيرات طول القفزة وحجم القفزة، جربنا قيماً في النطاق \([10, 20, 30, 40]\). وأخيراً، لعدد الخطوات الزمنية، جربنا قيماً في النطاق \([50, 100, 150, 200, 250]\).
كما كان متوقعاً، تبدو نتيجتنا أكثر مثل الضوضاء العشوائية أو تأخذ شكلاً غير قابل للتفسير كلما اقتربت قيمة لامبدا من واحد. ومع ذلك، تؤدي قيم لامبدا الأصغر إلى نتيجة تبدو كما لو أن الصورة المستهدفة قد تم قصها ببساطة ولصقها فوق خلفية المشهد. وجدنا أن قيم لامبدا في نطاق 0.92-0.97 كانت الأفضل في الحفاظ على محتوى الصورة المستهدفة دون جعلها تبدو كنسخة ولصق دقيقة. بالإضافة إلى ذلك، توقعنا أن نرى أنه مع زيادة معامل أخذ العينات (\(t\)) إلى قيمة كبيرة، يكون إخراج نموذجنا أقل ضبابية/ضوضاء. هذا منطقي لأن هذا سيقلل من الوزن على صور الهدف المضروب بالضوضاء في خطوات إزالة الضوضاء.
أخيراً، لاحظنا أن زيادة معلمات القفز وطول القفزة سمحت بإخراجات عالية الجودة بشكل عام. هذا منطقي لأن الغرض الكامل من القفز هو السماح للنموذج بتوليد إخراج يأخذ في الاعتبار سياق المشهد المحيط قدر الإمكان عندما يقوم نموذج النقطة الديناميكية المنتشرة بتوليد الإخراج. باختصار، قمنا ببحث شبكي قياسي على نطاقات كل هذه المعلمات وحددنا مجموعة القيم المثلى لتكون 40 لكل من طول القفزة وحجم القفزة، 200 للخطوات الزمنية، و0.993 لـ \(\lambda_t\).
خلال تجاربنا، حددنا طريقتين قابلتين للتطبيق لتعريف قناع الهدف. تضمنت الطريقة الأولى إنشاء قصاصة دقيقة للهدف، مما سمح للنموذج بتوليد صورة أكثر تفصيلاً. ومع ذلك، غالباً ما أدت هذه الطريقة إلى انتقال غير طبيعي المظهر من المشهد إلى الهدف، حيث يبدو كما لو أن الهدف قد تم لصقه ببساطة على الصورة. بدلاً من ذلك، استكشفنا نهجاً أكثر تساهلاً من خلال تضمين معلومات إضافية حول الهدف في القناع. بينما أدى هذا إلى انتقال أكثر طبيعية بين المشهد والهدف، كانت الصورة الناتجة للهدف تميل إلى أن تكون أقل تفصيلاً ونعومة. كانت مشكلة أخرى مع هذا النهج هي الاعتماد على كون الصورة المستهدفة في بيئة مماثلة للمشهد. على سبيل المثال، إذا كان الهدف كلباً يقف على الحصى وكان المشهد حقلاً من العشب، فلن يكون من المنطقي إعطاء النموذج حدود الحصى الملونة بالرمادي لتضمينها في الصورة النهائية. لمعالجة ذلك، بحثنا في تعديلات بديلة على نهج القناع الدقيق، كما هو موضح في القسم [subsec:MaskAlt].
على الرغم من أن نتائجنا الأولية لم تبدُ كأنها نسخ مطابقة تماماً، إلا أننا كنا ما زلنا محبطين بسبب قلة التفاعل الذي كان يحدث بين الهدف والمشهد الخلفي. ينبغي للهدف المرمم بشكل مثالي أن يتفاعل مع عناصر المشهد الخلفي على الأقل إلى حد ما. على سبيل المثال، في حالة الكلب في الميدان، نود أن نرى مخالب الكلب وذيله مختفيين خلف شفرات العشب. ومع ذلك، فإن خط أنابيبنا الأساسي لا يمكنه حالياً تحقيق ذلك. نقترح عدة تعديلات على خط أنابيبنا الأصلي لمواجهة هذه المشكلة.
كانت أكبر مشكلة وجدناها من نتائجنا هي الحدود غير الطبيعية في صورنا غير الملونة. حالياً، مع قناع ثنائي دقيق، لم تكن العملية تمتلك سياقاً حول مدى "قرب" بكسل ما من الحد. وعليه، لتوفير سياق ومرونة أكبر لـ DDPM في خطأ الحد، قررنا استكشاف بعض طرق التقنيع البديلة.
لتعزيز واقعية الحدود مع الحفاظ على صورة الهدف الأساسية، قمنا بتعديل المرور الخلفي لاستخدام قناع "مسخن". بدلاً من استخدام قناع ثنائي حيث كنا نأخذ قيمة كل بكسل من الهدف، كانت قيم القناع بين 0 و1. مع هذا القناع المسخن، حافظنا على مرور الهدف الأمامي للبكسلات التي كانت بعيدة عن الحدود (ممثلة بقيم أقرب إلى 1) وسمحنا لنموذج DDPM بالحرية والمرونة لتوليد حدود طبيعية المظهر لبكسلات صورة الهدف القريبة من الحدود.
لبعض العدد الصحيح \(b\)، حجم المخزن، القناع المسخن هو دالة للقناع. \[\begin{aligned} m_{i,j}^{\text{HEATED}} = \max{\frac{d_{i,j}}{b}, 1} \label{eq:heated} &\tag{5}\end{aligned}\] حيث \(d_{i,j}\) هي المسافة Manhattan من الإحداثي \((i,j)\) إلى أقرب بكسل أسود (0) في القناع الثنائي.
ثانياً، لتحسين واقعية الحدود بشكل أكبر، قمنا بتطبيق تقنية "مخزن المشهد" من خلال إضافة حد بعرض 4 بكسل حول قناع الهدف أثناء الدمج الخطي. هنا، يتم استخدام قصاصة دقيقة للقناع، وأثناء المرور العكسي، يتم حساب الدمج الخطي لحل تعارض القناع كما وصف سابقاً في [eq:maskconflict]. الفرق الرئيسي يكمن في دمج حد صغير حول الهدف من ناتج DDPM في الخطوة العكسية التالية، بدلاً من أخذه من مشهد المرور الأمامي. لاحظ أنه بالنسبة لبقية المشهد خارج الحد الصغير، نأخذ المرور الأمامي من الخطوة الزمنية المقابلة للمشهد كما هو معتاد. هذا التعديل يزيل الاعتماد على أن تكون الصورة الهدف في نفس البيئة كالمشهد، مع السماح لا زال للنموذج بإنشاء انتقال طبيعي المظهر عند الحد عند استخدام قصاصة دقيقة. يتم شرح هذه العملية في المعادلات التالية، \[\begin{aligned} m_\text{ring} &= m_\text{ext} - m \tag{6} \\ x^\text{unknown, buf}_{t-1} &= (cx_{\text{repaint},t-1} + (1-c)x_{\text{target},t-1}) \tag{7} \\ x_{\text{scene, buf},t-1} &= m_{\text{ext}} \odot x_{\text{scene},t-1} + m_\text{ring} \odot x^\text{unknown}_{t-1} \tag{8} \\ x_{t-1}&= m \odot x_{\text{scene, buf}, t-1} (1 - m) \odot x^\text{unknown, buf}_{t-1} \tag{9}\end{aligned}\] حيث يمثل \(m_\text{ext}\) القناع الممتد و\(c\) هو ثابت جديد ليحل محل \(\lambda\)، الذي لا يزال يستخدم بواسطة \(x^\text{unknown}_{t-1}\) من [eq:x_t-1] لمنطقة الحد/الحلقة.
بالإضافة إلى ذلك، قمنا بدراسة زيادة التكامل مع نموذج RePaint لمعالجة مشاكل نقص التفاصيل الدقيقة وإنتاج صور سلسة مع أقنعة دقيقة أو حدود صادمة. يتضمن ذلك الاعتماد بشكل أقل على الهدف المضطرب من المرور الأمامي وأكثر على جيل DDPM السابق. على وجه التحديد، للخطوات الزمنية \(t\) الأقرب إلى 0 في [eq:maskconflict]، نضبط \(\lambda_t=1\) بحيث يمكن للمسار استنتاج وإنشاء حدود طبيعية أكثر حول الجزء المستهدف المرمم لبقية الخطوات الزمنية. مع الاحتفاظ بنفس هيكل الإدخال (المنظر الطبيعي، الهدف، قناع الهدف)، قمنا بتعديل المرور الخلفي للانتقال إلى نموذج RePaint من خلال جدولة \(\lambda_t\) لتكون تقاطع خطى [fig:lambdaSched] من 0 إلى 1 للخطوات الزمنية \(T\) إلى \(pT\)، بحيث \(p \in\left[0,1\right]\) و1 لجميع \(t<pT\).
استناداً إلى نتائجنا من القسم [subsec:keyHparams] (خاصة ملاحظة [fig:images])، قمنا بتعيين المعلمات الفائقة \(r,j=40\)، وتقليل \(T\) إلى \(100\)، فقط لتوليد عينات بشكل أسرع للتجربة وإجراء بحث شبكي لـ \(p \in { 0.1, 0.25, 0.5, 0.75, 0.9 }\).
وجدنا أنه مع زيادة \(p\)، تصبح الصورة المرممة أقل وفاءً للهدف وأكثر ضبابية. وذلك لأن قيمة \(p\) العالية تعني أن المسار يقوم بإزالة الضوضاء دون أي مساهمة مباشرة من صورة الهدف لخطوات إزالة الضوضاء \(pT\). لهذه الخطوات من إزالة الضوضاء، يكون المسار مكافئاً لـ RePaint، لذا ستكون الصور المولدة ذات تباين عالٍ كما هو ملاحظ في الانتشار الموجه (dhariwal2021diffusion) وRePaint (A2).
حددنا أفضل قيمة للمعلمة الفائقة \(p\) على أنها \(0.5\) لمهمة إعادة الرسم. يسمح هذا الإعداد بأن تكون الصورة المرممة مشابهة لصورة الهدف مع السماح للمسار بملء الحدود الخارجية لموضوع الهدف بسلاسة. بالإضافة إلى ذلك، تسمح هذه القيمة للمسار بالاحتفاظ بالمعنى الدلالي من صورة الهدف أثناء إعادة الرسم لإضافات جديدة ومتسقة دلالياً (مثل القوس المضاف إلى الكلب في [fig:pExpImgc] والعشب الذي يتفاعل مع مخالبه)
كما وصف سابقاً، هناك تباين كبير في الصورة المعاد تكوينها النهائية عند التشغيل بقيمة \(p > \textnormal{0.5}\). الحالة عندما \(p=\textnormal{0.5}\) مثيرة للاهتمام بشكل خاص لأن الكثير من المعلومات الدلالية للصورة المستهدفة يتم الاحتفاظ بها ولكن العدد الكبير من مراحل إزالة التشويش من خلال نموذج التنقية العميق في هذا السيناريو يجعل الأجيال مبدعة.
لتشغيل بقيم \(T=\textnormal{100}, r,j=\textnormal{40},\) و\(p=\textnormal{0.5}\)، صورة زرافة مستهدفة ومشهد سهول (الصورة الوسطى اليمنى في الشكل)، الصورة الناتجة تحافظ على شكل ولون الزرافة بسبب التمويه \(\forall t\) خطوات إزالة التشويش ولكن المحتوى داخل القناع يشبه زرافة-فلامنغو كما لو أنها جاءت من مشهد غابة تروفولا من قصة دكتور سوس ذا لوراكس. بعد إعادة التشغيل بهذه المعلمات الفائقة عدة مرات، لم نتمكن من إنتاج نتيجة تختلف كثيراً عن الزرافة. للتخفيف من هذا الوضع الفاشل في بيئة الإنتاج، يُوصى بإنتاج صورتين مرشحتين على الأقل لكل مشهد وهدف.
وضع فشل آخر عندما \(p>\textnormal{0.5}\) هو أن هذا الإعداد يكشف عن تحيزات بيانات تدريب نموذج التنقية العميق. كما يلاحظ مؤلفو إعادة الرسم، فإن نموذج التنقية العميق المدرب على ImageNet، كما هو الحال في النموذج المستخدم لتوليد جميع الصور في هذا التقرير، سيكون متحيزاً نحو إزالة التشويش للكلاب (A2). للتكرارات \(t\) من خطوط إنتاجنا بحيث \(\forall \tau < t, \lambda_\tau = \textnormal{1}\)، فإن طبيعة العملية التلقائية لعملية إزالة التشويش تعني أن جميع الخطوات المستقبلية في عملية إزالة التشويش متحيزة نحو الصور ذات الاحتمالية العالية في مجموعة بيانات نموذج التنقية العميق.
لمعالجة هذا الوضع الفاشل، يُوصى باستخدام نموذج مثل ResNet (he2015deep) لتحديد فئة الصورة المستهدفة واستخدام نموذج التنقية العميق المدرب على مجموعة بيانات حيث لا تكون فئة تلك الصورة ممثلة بشكل ضعيف.
يقدم المؤلفون "ملء الفراغات"، وهو أنبوب إعادة تكوين قائم على الانتشار يدمج الصور المستهدفة في المشاهد بسلاسة. استناداً إلى التحليلات الحالية، يوصي المؤلفون بالمعلمات التالية: خطوات الانتشار \(T=\textnormal{200}\)، خطوات القفز \(j=\textnormal{40}\)، خطوات إعادة الأخذ \(r=\textnormal{40}\)، وجدول \(\lambda\) الخطي المكون من قطع مع \(p=\textnormal{0.5}\) (أي، \(\lambda_t = \textnormal{1}\) إذا كان \(t \leq \textnormal{0.5}T\) والتكامل الخطي من \((pT, \textnormal{1.0})\) إلى \((T, \textnormal{0})\) في مكان آخر.
مع التقدم، هناك عدة مسارات لمزيد من الاستكشاف والتحسين في بحثنا. أولاً، يمكننا الغوص بعمق أكبر في تعديلات القناع، كما وصف في القسم [subsec:MaskAlt]. غالبية تجاربنا كانت مع أقنعة ثنائية القيمة مصنوعة يدوياً، ولكن استكشاف تقنيات التقنيع البديلة مثل التقنيات المبنية على التدرج أو الأقنعة المخزنة قد يسمح للنموذج بإنتاج إعادة تلوين تبدو أكثر واقعية مع الحفاظ على تفاصيل الهدف الأصلي. علاوة على ذلك، فإن تقديم جدولة لامبدا في القسم [subsec:lambda] قد حسن أداء خط أنابيبنا الأساسي، ولكن إضافة جدولة لامبدا أكثر ديناميكية قد تعزز أكثر من قدرة الخط على التكيف والتنوع. هذا النهج الديناميكي سيتضمن تعديل قيم لامبدا بناءً على خصائص أزواج المشهد والهدف المختلفة، وبالتالي تحسين عملية إعادة التلوين لكل سيناريو محدد.
بالإضافة إلى استكشاف تعديلات القناع وتنقيح جدولة لامبدا، فإن توسيع اختباراتنا لتشمل مجموعة أوسع من الصور سيكون تحسيناً كبيراً. حالياً، يشكل الإنشاء اليدوي لقناع الهدف تحديات في قابلية التوسع. قد تكون الحلول الممكنة استخدام تقنيات التجزئة التي من شأنها أن تؤتمت إنشاء القناع، مما يسهل الإنشاء والاختبار الفعال على مجموعة بيانات أكبر. مع مجموعة بيانات أكبر، سيكون من الأسهل تحليل مجموعة متنوعة من أزواج المشهد والهدف، مما يؤدي إلى معلمات تحكم مثالية تعمم جيداً عبر سيناريوهات مختلفة.
أخيراً، يهدف بحثنا إلى تحقيق خط أنابيب آلي بالكامل لإعادة التلوين. سيتطلب هذا النظام الحد الأدنى من مدخلات المستخدم، ويتكون بشكل رئيسي من توفير صور المشهد والهدف واختيار المنطقة المعاد تلوينها مع أتمتة موضع الهدف وإنشاء القناع واختيار معلمات التحكم.
في هذه الدراسة، هدفنا إلى تحسين تقنيات إعادة ترميم الصور من خلال تعزيز السيطرة على ما يتم توليده بالضبط. بشكل خاص، حددنا أن الطرق الحالية لم تسمح للنموذج بأن يستند في نتائجه المرممة إلى صورة لجسم هدف بدلاً من التوجيه النصي أو طرق أخرى لتحديد الجسم المراد ترميمه. من خلال الاستفادة من التقدم الأخير في الذكاء الاصطناعي التوليدي ومنهجيات الترميم، ركزنا على نهج قائم على الانتشار حيث قمنا بتعديل المدخلات المقدمة إلى نموذج الانتشار في خطوات إزالة التشويش لإطعامه سياق صورة الهدف. من خلال بعض التعديلات والتحسينات، سعينا للتخفيف من التحديات مثل تعارضات القناع وواقعية الحدود، محققين بعض النتائج المثيرة للاهتمام في جودة وطبيعية الصور المرممة مع أجسام الهدف. قدمت تجاربنا رؤى قيمة حول فعالية نهجنا وأهمية مختلف المعلمات الفائقة. بشكل عام، يمثل مشروعنا خطوة متواضعة لكنها ذات معنى إلى الأمام في مجال ترميم الصور.
نود أن نتقدم بالشكر الجزيل لطاقم مادة CSE 493G على المحتوى التعليمي الممتاز والإرشاد الذي مكننا من إتمام هذا المشروع. كما نعرب عن تقديرنا لورقة RePaint ومؤلفيها، التي كانت مصدر إلهام كبير لورقتنا.