مِلْءِ الفراغات (a diffusion-based image inpainting pipeline)

Eyoel Gebre, Krishna Saxena, Timothy Tran

latex

مُلَخَّصُ

إِعادَةِ تَأْهِيلِ الصُوَرِ هِيَ عَمَلِيَّةِ أَخَذَ صُورَةِ وَتَوْلِيدِ الأَجْزاء المَفْقُودَةَ أَو المَحْجُوبَة عُمُداً. لِإِعادَةِ تَأْهِيلِ الصُوَرِ تَطْبِيقات لا حَصْرُ لَها تَشْمَل اِسْتِعادَةِ الصُوَرِ الَّتِي تَضَرَّرَت سابِقاً، اِسْتِعادَةِ جُودَة الصُوَرِ الَّتِي تَدَهْوَرَت بِسَبَبِ الضَغْطِ، وَإِزالَةُ الأَشْياءَ أَو النُصُوصِ غَيْرِ المَرْغُوب فِيها. لَقَد أَظْهَرَت تَقْنِيّاتِ إِعادَةِ تَأْهِيلِ الصُوَرِ الحَدِيثَةِ قُدْرَةِ مَلْحُوظَةٌ فِي تَوْلِيدِ اِسْتِكْمالات مَنْطِقِيَّةٍ لِلصُوَرِ الَّتِي تَحْتَوِي عَلَى تَغْطِيات بِواسِطَةِ أَقْنَعَهُ. فِي وَرَقَتنا، سَيَتِمّ تَقْدِيمِ نَظْرَةٌ عامَّةٍ عَلَى تَقَدَّمَ تَقْنِيّاتِ إِعادَةِ تَأْهِيلِ الصُوَرِ، مَعَ التَعَرُّفُ عَلَى النَهْجِ الرائِدَةِ الحالِيَّةِ، مَعَ التَرْكِيزِ عَلَى نِقاطٍ القُوَّةِ وَالضُعْفِ لَدَيهِم. سَيَتِمّ التَطَرُّقِ إِلَى فَجْوَةِ حَرِجَةً فِي هٰذِهِ النَماذِجِ الحالِيَّةِ، مَعَ التَرْكِيزِ عَلَى القُدْرَةِ عَلَى تَوْجِيهِ وَالتَحَكُّمِ فِيما يَتِمّ تَوْلِيده بِالضَبْطِ. سَنُبَرَّر أَيْضاً لِماذا نَعْتَقِد أَنَّ هٰذِهِ هِيَ الخَطْوَةِ التَقَدُّمِيَّة التالِيَةِ الطَبِيعِيَّةِ الَّتِي يَجِب أَنَّ تَتَّخِذها نَماذِجَ إِعادَةِ تَأْهِيلِ الصُوَرِ، وَنَقْدَم عِدَّةٍ نَهْجٍ لِتَنْفِيذِ هٰذِهِ الوَظِيفَةِ. أَخِيراً، سَنَقُوم بِتَقْيِيم نَتائِجِ نَهْجنا مِن خِلالَ التَحَقُّقِ نَوْعِيّا مِمّا إِذا كانَت تُولَد صُوَراً عالِيَةٍ الجُودَةِ تَقُوم بِإِعادَةِ تَأْهِيلِ المَناطِقِ بِشَكْلٍ صَحِيحٌ مَعَ الأَشْياءَ الَّتِي يَتِمّ تَوْجِيهُها لَإِنْتاجها.

مُقَدِّمَةِ

الدافِعُ

لَقَد كانَ التَلْوِين مُشْكِلَةِ مُهِمَّةً ضِمْنَ مَجالِ الرُؤْيَةِ الحاسُوبِيَّة لِعُقُودٍ عَدِيدَةٍ. إِنَّها وَظِيفَةٍ أَساسِيَّةٍ لِلعَدِيد مِن التَطْبِيقات المُتَعَلِّقَةِ بِالصُوَر مِثْلَ إِزالَةِ الأَجْسام، اِسْتِعادَةِ الصُوَرِ، التَلاعُبِ بِها، إِعادَةِ التَوْجِيهِ، التَرْكِيبُ، وَالعِرْضِ المَبْنِيَّ عَلَى الصُوَرِ. مِن الآمِنِ أَيْضاً الاِعْتِقادِ بِأَنَّهُ مَعَ التَبَنِّي الواسِعِ لَأَدَوات الذَكاء الاِصْطِناعِيِّ التوليديه، قَد تَشْهَد وَظائِفِ مِثْلَ التَلْوِين زِيادَةِ كَبِيرَةٍ فِي الاِسْتِخْدامِ ضِمْنَ التَطْبِيقات الإِبْداعِيَّة كَذٰلِكَ. مَعَ أَدَواتِ مِثْلَ دالَّيَّ-إِي، تشات جِي بِي تِي، ميدجورني، وَسُوراً الَّتِي تُثْبِت أَنَّها يُمْكِن أَنَّ تَكُون ذاتِ فائِدَةٍ عالِيَةٍ لِأُولَئِكَ الَّذِينَ تَعْتَمِد مِهَنهم عَلَى الأَعْمالِ الإِبْداعِيَّة، نَحْنُ نَشْهَد لِلمَرَّةِ الأُولَى كَيْفَ أَنَّ أَنْظِمَةِ الذَكاء الاِصْطِناعِيِّ تُغَيِّر بِشَكْلٍ كَبِيرٍ صِناعَةِ واسِعَةً (تَقارِيرَ مَكْتَبِ تَحْلِيلِ الاِقْتِصادِ الأَمْرِيكِيِّ أَنَّ الفُنُونِ وَالإِنْتاجِ الثَقافِيِّ يُمَثِّلانِ $1,016,249,142,000 وَ 4.4% مِن اِقْتِصادٌ الوِلاياتِ المُتَّحِدَةِ، مُساهَمَةً ب 4,851,046 وَظِيفَةٍ (NASAA2020). لِذٰلِكَ، تَحْسِينِ وَظائِفِ مِثْلَ التَلْوِين وَالسَماحِ لَها بِاِمْتِلاكِ نِطاقِ أَكْثَرَ قُوَّةٍ مِن القُدْراتِ يُمْكِن أَنَّ يَكُون لَهُ تَأْثِيرِ اِقْتِصادِيٍّ حَقِيقِيٍّ.

الخَلْفِيَّةِ

هُناكَ نهجان عامانِ رَئِيسِيّانِ لِمُشْكِلَةِ التَرْمِيم: العَشْوائِيِّ وَالمُحَدَّد. تُنْتِج الطُرُقِ العَشْوائِيَّةِ نَتائِجِ تَرْمِيمِ مَعْقُولَةٍ مُتَعَدِّدَةِ مِن خِلالَ عَمَلِيَّةِ عَيِّنَةً عَشْوائِيَّةٍ، بَيْنَما تُنْتِج الطُرُقِ المُحَدَّدَةِ نَتِيجَةَ واحِدَةٍ. يَتَمَثَّل أَحَدُ النَهْجِ المُحَدَّدَيْنِ الشائِعَةُ فِي أَخَذَ صُورَةِ مَعَ قِناع ثُنائِيٍّ يُمَثِّل المِنْطَقَةِ المُراد تَرْمِيمُها وَإِدْخال هاتَيْنِ الصُورَتَيْنِ فِي نَمُوذَجَ مَوْلِدُ مِثْلَ شَبَكَةِ الخُصُومَةِ التوليديه المُدَرِّبَة لِمِلْءِ المِنْطَقَةِ المَفْقُودَةَ. تَمَّ التَعامُلِ مَعَ مُهِمَّةً تَحْسِينِ قُدْرَةِ المُوَلِّدِ عَلَى إِنْتاجِ تَرْمِيماتٍ مَقْبُولَةٌ مِن خِلالَ مَجْمُوعَةِ واسِعَةً مِن النَهْجِ بِما فِي ذٰلِكَ أَلَياتِ الاِنْتِباهِ، وَاِتِّصالاتٍ المِشْفَر-المُفَكَّك، وَالإِرْشاد العَمِيقِ السابِقِ، وَالتَجْمِيع مُتَعَدِّدِ الأَحْجام (quan2024deep). تُسْتَخْدَم تَقْنِيّاتِ التَرْمِيم العَشْوائِيَّةِ، مِثْلَ الطُرُقِ المَبْنِيَّةُ عَلَى الجَرَيان وَطُرُقِ النمذجه اللُغَوِيَّةُ المُتَعَدِّدَةِ، نَماذِجَ توليديه وَتَنَبُّؤ بِالتَسَلْسُل لِإِعادَةِ بِناءَ هَياكِلِ وَمَلْمَس الصُورَةِ. بِالإِضافَةِ إِلَى ذٰلِكَ، تَتَّخِذ العَدِيدَ مِن التَقْنِيّاتِ العَشْوائِيَّةِ نَهْجٍ بَدْء التَشْغِيلِ بِصُورَةٍ مَشُوشه وَتَقْلِيل التَشْوِيشُ تَدْرِيجِيّاً حَتَّى الوُصُولِ إِلَى نَتِيجَةَ مَعْقُولَةٍ، وَهِيَ إِسْتراتِيجِيَّةِ يَسْتَخْدِمها عادَةً تَقْنِيّاتِ التَرْمِيم المَبْنِيَّةُ عَلَى الاِنْتِشارِ وَالَّتِي سَنُرَكِّز عَلَيها.

الأَعْمالِ ذاتِ الصِلَةِ

كَما ذَكَرَ، تَتْبَع العَدِيدَ مِن الإِسْتراتِيجِيّات الحَتْمِيَّةِ لِتَنْفِيذِ عَمَلِيَّةِ الإِدْخال صُوَراً مِن مَجْمُوعَةِ بَياناتٍ جَنْباً إِلَى جَنْبٍ مَعَ أَقْنَعَهُ مُنْتِجَةٍ مِن تَوْزِيعِ الأَقْنِعَة مُعَيَّنٍ وَمِن ثُمَّ تَدْرِيبِ نَمُوذَجَ لِمِلْءِ هٰذِهِ الأَقْنِعَة. مِثالٌ عَلَى ذٰلِكَ هُوَ إِدْخالُ الأَقْنِعَة الكَبِيرَةِ (LaMa). خِلالَ التَدْرِيبِ، يَأْخُذ LaMa صُور عَيِّنَةً، وَلِكُلِّ صُورَةِ يُنْتِج قِناعاً مِن تَوْزِيعِ الأَقْنِعَة الثابِتُ. ثُمَّ يُدَرِّب شَبَكَةِ الالتفافيه فَوْرِيَّيْهِ السَرِيعَةِ لِلتَنَبُّؤ بِما هُوَ مَخْفِيّ خَلْفَ القِناع لِكُلِّ صُورَةِ، وَالَّتِي تَمَكَّنَ مِن تَحْقِيقِ نَتائِجِ قَوِيَّةٍ. وَمَعَ ذٰلِكَ، فَإِنَّ العَيْبِ هُوَ أَنَّ النَمُوذَجِ غالِباً ما يَجِد صُعُوبَةِ فِي تَعْمِيمِ قُدْراتِهِ عَلَى الأَقْنِعَة الَّتِي لَيِسَت ضِمْنَ التَوْزِيعِ المُسْتَخْدِمُ لِإِنْتاجِ الأَقْنِعَة فِي مَجْمُوعَةِ البَياناتِ التَدْرِيبِيَّةِ.

الجُهْدِ الرائِدِ الحالِيَّ فِي الإِدْخال الَّذِي تَمَكَّنّا مِن تَحْدِيدِهِ هُوَ وَرَقَةً مِن جامِعَةِ زيورخ التَقْنِيَّةِ تُسَمَّى RePaint (A2). يَقْتَرِح RePaint سَيْرِ عَشْوائِيٍّ مَبْنِيٌّ عَلَى سِلْسِلَةٍ ماركوف لَأَضافَهُ الضَوْضاء الغاوسيه إِلَى صُورَةِ مَدْخَله تَلِيها سَيْرِ عَكْسِيٍّ لِإِزالَةِ الضَوْضاء مِن الجُزْء المُقْنِع مِن الصُورَةِ. بِهٰذِهِ الطَرِيقَةِ، يَتَمَكَّن RePaint مِن إِزالَةِ الاِعْتِمادِ عَلَى تَوْزِيعِ القِناع المُحَدَّدِ المُسْتَخْدِمُ لِتَدْرِيبِ النَمُوذَجِ مِن خِلالَ اِسْتِخْدامِ نَمُوذَجَ اِحْتِمالَيَّ تَفاضُلِيّ لِإِزالَةِ الضَوْضاء مُدَرِّبُ مُسْبَقاً لِإِزالَةِ الضَوْضاء مِن البكسلات داخِلَ قِناع عَشْوائِيٍّ جَنْباً إِلَى جَنْبٍ مَعَ سِياقِها (الجُزْء غَيْرِ المُقْنِع مِن الصُورَةِ الأَصْلِيَّةِ مَعَ ضَوْضاء مُماثِلَةٍ). وَبِالتالِي، يَتَغَلَّب RePaint عَلَى نَقْصِ تَعْمِيمِ القِناع دُونِ الحاجَةِ حَتَّى إِلَى عَمَلِيَّةِ تَدْرِيبِ بِمُجَرَّدِ تَعْدِيلِ المدخلات إِلَى DDPM مُدَرِّبُ مُسْبَقاً. لَأَضافَهُ المَزِيدِ مِن التَبايُنِ الدَلالِيّ إِلَى مُخْرِجات النَمُوذَجِ، اِقْتَرَحَ مُؤَلِّفُو RePaint خَطْوَةٍ إِعادَةِ أَخَذَ العَيْنات خِلالَ السَيْرِ العَشْوائِيِّ المَعْكُوس. فِي خَطْوَةٍ إِعادَةِ أَخَذَ العَيْنات، يُضاف الضَجِيجِ الغاوسي مَرَّةً أُخْرَى إِلَى مَزِيجٍ جُزْئِيّاً غَيْرِ مُضْطَرِبٌ مِن المِنْطَقَةِ المُقْنِعَةِ المُتَعَلِّمَة وَالمِنْطَقَةِ غَيْرِ المُقْنِعَةِ المدخله الضوضائيه. هٰذا المَزِيج الأَكْثَرَ ضَوْضاء هُوَ التِلْقائِيّ العودي وَيَمْرُر إِلَى DDPM عَدَداً ثابِتاً مِن المَرّاتِ لَاِسْتِخْراج الفائِدَةِ الكامِلَةِ مِن العَشْوائِيَّةِ فِي DDPM، وَالَّتِي يَتِمّ شَرَحَها بِمَزِيدٍ مِن التَفْصِيل فِي القِسْمِ [subsec:ResamplingJumping].

بِاِخْتِصار، يُؤَكِّد RePaint عَلَى إِزالَةِ الضَوْضاء عَن المِنْطَقَةِ المُقْنِعَةِ مَعَ اِسْتِخْدامِ الجُزْء غَيْرِ المُقْنِع فِي الغالِبِ كَمَرْجِعٍ يُوَفِّر سِياقاً لِلصُورَةِ. هٰذا يُؤَدِّي إِلَى صُور مَدْخَله تَبْدُو طَبِيعِيَّةٍ جِدّاً وَالَّتِي تَمَّ تَقْيِيمها أَعْلَى مِن النَماذِجِ الحَدِيثَةِ لِمَجْمُوعَةِ واسِعَةً مِن تَوْزِيعات الأَقْنِعَة. بِشَكْلٍ فَرِيد، RePaint أَكْثَرَ إِبْداعا مَعَ الأَشْياءَ الَّتِي يُمْكِنه إِدْخالُها مَعَ السَماحِ لَمُخْرِجاته النِهائِيَّةِ بِأَنَّ تَكُون دَلالِيّا صَحِيحَةٍ (A2).

إِحْدَى المِيزاتِ الفَرِيدَة لِ RePaint هِيَ أَنَّهُ غالِباً ما يُقَدِّم أَشْياء عَشْوائِيَّةٍ فِي المَناطِقِ الَّتِي يُوَلِّدها. عَلَى الرَغْمِ مِن أَنَّ هٰذِهِ الأَشْياءَ غالِباً ما تَبْدُو طَبِيعِيَّةٍ وَدَلالِيّا صَحِيحَةٍ، فَقَد تَكُون عَشْوائِيَّتها غَيْرِ مَرْغُوبٌ فِيها فِي العَدِيدَ مِن الحالاتِ. عَلَى سَبِيلِ المِثالِ، يَتِمّ إِنْشاءِ سِحْلِيَّة عِنْدَما يَرْغَب شَخْصٍ ما فِي إِزالَةِ يَدِ بَشَرِيَّةٍ مِن جُزْء مِن الصُورَةِ. نَهْدِف إِلَى السَماحِ لِ RePaint بِالحِفاظِ عَلَى مُسْتَوَى أَدائه وَصِحَّته الدَلالِيَّة مَعَ السَماحِ بِمَزِيدٍ مِن التَحَكُّمِ فِيما يَتِمّ إِنْشاؤه بِالضَبْطِ، وَخاصَّةً فِي المِنْطَقَةِ المُقْنِعَةِ. حالِيّاً، لا يَأْخُذ RePaint فِي الاِعْتِبارِ أَيّ تَفْضِيلات لِما يَجِب أَنَّ يَتِمّ إِدْخاله. كَما لا تُوجَد واجِهَةِ واضِحَةٍ هِيَ الأَنْسَب لِتَوْفِيرِ السِياقِ/المَعْلُوماتِ لِلنَمُوذَج حَوْلَ ما سَيَحْتَوِيه إِدْخالنا المُفَضَّلُ.

وَبِالتالِي، هَدَفَنا هُوَ تَوْسِيعِ قُدْراتٍ RePaint بِحَيْثُ بِالإِضافَةِ إِلَى أَخَذَ قِناع وَصُورَةِ، يُمْكِنه أَيْضاً أَخَذَ مَعْلُوماتٍ بِشَأْنِ ما يُفَضِّل إِدْخاله. هُناكَ خِياراتٍ لا حَصْرُ لَها: تَوْفِيرِ وَصَفَ نَصَّيَّ لِما يَحْتَوِيه إِدْخالنا المُسْتَهْدَفِ، صُورَةِ لِجِسْمِ مُفَضَّل يَتِمّ إِنْشاؤه، مَجْمُوعَةِ بَياناتٍ مِن الأَشْياءَ المَقْبُولَةِ الَّتِي سَتَسْمَح لِلنَمُوذَج بِاِخْتِيارِ الخِيارِ الأَنْسَب، وَما إِلَى ذٰلِكَ.

إِحْدَى فَوائِدَ RePaint هِيَ أَنَّهُ يُعَدِّل فَقَط خَطْوَةٍ إِزالَةِ الضَوْضاء مِن نَمُوذَجَ التشتت المُدَرِّبِ مُسْبَقاً. هٰذا يَعْنِي أَيْضاً أَنَّنا لَن نَحْتاج إِلَى تَصْنِيفِ أَيّ بَياناتٍ أَو تَدْرِيبِ النَمُوذَجِ، مِمّا يَجْعَل مِن السَهْلِ تَجْرِبَةِ مَجْمُوعَةِ مُتَنَوِّعَةٍ مِن هٰذِهِ الخِياراتِ لِتَوْفِيرِ جِسْمنا المُفَضَّلُ المَدْخَلِ وَتَقْيِيم كُلِّ نَهْجٍ. سَنُرَكِّز فِي البِدايَةِ عَلَى تَقْيِيمِ أَداءِ RePaint عِنْدَما يُعْطَى صُورَةِ واحِدَةٍ فَقَط تَحْتَوِي عَلَى ما نُرِيد إِدْخاله فِي المِنْطَقَةِ المُقْنِعَةِ. سَيَتِمّ ذٰلِكَ مِن خِلالَ تَوْفِيرِ الصُورَةِ المُسْتَهْدَفَة (أَيّ قَطْعِ مِن كَلْب) فِي خَطْوَةٍ أَخَذَ العَيْنات (إِزالَةِ الضَوْضاء) مِن خوارزميه RePaint بِطَرِيقَةٍ مُماثِلَةٍ لَكَيْفِيَّة تَوْفِيرِ الخوارزميه الحالِيَّةِ مَرْجِعا لِلمِنْطَقَةِ غَيْرِ المُقْنِعَةِ الأَصْلِيَّةِ. بِاِخْتِصار، سَنَقُوم بِإِنْشاءِ خَطِّ أَنابِيبِ جَدِيدٍ حَيْثُ يَتِمّ إِعْطاءِ خَلْفِيَّةِ المَشْهَدُ، القِناع، وَصُورَةِ ثالِثَةٍ تُمَثِّل “الهَدَفَ”، سَيَقُوم RePaint بِإِدْخال الجُزْء المَحْجُوب مِن المَشْهَدُ بِنُسْخَةٍ مِن “الهَدَفَ” بِطَرِيقَةٍ مَنْطِقِيَّةٍ.

سَنُحاوِل مُخْتَلِفِ النَهْجِ لِتَعْلَم حُدُودِ هَدَفَنا بِحَيْثُ يُولَد النَمُوذَجِ اِنْتِقالات مِن المَشْهَدُ إِلَى الهَدَفَ بِطَرِيقَةٍ مَنْطِقِيَّةٍ. لاحَظَ أَنَّ أَحَدُ القُيُودِ عَلَى نَمُوذَجنا هُوَ عَدَمِ وُجُودِ حَقِيقَةِ أَرْضِيَّةٍ لِكُلِّ إِدْخالُ صُورَةِ، مِمّا يَجْعَل مِن الصَعْبِ تَحْلِيلِ الأَداءِ بِسُرْعَةٍ. بَدَلاً مِن ذٰلِكَ، سَنَقُوم بِتَقْيِيم أَداءِ هٰذا التَعْدِيلِ مِن خِلالَ المُقارَنَةِ اليَدَوِيَّةِ مَعَ مُخْرِجات نَمُوذَجَ RePaint الأَصْلِيُّ وَرُبَّما نَماذِجَ إِدْخالُ أُخْرَى رائِدَةٍ مَعَ مِعْيار إِضافِيٍّ ما إِذا كانَ قادِراً عَلَى تَوْلِيدِ جِسْمنا المُفَضَّلُ مَعَ الحِفاظِ عَلَى مُسْتَوَى مُتَساوٍ مِن الجُودَةِ وَالصِحَّةِ الدَلالِيَّة. نَتَوَقَّع أَنَّ يَعْمَل هٰذا النَهْجِ بِشَكْلٍ جَيِّدٍ لِلغايَةِ لِأَنَّهُ لا يُفْتَرَض أَيّ شَيْء لا يَفْتَرِضه خوارزميه RePaint الأَصْلِيَّةِ أَيْضاً.

الطَرِيقَةِ

تَعْتَمِد خُطُوطِ الأَنابِيبِ لَدَينا عَلَى خوارزميه الاِسْتِدْلال فِي إِعادَةِ الرَسْمُ (القِسْمِ [subsec:RepaintPipeline]) مِن خِلالَ السَماحِ بِأَنَّ يَتِمّ تَوْجِيهِ عَمَلِيَّةِ الإِدْخال بِواسِطَةِ صُورَةِ هَدَفَ. لِاِخْتِبارِ خُطُوطِ الأَنابِيبِ لَدَينا، قُمْنا بِإِنْشاءِ مَجْمُوعَةِ بَياناتٍ صَغِيرَةٌ تَتَكَوَّن مِن صُور المَشْهَدُ وَالهَدَفُ إِلَى جانِبِ أَقْنَعَهُ ثُنائِيَّةٍ يَدَوِيَّةً الصَنْعِ لِلمَكانِ الَّذِي سَيَتِمّ فِيهِ إِدْخالُ الهَدَفَ عَلَى المَشْهَدُ. تُصْبِح هٰذِهِ الصُوَرِ الثَلاثِ (المَشْهَدُ، الهَدَفَ، وَالقِناع) المدخلات لِخُطُوطِ الأَنابِيبِ لَدَينا وَيَتِمّ مُعالَجَتُها إِلَى صُورَةِ واحِدَةٍ كَما هُوَ مُوَضِّح فِي القِسْمِ [subsec:CorePipeline].

خَلْفِيَّةِ مَسارِ عَمَلٍ RePaint

مِن الضَرُورِيِّ الحُصُولِ عَلَى نَظْرَةٌ مُعَمَّقَةٍ لَمَسار عَمَلٍ RePaint لِفَهْمِ مُساهَمَتنا. فِي البِدايَةِ، يَحُول عَمَلِيَّةِ الاِنْتِشارِ الصُورَةِ الاِبْتِدائِيَّةُ المُقْنِعَةِ \(x_0\) إِلَى ضَوْضاء بَيْضاءَ غاوسيه \(x_T\) مِن خِلالَ إِضافَةً ضَوْضاء غاوسيه مُسْتَقِلَّةٍ وَمُتَطابِقه التَوْزِيعِ بِتَبايُن مُتَزايِدٍ تَدْرِيجِيّاً إِلَى صُورَةِ المَشْهَدُ. فِي كُلِّ خَطْوَةٍ زَمَنِيَّةٍ \(t\) مِن المُرُورِ الأَمامِيّ، تَخْضَع الصُورَةِ لَتَحَوُّلات وِفْقاً لِعَمَلِيَّةِ الاِنْتِشارِ، حَيْثُ تُصْبِح أَكْثَرَ ضَوْضاء مَعَ زِيادَةِ \(t\) حَتَّى تَصِل إِلَى ضَوْضاء نَقِيّه عِنْدَ قِيَمِ \(t\) العالِيَةِ.

فِي المُرُورِ الخَلْفِيِّ، الهَدَفَ هُوَ إِعادَةِ بِناءَ الصُورَةِ الأَصْلِيَّةِ مِن الضَوْضاء الغاوسيه البَيْضاءِ. فِي كُلِّ خَطْوَةٍ زَمَنِيَّةٍ \(t\)، يَتِمّ إِدْخالُ الصُورَةِ الضوضائيه فِي نَمُوذَجَ DDPM. يَتِمّ اِسْتِخْراج ناتِجٌ الجُزْء المُقْنِع مِن الصُورَةِ وَدَمْجه مَعَ المِنْطَقَةِ غَيْرِ المُقْنِعَةِ المستحصله مِن خَطْوَةٍ المُرُورِ الأَمامِيّ المُقابَلَةِ. يَتِمّ تَدْرِيجِيّاً اِسْتِعادَةِ الصُورَةِ الأَصْلِيَّةِ مِن خِلالَ مِلْءِ الجُزْء المُقْنِع بِأَكْبَرِ قَدْرَ مُمْكِنٍ مِن الدِقَّةِ. RePaint يُقَدِّم أَيْضاً القَفْزِ وَالأَخْذ عَيِّناتٍ لِتَحْسِينِ النَتائِجِ، وَالَّتِي سَيَتِمّ شَرَحَها فِي القِسْمِ [subsec:ResamplingJumping].

خَطِّ أَنابِيبِ الأَساسِيُّ لِإِعادَةِ تَلْوِينِ الصُوَرِ المُسْتَهْدَفَة

مُساهَمَتنا تَتَمَثَّل فِي تَقْدِيمِ القُدْرَةِ عَلَى تَحْدِيدِ كائِن لِيَتِمّ إِعادَةِ تَلْوِينه داخِلَ المَشْهَدُ فِي مَوْقِعِ مُحَدَّدٍ. تَمَّ تَصْمِيمِ الخَطِّ لِيَأْخُذ ثَلاثِ صُور مدخلات: مَنْظَر الخَلْفِيَّةِ، الصُورَةِ المُسْتَهْدَفَة، وَقِناع ثُنائِيٍّ يُمَثِّل المِنْطَقَةِ المُهْتَمّ بِها داخِلَ الصُورَةِ المُسْتَهْدَفَة. بِشَكْلٍ مَلْحُوظٍ، عَلَى عَكْسَ خَطِّ أَنابِيبِ إِعادَةِ الطِلاءِ الَّذِي يُعالَج المَشْهَدُ بِجانِبِ قِناع عَشْوائِيٍّ فَقَط، يُدْمَج نَهْجنا مَعْلُوماتٍ سياقيه لِإِعادَةِ تَلْوِينِ الهَدَفَ بِشَكْلٍ أَكْثَرَ فَعّالِيَّةِ. بِالإِضافَةِ إِلَى إِزالَةِ التَشْوِيشُ عَن المَشْهَدُ خِلالَ المُرُورِ الأَمامِيّ، يُطْبَق أُسْلُوبِنا أَيْضاً إِزالَةِ التَشْوِيشُ عَلَى الصُورَةِ المُسْتَهْدَفَة بِاِسْتِخْدامِ إِجْراءِ مُماثِلٍ. خِلالَ المُرُورِ الخَلْفِيِّ، يَتِمّ تَمْرِيرَ الصُورَةِ فِي الخَطْوَةِ الزَمَنِيَّةِ \(t\), \(x_t\), إِلَى نَمُوذَجَ الاِنْحِدارِ العَمِيقِ المَشْرُوطِ كَالمُعْتادِ. يَتِمّ وَصَفَ هٰذا فِي المُعادَلات 1-2، وَالَّتِي اِسْتَلْهَمَت مِن المُعادَلات 8a-c فِي (A2): \[\begin{aligned} x_{\text{scene}, t-1} &\sim \mathcal{N}\left( \sqrt{\bar{\alpha}_t} x_{\text{scene}, 0}, \left(1- \bar{\alpha}\right)I\right) \tag{1a} &\label{eq:1a} \\ x_{\text{target}, t-1} &\sim \mathcal{N}\left( \sqrt{\bar{\alpha}_t} x_{\text{target}, 0}, \left(1- \bar{\alpha}\right)I\right) \tag{1b} &\label{eq:1b}\\ x_{\text{repaint}, t-1} &\sim \text{DDPM}\left( x_t \right) \tag{2} &\label{eq:ddpm}\end{aligned}\] حَيْثُ \(\bar{\alpha}_t := \Pi_{i=1}^T (\beta_i)\).
بَيْنَما يَتِمّ اِسْتِخْراج المِنْطَقَةِ غَيْرِ المُقْنِعَةِ مِن المَشْهَدُ مِن المُرُورِ الأَمامِيّ المُقابِلِ، نَفْسِ الأَمْرُ كَما فِي إِعادَةِ الطِلاءِ، تُظْهِر مُشْكِلَةِ بارِزَةٌ فِي التَعامُلِ مَعَ الهَدَفَ المُقْنِع، حَيْثُ لَدَينا كُلِّ مِن الكائِنِ المَشُوش المُقْنِع مِن المُرُورِ الأَمامِيّ وَالكائِن المُقْنِع مِن نَمُوذَجَ الاِنْحِدارِ العَمِيقِ المَشْرُوطِ. هٰذا التَناقُضَ، الَّذِي نُسَمِّيه “تُعارِض القِناع”، يَنْشَأ مِن تَواجُد نُسْخَتَيْنِ مُقْنِعَتَيْنِ مِن الكائِنِ: واحِدَةٍ تَمَّ إِنْشاؤها خِلالَ المُرُورِ الأَمامِيّ وَالأُخْرَى بِواسِطَةِ نَمُوذَجَ الاِنْحِدارِ العَمِيقِ المَشْرُوطِ. لِحَلِّ هٰذا التَعارُض وَإِنْتاج الصُورَةِ فِي \(x_{t-1}\)، نَأْخُذ مَزِيجاً مُحَدَّبا مِن الصُورَتَيْنِ المُسْتَهْدَفَتَيْنِ المُقْنِعَتَيْنِ بِاِسْتِخْدامِ سِلْسِلَةٍ المُعامَلاتِ \(\lambda_t\)، وَصَفَت كَما يَلِي \[\begin{aligned} x_{t-1}^{\text{unknown}} &= \lambda x_{\text{repaint}, t-1} + \left(1-\lambda \right)x_{\text{target}, t-1} \label{eq:maskconflict} &\tag{3}\end{aligned}\]

أَخِيراً، لِتَحْقِيقِ صُورَتَنا \(x_{t-1}\) فِي المُرُورِ الخَلْفِيِّ، نَأْخُذ المَشْهَدُ مِن المُرُورِ الأَمامِيّ وَنَتِيجَةَ “تُعارِض القِناع” بِاِسْتِخْدامِ القِناع الثُنائِيِّ، \[\begin{aligned} x_{t-1} &= m \odot x_{\text{scene}, t-1} + \left(1-m \right) \odot x_{t-1}^{\text{unknown}} \label{eq:x_t-1} &\tag{4}\end{aligned}\] حَيْثُ \(m\) يُمَثِّل القِناع الثُنائِيِّ. يَتِمّ وَصَفَ هٰذِهِ العَمَلِيَّةِ بِأَكْمَلِها فِي الشَكْلِ [fig:corepipeline].

إِعادَةِ الأَخْذِ وَالقَفْزِ

فِي المَسارُ، كُلِّ خَطْوَةٍ تَنْقِيَةِ (عَكْسِيّه) هِيَ وَظِيفَةٍ تَعْتَمِد فَقَط عَلَى صُورَةِ المَشْهَدُ المَضْرُوبَة بِالضَوْضاء، وَصُورَةِ الهَدَفَ المَضْرُوبَة بِالضَوْضاء، وَالمَزِيج المَضْرُوب بِالضَوْضاء السابِقِ. خِلالَ الدَمْجِ الخَطِّيِّ لِحِسابِ مدخلات DDPM، يُوجَد اِحْتِمالِ أَنَّ يَكُون الحَدِّ الفاصِلِ بَيِّنَ مِنْطَقَةِ الهَدَفَ وَصُورَةِ المَشْهَدُ المَضْرُوبَة بِالضَوْضاء وَالمُقْنِعَة يَتَغَيَّر فَجاهَ وَبِشَكْلٍ غَيْرِ طَبِيعِيٍّ فِي اللَوْنِ. لاحَظَ مُؤَلِّفُو RePaint مُشْكِلَةِ مُماثِلَةٍ مَعَ الدَمْجِ السابِقِ المَضْرُوب بِالضَوْضاء وَالمَشْهَد المُقْنِع وَاِقْتَرَحُوا إِعادَةِ الأَخْذِ لِمُعالَجَةِ هٰذِهِ المُشْكِلَةِ. إِعادَةِ الأَخْذِ هِيَ حِيلَةٍ لِزِيادَةِ التَنَوُّعِ وَالنُعُومَة لِلصُورَةِ المُرَمِّمَة عَن طَرِيقِ تضويشها وَتَشْغِيلها مِن خِلالَ DDPM عِدَّةٍ مَرّاتٍ. هٰذا يَسْمَح لِ DDPM بِالتَنَبُّؤ بالبكسلات عَلَى كُلّاً جانِبَيْ حُدُودِ القِناع مِمّا يَزِيد مِن جُودَة هٰذِهِ المَناطِقِ (إِلَى جانِبِ الفائِدَةِ المُضافَةِ مِن زِيادَةِ تَبايُنٍ قِيَمِ البكسلات المُوَلِّدَة داخِلَ القِناع). عَلَى سَبِيلِ المِثالِ، أَوَّلاً، يَتِمّ تَمْرِيرَ الدَمْجِ الخَطِّيِّ لَمَشْهَد مَضْرُوب بِالضَوْضاء وَمُقْنِعٌ وَصُورَةِ مَوْلِده إِلَى DDPM. نَتِيجَةَ هٰذِهِ العَمَلِيَّةِ هِيَ مَزِيجٍ أَقَلَّ ضَوْضاء مَعَ حُدُودِ صادَمَهُ. يُضاف الضَوْضاء الغاوسيه إِلَى هٰذِهِ النَتِيجَةُ وَالَّتِي بُعْدَ ذٰلِكَ تُمَرِّر مَرَّةً أُخْرَى إِلَى DDPM. يَتَكَرَّر هٰذا الإِجْراءَ \(r\) مَرّاتٍ، بُعْدَ ذٰلِكَ يُصْبِح اِنْتِقالِ الحُدُودِ أَكْثَرَ سَلاسَة. نَظَراً لِأَنَّ تَشْغِيلِ DDPM يَسْتَغْرِق وَقْتاً وَيَتَطَلَّب مَوارِدِ حِسابِيَّةً كَبِيرَةٍ، يَقْتَرِح مُؤَلِّفُو RePaint مُعَلِّمَةُ جَدْوَلِ القَفْزِ \(j\) لِلتَحَكُّمِ فِي وَقْتٍ حُدُوثِ إِعادَةِ الأَخْذِ. كُلِّ \(j\) خَطَواتٍ زَمَنِيَّةٍ مِن العَمَلِيَّةِ العَكْسِيَّة، تَحَدَّثَ \(r\) خَطَواتٍ إِعادَةِ الأَخْذِ. عِنْدَما \(r \leq j\)، يَكُون وَقْتٍ التَشْغِيلِ وFLOPs لِلمَسار نَفْسِهِ كَما فِي المَسارُ الأَصْلِيُّ (\(r,j=1\)).

البَحْثِ الأُولَى عَن المُعَلِّماتُ الفائِقَةِ

كَما نوقش فِي القِسْمِ [subsec:CorePipeline]، يَتَحَكَّم \(\lambda_t\) فِي الجَمْع الشَكْلِيِّ لِلهَدَف المَرْسُومِ المُوَلِّدِ مَعَ الهَدَفَ الأَرْضِيّ المَضْرُوب بِالضَوْضاء فِي الخَطْوَةِ الزَمَنِيَّةِ \(t\). لاحَظَ أَنَّهُ مَعَ \(\lambda_t = 1\)، تَنْهار خُطُوطِنا إِلَى خُطُوطِ RePaint الأَصْلِيَّةِ حَيْثُ لَن يَكُون هُناكَ مُساهَمَةً مِن الهَدَفَ المَضْرُوب بِالضَوْضاء فِي صُور الخَطْوَةِ الأَمامِيَّةِ. مَعَ تَصْمِيمِ هٰذِهِ الخُطُوطِ، قُمْنا بِبَحْثِ أُولَى عَن المُعَلِّماتُ الفائِقَةِ عَبْرَ قِيَمِ مُخْتَلِفَةٍ لِ \(\lambda_t \in [0.8, 0.9, 0.993, 0.995, 0.999, 0.9999]\). بِالإِضافَةِ إِلَى ذٰلِكَ، لَمُتَغَيِّرات طُولِ القَفْزَة وَحَجْمُ القَفْزَة، جَرَّبْنا قِيَماً فِي النِطاقِ \([10, 20, 30, 40]\). وَأَخِيرا، لِعَدَدٍ الخَطَواتِ الزَمَنِيَّةِ، جَرَّبْنا قِيَماً فِي النِطاقِ \([50, 100, 150, 200, 250]\).

كَما كانَ مُتَوَقَّعاً، يَبْدُو نَتِيجَتنا أَكْثَرَ مِثْلَ الضَوْضاء العَشْوائِيَّةِ أَو تَأْخُذ شَكَّلا غَيْرِ قابِلٌ لِلتَفْسِير كَلْماً اِقْتَرَبَت قِيمَةَ لَأَمَدّا مِن واحِدٍ. وَمَعَ ذٰلِكَ، تُؤَدِّي قِيَمِ لَأَمَدّا الأَصْغَرِ إِلَى نَتِيجَةَ تَبْدُو كَما لَو أَنَّ الصُورَةِ المُسْتَهْدَفَة قَد تَمَّ قَصَّها بِبَساطَة وَلَصَّقَها فَوْقَ خَلْفِيَّةِ المَشْهَدُ. وَجَدْنا أَنَّ قِيَمِ لَأَمَدّا فِي نِطاقِ 0.92-0.97 كانَت الأَفْضَلِ فِي الحِفاظِ عَلَى مُحْتَوَى الصُورَةِ المُسْتَهْدَفَة دُونِ جَعَلَها تَبْدُو كَنُسَخه وَلَصَّقَ دَقِيقَةً. بِالإِضافَةِ إِلَى ذٰلِكَ، تَوَقَّعَنا أَنَّ نَرِي أَنَّهُ مَعَ زِيادَةِ مَعامِلِ الأَخْذِ العَيْنات (\(t\)) إِلَى قِيمَةَ كَبِيرَةٍ، يَكُون إِخْراجِ نَمُوذَجنا أَقَلَّ ضَبابِيّه/ضَوْضاء. هٰذا مَنْطِقِيٍّ لِأَنَّ هٰذا سَيَقْلِل مِن الوَزْنِ عَلَى صُور الهَدَفَ المَضْرُوب بِالضَوْضاء فِي خَطَواتٍ إِزالَةِ الضَوْضاء.

أَخِيراً، لاحَظْنا أَنَّ زِيادَةِ مُعَلِّمات القَفْزِ وَطُول القَفْزَة سَمَحَت بِإِخْراجات عالِيَةٍ الجُودَةِ بِشَكْلٍ عامَ. هٰذا مَنْطِقِيٍّ لِأَنَّ الغَرَضِ الكامِلِ مِن القَفْزِ هُوَ السَماحِ لِلنَمُوذَج بِتَوْلِيد إِخْراجِ يَأْخُذ فِي الاِعْتِبارِ سِياقِ المَشْهَدُ المُحِيطِ قَدْرَ الإِمْكانِ عِنْدَما يَقُوم نَمُوذَجَ النُقْطَةِ الدِينامِيكِيَّة المُنْتَشِرَةِ بِتَوْلِيد الإِخْراج. بِاِخْتِصار، قُمْنا بِبَحْثِ شَبَكِيّ قِياسِيٌّ عَلَى نطاقات كُلِّ هٰذِهِ المُعَلِّماتُ وَحَدَّدْنا مَجْمُوعَةِ القِيَمِ المُثْلَى لِتَكُون 40 لِكُلِّ مِن طُولِ القَفْزَة وَحَجْمُ القَفْزَة، 200 لِلخَطَوات الزَمَنِيَّةِ، و0.993 لِ \(\lambda_t\).

خِلالَ تَجارِبنا، حَدَّدْنا طَرِيقَتَيْنِ قابِلَتَيْنِ لِلتَطْبِيقِ لَتَعْرِيف قِناع الهَدَفَ. تَضَمَّنَت الطَرِيقَةِ الأُولَى إِنْشاءِ قِصاصه دَقِيقَةً لِلهَدَف، مِمّا سَمَحَ لِلنَمُوذَج بِتَوْلِيد صُورَةِ أَكْثَرَ تَفْصِيلاً. وَمَعَ ذٰلِكَ، غالِباً ما أَدَّت هٰذِهِ الطَرِيقَةِ إِلَى اِنْتِقالِ غَيْرِ طَبِيعِيٍّ المَظْهَرُ مِن المَشْهَدُ إِلَى الهَدَفَ، حَيْثُ يَبْدُو كَما لَو أَنَّ الهَدَفَ قَد تَمَّ لَصَّقَهُ بِبَساطَة عَلَى الصُورَةِ. بَدَلاً مِن ذٰلِكَ، اِسْتَكْشَفَنا نَهْجاً أَكْثَرَ تَساهُلا مِن خِلالَ تَضْمِينِ مَعْلُوماتٍ إِضافِيَّةً حَوْلَ الهَدَفَ فِي القِناع. بَيْنَما أَدَّى هٰذا إِلَى اِنْتِقالِ أَكْثَرَ طَبِيعِيَّةٍ بَيِّنَ المَشْهَدُ وَالهَدَفُ، كانَت الصُورَةِ الناتِجَةِ لِلهَدَف تَمِيل إِلَى أَنَّ تَكُون أَقَلَّ تَفْصِيلاً وَنَعُومه. كانَت مُشْكِلَةِ أُخْرَى مَعَ هٰذا النَهْجِ هِيَ الاِعْتِمادِ عَلَى كَوْنَ الصُورَةِ المُسْتَهْدَفَة فِي بِيئَةُ مُماثِلَةٍ لِلمَشْهَدِ. عَلَى سَبِيلِ المِثالِ، إِذا كانَ الهَدَفَ كَلْبا يَقِف عَلَى الحَصَى وَكانَ المَشْهَدُ حَقْلا مِن العُشْب، فَلَن يَكُون مِن المَنْطِقِيِّ إِعْطاءِ النَمُوذَجِ حُدُودِ الحَصَى المُلَوَّنَةِ بِالرَمادِيّ لَتَضْمِينها فِي الصُورَةِ النِهائِيَّةِ. لِمُعالَجَةِ ذٰلِكَ، بَحَثْنا فِي تَعْدِيلاتٍ بَدِيلَةٍ عَلَى نَهْجٍ القِناع الدَقِيقِ، كَما هُوَ مُوَضِّح فِي القِسْمِ [subsec:MaskAlt].

التَجارِبِ

عَلَى الرَغْمِ مِن أَنَّ نَتائِجنا الأَوَّلِيَّةِ لَم تَبْدُو كَأَنَّها نُسَخ مُطابَقَة تَماماً، إِلّا أَنَّنا كُنّا ما زِلْنا مُحْبِطَيْنِ بِسَبَبِ قِلَّةٌ التَفاعُل الَّذِي كانَ يَحْدُث بَيِّنَ الهَدَفَ وَالمَشْهَد الخَلْفِيِّ. يَنْبَغِي لِلهَدَف المُرَمِّم بِشَكْلٍ مِثالِيٌّ أَنَّ يَتَفاعَل مَعَ عَناصِرِ المَشْهَدُ الخَلْفِيِّ عَلَى الأَقَلِّ إِلَى حَدٍّ ما. عَلَى سَبِيلِ المِثالِ، فِي حالَةِ الكَلْب فِي المَيْدانِ، نَوَدّ أَنَّ نَرِي مَخالِب الكَلْب وَذَيَّلَهُ مُخْتَفَيَيْنِ خَلْفَ شَفَرات العُشْب. وَمَعَ ذٰلِكَ، فَإِنَّ خَطِّ أَنابِيبنا الأَساسِيُّ لا يُمْكِنه حالِيّاً تَحْقِيقِ ذٰلِكَ. نَقْتَرِح عِدَّةٍ تَعْدِيلاتٍ عَلَى خَطِّ أَنابِيبنا الأَصْلِيُّ لِمُواجَهَةِ هٰذِهِ المُشْكِلَةِ.

بَدائِلِ التقنيع

كانَت أَكْبَرَ مُشْكِلَةِ وَجَدْناها مِن نَتائِجنا هِيَ الحُدُودِ غَيْرِ الطَبِيعِيَّةِ فِي صُوَرنا غَيْرِ المُلَوَّنَةِ. حالِيّاً، مَعَ قِناع ثُنائِيٍّ دَقِيقٍ، لَم تَكُن العَمَلِيَّةِ تَمْتَلِك سِياقاً حَوْلَ مَدَى “قُرْبَ” بِكَسَل ما مِن الحَدِّ. وَعَلَيهِ، لِتَوْفِيرِ سِياقِ وَمُرُونَة أَكْبَرَ لِ DDPM فِي خَطَأ الحَدِّ، قَرَّرْنا اِسْتِكْشافٍ بِعَضِّ طُرُقٍ التقنيع البَدِيلَةِ.

قِناع “المسخن” المَبْنِيَّ عَلَى المَسافَةِ

لِتَعْزِيزِ واقِعِيَّةٍ الحُدُودِ مَعَ الحِفاظِ عَلَى صُورَةِ الهَدَفَ الأَساسِيَّةِ، قُمْنا بِتَعْدِيلِ المُرُورِ الخَلْفِيِّ لِاِسْتِخْدامِ مَخْزَنٍ “مَسَخْنَ”. بَدَلاً مِن اِسْتِخْدامِ مَخْزَنٍ ثُنائِيٍّ حَيْثُ كُنّا نَأْخُذ قِيمَةَ كُلِّ بِكَسَل مِن الهَدَفَ، كانَت قِيَمِ القِناع بَيِّنَ 0 وَ 1. مَعَ هٰذا القِناع المسخن، حافَظْنا عَلَى مُرُورِ الهَدَفَ الأَمامِيّ للبكسلات الَّتِي كانَت بَعِيدَةً عَن الحُدُودِ (مُمَثَّلَةً بِقِيَمِ أَقْرَبِ إِلَى 1) وَسَمَحَنا لَنَمُوذَج DDPM بِالحُرِّيَّةِ وَالمُرُونَة لَتَوْلِيد حُدُودِ طَبِيعِيَّةٍ المَظْهَرُ لبكسلات صُورَةِ الهَدَفَ القَرِيبَةِ مِن الحُدُودِ.

لِبَعْضِ العَدَدَ الصَحِيحِ \(b\)، حَجْمِ المَخْزَن، القِناع المسخن هُوَ دالَّةٍ لِلقِناع. \[\begin{aligned} m_{i,j}^{\text{HEATED}} = \max{\frac{d_{i,j}}{b}, 1} \label{eq:heated} &\tag{5}\end{aligned}\] حَيْثُ \(d_{i,j}\) هِيَ المَسافَةِ Manhattan مِن الاحداثي \((i,j)\) إِلَى أَقْرَبِ بِكَسَل أَسُود (0) فِي القِناع الثُنائِيِّ.

مَخْزَنٍ المَشْهَدُ

ثانِياً، لِتَحْسِينِ واقِعِيَّةٍ الحُدُودِ بِشَكْلٍ أَكْبَرَ، قُمْنا بِتَطْبِيقِ تَقْنِيَّةٍ “مَخْزَنٍ المَشْهَدُ” مِن خِلالَ إِضافَةً حَدٍّ بِعَرْضِ 4 بِكَسَل حَوْلَ قِناع الهَدَفَ أَثْناءَ الدَمْجِ الخَطِّيِّ. هُنا، يَتِمّ اِسْتِخْدامِ قِصاصه دَقِيقَةً لِلقِناع، وَأَثْناء المُرُورِ العَكْسِيّ، يَتِمّ حِسابِ الدَمْجِ الخَطِّيِّ لِحَلِّ تُعارِض القِناع كَما وَصَفَ سابِقاً فِي [eq:maskconflict]. الفِرَقِ الرَئِيسِيُّ يَكْمُن فِي دَمْجِ حَدٍّ صَغِيرٍ حَوْلَ الهَدَفَ مِن ناتِجٌ DDPM فِي الخَطْوَةِ العَكْسِيَّة التالِيَةِ، بَدَلاً مِن آخُذه مِن مَشْهَدٍ المُرُورِ الأَمامِيّ. لاحَظَ أَنَّهُ بِالنِسْبَةِ لِبَقِيَّةِ المَشْهَدُ خارِجَ الحَدِّ الصَغِيرِ، نَأْخُذ المُرُورِ الأَمامِيّ مِن الخَطْوَةِ الزَمَنِيَّةِ المُقابَلَةِ لِلمَشْهَدِ كَما هُوَ مُعْتاد. هٰذا التَعْدِيلِ يُزِيل الاِعْتِمادِ عَلَى أَنَّ تَكُون الصُورَةِ الهَدَفَ فِي نَفْسِ البِيئَةِ كَالمَشْهَد، مَعَ السَماحِ لا زالَ لِلنَمُوذَج بِإِنْشاءِ اِنْتِقالِ طَبِيعِيٍّ المَظْهَرُ عِنْدَ الحَدِّ عِنْدَ اِسْتِخْدامِ قِصاصه دَقِيقَةً. يَتِمّ شَرْحِ هٰذِهِ العَمَلِيَّةِ فِي المُعادَلات التالِيَةِ، \[\begin{aligned} m_\text{ring} &= m_\text{ext} - m \tag{6} \\ x^\text{unknown, buf}_{t-1} &= (cx_{\text{repaint},t-1} + (1-c)x_{\text{target},t-1}) \tag{7} \\ x_{\text{scene, buf},t-1} &= m_{\text{ext}} \odot x_{\text{scene},t-1} + m_\text{ring} \odot x^\text{unknown}_{t-1} \tag{8} \\ x_{t-1}&= m \odot x_{\text{scene, buf}, t-1} (1 - m) \odot x^\text{unknown, buf}_{t-1} \tag{9}\end{aligned}\] حَيْثُ يُمَثِّل \(m_\text{ext}\) القِناع المُمْتَدِّ وَ\(c\) هُوَ ثابِتٌ جَدِيدٍ لِيَحِلّ مَحَلَّ \(\lambda\)، الَّذِي لا يَزال يَسْتَخْدِم بِواسِطَةِ \(x^\text{unknown}_{t-1}\) مِن [eq:x_t-1] لِمِنْطَقَةِ الحَدِّ/الحَلْقَةِ.

جَدْوَلَةِ \(\lambda\) لِزِيادَةِ التَكامُلِ مَعَ RePaint

بِالإِضافَةِ إِلَى ذٰلِكَ، قُمْنا بِدِراسَةِ زِيادَةِ التَكامُلِ مَعَ نَمُوذَجَ RePaint لِمُعالَجَةِ مَشاكِلَ نَقْصِ التَفاصِيلِ الدَقِيقَةِ وَإِنْتاج صُور سَلِسَةِ مَعَ أَقْنَعَهُ دَقِيقَةً أَو حُدُودِ صادَمَهُ. يَتَضَمَّن ذٰلِكَ الاِعْتِمادِ بِشَكْلٍ أَقَلَّ عَلَى الهَدَفَ المُضْطَرِب مِن المُرُورِ الأَمامِيّ وَأَكْثَرُ عَلَى جِيلٍ DDPM السابِقِ. عَلَى وَجْهِ التَحْدِيدِ، لِلخَطَوات الزَمَنِيَّةِ \(t\) الأَقْرَبُ إِلَى 0 فِي [eq:maskconflict]، نَضْبُط \(\lambda_t=1\) بِحَيْثُ يُمْكِن لِلمَسار اِسْتِنْتاجِ وَإِنْشاءِ حُدُودِ طَبِيعِيَّةٍ أَكْثَرَ حَوْلَ الجُزْء المُسْتَهْدَفِ المُرَمِّم لِبَقِيَّةِ الخَطَواتِ الزَمَنِيَّةِ. مَعَ الاِحْتِفاظِ بِنَفْسِ هَيْكَلِ الإِدْخال (المَنْظَر الطَبِيعِيِّ، الهَدَفَ، قِناع الهَدَفَ)، قُمْنا بِتَعْدِيلِ المُرُورِ الخَلْفِيِّ لِلاِنْتِقالِ إِلَى نَمُوذَجَ RePaint مِن خِلالَ جَدْوَلَةِ \(\lambda_t\) لِتَكُون تُقاطِع خُطَى [fig:lambdaSched] مِن 0 إِلَى 1 لِلخَطَوات الزَمَنِيَّةِ \(T\) إِلَى \(pT\)، بِحَيْثُ \(p \in\left[0,1\right]\) و1 لِجَمِيعِ \(t<pT\).

اِسْتِناداً إِلَى نَتائِجنا مِن القِسْمِ [subsec:keyHparams] (خاصَّةٍ مُلاحَظَةُ [fig:images])، قُمْنا بِتَعْيِينِ المُعَلِّماتُ الفائِقَةِ \(r,j=40\)، وَتَقْلِيل \(T\) إِلَى \(100\)، فَقَط لَتَوْلِيد عَيِّناتٍ بِشَكْلٍ أَسْرَعِ لِلتَجْرِبَة وَإِجْراءِ بَحَثَ شَبَكِيّ لِ \(p \in { 0.1, 0.25, 0.5, 0.75, 0.9 }\).

وَجَدْنا أَنَّهُ مَعَ زِيادَةِ \(p\)، تُصْبِح الصُورَةِ المُرَمِّمَة أَقَلَّ وَفاءِ لِلهَدَف وَأَكْثَرُ ضَبابِيّه. وَذٰلِكَ لِأَنَّ قِيمَةَ \(p\) العالِيَةِ تَعْنِي أَنَّ المَسارُ يَقُوم بِإِزالَةِ الضَوْضاء دُونِ أَيّ مُساهَمَةً مُباشَرَةً مِن صُورَةِ الهَدَفَ لَخَطَوات إِزالَةِ الضَوْضاء \(pT\). لِهٰذِهِ خَطَواتٍ إِزالَةِ الضَوْضاء، يَكُون المَسارُ مُكافِئا لِ RePaint، لُذّاً سَتَكُون الصُوَرِ المُوَلِّدَة ذاتِ تَبايُنٍ عالِي كَما هُوَ مُلاحِظ فِي الاِنْتِشارِ المُوَجَّهِ (dhariwal2021diffusion) وَ RePaint (A2).

حَدَّدْنا أَفْضَلَ قِيمَةَ لِلمُعَلِّمَة الفائِقَةِ \(p\) عَلَى أَنَّها \(0.5\) لِمُهِمَّةِ إِعادَةِ الرَسْمُ. يَسْمَح هٰذا الإِعْدادُ بِأَنَّ تَكُون الصُورَةِ المُرَمِّمَة مُشابِهَةٍ لِصُورَةِ الهَدَفَ مَعَ السَماحِ لِلمَسار بِمِلْءِ الحُدُودِ الخارِجِيَّةِ لِمَوْضُوعِ الهَدَفَ بِسَلاسَةٍ. بِالإِضافَةِ إِلَى ذٰلِكَ، تَسْمَح هٰذِهِ القِيمَةِ لِلمَسار بِالاِحْتِفاظ بِالمَعْنَى الدَلالِيّ مِن صُورَةِ الهَدَفَ أَثْناءَ إِعادَةِ الرَسْمُ لَإِضافات جَدِيدَةٍ وَمُتَّسِقه دَلالِيّا (مِثْلَ القَوْسِ المُضاف إِلَى الكَلْب فِي [fig:pExpImgc] وَالعُشْب الَّذِي يَتَفاعَل مَعَ مَخالِبه)

أَوْضاعِ الفَشَلِ

كَما وَصَفَ سابِقاً، هُناكَ تَبايُنٍ كَبِيرٍ فِي الصُورَةِ المُعاد تَكْوِينها النِهائِيَّةِ عِنْدَ التَشْغِيلِ بِقِيمَةِ \(p > \textnormal{0.5}\). الحالَةِ عِنْدَما \(p=\textnormal{0.5}\) مُثِيرَةٍ لِلاِهْتِمامِ بِشَكْلٍ خاصٍّ لِأَنَّ الكَثِيرَ مِن المَعْلُوماتِ الدَلالِيَّة لِلصُورَةِ المُسْتَهْدَفَة يَتِمّ الاِحْتِفاظِ بِها وَلٰكِن العَدَدَ الكَبِيرِ مِن مَراحِلِ إِزالَةِ التَشْوِيشُ مِن خِلالَ نَمُوذَجَ التَنْقِيح العَمِيقِ فِي هٰذا السِينارِيو يَجْعَل الأَجْيالِ مُبْدِعَةٌ.

لِتَشْغِيلِ بِقِيَمِ \(T=\textnormal{100}, r,j=\textnormal{40},\) وَ \(p=\textnormal{0.5}\)، صُورَةِ زَرافَة مُسْتَهْدَفَةٌ وَمَشْهَد سُهُول (الصُورَةِ الوَسَطِيّ اليُمْنَى فِي الشَكْلِ)، الصُورَةِ الناتِجَةِ تُحافِظ عَلَى شَكْلٍ وَلَوْن الزَرافَة بِسَبَبِ التَمْوِيهَ \(\forall t\) خَطَواتٍ إِزالَةِ التَشْوِيشُ وَلٰكِن المُحْتَوَى داخِلَ القِناع يُشْبِه زَرافَة-فلامنغو كَما لَو أَنَّها جاءَت مِن مَشْهَدٍ غابَةِ تروفولا مِن قِصَّةُ دُكْتُور سَوِسَ ذا لوراكس. بُعْدَ إِعادَةِ التَشْغِيلِ بِهٰذِهِ المُعَلِّماتُ الفائِقَةِ عِدَّةٍ مَرّاتٍ، لَم نَتَمَكَّن مِن إِنْتاجِ نَتِيجَةَ تَخْتَلِف كَثِيراً عَن الزَرافَة. لِلتَخْفِيفِ مِن هٰذا الوَضْعِ الفاشِلِ فِي بِيئَةُ الإِنْتاجِ، نُوصَى بِإِنْتاجِ صُورَتَيْنِ مُرَشَّحَتَيْنِ عَلَى الأَقَلِّ لِكُلِّ مَشْهَدٍ وَهَدَفَ.

وَضْعِ فَشَلِ آخَرِ عِنْدَما \(p>\textnormal{0.5}\) هُوَ أَنَّ هٰذا الإِعْدادُ يَكْشِف عَن تَحَيُّزات بَياناتٍ تَدْرِيبِ نَمُوذَجَ التَنْقِيح العَمِيقِ. كَما يُلاحِظ مُؤَلِّفُو إِعادَةِ الرَسْمُ، فَإِنَّ نَمُوذَجَ التَنْقِيح العَمِيقِ المُدَرِّبِ عَلَى ImageNet، كَما هُوَ الحالِ فِي النَمُوذَجِ المُسْتَخْدِمُ لَتَوْلِيد جَمِيعِ الصُوَرِ فِي هٰذا التَقْرِيرُ، سَيَكُون مُتَحَيِّزا نَحْوَ إِزالَةِ التَشْوِيشُ لِلكِلاب (A2). للتكرارات \(t\) مِن خُطُوطِ إِنْتاجنا بِحَيْثُ \(\forall \tau < t, \lambda_\tau = \textnormal{1}\)، فَإِنَّ طَبِيعَةِ العَمَلِيَّةِ التِلْقائِيَّة لِعَمَلِيَّةِ إِزالَةِ التَشْوِيشُ تَعْنِي أَنَّ جَمِيعِ الخَطَواتِ المُسْتَقْبَلِيَّةِ فِي عَمَلِيَّةِ إِزالَةِ التَشْوِيشُ مُتَحَيِّزه نَحْوَ الصُوَرِ ذاتِ الاِحْتِمالِيَّة العالِيَةِ فِي مَجْمُوعَةِ بَياناتٍ نَمُوذَجَ التَنْقِيح العَمِيقِ.

لِمُعالَجَةِ هٰذا الوَضْعِ الفاشِلِ، نُوصَى بِاِسْتِخْدامِ نَمُوذَجَ مِثْلَ ResNet (he2015deep) لِتَحْدِيدِ فِئَةٌ الصُورَةِ المُسْتَهْدَفَة وَاِسْتِخْدامِ نَمُوذَجَ التَنْقِيح العَمِيقِ المُدَرِّبِ عَلَى مَجْمُوعَةِ بَياناتٍ حَيْثُ لا تَكُون فِئَةٌ تِلْكَ الصُورَةِ مُمَثَّلَةً بِشَكْلٍ ضَعِيفِ.

الأَنابِيبِ النِهائِيَّةِ

يُقَدِّم المُؤَلِّفُونَ مِلْءِ الفراغات، وَهُوَ أُنْبُوبٍ إِعادَةِ تَكْوِينِ قائِمٌ عَلَى الاِنْتِشارِ يُدْمَج الصُوَرِ المُسْتَهْدَفَة فِي المَشاهِدِ بِسَلاسَةٍ. اِسْتِناداً إِلَى التَحْلِيلاتِ الحالِيَّةِ، يُوصَى المُؤَلِّفُونَ بِالمُعَلِّمات التالِيَةِ: خَطَواتٍ الاِنْتِشارِ \(T=\textnormal{200}\)، خَطَواتٍ القَفْزِ \(j=\textnormal{40}\)، خَطَواتٍ إِعادَةِ الأَخْذِ \(r=\textnormal{40}\)، وَجَدْوَلِ \(\lambda\) الخَطِّيِّ المُكَوَّنِ مِن قَطْعِ مَعَ \(p=\textnormal{0.5}\) (أَيّ، \(\lambda_t = \textnormal{1}\) إِذا كانَ \(t \leq \textnormal{0.5}T\) وَالتَكامُلِ الخَطِّيِّ مِن \((pT, \textnormal{1.0})\) إِلَى \((T, \textnormal{0})\) فِي مَكانٍ آخَرِ.

الخُلاصَةِ وَالشُكْر

الخَطَواتِ اللاحِقَةِ

مَعَ التَقَدُّمِ، هُناكَ عِدَّةٍ مَساراتٍ لِمَزِيدٍ مِن الاِسْتِكْشافِ وَالتَحْسِينِ فِي بَحَثْنا. أَوَّلاً، يُمْكِننا الغَوْصُ بِعُمْقِ أَكْبَرَ فِي تَعْدِيلاتٍ القِناع، كَما وَصَفَ فِي القِسْمِ [subsec:MaskAlt]. غالِبِيَّةَ تَجارِبنا كانَت مَعَ أَقْنَعَهُ ثُنائِيَّةٍ القِيمَةِ مَصْنُوعَةٌ يَدَوِيّاً، وَلٰكِن اِسْتِكْشافٍ تَقْنِيّاتِ التقنيع البَدِيلَةِ مِثْلَ التَقْنِيّاتِ المَبْنِيَّةُ عَلَى التَدَرُّج أَو الأَقْنِعَة المخزنه قَد يَسْمَح لِلنَمُوذَج بِإِنْتاجِ إِعادَةِ تَلْوِينِ تَبْدُو أَكْثَرَ واقِعِيَّةٍ مَعَ الحِفاظِ عَلَى تَفاصِيلَ الهَدَفَ الأَصْلِيُّ. عِلاوَةً عَلَى ذٰلِكَ، فَإِنَّ تَقْدِيمِ جَدْوَلَةِ لامبدا فِي القِسْمِ [subsec:lambda] قَد حَسَن أَداءِ خَطِّ أَنابِيبنا الأَساسِيُّ، وَلٰكِن إِضافَةً جَدْوَلَةِ لامبدا أَكْثَرَ دِينامِيكِيَّةٌ قَد تُعَزِّز أَكْثَرَ مِن قُدْرَةِ الخَطِّ عَلَى التَكَيُّفِ وَالتَنَوُّعِ. هٰذا النَهْجِ الدِينامِيكِيّ سَيَتَضَمَّن تَعْدِيلِ قِيَمِ لامبدا بِناءَ عَلَى خَصائِصِ أَزْواج المَشْهَدُ وَالهَدَفُ المُخْتَلِفَةِ، وَبِالتالِي تَحْسِينِ عَمَلِيَّةِ إِعادَةِ التَلْوِين لِكُلِّ سِينارِيو مُحَدَّدٍ.

بِالإِضافَةِ إِلَى اِسْتِكْشافٍ تَعْدِيلاتٍ القِناع وَتَنْقِيح جَدْوَلَةِ لامبدا، فَإِنَّ تَوْسِيعِ اِخْتِباراتنا لِتَشْمَل مَجْمُوعَةِ أَوْسَعِ مِن الصُوَرِ سَيَكُون تَحْسِينا كَبِيراً. حالِيّاً، يُشَكِّل الإِنْشاء اليَدَوِيِّ لَقِناع الهَدَفَ تَحَدِّياتٍ فِي قابِلِيَّةِ التَوَسُّعِ. قَد تَكُون الحُلُولِ المُمْكِنَةِ اِسْتِخْدامِ تَقْنِيّاتِ التَجْزِئَةِ الَّتِي مِن شَأْنِها أَنَّ تؤتمت إِنْشاءِ القِناع، مِمّا يُسَهِّل الإِنْشاء وَالاِخْتِبار الفَعّالَ عَلَى مَجْمُوعَةِ بَياناتٍ أَكْبَرَ. مَعَ مَجْمُوعَةِ بَياناتٍ أَكْبَرَ، سَيَكُون مِن الأَسْهَل تَحْلِيلِ مَجْمُوعَةِ مُتَنَوِّعَةٍ مِن أَزْواج المَشْهَدُ وَالهَدَفُ، مِمّا يُؤَدِّي إِلَى مُعَلِّمات تَحْكُم مِثالِيَّةٍ تُعَمِّم جَيِّداً عَبْرَ سِينارِيُوهاتٍ مُخْتَلِفَةٍ.

أَخِيراً، يَهْدِف بَحَثْنا إِلَى تَحْقِيقِ خَطِّ أَنابِيبِ آلِيٌّ بِالكامِلِ لِإِعادَةِ التَلْوِين. سَيَتَطَلَّب هٰذا النِظامِ الحَدِّ الأَدْنَى مِن مدخلات المُسْتَخْدِمُ، وَيَتَكَوَّن بِشَكْلٍ رَئِيسِيٍّ مِن تَوْفِيرِ صُور المَشْهَدُ وَالهَدَفُ وَاِخْتِيارَ المِنْطَقَةِ المُعاد تَلْوِينِها مَعَ أَتَمَّتْهُ مَوْضِعَ الهَدَفَ وَإِنْشاءِ القِناع وَاِخْتِيارَ مُعَلِّمات التَحَكُّمِ.

الخُلاصَةِ

فِي هٰذِهِ الدِراسَةُ، هَدَفَنا إِلَى تَحْسِينِ تَقْنِيّاتِ إِعادَةِ تَرْمِيمِ الصُوَرِ مِن خِلالَ تَعْزِيزِ السَيْطَرَةِ عَلَى ما يَتِمّ تَوْلِيده بِالضَبْطِ. بِشَكْلٍ خاصٍّ، حَدَّدْنا أَنَّ الطُرُقِ الحالِيَّةِ لَم تَسْمَح لِلنَمُوذَج بِأَنَّ يَسْتَنِد فِي نَتائِجُهُ المُرَمِّمَة إِلَى صُورَةِ لِجِسْمِ هَدَفَ بَدَلاً مِن التَوْجِيهِ النصي أَو طُرُقٍ أُخْرَى لِتَحْدِيدِ الجِسْمِ المُراد تَرْمِيمه. مِن خِلالَ الاِسْتِفادَةِ مِن التَقَدُّمِ الأَخِيرِ فِي الذَكاء الاِصْطِناعِيِّ التوليدي ومنهجيات التَرْمِيم، رَكَّزْنا عَلَى نَهْجٍ قائِمٌ عَلَى الاِنْتِشارِ حَيْثُ قُمْنا بِتَعْدِيلِ المدخلات المُقَدَّمَةِ إِلَى نَمُوذَجَ الاِنْتِشارِ فِي خَطَواتٍ إِزالَةِ التَشْوِيشُ لِإِطْعامِهِ سِياقِ صُورَةِ الهَدَفَ. مِن خِلالَ بِعَضِّ التَعْدِيلاتِ وَالتَحْسِينات، سَعَيْنا لِلتَخْفِيفِ مِن التَحَدِّياتِ مِثْلَ تَعارُضات القِناع وَواقِعِيَّةٍ الحُدُودِ، مُحَقِّقِينَ بِعَضِّ النَتائِجِ المُثِيرَةِ لِلاِهْتِمامِ فِي جُودَة وَطَبِيعِيّه الصُوَرِ المُرَمِّمَة مَعَ أَجْسام الهَدَفَ. قَدَّمَت تَجارِبنا رُؤَى قِيمَةَ حَوْلَ فَعّالِيَّةِ نَهْجنا وَأَهَمِّيَّةَ مُخْتَلِفِ المُعَلِّماتُ الفائِقَةِ. بِشَكْلٍ عامَ، يُمَثِّل مَشْرُوعَنا خَطْوَةٍ مُتَواضِعَةٍ لٰكِنَّها ذاتِ مَعْنَى إِلَى الأَمامِ فِي مَجالِ تَرْمِيمِ الصُوَرِ.

الشُكْرِ وَالتَقْدِيرِ

نَوَدّ أَنَّ نَتَقَدَّم بِالشُكْر الجَزِيل لَطاقِم مادَّةِ CSE 493G عَلَى المُحْتَوَى التَعْلِيمِيِّ المُمْتازِ وَالإِرْشاد الَّذِي مَكَّنَنا مِن إِتْمامِ هٰذا المَشْرُوعِ. كَما نَعْرِب عَن تَقْدِيرِنا لَوَرَقه RePaint وَمُؤَلِّفَيْها، الَّتِي كانَت مَصْدَرٌ الهامّ كَبِيرٍ لَوَرَقَتنا.