تَحْسِينِ كَشَفَ التَزْيِيفِ العَمِيقِ بِاِسْتِخْدامِ الدَمْجِ السَمْعِيُّ البَصْرِيّ وَإِسْتراتِيجِيّات التوزين الدِينامِيكِيّ

Rui Wang, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng

latex

مُلَخَّصُ

مَعَ التَحْسِيناتِ المُسْتَمِرَّةِ لِطُرُقِ التَزْيِيفِ العَمِيقِ، تَحَوَّلَت الرَسائِلِ المُزَوَّرَةِ مِن أُحادِيَّةُ الوَسائِط إِلَى دَمْجِ مُتَعَدِّدِ الوَسائِط، مِمّا يُطْرَح تَحَدِّياتٍ جَدِيدَةٍ لخوارزميات كَشَفَ التَزْيِيفِ الحالِيَّةِ. فِي هٰذِهِ الوَرَقَةَ، نَقْتَرِح AVT\(^2\)-DWF، الدَمْجِ السَمْعِيُّ البَصْرِيّ المُزْدَوِجِ المُعْتَمَدُ عَلَى التوزين الدِينامِيكِيّ، وَالَّذِي يَهْدِف إِلَى تَضْخِيم كُلِّ مِن الإِشاراتِ المُزَوَّرَةِ داخِلَ وَعَبَّرَ الوَسائِط، مِمّا يُعَزِّز قُدْراتٍ الكَشْفِ. يَعْتَمِد AVT\(^2\)-DWF عَلَى نَهْجٍ ثُنائِيٍّ المَراحِلِ لَاِلْتِقاط كُلِّ مِن الخَصائِص المَكانِيَّة وَالدِينامِيكِيّات الزَمَنِيَّةِ لَتَعْبِيرات الوَجْهِ. يَتِمّ تَحْقِيقِ ذٰلِكَ مِن خِلالَ مُحَوِّلِ الوَجْهِ مَعَ مِشْفَر إِسْتراتِيجِيَّةِ توكينه إِطارَيْهِ \(n\) وَمِشْفَر مُحَوِّلِ سَمْعِيٍّ. بُعْدَ ذٰلِكَ، يَسْتَخْدِم التَحْوِيلِ مُتَعَدِّدِ الوَسائِط مَعَ التوزين الدِينامِيكِيّ لِمُعالَجَةِ تَحَدِّي دَمْجِ المَعْلُوماتِ المُتَجانِسَة بَيِّنَ الوَسائِط السَمْعِيَّةِ وَالبَصَرِيَّة. تُشِير التَجارِبِ عَلَى مَجْمُوعاتٍ بَياناتٍ DeepfakeTIMIT، FakeAVCeleb، وDFDC إِلَى أَنَّ AVT\(^2\)-DWF يُحَقِّق أَداءِ رائِداً فِي كَشَفَ التَزْيِيفِ العَمِيقِ داخِلَ وَعَبَّرَ مَجْمُوعاتٍ البَياناتِ. الكود مُتاحٌ فِي https://github.com/raining-dev/AVT2-DWF.

مُقَدِّمَةِ

مَعَ التَقَدُّمِ المُسْتَمِرِّ فِي تِكْنُولُوجِيا إِنْتاجِ المُحْتَوَى بِواسِطَةِ الذَكاء الاِصْطِناعِيِّ، لَم يَعُد وَضْعِ الإِنْتاجِ مُقْتَصِرا عَلَى وَسِيطِ واحِدٍ. مُؤَخَّراً، تَمَّ اِسْتِخْدامِ أَداةٌ “HeyGen” لِإِنْتاجِ فِيدْيُو يُظْهِر فِيهِ المُغَنِّيَةُ تايْلُور سويفت وَهِيَ تَتَحَدَّث الصِينِيَّةِ، بِاِسْتِخْدامِ حَرَكاتِ شِفاه وَصَوَّتَ مُزَيَّفَيْنِ. تُشَكِّل هٰذِهِ الأَعْمالِ المُعَقَّدَةِ وَالمُتَنَوِّعَة تَحَدِّياتٍ كَبِيرَةٍ لِلكَشْفِ عَنها. لِذٰلِكَ، هُناكَ حاجَةٍ مُلِحَّةً لِطُرُقِ مُتَقَدِّمَةٍ لِلكَشْفِ عَن هٰذِهِ الفِيدْيُوهات العَمِيقَةِ المُتَطَوِّرَةِ.

الطُرُقِ السابِقَةِ (verdoliva2020media, rossler2019faceforensics++) رَكَّزَت بِشَكْلٍ أَساسِيٌّ عَلَى الكَشْفِ ضِمْنَ وَسِيطِ واحِدٍ، بِاِسْتِخْدامِ تَقْنِيّاتِ التَلاعُبِ بِالوَجْهِ المَعْرُوفَةِ لِلتَعَرُّفِ عَلَى الآثارِ البَصَرِيَّةِ وَالتَنَبُّؤ بِها. وَمَعَ ذٰلِكَ، كانَ أَداؤها عَبْرَ مَجْمُوعاتٍ البَياناتِ ضَعِيفاً. حاوَلَت بِعَضِّ الطُرُقِ الحالِيَّةِ اِسْتِخْدامِ إِشاراتٍ الزَمانِ وَالمَكانِ عَلَى مُسْتَوَى البُقَعُ لِتَعْزِيزِ مَتانَةَ النَمُوذَجِ وَقُدْرَتِهِ عَلَى التَعْمِيمِ (zhang2022deepfake, heo2023deepfake). تَقُوم هٰذِهِ الطُرُقِ بِبِناءِ الفِيدْيُو المَدْخَلِ إِلَى نَماذِجَ بُقَع تَتِمّ مُعالَجَتُها بِواسِطَةِ مُحَوِّلِ بَصَرِيّ، كَما هُوَ مُوَضِّح فِي الصُورَةِ العَلَوِيَّة. وَمَعَ ذٰلِكَ، فَإِنَّ هٰذا يَعُوق الاِرْتِباطِ الطَبِيعِيِّ بَيِّنَ مُكَوِّناتِ الوَجْهِ، مِمّا يُعِيق الكَشْفِ عَن عَدَمِ الاِتِّساق المَكانِيّ. عِلاوَةً عَلَى ذٰلِكَ، يُمْكِن تَزْوِيرِ المُحْتَوَى الصَوْتِيِّ، وَالتَرْكِيزِ حَصْرِيّا عَلَى الكَشْفِ عَن صِحَّةِ المُسْتَوَى البَصْرِيّ سَيُؤَدِّي إِلَى التَحَيُّزِ. وَنَتِيجَةَ لِذٰلِكَ، فَقَد جَذْبِ مَجالِ الكَشْفِ عَن التَزْوِيرِ السَمْعِيُّ البَصْرِيّ مُتَعَدِّدِ الوَسائِط اِهْتِماماً كَبِيراً فِي البَحْثِ.

تُوجَد حالِيّاً عِدَّةٍ طُرُقٍ لِلكَشْفِ عَن التَزْوِيرِ مُتَعَدِّدِ الوَسائِط. عَلَى سَبِيلِ المِثالِ، يُرَكِّز EmoForen (mittal2020emotions) عَلَى اِكْتِشافِ عَدَمِ التَناسُقِ العاطِفِيّ، بَيْنَما يُقَدِّم MDS (chugh2020not) دَرَجَةِ التَنافُرِ الوسيطي لَقِياس التَنافُرِ السَمْعِيُّ البَصْرِيّ. يَسْتَخْدِم VFD (cheng2023voice) طَرِيقَةِ مُطابَقَة الصَوْتِ وَالوَجْهِ لِلكَشْفِ عَن الفِيدْيُوهات المُزَوَّرَةِ. يَسْتَفِيد AVA-CL (zhang2023joint) مِن الاِنْتِباهِ السَمْعِيُّ البَصْرِيّ وَالتَعَلُّمِ التَبايُنِيّ لِتَعْزِيزِ دَمْجِ وَمُطابَقَة السِمات السَمْعِيَّةِ وَالبَصَرِيَّة، مِمّا يَلْتَقِط الاِرْتِباطاتِ الجَوْهَرِيَّة بِفَعّالِيَّةٍ. وَمَعَ ذٰلِكَ، رَكَّزَت الأَبْحاثِ السابِقَةِ بِشَكْلٍ كَبِيرٍ عَلَى دَمْجِ السِمات بَيِّنَ الوَسائِط وَتَجاهَلَت تَحْسِينِ مُخَطَّطاتٌ اِسْتِخْراج السِمات داخِلَ الوَسِيطِ. لِحَلِّ هٰذِهِ المُشْكِلَةِ، يَعْمَل هٰذا البَحْثِ عَلَى تَحْسِينِ اِسْتِخْراج السِمات داخِلَ الوَسِيطِ مِن خِلالَ بُقَع الإِطارِ-\(n\) وَيَسْتَخْدِم وَحْدَةِ DWF لِمُوازَنَةِ دَمْجِ أَدِلَّةٍ التَزْوِيرِ عَبْرَ الوَسائِط لِتَعْزِيزِ قُدْراتٍ الكَشْفِ.

فِي هٰذا العَمَلِ، نَقْتَرِح مُحَوِّلا سَمْعِيّاً بَصَرِيّا مُتَعَدِّدِ الوَسائِط يَعْتَمِد عَلَى مَبْدَأ دَمْجِ الوَزْنِ الدِينامِيكِيّ AVT\(^2\)-DWF، بِهَدَفِ اِلْتِقاطِ السِمات المُحَدَّدَةِ لِكُلِّ وَسِيطِ وَتَحْقِيقِ التَناسُقِ بَيِّنَ الوَسائِط. لِتَعْزِيزِ قُدْراتٍ التَمْثِيلِ لِلنَمُوذَج وَاِسْتِكْشاف الاِتِّساق المَكانِيّ وَأَلْزَمانِي فِي الفِيدْيُوهات المُعالَجَةِ، نَعْتَمِد إِسْتراتِيجِيَّةِ ترميز بُقَع الإِطارِ-\(n\) المُرَكَّزَةِ عَلَى مَلامِحِ الوَجْهِ داخِلَ إِطارات الفِيدْيُو، مُدْمَجه فِي مِشْفَر المُحَوِّلُ. يَتِمّ تَطْبِيقِ عَمَلِيَّةِ مُوازِيَةٍ فِي المَجالِ السَمْعِيُّ لَاِسْتِخْراج السِمات. لِمُعالَجَةِ الحاجَةِ المُلِحَّةِ لَاِلْتِقاط السِمات المُشْتَرَكَةِ عَبْرَ الوَسائِط المُتَمَيِّزَةِ، نَقْتَرِح تَحْوِيلا مُتَعَدِّدِ الوَسائِط مَعَ دَمْجِ الوَزْنِ الدِينامِيكِيّ (DWF). يَتَنَبَّأ هٰذا الآلِيَّةِ المُبْتَكِرَة باوزان الوَسائِط السَمْعِيَّةِ وَالبَصَرِيَّة دِينامِيكِيّا، مِمّا يُسَهِّل دَمْجِ أَكْثَرَ فَعّالِيَّةِ لَمِيزات أَثَّرَ التَزْوِيرِ وَالسِمات المُشْتَرَكَةِ، وَبِالتالِي تَعْزِيزِ قُدْراتٍ الكَشْفِ.

مُلَخَّصا، تَشْمَل مُساهَماتنا:

الطَرِيقَةِ

يَعْمَل نَهْجنا عَلَى تَضْخِيم إِشاراتٍ التَزْيِيفِ داخِلَ الوَسِيطِ وَعَبَّرَ الوَسائِط، مِمّا يُعَزِّز قُدْراتٍ الكَشْفِ بِمَعْلُومات عَمَلِيَّةِ. يَتَضَمَّن الأُسْلُوبِ المُقْتَرَحِ AVT\(^2\)-DWF ثَلاثَةِ مُكَوِّناتِ رَئِيسِيَّةٍ: مِشْفَر مُحَوِّلِ الوَجْهِ، مِشْفَر مُحَوِّلِ الصَوْتِ، وَوَحْدَةِ دَمْجِ الاوزان الدِينامِيكِيَّة (DWF). أَوَّلاً، يَقُوم مِشْفَر مُحَوِّلِ الوَجْهِ وَمِشْفَر مُحَوِّلِ الصَوْتِ بِتَحْلِيلِ الخَصائِص البَصَرِيَّةِ وَالصَوْتِيَّة لِلحُصُولِ عَلَى دَرَجَةِ الاِرْتِباطِ داخِلَ الوَسِيطِ. بُعْدَ ذٰلِكَ، يَتِمّ دَمْجِ المُخْرِجات مِن كُلّاً المِشْفَرَيْنِ وَتَغْذِيَتها إِلَى وَحْدَةِ دَمْجِ الاوزان الدِينامِيكِيَّة (DWF) لِتَدْرِيبِ اوزان الاِرْتِباطِ بَيِّنَ الوَسِيطَيْنِ، مِمّا يُسَهِّل عَمَلِيّاتِ الدَمْجِ وَمَهامّ الكَشْفِ.

مِشْفَر تَحْوِيلِ الوَجْهِ

يَتَمَيَّز مِشْفَر تَحْوِيلِ الوَجْهِ عَن الأَبْحاثِ السابِقَةِ (zhang2022deepfake, heo2023deepfake) مِن خِلالَ اِسْتِخْدامِ إِسْتراتِيجِيَّةِ ترميز جَدِيدَةٍ تُغَطِّي \(n\)-إِطارات، كَما هُوَ مُوَضِّح فِي الجُزْء السُفْلِيِّ مِن الشَكْلِ 1. تَوَجَّهَ هٰذِهِ الإِسْتراتِيجِيَّةِ تَرْكِيزِ النَمُوذَجِ نَحْوَ المَعْلُوماتِ الزَمانِيَّة-المَكانِيَّة الجَوْهَرِيَّة عَبْرَ إِطارات مُخْتَلِفَةٍ داخِلَ الفِيدْيُو. بِالنِسْبَةِ لَفِيدْيُو مُعَيَّنٍ \(V\)، يَتِمّ اِسْتِخْراج كُتْلَةِ الوَجْهِ \(\mathbf{F} \in \mathbb{R}^{T \times C \times H \times W}\). \(T\) تُمَثِّل طُولِ الإِطارِ، \(C\) تَدُلّ عَلَى عَدَدٍ القَنَواتِ، وَ \(H \times W\) يَتَوافَق مَعَ دِقَّةٍ الإِطارِ. يَتِمّ إِعادَةِ تَنْظِيمِ الإِطارات بِتَرْتِيب زَمَنِيٍّ، مِمّا يُؤَدِّي إِلَى تَمْثِيلِ جَدِيدٍ ك \(C \times (T \times H) \times W\). مُشابِها لَرَمْز [class] فِي ViT (dosovitskiy2020image)، يَتِمّ دَمْجِ مُضَمَّن قابِلٌ لِلتَعَلُّمِ \(\mathbf{F}_{class}\) فِي السِلْسِلَة، بَيْنَما يَتِمّ إِضافَةً تَضْمِينات المَوْضِعَ القابِلَةِ لِلتَعَلُّمِ \(\mathbf{E}_{p}\). يَتِمّ تَعْيِينِ مِيزاتِ كُلِّ قِطْعَةٍ صُورَةِ خَطِّيّا إِلَى فَضاءِ بِأَبْعاد \(D\) قِبَلَ الدُخُولِ إِلَى مِشْفَر التَحْوِيلِ. يَتَضَمَّن مِشْفَر التَحْوِيلِ طَبَقَةٌ اِنْتِباهَ ذاتِيٍّ مُتَعَدِّدِ الرُؤُوسِ (MSA)، مِمّا يُمْكِن النَمُوذَجِ مِن تَمْيِيزٍ الاِرْتِباطاتِ بَيِّنَ المَواقِعِ المُخْتَلِفَةِ وَالجَوانِب المَكانِيَّة داخِلَ إِطارِ الفِيدْيُو. يَتِمّ تَطْبِيقِ تَطْبِيعِ الطَبَقَةِ (LN) قِبَلَ كُلِّ كُتْلَةِ، وَيَتِمّ تَطْبِيقِ الاِتِّصالاتِ المُتَبَقِّيَةُ (RC) بُعْدَ كُلِّ كُتْلَةِ. يُمْكِن التَعْبِيرِ عَن العَمَلِيَّةِ بِأَكْمَلِها رَسْمِيّاً كَما يَلِي:

\[\begin{aligned} \mathbf{F}_0 &= [ \mathbf{F}_{class}\mathbf{E}_{p}; \, \mathbf{f}_1 \mathbf{E}_{p}; \, \mathbf{f}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{f}_T \mathbf{E}_{p} ], \\ \mathbf{F}_\ell &= \text{MSA}(\text{LN}(\mathbf{F}_{\ell-1})) + \mathbf{F}_{\ell-1},\quad \ell = 1, \dots, L ,\end{aligned}\]

حَيْثُ يُمَثِّل \(\mathbf{f} \in \mathbb{R}^{(H \times W\times C) \times D}\) المِيزَة البَصَرِيَّةِ وَ \(\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D}\) هُوَ تَضْمِينِ المَوْضِعَ القابِل لِلتَعَلُّمِ.

مِشْفَر تَحْوِيلِ الصَوْتِ

لِلتَعامُلِ مَعَ مُكَوِّناتِ الصَوْتِ، يَسْتَخْدِم نَمُوذَجَ تَحْوِيلِ مُشابِهٍ لَمِشْفَر تَحْوِيلِ الوَجْهِ، مُسْتَفِيدا مِن آلِيَّةِ الاِنْتِباهِ الذاتِيِّ لَاِلْتِقاط الاعتماديات طَوِيلَةٍ المَدَى الداخِلِيَّةِ ضِمْنَ الصَوْتِ. تَقُوم الدِراسَةُ بِاِسْتِخْراج الأَنْماط الصَوْتِيَّةَ، وَالدِينامِيكِيّات الزَمَنِيَّةِ، وَالمِيزات الأُخْرَى المُحَدَّدَةِ لِلصَوْتِ مِن إِشاراتٍ الصَوْتِ بِشَكْلٍ مَنْهَجِيٍّ. يَتِمّ حِسابِ مِيزَةً ال MFCC مِن إِشارَةٍ الصَوْتِ، مِمّا يُنْتِج مُكَوِّناتِ مُشار إِلَيها ب \(\mathbf{A} \in \mathbb{R}^{T \times M}\)، حَيْثُ \(T\) تُمَثِّل الزَمَنِ وَ\(M\) تُمَثِّل عَناصِرِ التَرَدُّدِ، وَالَّتِي يَتِمّ بُعْدَ ذٰلِكَ إِسْقاطها خَطِّيّا إِلَى تَضْمِينِ أُحادِيٍّ البُعْدِ. لَاِلْتِقاط الاِرْتِباطاتِ الهَيْكَلِيَّةِ الجَوْهَرِيَّة مِن الطيفيات الصَوْتِيَّةَ، يَتِمّ دَمْجِ رَمْزُ فِئَةٌ مُضَمَّن قابِلٌ لِلتَعَلُّمِ \(\mathbf{A}_{\text{class}}\) فِي التَسَلْسُل. بِالإِضافَةِ إِلَى ذٰلِكَ، يَتِمّ تَقْدِيمِ تَضْمِينات مَوْضِعَيْهِ قابِلَةٍ لِلتَدْرِيبِ. يَتِمّ تَوْضِيحِ العَمَلِيَّةِ بِأَكْمَلِها فِي الصِيغَةِ التالِيَةِ.

\[\begin{aligned} \mathbf{A}_0 &= [ \mathbf{A}_{class} \mathbf{E}_{p}; \, \mathbf{a}_1 \mathbf{E}_{p}; \, \mathbf{a}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{a}_T \mathbf{E}_{p} ], \\ \mathbf{A}_\ell &= \text{MSA}(\text{LN}(\mathbf{A}_{\ell-1})) + \mathbf{A}_{\ell-1},\quad \ell = 1, \dots, L .\end{aligned}\]

حَيْثُ \(\mathbf{a} \in \mathbb{R}^{(H \times W \times C) \times D}\) يُمَثِّل مِيزَةً الصَوْتِ وَ\(\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D}\) هُوَ أَيْضاً التَضْمِين المَوْضِعِيّ القابِل لِلتَعَلُّمِ. تَشْمَل المُخْرِجات \(\mathbf{F}_{class}\) وَ\(\mathbf{A}_{class}\) مِن مِشْفَر تَحْوِيلِ الوَجْهِ وَمِشْفَر تَحْوِيلِ الصَوْتِ مَجْمُوعَةِ مُتَنَوِّعَةٍ مِن المَعْلُوماتِ داخِلَ الفِيدْيُو مِثْلَ التَفاصِيلِ البَصَرِيَّةِ المَكانِيَّة، التَحَوُّلاتِ الزَمَنِيَّةِ فِي الأَوْضاعِ السَمْعِيَّةِ البَصَرِيَّةِ، وَمُحْتَوَى الصَوْتِ.

المُحَوِّلُ مُتَعَدِّدِ الوَسائِط مَعَ دَمْجِ الاوزان الدِينامِيكِيّ

بُعْدَ اِسْتِخْراج مِيزَةً الصَوْتِ \(\mathbf{A}_{class}\) وَمَيَّزَهُ الفِيدْيُو \(\mathbf{F}_{class}\)، يُولَد وَحْدَةِ دَمْجِ الاوزان الدِينامِيكِيّ (DWF) اوزان عَلَى مُسْتَوَى الكِيانِ \(W_A\) وَ\(W_F\) لِكُلِّ وَسِيطه، كَما هُوَ مُوَضِّح فِي الشَكْلِ المحذوف. مستلهمين مِن (chen2023meaformer)، يَتَضَمَّن تَصْمِيمِنا كُتْلَةِ اِنْتِباهَ مُتَقاطِع مُتَعَدِّدِ الرُؤُوسِ ثُنائِيَّةٍ الطَبَقاتِ (MHCA) لِحِسابِ هٰذِهِ الاوزان. تُسْتَخْدَم الطَبَقَةِ التالِيَةِ، MHCA، اوزان الطَبَقَةِ السابِقَةِ وَلا تَتَطَلَّب تَهْيِئَةِ. تَعْمَل MHCA بِوَظِيفَة الاِنْتِباهِ فِي \(N_h\) رُؤُوسِ مُتَوازِيه، مِمّا يَسْمَح لِلنَمُوذَج بِالاِنْتِباهِ المُشْتَرَكِ لِلمَعْلُوماتِ مِن فَضاءات تَمْثِيلِ فَرْعِيَّةٍ مُخْتَلِفَةٍ فِي مَواقِعِ مُخْتَلِفَةٍ. يَتِمّ تَحْدِيدِ الرَأْسِ \(i\)-th بِواسِطَةِ مَصْفُوفات المُشارَكَةِ الوَضْعِيَّةِ \(W_q^{(i)}\), \(W_k^{(i)}\), \(W_v^{(i)} \in \mathbb{R}^{d \times d_h}\)، الَّتِي تَحَوَّلَ المدخلات مُتَعَدِّدَةِ الوَسائِط \(\mathbf{A}_{class}\), \(\mathbf{F}_{class}\) إِلَى اِسْتِفْسارات واعِيَةٌ بِالوَضْعِ \(Q_{f/a}^{(i)}\), مَفاتِيحِ \(K_{f/a}^{(i)}\), وَقِيَمِ \(V_{f/a}^{(i)}\). \(d\) يُمَثِّل بُعْدَ مِيزاتِ الإِدْخال، بَيْنَما \(d_h\) يُمَثِّل بُعْدَ الطَبَقاتِ الخَفِيَّةِ. لِكُلِّ مِيزَةً مِن الوَسائِط، الناتِجِ هُوَ:

\[\begin{gathered} \text{MHCA}(\mathbf{F}_{class}) = \text{Concat}(W^i_F V_f \cdot W_o), \\ \text{MHCA}(\mathbf{A}_{class}) = \text{Concat}(W^i_A V_a \cdot W_o), \\ W^i_F = \bar{\beta}^{(i)}_{ff} + \bar{\beta}^{(i)}_{fa}, \hspace{0.6cm} W_F= {\textstyle \sum_{i=1}^{N_h}} W_F^i/N_h,\\ W^i_A = \bar{\beta}^{(i)}_{aa} + \bar{\beta}^{(i)}_{af}, \hspace{0.6cm} W_A= {\textstyle \sum_{i=1}^{N_h}} W_A^i/N_h,\end{gathered}\]

حَيْثُ \(W_o \in \mathbb{R}^{d \times d}\), \({\bar\beta}^{(i)}_{*}\) يُمَثِّل وَزْنِ الاِنْتِباهِ لِلرَأْس \(i\). يَعْرِف وَزْنِ الاِنْتِباهِ لِكُلِّ رَأْسِ \({\bar\beta}^{(i)}_{fa}\) بَيِّنَ \(f\) وَ\(a\) فِي كُلِّ رَأْسِ كَما يَلِي:

\[\begin{aligned} {\bar\beta}^{(i)}_{fa} = \frac{\exp(Q_f K^{\top}_a / \sqrt{d_h})} {\textstyle \sum_{n\in {f,a}}\exp(Q_f K^{\top}_n / \sqrt{d_h}) },\quad \end{aligned}\]

حَيْثُ يَتِمّ حِسابِ \({\bar\beta}^{(i)}_{ff}\)، \({\bar\beta}^{(i)}_{af}\)، وَ\({\bar\beta}^{(i)}_{aa}\) بِطَرِيقَةٍ مُماثِلَةٍ، مَعَ \(d_h=d/N_h\).LN وRC تَسْتَقِرّ أَيْضاً التَدْرِيبِ. \[\begin{aligned} h_v=\text{LN} (\text{MHCA}(\mathbf{F}_{\ell-1})+\mathbf{F}_{\ell-1}),\\ h_a=\text{LN} (\text{MHCA}(\mathbf{A}_{\ell-1})+\mathbf{A}_{\ell-1}),\end{aligned}\]

حَيْثُ يَتِمّ بُعْدَ ذٰلِكَ تَمْرِيرَ \(h_v\) وَ\(h_a\) إِلَى الطَبَقَةِ التالِيَةِ مِن وَحْدَةِ DWF لِمَزِيدٍ مِن التَدْرِيبِ.

دَمْجِ الوَسائِط. لَتَعْظِيم اِسْتِخْدامِ المِيزاتِ بَيِّنَ الوَسائِط السَمْعِيَّةِ وَالبَصَرِيَّة، نَضْرِب المِيزاتِ السَمْعِيَّةِ المُسْتَخْرَجَة مُسْبَقاً \(\mathbf{A}_{class}\)، وَمِيزات الفِيدْيُو \(\mathbf{F}_{class}\) باوزان عَلَى مُسْتَوَى الكِيانِ \(W_A\) وَ\(W_F\) فِي قِطاعِ دَمْجِ الوَسائِط. يَضْمَن هٰذا النَهْجِ تَنَوُّعِ الوَسائِط وَيَتَجَنَّب التَرْكِيزِ الذاتِيِّ المُفْرِطِ. \[\begin{aligned} V = W_F \mathbf{F}_{class}\oplus W_A \mathbf{A}_{class}.\end{aligned}\]

التَجْرِبَةِ

مَجْمُوعَةِ البَياناتِ

تَشْمَل التَجارِبِ ثَلاثِ مَجْمُوعاتٍ بَياناتٍ: (korshunov1812deepfakes)، (dolhansky2020deepfake)، وَ(khalid2021fakeavceleb). نَظَراً لِأَنَّ نِسْبَةَ الفِيدْيُوهات الحَقِيقِيَّةِ وَالمُزَيَّفَة فِي هٰذِهِ المَجْمُوعاتِ غَيْرِ مُتَوازِنَةٍ بِشَكْلٍ كَبِيرٍ، فَإِنَّنا نَسْتَخْدِم طُرُقاً مُتَنَوِّعَةٍ لَتَوازُن البَياناتِ الحَقِيقِيَّةِ وَالمُزَيَّفَة. تُظْهِر الجَدْوَلُ [tab:tab0] التَغْيِيرِ فِي نِسْبَةَ البَياناتِ الحَقِيقِيَّةِ وَالمُزَيَّفَة قِبَلَ وَبُعْدَ التَوازُنِ. تَمَّ دَمْجِ الفِيدْيُوهات الأَصْلِيَّةِ لِ(sanderson2002vidtimit) فِي مَجْمُوعَةِ بَياناتٍ (korshunov1812deepfakes). اِسْتَخْرَجَت مَجْمُوعَةِ بَياناتٍ (dolhansky2020deepfake) إِطارات مُتَتالِيَةٍ جُزْئِيَّةٍ مِن كُلِّ فِيدْيُو (Deepfake). بِالمُقابِلِ، تَمَّ اِسْتِخْدامِ جَمِيعِ الإِطارات لِتَدْرِيبِ الفِيدْيُوهات الحَقِيقِيَّةِ. لِمُعالَجَةِ مُشْكِلَةِ عَدَمِ التَوازُنِ فِي البَياناتِ فِي مَجْمُوعَةِ بَياناتٍ (khalid2021fakeavceleb)، تَمَّ اِخْتِيارِ 19,000 فِيدْيُو حَقِيقِيٍّ مِن (chung2018voxceleb2). تَمَّ تَقْسِيمِ المَجْمُوعاتِ إِلَى مَجْمُوعاتٍ تَدْرِيبِ، تَحَقَّقَ، وَاِخْتِبارِ بِنِسْبَةِ 7:1:2. كانَت نِسْبَةَ تَوازُنٍ البَياناتِ الحَقِيقِيَّةِ وَالمُزَيَّفَة فِي مَجْمُوعَةِ الاِخْتِبارُ 1:1. تَمَّ إِجْراءِ جَمِيعِ التَقْيِيمات التَجْرِيبِيَّة حَصْرِيّا عَلَى مَجْمُوعَةِ الاِخْتِبارُ.

التَنْفِيذِ

خِلالَ التَدْرِيبِ، يَتِمّ تَقْسِيمِ كُلِّ مِن الفِيدْيُوهات الأَصْلِيَّةِ وَالمُزَيَّفَة إِلَى كُتَلِ بِطُولِ \(T\) (القِيمَةِ الاِفْتِراضِيَّةِ هِيَ 30). لِكَشْفِ الوُجُوهَ، يَتِمّ اِسْتِخْدامِ كاشِف الوُجُوهَ المُقاوِمَ لِلتَغَيُّرات القِياسِيَّةِ بِطَلَقَة واحِدَةٍ (Single Shot Scale-invariant Face Detector (S\(^3\)FD) (zhang2017s3fd)). ثُمَّ يَتِمّ مُحاذاةِ الوُجُوهَ المُكْتَشِفَةِ وَحِفْظِها كَصُوَر بِأَبْعاد \(224\times224\). فِي مُعالَجَةِ الصَوْتِ، يَتِمّ حِسابِ مِيزاتِ MFCC كمدخلات بِاِسْتِخْدامِ نافِذَةٍ Hanning مُدَّتُها 15 مَلَلِي ثانِيَةً وَاِنْتِقالِ النافِذَةِ 4 مَلَلِي ثانِيَةً لِتَحْلِيلِ الطَيْف بِدِقَّةٍ. تَمَّ إِجْراءِ جَمِيعِ التَجارِبِ تَحْتَ نَفْسِ الإِعْدادات لِضَمانِ قابِلِيَّةِ مُقارَنَةً النَتائِجِ التَجْرِيبِيَّة.

مُقارَناتٍ مَعَ الأَحْدَثُ فِي المَجالِ

فِي تَجارِبِ شامِلَةٍ، تَمَّ تَقْيِيمِ فَعّالِيَّةِ AVT\(^2\)-DWF مُقابِلَ النَماذِجِ الأَساسِيَّةِ الأَحْدَثُ فِي المَجالِ بِاِسْتِخْدامِ مَقايِيسِ الأَداءِ مِثْلَ الدِقَّةِ (Accuracy) وَمِساحَةٌ تَحْتَ المُنْحَنَى (Area Under the Curve). تَمَّ تَصْنِيفِ النَماذِجِ الأَساسِيَّةِ إِلَى مَجْمُوعَتَيْنِ: الوَضْعِ البَصْرِيّ (V) وَالوَضْعُ المُتَعَدِّدِ الوَسائِط (AV). تَمَّ إِجْراءِ تَحْلِيلِ مُقارَن عَلَى ثَلاثِ مَجْمُوعاتٍ بَياناتٍ، وَتَمَّ عَرَضَ النَتائِجِ فِي الجَدْوَلُ [tab:tab1]. تَمَّ التَأْكِيدُ عَلَى النَتائِجِ الأَكْثَرَ بُرُوزاً بِالخَطِّ العَرِيضِ، وَيَنْطَبِق الأَمْرُ نَفْسِهِ فِيما بُعْدَ. بِسَبَبِ الكَمِّيَّةِ المَحْدُودَةَ مِن الفِيدْيُوهات، تُظْهِر مُعْظَمَ الطُرُقِ الأَساسِيَّةِ أَداءِ مُرْتَفِعاً فِي الكَشْفِ عَن DF-TIMIT. يَبْرُز AVT\(^2\)-DWF وAVA-CL بِدِقَّةٍ 99.99% وَ 100% عَلَى DF-TIMIT (LQ)، مُتَفَوِّقَيْنِ بِشَكْلٍ مَلْحُوظٍ عَلَى الطُرُقِ الأُخْرَى. فِي مَجْمُوعَةِ بَياناتٍ FakeAVCeleb الصَعْبَةِ، المُصَمِّمَة لِتَزْوِيرِ الفِيدْيُو المُعَقَّد، يُظْهِر AVA-CL، الَّذِي يَسْتَخْدِم طَرِيقَةِ التَعَلُّمِ بِالتَبايُن لِلاِنْتِباه السَمْعِيُّ البَصْرِيّ، أَداءِ مُماثِلا لَطَرِيقَتنا AVT\(^2\)-DWF. يُلاحِظ أَنَّ طَرِيقَتِنا أَكْثَرَ مَوْثُوقَيْهِ بِسَبَبِ مَجْمُوعَةِ الاِخْتِبارُ المُتَوازِنَة. فِي مَجْمُوعَةِ البَياناتِ الواسِعَةِ DFDC، يَتَفَوَّق AVT\(^2\)-DWF عَلَى طُرُقٍ الكَشْفِ الأُخْرَى المَبْنِيَّةُ عَلَى الرُؤْيَةِ وَالسَمْع البَصْرِيّ، مُحَقِّقاً دِقَّةٍ 88.02% وَمِساحَةٌ تَحْتَ المُنْحَنَى 89.20%، مَظْهَرا أَداءِ اِسْتِثْنائِيّاً.

تَقْيِيمِ البَياناتِ المُتَقاطِعَة

تُعْطِي الأَوْلَوِيَّةِ فِي هٰذِهِ المَرْحَلَةِ لَتَقْيِيم مَتانَةَ نَمُوذَجَ AVT\(^2\)-DWF. لِضَمانِ التَعْمِيمِ عَبْرَ مَجْمُوعاتٍ البَياناتِ المُخْتَلِفَةِ، يَتِمّ مُقارَنَةً مَنْهَجنا مَعَ أَرْبَعَةِ نَماذِجَ بارِزَةٌ: Xception (rossler2019faceforensics++), CViT (wodajo2021deepfake), Lipforensis (haliassos2021lips)، وَ MDS (mittal2020emotions). تَمْتَدّ التَقْيِيمات عَبْرَ البَياناتِ المُتَقاطِعَة عَلَى ثَلاثِ مَجْمُوعاتٍ بَياناتٍ مِعْيارَيْهِ. عَلَى وَجْهِ التَحْدِيدِ، تَشْتَمِل FakeAVCeleb عَلَى أَرْبَع طُرُقٍ مُزَيَّفَةٍ عَمِيقَةٌ مُتَمَيِّزَةٍ، DFDC تَشْمَل ثَمانِي تَقْنِيّاتِ، وَ DF-TIMIT تَشْمَل عَلَى عَمَلِيَّتَيْنِ—حَيْثُ تَقَدَّمَ كُلِّ مَجْمُوعَةِ بَياناتٍ تَحَدِّياتٍ مُزَيَّفَةٍ عَمِيقَةٌ فَرِيدَةٍ مِن نَوْعِها. تَتِمّ تَلْخِيصُ نَتائِجِ التَقْيِيم عَبْرَ البَياناتِ لِهٰذِهِ المَعايِيرِ الثَلاثِ فِي الجَدْوَلُ [tab:tab2]. تُظْهِر الطُرُقِ التَقْلِيدِيَّةِ أَداءِ ضَعِيفاً عِنْدَ مُواجَهَةِ مُزَيِّفات عَمِيقَةٌ غَيْرِ مَرْئِيَّةٍ. عَلَى الرَغْمِ مِن أَنَّ CViT، الَّذِي يَسْتَفِيد مِن المُحَوِّلات كَمُكْتَشِفات، يُحَقِّق نَتائِجِ مُشَرِّفَةً، إِلّا أَنَّ نَمُوذَجنا AVT\(^2\)-DWF يَتَفَوَّق عَلَى أَدائه، مِمّا يُظْهِر فَعّالِيَّةِ مُحَسِّنه فِي كَشَفَ المُزَيَّف العَمِيقِ.

دِراسَةٌ الاِسْتِئْصال

فائِدَةٍ وَحْدَةِ DWF

فِي تَقْيِيمِ شامِلٍ لِوَحْدَةِ AVT2-DWF، أَجْرَيْنا تَجارِبِ استئصاليه، حَيْثُ فَحْصنا نُسْخَةً بَصَرِيّه بُحْتَهُ، وَنُسَخه AV (مِن خِلالَ دَمْجِ مُسْتَخْرَجات الكَلامِ وَالوَجْهِ بِبَساطَة)، وAVT2-DWF الَّتِي تَجْمَع بَيِّنَ وَحَداتٍ AV وDWF (VA-DWF). تَمَّ عَرَضَ نَتائِجِ الاِخْتِبارُ عَلَى مَجْمُوعاتٍ بَياناتٍ DFDC وFakeAVCeleb فِي الجَدْوَلُ [tab:tab3]. فِي مَجْمُوعَةِ بَياناتٍ DFDC، حَيْثُ لَم يَتِمّ تَزْوِيرِ الصَوْتِ، يُؤَدِّي الاِعْتِمادِ فَقَط عَلَى مِيزاتِ الصَوْتِ وَالصُورَةِ المُدْمَجَة لِلتَصْنِيفِ إِلَى اِنْخِفاضِ كَبِيرٍ فِي نَتائِجِ الكَشْفِ. عَلَى العَكْسِ، بِالنِسْبَةِ لِمَجْمُوعَةِ بَياناتٍ FakeAVCeleb، حَيْثُ أَنَّ الوَضْعِ البَصْرِيّ لِبَعْضِ الفِيدْيُوهات حَقِيقِيٍّ بَيْنَما يَتِمّ التَلاعُبِ بِوَضْعِ الصَوْتِ، فَإِنَّ وَحْدَةِ الصَوْتِ وَالصُورَةِ تُعَزِّز الأَداءِ بِشَكْلٍ مَلْحُوظٍ. مَعَ إِدْخالُ وَحْدَةِ DWF، تَحَسَّنَت نَتائِجِ الكَشْفِ بِنِسْبَةِ 11.55% وَ 12.89% عَلَى التَوالِي، مِمّا يَبْرُز المَزايا الكَبِيرَةِ لِوَحْدَةِ DWF لَدَينا فِي اِلْتِقاطِ المِيزاتِ المُشْتَرَكَةِ عَبْرَ الوَسائِط المُخْتَلِفَةِ.

فائِدَةٍ ترميز الإِطارات \(n\)

لَتَقْيِيم مَزايا إِسْتراتِيجِيَّةِ ترميز الإِطارات \(n\)، يَتِمّ اِسْتِخْراج بُقَع غَيْرِ مُتَكَرِّرَةٍ بِشَكْلٍ عَشْوائِيٍّ مِن تَسَلْسُلُ مُتَتابِع لَإِطارات الوَجْهِ. ثُمَّ يَتِمّ تَجْمِيعِ هٰذِهِ البُقَعُ فِي صُور كامِلَةٍ لِلإِدْخال. تَعَرَّضَ نَتائِجِ الاِخْتِبارُ فِي مَجْمُوعَتَيَّ البَياناتِ DFDC وFakeAVCeleb فِي الجَدْوَلُ [tab:tab4]. فِي هٰذَيْنِ المِعْيارَيْنِ، تَحَسُّنِ أَداءِ إِسْتراتِيجِيَّةِ ترميز الإِطارات \(n\) بِنِسْبَةِ 22.45% وَ 3.74% عَلَى التَوالِي، مُقارَنَةً بِطَرِيقَةٍ البُقَعُ التَقْلِيدِيَّةِ، مِمّا يُظْهِر فَعّالِيَّةِ نِظامِنا فِي الحِفاظِ عَلَى المَعْلُوماتِ المُسْتَمِرَّةِ لِلوَجْهِ بِأَكْمَلِهِ.

الخُلاصَةِ

تَقْتَرِح هٰذِهِ الوَرَقَةَ إِطارِ عَمَلٍ AVT\(^2\)-DWF لِمُعالَجَةِ التَبايُنات المَكانِيَّة الدَقِيقَةِ وَالاِتِّساق الزَمَنِيِّ داخِلَ مُحْتَوَى الفِيدْيُو. يَتِمّ تَسْلِيطُ الضَوْء عَلَى الخَصائِص الفَرِيدَة لِكُلِّ وَضْعِيّه بِاِسْتِخْدامِ مشفرات مُحَوِّلِ الوَجْهِ وَمُحَوِّل الصَوْتِ الَّتِي تُسْتَخْدَم إِسْتراتِيجِيَّةِ ترميز الإِطارِ \(n\). بُعْدَ ذٰلِكَ، تَقُوم تَقْنِيَّةٍ الدَمْجِ المَوْزُون دِينامِيكِيّا (DWF) بِاِسْتِخْراج الخَصائِص المُشْتَرَكَةِ مِن الوَضْعِيّات السَمْعِيَّةِ البَصَرِيَّةِ. تُشِير نَتائِجِ تَجارِبنا إِلَى أَداءِ مُتَفَوِّق لِ AVT\(^2\)-DWF فِي كُلِّ مِن التَنْفِيذات داخِلَ وَعَبَّرَ مَجْمُوعاتٍ البَياناتِ مُقارَنَةً بِطُرُقٍ أُخْرَى لِكَشْفِ التَزْيِيفِ العَمِيقِ. تُوحِي هٰذِهِ النَتائِجِ بِأَنَّ تَحْقِيقِ الاِتِّساق الشامِلِ عَبْرَ وَضْعِيّات مُتَعَدِّدَةِ يُمْكِن أَنَّ يَكُون مُؤَشَّرا حاسِماً لِكَشْفِ التَزْيِيفِ العَمِيقِ فِي سِينارِيُوهاتٍ العالَمِ الحَقِيقِيِّ.