مُلخَّص
مع التحسينات المستمرة في تقنيات التزييف العميق، تطوّر المحتوى المُزَيَّف من أحادي الوسائط إلى مُتعدِّد الوسائط المُندمج، مما طرح تحديات جديدة أمام خوارزميات الكشف التقليدية. في هذه الورقة، نقترح AVT^{2}-DWF، وهو إطار سمعي-بصري يعتمد على التوزين الديناميكي، يهدف إلى تضخيم الإشارات المُزَيَّفة محليًّا وعبر الوسائط لتعزيز قدرات الكشف. يستند AVT^{2}-DWF إلى نهج ثنائي المراحل لالتقاط الخصائص المكانية والديناميكيات الزمنية لتعابير الوجه. يتحقق ذلك عبر استخدام مُشَفِّر مُحَوِّل بصري مع استراتيجية ترميز الإطار–n ومُشَفِّر مُحَوِّل سمعي. ثم يُطبَّق مُحَوِّل مُتعدِّد الوسائط مع التوزين الديناميكي لمواجهة تحدّي دمج المعلومات المشتركة بين الصوت والصورة. تُشير التجارب على مجموعات بيانات DeepfakeTIMIT وFakeAVCeleb وDFDC إلى أن AVT^{2}-DWF يُحقِّق أداءً رائدًا في كشف التزييف داخل وخارج مجموعات البيانات. يتوفر الكود المصدري على https://github.com/raining-dev/AVT2-DWF.
مُقَدِّمَة
مع التقدّم المستمر في تقنيات الذكاء الاصطناعي لإنتاج المحتوى، لم يَعُد الإنتاج مُقتصرًا على وسيط واحد. فقد استُخدِمت مؤخرًا أداة “HeyGen” لإنشاء مقطع فيديو يُصوِّر المُغنِّية تايلور سويفت وهي تتحدث الصينية، عبر مزج حركات شفاه اصطناعية وصوت مُزَيَّف. تُشكِّل هذه السيناريوهات المُعقَّدة ومتعدّدة الوسائط تحدّيًا كبيرًا لأساليب الكشف الحالية؛ لذا تبرز الحاجة إلى تقنيات متقدّمة لرصد هذه الفيديوهات العميقة المتطورة.
ركّزت الطرائق السابقة (verdoliva2020media، rossler2019faceforensics++) أساسًا على كشف التزييف في وسيط واحد، بالاعتماد على تقنيات التلاعب بالوجه المعروفة لكشف البصمات البصرية. غير أنّ أداءها يَضعُف عند الانتقال عبر مجموعات بيانات مختلفة. حاولت بعض الأساليب الأحدث استغلال إشارات مكان-زمان على مستوى البقع لتعزيز متانة النموذج وقدرته على التعميم (zhang2022deepfake، heo2023deepfake)؛ إذ تُقسِّم هذه الطرائق الفيديو إلى بقع تُعالَج بواسطة مُحَوِّل بصري. لكن ذلك يقطع الارتباط الطبيعي بين مكوّنات الوجه، مما يحدّ من قدرة الكشف على عدم الاتساق المكاني. علاوة على ذلك، مع إمكانية تزوير المحتوى الصوتي، فإن التركيز الحصري على القناة البصرية قد يُدخِل تحيّزًا. لذلك، اكتسب مجال الكشف السمعي-البصري مُتعدِّد الوسائط اهتمامًا متزايدًا.
توجد حاليًا عدة أساليب للكشف عن التزييف مُتعدِّد الوسائط. على سبيل المثال، يركّز EmoForen (mittal2020emotions) على اكتشاف التباين العاطفي، بينما يُقدِّم MDS (chugh2020not) مقياس التنافر الوسيطي لقياس التوافق السمعي-البصري. يستخدم VFD (cheng2023voice) آلية مطابقة بين الصوت والوجه لرصد الفيديوهات المُزَيَّفة. ويستفيد AVA-CL (zhang2023joint) من الانتباه السمعي-البصري والتعلّم التبايني لتعزيز دمج ومطابقة السمات من كلا الوسيطين، بما يلتقط الارتباطات الجوهرية بفعالية. ومع ذلك، ركّزت الأبحاث السابقة أساسًا على دمج السمات عبر الوسائط، مع إغفال تحسين استخراج السمات داخل كل وسيط. ولمعالجة هذا القصور، نقترح استراتيجية ترميز الإطار–n لتحسين استخراج السمات الموضعية، إلى جانب وحدة DWF لموازنة دمج أدلة التزييف عبر الوسائط وتعزيز قدرات الكشف.
في هذه الدراسة، نُقدِّم مُحَوِّلًا سمعيًّا-بصريًّا مُتعدِّد الوسائط يُعرف بـAVT^{2}-DWF، يستهدف التقاط السمات المُميِّزة لكل وسيط وتحقيق تناغم فعّال بينها. ولتعزيز القدرة التمثيلية واستكشاف الاتساق المكاني والزمني ضمن الفيديو، نعتمد استراتيجية ترميز الإطار–n التي تُركِّز على ملامح الوجه داخل الإطارات، ضمن مُشَفِّر المُحَوِّل البصري. وبالموازاة، نُطبِّق عملية مماثلة في المجال السمعي لاستخراج السمات الصوتية. ثم نقترح وحدة دمج الأوزان الديناميكي (DWF) داخل المُحَوِّل مُتعدِّد الوسائط، حيث تتنبّأ هذه الآلية بأوزان الوسائط السمعية والبصرية ديناميكيًا، مما يُسهِّل اندماجًا أكثر فعالية لميزات التزييف والسمات المشتركة، وبالتالي يُعزِّز قدرات الكشف.
باختصار، تشمل مساهماتنا:
- اعتماد استراتيجية ترميز الإطار–n لتعزيز استخراج ملامح الوجه داخل الإطارات، بما في ذلك تفاصيل التعابير وحركات الوجه الدقيقة.
- اقتراح مُحَوِّل مُتعدِّد الوسائط مع دمج الأوزان الديناميكي (DWF) لتحسين دمج المعلومات المُتباينة من الوسائط السمعية والبصرية.
- دمج الطريقتين ضمن إطار AVT^{2}-DWF، وإظهار فعاليته العالية عبر تقييم شامل باستخدام معايير مُعتَرَف بها على نطاق واسع.
الطريقة
يهدف نهجنا إلى تضخيم إشارات التزييف داخل كل وسيط وعبر الوسائط، بما يعزّز قدرات الكشف بمعلومات أكثر دقة. يتكوّن إطار AVT^{2}-DWF من ثلاثة مكوّنات رئيسية: مُشَفِّر المُحَوِّل البصري للوجه، ومُشَفِّر المُحَوِّل السمعي، ووحدة دمج الأوزان الديناميكي (DWF). أولًا، يستخلص مُشَفِّر الوجه والمُشَفِّر السمعي الخصائص البصرية والصوتية لاجتناء دلائل التزييف داخل كل وسيط. ثم تُدمَج مخرجاتهما وتُمرَّر إلى وحدة DWF التي تتعلّم أوزان الارتباط بين الوسائط لِتَيسير الدمج وتحسين نتائج الكشف.
مُشَفِّر المُحَوِّل البصري للوجه
يتميّز مُشَفِّر المُحَوِّل البصري عن الأبحاث السابقة (zhang2022deepfake، heo2023deepfake) باعتماد استراتيجية ترميز جديدة تُغطي n إطارات. تُوجِّه هذه الاستراتيجية تركيز النموذج نحو المعلومات الزمكانية الجوهرية عبر إطارات مختلفة في الفيديو. لفيديو مُعطى \mathbf{V}، نَستخرج موتر الوجه \mathbf{F} \in \mathbb{R}^{T \times C \times H \times W}، حيث T طول المقطع الزمني، وC عدد القنوات، وH \times W دقّة الإطار. تُقسَّم الإطارات إلى بقع وتُسقَط خطيًّا إلى فَضاء بُعده D. مُماثلةً لرمز [class] في ViT (dosovitskiy2020image)، نُدرِج رمز فئة قابِلًا للتعلُّم \mathbf{F}_{\text{class}} ضمن التسلسل، ونُضيف تضمينات موضعية قابلة للتعلّم \mathbf{E}_{p}. يُمكن صياغة العملية كما يلي:
\[ \begin{aligned} \mathbf{F}_0 &= [ \mathbf{F}_{\text{class}} + \mathbf{E}_{p}; \, \mathbf{f}_1 + \mathbf{E}_{p}; \, \mathbf{f}_2 + \mathbf{E}_{p}; \cdots; \, \mathbf{f}_T + \mathbf{E}_{p} ],\\ \mathbf{F}_\ell &= \text{MSA}(\text{LN}(\mathbf{F}_{\ell-1})) + \mathbf{F}_{\ell-1}, \quad \ell = 1, \dots, L . \end{aligned} \]
حيث تُمثِّل المتجهات \mathbf{f}_t \in \mathbb{R}^{D} تمثيلاتٍ للإطارات بعد الإسقاط الخطي، و\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D} هو تضمين موضعي قابل للتعلّم. تُستخدم طبقات الانتباه الذاتي متعدّد الرؤوس MSA مع \text{LN} قبل كل كتلة ووصلةٍ مُتبقية بعد كل كتلة.
مُشَفِّر المُحَوِّل السمعي
للتعامل مع مُكوِّن الصوت، نستخدم مُحَوِّلًا مشابهًا لمُشَفِّر الوجه، مُستفيدين من آلية الانتباه الذاتي لالتقاط الاعتماديات طويلة المدى داخل الإشارة. نَستخرج ميزات MFCC من الإشارة، مُنتِجِين مصفوفة \mathbf{A} \in \mathbb{R}^{T \times M}، حيث T هو الزمن وM عدد معاملات التردد. تُسقَط هذه الميزات خطيًّا إلى فَضاء بُعده D. لالتقاط الارتباطات البنيوية من الطيفيات الصوتية، نُدرِج رمز فئة قابِلًا للتعلّم \mathbf{A}_{\text{class}} في التسلسل ونُضيف تضمينًا موضعيًّا قابِلًا للتدريب. تُوضّح المعادلات التالية العملية:
\[ \begin{aligned} \mathbf{A}_0 &= [ \mathbf{A}_{\text{class}} + \mathbf{E}_{p}; \, \mathbf{a}_1 + \mathbf{E}_{p}; \, \mathbf{a}_2 + \mathbf{E}_{p}; \cdots; \, \mathbf{a}_T + \mathbf{E}_{p} ],\\ \mathbf{A}_\ell &= \text{MSA}(\text{LN}(\mathbf{A}_{\ell-1})) + \mathbf{A}_{\ell-1}, \quad \ell = 1, \dots, L . \end{aligned} \]
حيث \mathbf{a}_t \in \mathbb{R}^{D} تمثّل متجهات الإطار الزمني المُسقَطة، و\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D} هو التضمين الموضعي القابل للتعلّم. تُلخِّص \mathbf{F}_{\text{class}} و\mathbf{A}_{\text{class}} المعلومات البصرية المكانية والديناميكيات الزمنية السمعية والمحتوى الصوتي.
المُحَوِّل مُتعدِّد الوسائط مع دمج الأوزان الديناميكي
بعد استخراج ميزة الصوت \mathbf{A}_{\text{class}} وميزة الفيديو \mathbf{F}_{\text{class}}، تُولِّد وحدة دمج الأوزان الديناميكي (DWF) أوزانًا على مستوى الكيان W_A وW_F لكل وسيط. استلهامًا من (chen2023meaformer)، يتضمّن تصميمنا كتلة انتباهٍ مُتقاطع مُتعدّد الرؤوس ثنائية الطبقات (MHCA) لحساب هذه الأوزان. تعمل MHCA بوظيفة الانتباه في N_h رؤوس متوازية، مما يسمح للنموذج بالانتباه المشترك للمعلومات من فضاءات تمثيل فرعية مختلفة وفي مواقع متعددة. يُحدَّد الرأس i بمصفوفات إسقاط W_q^{(i)}، W_k^{(i)}، W_v^{(i)} \in \mathbb{R}^{d \times d_h}، التي تُحوِّل المدخلات مُتعدِّدة الوسائط \mathbf{A}_{\text{class}}، \mathbf{F}_{\text{class}} إلى استفسارات Q_{f/a}^{(i)} ومفاتيح K_{f/a}^{(i)} وقيم V_{f/a}^{(i)} مُدرِكة للوضع. يرمز d إلى بُعد ميزات الإدخال، وd_h إلى بُعد الرأس الخفي. لكل وسيط، يكون ناتج MHCA:
\[ \begin{gathered} \text{MHCA}(\mathbf{F}_{\text{class}}) = \text{Concat}(W^i_F \, V_f)\, W_o, \\ \text{MHCA}(\mathbf{A}_{\text{class}}) = \text{Concat}(W^i_A \, V_a)\, W_o, \\ W^i_F = \bar{\beta}^{(i)}_{ff} + \bar{\beta}^{(i)}_{fa},\quad\ \ \ W_F= {\textstyle \sum_{i=1}^{N_h}} W_F^i/N_h,\\ W^i_A = \bar{\beta}^{(i)}_{aa} + \bar{\beta}^{(i)}_{af},\quad\ \ \ W_A= {\textstyle \sum_{i=1}^{N_h}} W_A^i/N_h, \end{gathered} \]
حيث W_o \in \mathbb{R}^{d \times d} و\bar\beta^{(i)}_{*} تمثّل أوزان الانتباه للرأس i. ويُحسب وزن الانتباه المُشترك بين الصوت والصورة \bar\beta^{(i)}_{fa} كما يلي:
\[ \bar\beta^{(i)}_{fa} = \frac{\exp(Q_f K^{\top}_a / \sqrt{d_h})} {\textstyle \sum_{n\in \{f,a\}}\exp(Q_f K^{\top}_n / \sqrt{d_h}) }, \]
وتُحسب القيم \bar\beta^{(i)}_{ff} و\bar\beta^{(i)}_{af} و\bar\beta^{(i)}_{aa} بطريقة مماثلة، مع d_h=d/N_h. كما نُطبِّق \text{LN} والوصلة المُتبقية خلال التعلّم:
\[ \begin{aligned} h_v &= \text{LN} \big(\text{MHCA}(\mathbf{F}_{\ell-1})+\mathbf{F}_{\ell-1}\big),\\ h_a &= \text{LN} \big(\text{MHCA}(\mathbf{A}_{\ell-1})+\mathbf{A}_{\ell-1}\big), \end{aligned} \]
حيث يُمرَّر h_v وh_a إلى الطبقة التالية من وحدة DWF لمزيد من المعالجة.
دمج الوسائط. لتعظيم الاستفادة من الميزات بين الوسيطين السمعي والبصري، نَضرب الميزات السمعية المستخرَجة \mathbf{A}_{\text{class}} وميزات الفيديو \mathbf{F}_{\text{class}} في أوزان المستوى الكياني W_A وW_F ضمن مرحلة الدمج، بما يضمن تنوّعًا بين الوسائط ويحدّ من التمركز الذاتي المُفرِط:
\[ V = W_F \,\mathbf{F}_{\text{class}}\ \oplus\ W_A \,\mathbf{A}_{\text{class}}. \]
حيث ترمز \oplus إلى عملية الربط/الدمج البسيط للمتجهات.
التجربة
مجموعة البيانات
شملت تجاربنا ثلاث مجموعات بيانات: (korshunov1812deepfakes)، (dolhansky2020deepfake)، و(khalid2021fakeavceleb). ونظرًا للاختلال الكبير في نسبة الفيديوهات الحقيقية إلى المُزَيَّفة، استخدمنا استراتيجيات مختلفة لموازنة العينات. يوضّح الجدول [tab:tab0] نسب البيانات قبل وبعد المعالجة. في مجموعة (korshunov1812deepfakes) جُمِعَت فيديوهات حقيقية أصلية من (sanderson2002vidtimit)، بينما استُخرِجت مقاطع/إطارات متتابعة جزئية من فيديوهات (dolhansky2020deepfake)، وبالمقابل ضمّت الأخيرة جميع الإطارات للفيديوهات الحقيقية. وللتخفيف من عدم التوازن في (khalid2021fakeavceleb)، اختيرت 19,000 فيديو حقيقي إضافي من (chung2018voxceleb2). قُسِّمت البيانات إلى مجموعات تدريب وتحقّق واختبار بنسبة 7:1:2، مع نسبة متوازنة 1:1 بين الحقيقية والمزوّرة في مجموعة الاختبار. وأُجريت جميع التقييمات على هذه المجموعة الاختبارية حصريًّا.
التنفيذ
أثناء التدريب، نقسم الفيديوهات الحقيقية والمزوّرة إلى كُتَل بطول T (القيمة الافتراضية 30). لاكتشاف الوجوه، نستخدم كاشف الوجوه المُقاوِم لتغيُّر المقياس أحادي الطلقة Single Shot Scale-invariant Face Detector (S^{3}FD) (zhang2017s3fd). ثم نُحاذي الوجوه المكتشفة ونحفظها كصور بأبعاد 224\times224. في الجانب السمعي، نحسب ميزات MFCC باستخدام نافذة Hanning مدّتها 15 مللي ثانية مع انتقال 4 مللي ثانية، مما يضمن تحليلًا طيفيًا دقيقًا. جرت جميع التجارب تحت إعدادات موحّدة لضمان مقارنةٍ عادلة للنتائج.
مقارنات مع الأحدث في المجال
في سلسلة من التجارب الشاملة، قارنّا فعالية AVT^{2}-DWF بعدد من النماذج الرائدة باستخدام مقاييس الأداء (الدقة Accuracy ومساحة تحت المنحنى Area Under the Curve). قسّمنا النماذج الأساسية إلى فئتين: بصرية (V) ومُتعدِّدة الوسائط (AV). أُجري التحليل على ثلاث مجموعات بيانات، كما هو مبين في الجدول [tab:tab1]، وتم تمييز القيم الأفضل بالخط العريض. في مجموعة DF‑TIMIT منخفضة الجودة (LQ)، حقّق كلٌّ من AVT^{2}-DWF وAVA-CL دقة بلغت 99.99% و100% على التوالي، متفوِّقين بوضوح على الأساليب الأخرى. وفي مجموعة FakeAVCeleb الصعبة المصمَّمة للتزييفات المُعقّدة، أظهر AVA-CL المدعّم بالتعلّم التبايني للانتباه السمعي-البصري أداءً مُكافئًا لطريقتنا AVT^{2}-DWF؛ غير أنّ منهجنا يُسجِّل موثوقية أعلى بفضل توازن بيانات الاختبار. أمّا في مجموعة DFDC الواسعة، فقد تفوّق AVT^{2}-DWF على جميع أساليب الرؤية والرؤية-السمعية، مُحقِّقًا دقة 88.02% ومساحة تحت المنحنى 89.20%، مما يدل على أداء استثنائي.
تقييم البيانات المُتقاطِعة
تُركِّز هذه التجربة على تقييم متانة AVT^{2}-DWF عبر البيانات المُتقاطِعة. ولضمان التعميم، قارنّا منهجنا مع أربعة نماذج بارزة: Xception (rossler2019faceforensics++)، CViT (wodajo2021deepfake)، LipForensics (haliassos2021lips)، وMDS (mittal2020emotions). تمت التقييمات عبر ثلاث مجموعات بيانات معيارية: FakeAVCeleb التي تضم أربع طرق تزييف عميق، وDFDC التي تشمل ثماني تقنيات، وDF‑TIMIT التي تحتوي على طريقتين للتزييف. تُلخِّص نتائج هذا التقييم في الجدول [tab:tab2]. تُظهر الطرق التقليدية أداءً محدودًا عند مواجهة أنواع جديدة من التزييف العميق. وعلى الرغم من أن CViT، المُستفيد من بنية المُحَوِّل، قدّم نتائج مشجّعة، فإن AVT^{2}-DWF تفوّق عليه، مما يؤكّد فعاليته المُحسَّنة في اكتشاف التزييف العميق.
دراسة الاستئصال
فائدة وحدة DWF
في تحليلٍ استبعاديّ لوحدة DWF ضمن إطار AVT^{2}-DWF، قارَنّا ثلاثة تكوينات: المُشَفِّر البصري وحده، وتكوين AV البسيط (دمج الميزات الصوتية والبصرية من دون DWF)، والإطار الكامل الذي يشمل وحدة DWF (VA‑DWF). تُوضِّح نتائج الاختبار على مجموعتي DFDC وFakeAVCeleb في الجدول [tab:tab3] أثر وحدة DWF. في DFDC، حيث يبقى الصوت غير مُزوّر، أدّى الاعتماد على الدمج البسيط للميزات إلى تراجع ملحوظ في الدقة. بالمقابل، في FakeAVCeleb، التي تتضمّن تزييفًا صوتيًّا مع وجه حقيقي في بعض الحالات، حسَّن الدمج المعتمد على DWF الأداء بشكل واضح؛ إذ ارتفعت نسبة الكشف بمقدار 11.55% و12.89% على التوالي، مما يدل على الفائدة الكبيرة لوحدة DWF في التقاط الميزات المشتركة بين الوسائط.
فائدة ترميز الإطارات n
لتقييم أثر استراتيجية ترميز الإطار–n، نستخرج بقعًا عشوائية غير متكرّرة من تسلسل إطارات الوجه، ثم ندمجها لتكوين صور إدخال كاملة. تعرض نتائج الاختبار على مجموعتي DFDC وFakeAVCeleb في الجدول [tab:tab4] تحسّن الأداء بنسبة 22.45% و3.74% على التوالي مقارنة بأسلوب البقع التقليدي. يُشير ذلك إلى فاعلية ترميز الإطار–n في الحفاظ على المعلومات المستمرّة لملامح الوجه.
الخلاصة
نُقدِّم في هذه الورقة إطار AVT^{2}-DWF لمعالجة الفروق المكانية الدقيقة والاتساق الزمني داخل محتوى الفيديو. نُبرِز السمات الفريدة لكل وسيط عبر مُشَفِّرات مُحَوِّل الوجه والصوت باستخدام استراتيجية ترميز الإطار–n، ثم نُطبِّق آلية الدمج الديناميكي (DWF) لاستخراج الخصائص المشتركة. تُشير نتائج تجاربنا إلى أن AVT^{2}-DWF يتفوّق على الأساليب الحالية، سواء داخل البيانات نفسها أو عبر مجموعات بيانات مختلفة. تعكس هذه النتائج أهمية تحقيق تناغم شامل بين الوسائط المتعدّدة للكشف الفعّال عن التزييف العميق في السيناريوهات الواقعية.