LaTeX
مع التحسينات المستمرة في تقنيات التزييف العميق، تطوَّر المحتوى المزيف من أحادي الوسائط إلى تعدد وسائط مدمج، مما طرح تحديات جديدة أمام خوارزميات الكشف التقليدية. في هذه الورقة، نقترح AVT\(^2\)-DWF، إطار سمعي–بصري مزدوج يعتمد على التوزين الديناميكي يهدف إلى تضخيم الإشارات المزيفة محلياً وعبر الوسائط لتعزيز دقة الكشف. يستند AVT\(^2\)-DWF إلى نهج ثنائي المراحل لالتقاط الخصائص المكانية والديناميات الزمنية لتعابير الوجه من خلال مشفّر المحول البصري مع استراتيجية ترميز الإطارات \(n\) ومشفّر المحول السمعي. ثم يُطبّق المحول متعدد الوسائط بالتوزين الديناميكي لمواجهة تحدي دمج المعلومات المشتركة بين الصوت والصورة. تشير التجارب على مجموعات DeepfakeTIMIT، FakeAVCeleb، وDFDC إلى أن AVT\(^2\)-DWF يحقق نتائج رائدة في الكشف داخل مجموعات البيانات وخارجها. يتوفر الكود المصدري على https://github.com/raining-dev/AVT2-DWF.
مع التقدم المستمر في تقنيات الذكاء الاصطناعي لإنتاج المحتوى، لم يعد الإنتاج مقتصراً على وسيط واحد. فقد استخدمت مؤخراً أداة “HeyGen” لإنشاء مقطع فيديو يصوّر المغنية تايلور سويفت تتحدث الصينية عبر مزج حركات شفاه اصطناعية وصوت مزيف. تشكّل هذه التجارب المعقدة ومتعددة الوسائط تحدياً كبيراً لأساليب الكشف الحالية، مما يستدعي تطوير تقنيات أكثر تقدماً لرصد هذه الفيديوهات العميقة.
ركزت الطرق السابقة (verdoliva2020media، rossler2019faceforensics++) على كشف التزييف في وسيط واحد، معتمدةً على تقنيات التلاعب المعروفة لرصد البصمات البصرية. ومع ذلك، تبيّن أن أدائها يتراجع عند الانتقال عبر مجموعات بيانات مختلفة. حاولت بعض الأساليب الأحدث استخدام إشارات مكان-زمان على مستوى البقع لتعزيز متانة النموذج وقدرته على التعميم (zhang2022deepfake، heo2023deepfake). تعتمد هذه الطرق على تقسيم الفيديو إلى بقع تتم معالجتها بواسطة محول بصري، كما هو موضح في الشكل العلوي، لكن ذلك يقطع الارتباط الطبيعي بين مكونات الوجه ويحدّ من قدرة الكشف على اكتشاف التباينات المكانية. علاوة على ذلك، مع إمكانية تزوير المحتوى الصوتي، قد يؤدي التركيز الحصري على المعالجة البصرية إلى تحيّز. لذلك، حظي الكشف السمعي–البصري متعدد الوسائط باهتمام متزايد في الأبحاث الحديثة.
تشمل الأساليب الحالية للكشف عن التزييف متعدد الوسائط EmoForen (mittal2020emotions) الذي يركز على اكتشاف التباين العاطفي، وMDS (chugh2020not) بمقياس التنافر الوسيطي لقياس التوافق السمعي–البصري، وVFD (cheng2023voice) بآلية مطابقة بين الصوت والوجه. يستفيد AVA-CL (zhang2023joint) من الانتباه السمعي–البصري والتعلم التبايني لتعزيز دمج السمات من كلا الوسائط بفعالية. إلا أن هذه الأبحاث ركّزت أساساً على دمج السمات عبر الوسائط، متجاهلة تحسين استخراج السمات داخل كل وسيط. وللتعامل مع هذا القصور، يقترح بحثنا استراتيجية بقع إطار-\(n\) لتحسين استخراج السمات الموضعية، إلى جانب وحدة DWF لموازنة دمج أدلة التزييف عبر الوسائط.
في هذه الدراسة، نقدم محولاً سمعي–بصرياً متعدد الوسائط يُعرف بـAVT\(^2\)-DWF، يستهدف التقاط السمات المميزة لكل وسيط وتحقيق تناغم فعّال بينها. لتعزيز قدرات التمثيل الزمني والمكاني، نعتمد استراتيجية ترميز بقع الإطار-\(n\) داخل مشفّر المحول البصري لاستخراج ملامح الوجه الدقيقة، وبالتوازي نطبق معالجة مماثلة في المجال السمعي لاستخراج السمات الصوتية. بعدها نستخدم وحدة دمج الأوزان الديناميكي (DWF) في المحول متعدد الوسائط، حيث تتنبأ هذه الآلية بأوزان لكل من الوسائط السمعية والبصرية ديناميكياً، مما يعزّز اندماج أدلة التزييف والسمات المشتركة ويدعم دقة الكشف.
باختصار، تشمل مساهماتنا:
استراتيجية ترميز بقع الإطار-\(n\) لتعزيز استخراج ملامح الوجه ضمن الإطارات، بما في ذلك تفاصيل التعابير وحركات الوجه الدقيقة.
محول متعدد الوسائط مزوّد بوحدة دمج الأوزان الديناميكي (DWF) لتحسين دمج المعلومات المتباينة من الوسائط السمعية والبصرية.
إطار AVT\(^2\)-DWF الذي يجمع بين هاتين الطريقتين، مع تقييم شامل باستخدام معايير معترف بها لإظهار الفعالية العالية للإطار.
يهدف نهجنا إلى تضخيم إشارات التزييف داخل كل وسيط وعبر الوسائط، لتعزيز قدرات الكشف بمعلومات أكثر دقة. يتألف إطار AVT\(^2\)-DWF من ثلاثة مكونات رئيسية: مشفّر المحول البصري للوجه، مشفّر المحول السمعي، ووحدة دمج الأوزان الديناميكي (DWF). أولاً، يستخلص المشفّران السمات البصرية والصوتية لاكتشاف دلائل التزييف داخل كل وسيط. ثم تُدمج مخرجاتهما وتُمرَّر إلى وحدة DWF التي تتعلم الأوزان المناسبة لدمج الوسائط وتحسين نتائج الكشف.
يتميّز مشفّر المحول البصري للوجه عن الأبحاث السابقة (zhang2022deepfake, heo2023deepfake) باستخدام استراتيجية ترميز تغطي \(n\) إطارات كما في الشكل 1. توجه هذه الاستراتيجية تركيز النموذج نحو المعلومات الزمانية–المكانية الجوهرية عبر إطارات متعددة ضمن الفيديو. لأي فيديو \(V\)، نستخرج كتلة الوجه \(\mathbf{F} \in \mathbb{R}^{T \times C \times H \times W}\) حيث تمثل \(T\) طول التسلسل، و\(C\) عدد القنوات، و\(H \times W\) دقة الإطار. تُعاد تنظيم الإطارات زمنياً إلى تمثيل \(C \times (T \times H) \times W\). كما في ViT (dosovitskiy2020image)، يُدمج رمز فئة قابل للتعلّم \(\mathbf{F}_{class}\) في السلسلة مع تضمينات الموضع \(\mathbf{E}_{p}\). ثم تُسقَط ميزات كل بقعة خطياً إلى فضاء بابعاد \(D\) قبل إدخالها في مشفّر التحويل الذي يشمل انتباهاً ذاتياً متعدد الرؤوس (MSA)، مع تطبيق تطبيع الطبقة (LN) والاتصالات المتبقية (RC) في كل طبقة. تعبر العملية رسمياً عن نفسها كما يلي:
\[\begin{aligned} \mathbf{F}_0 &= [ \mathbf{F}_{class}\mathbf{E}_{p}; \, \mathbf{f}_1 \mathbf{E}_{p}; \, \mathbf{f}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{f}_T \mathbf{E}_{p} ], \\ \mathbf{F}_\ell &= \text{MSA}(\text{LN}(\mathbf{F}_{\ell-1})) + \mathbf{F}_{\ell-1},\quad \ell = 1, \dots, L ,\end{aligned}\]
حيث \(\mathbf{f} \in \mathbb{R}^{(H \times W\times C) \times D}\) هي الميزة البصرية و\(\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D}\) تضمين الموضع القابل للتعلّم.
للتعامل مع الصوت، يستخدم النموذج بنية مشابهة لمشفّر الوجه مع آلية الانتباه الذاتي لالتقاط الاعتماديات طويلة المدى داخل الإشارة الصوتية. نبدأ باستخراج معالم MFCC من الإشارة، لتنتج \(\mathbf{A} \in \mathbb{R}^{T \times M}\) حيث \(T\) الزمن و\(M\) عناصر التردد، ثم تُسقَط خطياً إلى فضاء بابعاد \(D\). يُدمج رمز فئة متنقل \(\mathbf{A}_{\text{class}}\) وتُضاف تضمينات موضعية \(\mathbf{E}_{p}\) قبل إدخالها في مشفّر التحويل، وفق المعادلات:
\[\begin{aligned} \mathbf{A}_0 &= [ \mathbf{A}_{class} \mathbf{E}_{p}; \, \mathbf{a}_1 \mathbf{E}_{p}; \, \mathbf{a}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{a}_T \mathbf{E}_{p} ], \\ \mathbf{A}_\ell &= \text{MSA}(\text{LN}(\mathbf{A}_{\ell-1})) + \mathbf{A}_{\ell-1},\quad \ell = 1, \dots, L .\end{aligned}\]
حيث \(\mathbf{a} \in \mathbb{R}^{(H \times W \times C) \times D}\) تمثل الميزة الصوتية و\(\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D}\) تضمين الموضع القابل للتعلّم. يوفّر هذا كلّاً من \(\mathbf{F}_{class}\) و\(\mathbf{A}_{class}\) لمحة عن الدلائل المكانية والزمنية والبصرية والسمعية.
بعد استخراج ميزات \(\mathbf{A}_{class}\) و\(\mathbf{F}_{class}\)، تولّد وحدة دمج الأوزان الديناميكي (DWF) أوزاناً \(W_A\) و\(W_F\) لكل وسيط باستخدام كتلة انتباه متقاطع متعدد الرؤوس MHCA مستلهمة من (chen2023meaformer). يحسب الرأس \(i\) استفسارات \(Q_{f/a}^{(i)}\)، مفاتيح \(K_{f/a}^{(i)}\)، وقيم \(V_{f/a}^{(i)}\) عبر مصفوفات \(W_q^{(i)}, W_k^{(i)}, W_v^{(i)}\). يتم حساب نواتج MHCA لكل وسيط ثم تجمع الأوزان كما يلي:
\[\begin{gathered} \text{MHCA}(\mathbf{F}_{class}) = \text{Concat}(W^i_F V_f)\,W_o,\quad \text{MHCA}(\mathbf{A}_{class}) = \text{Concat}(W^i_A V_a)\,W_o, \\ W^i_F = \bar{\beta}^{(i)}_{ff} + \bar{\beta}^{(i)}_{fa},\quad W^i_A = \bar{\beta}^{(i)}_{aa} + \bar{\beta}^{(i)}_{af}, \\ W_F = \frac{1}{N_h}\sum_{i=1}^{N_h}W^i_F,\quad W_A = \frac{1}{N_h}\sum_{i=1}^{N_h}W^i_A, \end{gathered}\]
حيث \(W_o \in \mathbb{R}^{d \times d}\) و\(\bar{\beta}^{(i)}_{*}\) أوزان الانتباه. يُحسب التفاعل المشترك \(\bar{\beta}^{(i)}_{fa}\) كالآتي:
\[\bar{\beta}^{(i)}_{fa}=\frac{\exp(Q_fK_a^{\top}/\sqrt{d_h})}{\sum_{n\in\{f,a\}}\exp(Q_fK_n^{\top}/\sqrt{d_h})},\]
وبالمثل تُحسب بقية الأوزان مع \(d_h=d/N_h\). تُطبّق LN وRC بعد كل طبقة:
\[\begin{aligned} h_v &= \text{LN}(\text{MHCA}(\mathbf{F}_{\ell-1})+\mathbf{F}_{\ell-1}),\\ h_a &= \text{LN}(\text{MHCA}(\mathbf{A}_{\ell-1})+\mathbf{A}_{\ell-1}), \end{aligned}\]
ثم يُمرَّران إلى الطبقات التالية في وحدة DWF.
دمج الوسائط. لتعظيم الاستفادة من الميزات بين الوسائط، نضرب \(\mathbf{F}_{class}\) و\(\mathbf{A}_{class}\) بالأوزان \(W_F\) و\(W_A\) قبل الدمج:
\[V = W_F\,\mathbf{F}_{class}\oplus W_A\,\mathbf{A}_{class}.\]
شملت تجاربنا ثلاث مجموعات بيانات رئيسية: (korshunov1812deepfakes)، (dolhansky2020deepfake)، و(khalid2021fakeavceleb). ونظراً لعدم التوازن بين الفيديوهات الحقيقية والمزيفة، استخدمنا استراتيجيات لموازنة العينات. يوضح الجدول [tab:tab0] نسب البيانات قبل وبعد المعالجة. في مجموعة (korshunov1812deepfakes) جُمعت فيديوهات حقيقية من (sanderson2002vidtimit) وإطارات متتابعة جزئية من (dolhansky2020deepfake). لتعويض عدم التوازن في (khalid2021fakeavceleb)، أضفنا 19,000 فيديو حقيقي من (chung2018voxceleb2). قسمت البيانات بنسبة 7:1:2 بين تدريب، تحقق، واختبار مع توازن 1:1 في مجموعة الاختبار. جرت جميع التقييمات على هذه المجموعة حصرياً.
أثناء التدريب، نقسم الفيديوهات إلى كتل بطول \(T\) (افتراضياً 30). نستخدم كاشف الوجوه Single Shot Scale-invariant Face Detector (S\(^3\)FD) (zhang2017s3fd) لاكتشاف الوجوه ومحاذاتها، ثم نحفظها كصور \(224\times224\). في الجانب الصوتي، نحسب ميزات MFCC باستخدام نافذة Hanning مدتها 15 مللي ثانية بتداخل 4 مللي ثوان لضبط التحليل الطيفي. جرت جميع التجارب تحت إعدادات موحدة لضمان مقارنة عادلة.
في سلسلة من التجارب الشاملة، قارنّا AVT\(^2\)-DWF بعدد من النماذج الرائدة باستخدام مقاييس الدقة (Accuracy) ومساحة تحت المنحنى (AUC). قسمت النماذج إلى فئتين: بصرية (V) ومتعددة الوسائط (AV). أظهرت النتائج في الجدول [tab:tab1] تفوّق AVT\(^2\)-DWF في معظم الحالات. في مجموعة DF-TIMIT منخفضة الجودة (LQ)، حقق كل من AVT\(^2\)-DWF وAVA-CL دقة 99.99% و100% على التوالي، بينما في FakeAVCeleb المعقدة قدّمت AVA-CL المدعومة بالتعلم التبايني أداءً مقارباً، لكن إطارنا سجّل موثوقية أعلى بفضل توازن بيانات الاختبار. في مجموعة DFDC الواسعة، تفوّق AVT\(^2\)-DWF على جميع الأساليب، محققاً دقة 88.02% وAUC 89.20%.
ركز هذا التقييم على متانة AVT\(^2\)-DWF عبر مجموعات بيانات مختلفة، مقارنةً بأربعة نماذج بارزة: Xception (rossler2019faceforensics++)، CViT (wodajo2021deepfake)، LipForensics (haliassos2021lips)، وMDS (mittal2020emotions). أجريت التجارب عبر FakeAVCeleb، DFDC، وDF-TIMIT. تلخص النتائج في الجدول [tab:tab2]، حيث يُبرز AVT\(^2\)-DWF تفوّقه في مواجهة طرق تزييف جديدة، متفوقاً على CViT المدعوم بالمحول.
في تحليل استئصالي لوحدة DWF، قارنا ثلاث تكوينات: مشفّر بصري فقط، دمج ميزات صوتية وبصرية بسيط (AV) بدون DWF، والإطار الكامل (VA-DWF). تظهر نتائج DFDC وFakeAVCeleb في الجدول [tab:tab3] أثر DWF. في DFDC، حيث يبقى الصوت غير مزوَّر، أدى الدمج البسيط إلى تراجع الدقة. أما في FakeAVCeleb التي تضمنت تزييفاً صوتياً مع وجه حقيقي، فرفع DWF نسبة الكشف بمقدار 11.55% و12.89%، مما يدل على قيمته في التقاط الاتساق بين الوسائط.
لتقييم تأثير استراتيجية ترميز الإطارات \(n\)، استخرجنا بقعاً عشوائية غير متكررة من تسلسل إطارات الوجه ودمجناها لتكوين صور إدخال كاملة. تظهر نتائج DFDC وFakeAVCeleb في الجدول [tab:tab4] تحسناً بنسبة 22.45% و3.74% على التوالي مقارنةً بأسلوب البقع التقليدي، مما يؤكد فعالية ترميز الإطارات \(n\) في الحفاظ على المعلومات المستمرة لملامح الوجه.
قدّمنا إطار AVT\(^2\)-DWF لمعالجة الفروق المكانية الدقيقة والاتساق الزمني داخل محتوى الفيديو. نسلط الضوء على السمات الفريدة لكل وسيط عبر مشفّرَي محول الصوت والوجه باستخدام استراتيجية ترميز الإطار \(n\)، ثم نطبق آلية الدمج الديناميكي (DWF) لاستخراج الخصائص المشتركة. تشير نتائج تجاربنا إلى أن AVT\(^2\)-DWF يتفوق على الأساليب الحالية، سواء داخل البيانات نفسها أو عبر مجموعات بيانات مختلفة، مما يؤكد أهمية التناغم المتعدد الوسائط للكشف الفعّال عن التزييف العميق في السيناريوهات الواقعية.