تحسين كشف التزييف العميق باستخدام الدمج السمعي البصري واستراتيجيات التوزين الديناميكي

Rui Wang, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng

latex

مُلَخَّص

مع التحسينات المستمرة في تقنيات التزييف العميق، انتقلت الرسائل المزيفة من أحادية الوسائط إلى دمج متعدد الوسائط، مما يطرح تحديات جديدة أمام خوارزميات كشف التزييف الحالية. في هذه الورقة، نقترح AVT\(^2\)-DWF، وهو دمج سمعي بصري مزدوج يعتمد على التوزين الديناميكي، ويهدف إلى تضخيم كل من الإشارات المزيفة داخل وعبر الوسائط، مما يعزز قدرات الكشف. يعتمد AVT\(^2\)-DWF على نهج ثنائي المراحل لالتقاط كل من الخصائص المكانية والديناميكيات الزمنية لتعبيرات الوجه. يتم تحقيق ذلك من خلال محول الوجه مع مشفر استراتيجية ترميز الإطارات \(n\) ومشفر محول سمعي. بعد ذلك، يستخدم التحويل متعدد الوسائط مع التوزين الديناميكي لمعالجة تحدي دمج المعلومات المتجانسة بين الوسائط السمعية والبصرية. تشير التجارب على مجموعات بيانات DeepfakeTIMIT وFakeAVCeleb وDFDC إلى أن AVT\(^2\)-DWF يحقق أداءً رائداً في كشف التزييف العميق داخل وعبر مجموعات البيانات. الكود متاح في https://github.com/raining-dev/AVT2-DWF.

مُقَدِّمَة

مع التقدم المستمر في تكنولوجيا إنتاج المحتوى بواسطة الذكاء الاصطناعي، لم يعد إنتاج المحتوى مقتصراً على وسيط واحد فقط. مؤخراً، تم استخدام أداة “HeyGen” لإنتاج فيديو تظهر فيه المغنية تايلور سويفت وهي تتحدث الصينية، باستخدام حركات شفاه وصوت مزيفين. تشكل هذه الأعمال المعقدة والمتنوعة تحديات كبيرة للكشف عنها. لذلك، هناك حاجة ملحة لطرق متقدمة للكشف عن هذه الفيديوهات العميقة المتطورة.

الطرق السابقة (verdoliva2020media, rossler2019faceforensics++) ركزت بشكل أساسي على الكشف ضمن وسيط واحد، باستخدام تقنيات التلاعب بالوجه المعروفة للتعرف على الآثار البصرية والتنبؤ بها. ومع ذلك، كان أداؤها عبر مجموعات البيانات ضعيفاً. حاولت بعض الطرق الحالية استخدام إشارات الزمان والمكان على مستوى البقع لتعزيز متانة النموذج وقدرته على التعميم (zhang2022deepfake, heo2023deepfake). تقوم هذه الطرق ببناء الفيديو المدخل إلى نماذج بقع تتم معالجتها بواسطة محول بصري، كما هو موضح في الصورة العلوية. ومع ذلك، فإن هذا يعيق الارتباط الطبيعي بين مكونات الوجه، مما يعيق الكشف عن عدم الاتساق المكاني. علاوة على ذلك، يمكن تزوير المحتوى الصوتي، والتركيز حصرياً على الكشف عن صحة المستوى البصري سيؤدي إلى التحيز. ونتيجة لذلك، فقد جذب مجال الكشف عن التزوير السمعي البصري متعدد الوسائط اهتماماً كبيراً في البحث.

توجد حالياً عدة طرق للكشف عن التزوير متعدد الوسائط. على سبيل المثال، يركز EmoForen (mittal2020emotions) على اكتشاف عدم التناسق العاطفي، بينما يقدم MDS (chugh2020not) درجة التنافر الوسيطي لقياس التنافر السمعي البصري. يستخدم VFD (cheng2023voice) طريقة مطابقة الصوت والوجه للكشف عن الفيديوهات المزيفة. يستفيد AVA-CL (zhang2023joint) من الانتباه السمعي البصري والتعلم التبايني لتعزيز دمج ومطابقة السمات السمعية والبصرية، مما يلتقط الارتباطات الجوهرية بفعالية. ومع ذلك، ركزت الأبحاث السابقة بشكل كبير على دمج السمات بين الوسائط وتجاهلت تحسين مخططات استخراج السمات داخل الوسيط. لحل هذه المشكلة، يعمل هذا البحث على تحسين استخراج السمات داخل الوسيط من خلال بقع الإطار-\(n\) ويستخدم وحدة DWF لموازنة دمج أدلة التزوير عبر الوسائط لتعزيز قدرات الكشف.

في هذا العمل، نقترح محولاً سمعياً بصرياً متعدد الوسائط يعتمد على مبدأ دمج الوزن الديناميكي AVT\(^2\)-DWF، بهدف التقاط السمات المحددة لكل وسيط وتحقيق التناسق بين الوسائط. لتعزيز قدرات التمثيل للنموذج واستكشاف الاتساق المكاني والزماني في الفيديوهات المعالجة، نعتمد استراتيجية ترميز بقع الإطار-\(n\) المركزة على ملامح الوجه داخل إطارات الفيديو، مدمجة في مشفر المحول. يتم تطبيق عملية موازية في المجال السمعي لاستخراج السمات. ولمعالجة الحاجة الملحة لالتقاط السمات المشتركة عبر الوسائط المتميزة، نقترح محولاً متعدد الوسائط مع دمج الوزن الديناميكي (DWF). تتنبأ هذه الآلية المبتكرة بأوزان الوسائط السمعية والبصرية ديناميكياً، مما يسهل دمجًا أكثر فعالية لميزات أثر التزوير والسمات المشتركة، وبالتالي تعزيز قدرات الكشف.

باختصار، تشمل مساهماتنا:

الطريقة

يعمل نهجنا على تضخيم إشارات التزييف داخل الوسيط وعبر الوسائط، مما يعزز قدرات الكشف بمعلومات عملية. يتضمن الأسلوب المقترح AVT\(^2\)-DWF ثلاثة مكونات رئيسية: مشفر محول الوجه، مشفر محول الصوت، ووحدة دمج الأوزان الديناميكية (DWF). أولاً، يقوم مشفر محول الوجه ومشفر محول الصوت بتحليل الخصائص البصرية والصوتية للحصول على درجة الارتباط داخل الوسيط. بعد ذلك، يتم دمج المخرجات من كلا المشفرين وتغذيتها إلى وحدة دمج الأوزان الديناميكية (DWF) لتدريب أوزان الارتباط بين الوسيطين، مما يسهل عمليات الدمج ومهام الكشف.

مشفر تحويل الوجه

يتميز مشفر تحويل الوجه عن الأبحاث السابقة (zhang2022deepfake, heo2023deepfake) من خلال استخدام استراتيجية ترميز جديدة تغطي \(n\) إطارات، كما هو موضح في الجزء السفلي من الشكل 1. توجه هذه الاستراتيجية تركيز النموذج نحو المعلومات الزمانية-المكانية الجوهرية عبر إطارات مختلفة داخل الفيديو. بالنسبة لفيديو معين \(V\)، يتم استخراج كتلة الوجه \(\mathbf{F} \in \mathbb{R}^{T \times C \times H \times W}\). \(T\) تمثل طول الإطار، \(C\) تدل على عدد القنوات، و \(H \times W\) تتوافق مع دقة الإطار. يتم إعادة تنظيم الإطارات بترتيب زمني، مما يؤدي إلى تمثيل جديد كـ \(C \times (T \times H) \times W\). مشابهاً لرمز [class] في ViT (dosovitskiy2020image)، يتم دمج مضمن قابل للتعلم \(\mathbf{F}_{class}\) في السلسلة، بينما يتم إضافة تضمينات الموضع القابلة للتعلم \(\mathbf{E}_{p}\). يتم تعيين ميزات كل قطعة صورة خطياً إلى فضاء بأبعاد \(D\) قبل الدخول إلى مشفر التحويل. يتضمن مشفر التحويل طبقة انتباه ذاتي متعدد الرؤوس (MSA)، مما يمكن النموذج من تمييز الارتباطات بين المواقع المختلفة والجوانب المكانية داخل إطار الفيديو. يتم تطبيق تطبيع الطبقة (LN) قبل كل كتلة، ويتم تطبيق الاتصالات المتبقية (RC) بعد كل كتلة. يمكن التعبير عن العملية بأكملها رسمياً كما يلي:

\[\begin{aligned} \mathbf{F}_0 &= [ \mathbf{F}_{class}\mathbf{E}_{p}; \, \mathbf{f}_1 \mathbf{E}_{p}; \, \mathbf{f}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{f}_T \mathbf{E}_{p} ], \\ \mathbf{F}_\ell &= \text{MSA}(\text{LN}(\mathbf{F}_{\ell-1})) + \mathbf{F}_{\ell-1},\quad \ell = 1, \dots, L ,\end{aligned}\]

حيث يمثل \(\mathbf{f} \in \mathbb{R}^{(H \times W\times C) \times D}\) الميزة البصرية و \(\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D}\) هو تضمين الموضع القابل للتعلم.

مشفر تحويل الصوت

للتعامل مع مكونات الصوت، يستخدم النموذج محولاً مشابهاً لمشفر تحويل الوجه، مستفيداً من آلية الانتباه الذاتي لالتقاط الاعتماديات طويلة المدى الداخلية ضمن الصوت. تقوم الدراسة باستخراج الأنماط الصوتية، والديناميكيات الزمنية، والميزات الأخرى المحددة للصوت من إشارات الصوت بشكل منهجي. يتم حساب ميزة MFCC من إشارة الصوت، مما ينتج مكونات يشار إليها بـ \(\mathbf{A} \in \mathbb{R}^{T \times M}\)، حيث \(T\) تمثل الزمن و\(M\) تمثل عناصر التردد، والتي يتم بعد ذلك إسقاطها خطياً إلى تضمين أحادي البعد. لالتقاط الارتباطات الهيكلية الجوهرية من الطيفيات الصوتية، يتم دمج رمز فئة مضمن قابل للتعلم \(\mathbf{A}_{\text{class}}\) في التسلسل. بالإضافة إلى ذلك، يتم تقديم تضمينات موضعية قابلة للتدريب. يتم توضيح العملية بأكملها في الصيغة التالية.

\[\begin{aligned} \mathbf{A}_0 &= [ \mathbf{A}_{class} \mathbf{E}_{p}; \, \mathbf{a}_1 \mathbf{E}_{p}; \, \mathbf{a}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{a}_T \mathbf{E}_{p} ], \\ \mathbf{A}_\ell &= \text{MSA}(\text{LN}(\mathbf{A}_{\ell-1})) + \mathbf{A}_{\ell-1},\quad \ell = 1, \dots, L .\end{aligned}\]

حيث \(\mathbf{a} \in \mathbb{R}^{(H \times W \times C) \times D}\) يمثل ميزة الصوت و\(\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D}\) هو أيضاً التضمين الموضعي القابل للتعلم. تشمل المخرجات \(\mathbf{F}_{class}\) و\(\mathbf{A}_{class}\) من مشفر تحويل الوجه ومشفر تحويل الصوت مجموعة متنوعة من المعلومات داخل الفيديو مثل التفاصيل البصرية المكانية، التحولات الزمنية في الأوضاع السمعية البصرية، ومحتوى الصوت.

المحول متعدد الوسائط مع دمج الأوزان الديناميكي

بعد استخراج ميزة الصوت \(\mathbf{A}_{class}\) وميزة الفيديو \(\mathbf{F}_{class}\)، تولد وحدة دمج الأوزان الديناميكي (DWF) أوزاناً على مستوى الكيان \(W_A\) و\(W_F\) لكل وسيط، كما هو موضح في الشكل المحذوف. مستلهمين من (chen2023meaformer)، يتضمن تصميمنا كتلة انتباه متقاطع متعدد الرؤوس ثنائية الطبقات (MHCA) لحساب هذه الأوزان. تُستخدم الطبقة التالية، MHCA، أوزان الطبقة السابقة ولا تتطلب تهيئة. تعمل MHCA بوظيفة الانتباه في \(N_h\) رؤوس متوازية، مما يسمح للنموذج بالانتباه المشترك للمعلومات من فضاءات تمثيل فرعية مختلفة في مواقع مختلفة. يتم تحديد الرأس \(i\) بواسطة مصفوفات المشاركة الموضعية \(W_q^{(i)}\), \(W_k^{(i)}\), \(W_v^{(i)} \in \mathbb{R}^{d \times d_h}\)، التي تحول المدخلات متعددة الوسائط \(\mathbf{A}_{class}\), \(\mathbf{F}_{class}\) إلى استفسارات واعية بالوضع \(Q_{f/a}^{(i)}\)، مفاتيح \(K_{f/a}^{(i)}\)، وقيم \(V_{f/a}^{(i)}\). \(d\) يمثل بعد ميزات الإدخال، بينما \(d_h\) يمثل بعد الطبقات الخفية. لكل ميزة من الوسائط، الناتج هو:

\[\begin{gathered} \text{MHCA}(\mathbf{F}_{class}) = \text{Concat}(W^i_F V_f \cdot W_o), \\ \text{MHCA}(\mathbf{A}_{class}) = \text{Concat}(W^i_A V_a \cdot W_o), \\ W^i_F = \bar{\beta}^{(i)}_{ff} + \bar{\beta}^{(i)}_{fa}, \hspace{0.6cm} W_F= {\textstyle \sum_{i=1}^{N_h}} W_F^i/N_h,\\ W^i_A = \bar{\beta}^{(i)}_{aa} + \bar{\beta}^{(i)}_{af}, \hspace{0.6cm} W_A= {\textstyle \sum_{i=1}^{N_h}} W_A^i/N_h,\end{gathered}\]

حيث \(W_o \in \mathbb{R}^{d \times d}\), \({\bar\beta}^{(i)}_{*}\) يمثل وزن الانتباه للرأس \(i\). يُعرف وزن الانتباه لكل رأس \({\bar\beta}^{(i)}_{fa}\) بين \(f\) و\(a\) في كل رأس كما يلي:

\[\begin{aligned} {\bar\beta}^{(i)}_{fa} = \frac{\exp(Q_f K^{\top}_a / \sqrt{d_h})} {\textstyle \sum_{n\in {f,a}}\exp(Q_f K^{\top}_n / \sqrt{d_h}) },\quad \end{aligned}\]

حيث يتم حساب \({\bar\beta}^{(i)}_{ff}\)، \({\bar\beta}^{(i)}_{af}\)، و\({\bar\beta}^{(i)}_{aa}\) بطريقة مماثلة، مع \(d_h=d/N_h\). LN وRC تستقر أيضاً أثناء التدريب. \[\begin{aligned} h_v=\text{LN} (\text{MHCA}(\mathbf{F}_{\ell-1})+\mathbf{F}_{\ell-1}),\\ h_a=\text{LN} (\text{MHCA}(\mathbf{A}_{\ell-1})+\mathbf{A}_{\ell-1}),\end{aligned}\]

حيث يتم بعد ذلك تمرير \(h_v\) و\(h_a\) إلى الطبقة التالية من وحدة DWF لمزيد من التدريب.

دمج الوسائط. لتعظيم استخدام الميزات بين الوسائط السمعية والبصرية، نضرب الميزات السمعية المستخرجة مسبقاً \(\mathbf{A}_{class}\)، وميزات الفيديو \(\mathbf{F}_{class}\) بأوزان على مستوى الكيان \(W_A\) و\(W_F\) في قطاع دمج الوسائط. يضمن هذا النهج تنوع الوسائط ويتجنب التركيز الذاتي المفرط. \[\begin{aligned} V = W_F \mathbf{F}_{class}\oplus W_A \mathbf{A}_{class}.\end{aligned}\]

التجربة

مجموعة البيانات

تشمل التجارب ثلاث مجموعات بيانات: (korshunov1812deepfakes)، (dolhansky2020deepfake)، و(khalid2021fakeavceleb). نظراً لأن نسبة الفيديوهات الحقيقية والمزيفة في هذه المجموعات غير متوازنة بشكل كبير، فإننا نستخدم طرقاً متنوعة لموازنة البيانات الحقيقية والمزيفة. يوضح الجدول [tab:tab0] التغير في نسبة البيانات الحقيقية والمزيفة قبل وبعد التوازن. تم دمج الفيديوهات الأصلية لـ(sanderson2002vidtimit) في مجموعة بيانات (korshunov1812deepfakes). استخرجت مجموعة بيانات (dolhansky2020deepfake) إطارات متتالية جزئية من كل فيديو (Deepfake). بالمقابل، تم استخدام جميع الإطارات لتدريب الفيديوهات الحقيقية. لمعالجة مشكلة عدم التوازن في البيانات في مجموعة بيانات (khalid2021fakeavceleb)، تم اختيار 19,000 فيديو حقيقي من (chung2018voxceleb2). تم تقسيم المجموعات إلى مجموعات تدريب، تحقق، واختبار بنسبة 7:1:2. كانت نسبة توازن البيانات الحقيقية والمزيفة في مجموعة الاختبار 1:1. تم إجراء جميع التقييمات التجريبية حصرياً على مجموعة الاختبار.

التنفيذ

خلال التدريب، يتم تقسيم كل من الفيديوهات الأصلية والمزيفة إلى كتل بطول \(T\) (القيمة الافتراضية هي 30). لكشف الوجوه، يتم استخدام كاشف الوجوه المقاوم للتغيرات القياسية بطلقة واحدة (Single Shot Scale-invariant Face Detector (S\(^3\)FD) (zhang2017s3fd)). ثم يتم محاذاة الوجوه المكتشفة وحفظها كصور بأبعاد \(224\times224\). في معالجة الصوت، يتم حساب ميزات MFCC كمدخلات باستخدام نافذة Hanning مدتها 15 مللي ثانية وانتقال النافذة 4 مللي ثانية لتحليل الطيف بدقة. تم إجراء جميع التجارب تحت نفس الإعدادات لضمان قابلية مقارنة النتائج التجريبية.

مقارنات مع الأحدث في المجال

في تجارب شاملة، تم تقييم فعالية AVT\(^2\)-DWF مقابل النماذج الأساسية الأحدث في المجال باستخدام مقاييس الأداء مثل الدقة (Accuracy) ومساحة تحت المنحنى (Area Under the Curve). تم تصنيف النماذج الأساسية إلى مجموعتين: الوضع البصري (V) والوضع متعدد الوسائط (AV). تم إجراء تحليل مقارن على ثلاث مجموعات بيانات، وتم عرض النتائج في الجدول [tab:tab1]. تم التأكيد على النتائج الأكثر بروزاً بالخط العريض، وينطبق الأمر نفسه فيما بعد. بسبب الكمية المحدودة من الفيديوهات، تظهر معظم الطرق الأساسية أداءً مرتفعاً في الكشف عن DF-TIMIT. يبرز AVT\(^2\)-DWF وAVA-CL بدقة 99.99% و 100% على DF-TIMIT (LQ)، متفوقين بشكل ملحوظ على الطرق الأخرى. في مجموعة بيانات FakeAVCeleb الصعبة، المصممة لتزوير الفيديو المعقد، يظهر AVA-CL، الذي يستخدم طريقة التعلم بالتباين للانتباه السمعي البصري، أداءً مماثلاً لطريقتنا AVT\(^2\)-DWF. يُلاحظ أن طريقتنا أكثر موثوقية بسبب مجموعة الاختبار المتوازنة. في مجموعة البيانات الواسعة DFDC، يتفوق AVT\(^2\)-DWF على طرق الكشف الأخرى المبنية على الرؤية والسمع البصري، محققاً دقة 88.02% ومساحة تحت المنحنى 89.20%، مظهراً أداءً استثنائياً.

تقييم البيانات المتقاطعة

تعطى الأولوية في هذه المرحلة لتقييم متانة نموذج AVT\(^2\)-DWF. لضمان التعميم عبر مجموعات البيانات المختلفة، يتم مقارنة منهجنا مع أربعة نماذج بارزة: Xception (rossler2019faceforensics++), CViT (wodajo2021deepfake), Lipforensis (haliassos2021lips)، و MDS (mittal2020emotions). تمتد التقييمات عبر البيانات المتقاطعة على ثلاث مجموعات بيانات معيارية. على وجه التحديد، تشتمل FakeAVCeleb على أربع طرق تزييف عميق متميزة، وDFDC تشمل ثماني تقنيات، وDF-TIMIT تشمل عمليتين—حيث تقدم كل مجموعة بيانات تحديات تزييف عميق فريدة من نوعها. تلخص نتائج التقييم عبر البيانات لهذه المعايير الثلاثة في الجدول [tab:tab2]. تظهر الطرق التقليدية أداءً ضعيفاً عند مواجهة مزيفات عميقة غير مرئية. على الرغم من أن CViT، الذي يستفيد من المحولات كمكتشفات، يحقق نتائج مشرفة، إلا أن نموذجنا AVT\(^2\)-DWF يتفوق على أدائه، مما يظهر فعاليته المحسنة في كشف المزيف العميق.

دراسة الاستئصال

فائدة وحدة DWF

في تقييم شامل لوحدة AVT2-DWF، أجرينا تجارب استئصالية، حيث فحصنا نسخة بصرية بحتة، ونسخة AV (من خلال دمج مستخرجات الكلام والوجه ببساطة)، وAVT2-DWF التي تجمع بين وحدتي AV وDWF (VA-DWF). تم عرض نتائج الاختبار على مجموعتي بيانات DFDC وFakeAVCeleb في الجدول [tab:tab3]. في مجموعة بيانات DFDC، حيث لم يتم تزوير الصوت، يؤدي الاعتماد فقط على ميزات الصوت والصورة المدمجة للتصنيف إلى انخفاض كبير في نتائج الكشف. على العكس، بالنسبة لمجموعة بيانات FakeAVCeleb، حيث أن الوضع البصري لبعض الفيديوهات حقيقي بينما يتم التلاعب بالوضع الصوتي، فإن وحدة الصوت والصورة تعزز الأداء بشكل ملحوظ. مع إدخال وحدة DWF، تحسنت نتائج الكشف بنسبة 11.55% و 12.89% على التوالي، مما يبرز المزايا الكبيرة لوحدة DWF لدينا في التقاط الميزات المشتركة عبر الوسائط المختلفة.

فائدة ترميز الإطارات \(n\)

لتقييم مزايا استراتيجية ترميز الإطارات \(n\)، يتم استخراج بقع غير متكررة بشكل عشوائي من تسلسل متتابع لإطارات الوجه. ثم يتم تجميع هذه البقع في صور كاملة للإدخال. تعرض نتائج الاختبار في مجموعتي البيانات DFDC وFakeAVCeleb في الجدول [tab:tab4]. في هذين المعيارين، تحسن أداء استراتيجية ترميز الإطارات \(n\) بنسبة 22.45% و 3.74% على التوالي، مقارنة بطريقة البقع التقليدية، مما يظهر فعالية نظامنا في الحفاظ على المعلومات المستمرة للوجه بالكامل.

الخلاصة

تقترح هذه الورقة إطار عمل AVT\(^2\)-DWF لمعالجة التباينات المكانية الدقيقة والاتساق الزمني داخل محتوى الفيديو. يتم تسليط الضوء على الخصائص الفريدة لكل وضعية باستخدام مشفرات محول الوجه ومحول الصوت التي تستخدم استراتيجية ترميز الإطار \(n\). بعد ذلك، تقوم تقنية الدمج الموزون ديناميكياً (DWF) باستخراج الخصائص المشتركة من الوضعيات السمعية البصرية. تشير نتائج تجاربنا إلى أداء متفوق لـ AVT\(^2\)-DWF في كل من التنفيذات داخل وعبر مجموعات البيانات مقارنة بطرق أخرى لكشف التزييف العميق. توحي هذه النتائج بأن تحقيق الاتساق الشامل عبر وضعيات متعددة يمكن أن يكون مؤشراً حاسماً لكشف التزييف العميق في سيناريوهات العالم الحقيقي.