latex
مُلَخَّص
مع التحسينات المستمرة في تقنيات التزييف العميق، تطور المحتوى المزيف من أحادي الوسائط إلى تعدد وسائط مدمج، مما طرح تحديات جديدة أمام خوارزميات الكشف التقليدية. في هذه الورقة، نقترح AVT^{2}-DWF، إطار سمعي-بصري مزدوج يعتمد على التوزين الديناميكي، يهدف إلى تضخيم الإشارات المزيفة محليًا وعبر الوسائط لتعزيز قدرات الكشف. يستند AVT^{2}-DWF إلى نهج ثنائي المراحل لالتقاط الخصائص المكانية والديناميكيات الزمنية لتعابير الوجه. يتم ذلك عبر استخدام مشفر المحول البصري باستراتيجية ترميز الإطارات n ومشفر المحول السمعي. ثم يُطبق المحول متعدد الوسائط مع التوزين الديناميكي لمواجهة تحدي دمج المعلومات المشتركة بين الصوت والصورة. تشير التجارب على مجموعات بيانات DeepfakeTIMIT وFakeAVCeleb وDFDC إلى أن AVT^{2}-DWF يحقق أداءً رائدًا في كشف التزييف داخل وخارج مجموعات البيانات. يتوفر الكود المصدري على https://github.com/raining-dev/AVT2-DWF.
مُقَدِّمَة
مع التقدم المستمر في تقنيات الذكاء الاصطناعي لإنتاج المحتوى، لم يعد الإنتاج مقتصراً على وسيط واحد. فقد استخدمت مؤخراً أداة “HeyGen” لإنشاء مقطع فيديو يصوّر المغنية تايلور سويفت وهي تتحدث الصينية، عبر مزج حركات شفاه اصطناعية وصوت مزيف. تشكّل هذه التجارب المعقدة والمتعددة الوسائط تحديًا كبيرًا لأساليب الكشف الحالية. لذلك، تبرز الحاجة الماسة إلى تطوير تقنيات متقدمة لرصد هذه الفيديوهات العميقة المتطورة.
ركزت الطرق السابقة (verdoliva2020media، rossler2019faceforensics++) بشكل أساسي على كشف التزييف في وسيط واحد، معتمدة على تقنيات التلاعب بالوجه المعروفة لكشف البصمات البصرية. ومع ذلك، تبين ضعف أدائها عند الانتقال عبر مجموعات بيانات مختلفة. حاولت بعض الأساليب الأحدث استخدام إشارات مكان-زمان على مستوى البقع لتعزيز متانة النموذج وقدرته على التعميم (zhang2022deepfake، heo2023deepfake). تعتمد هذه الطرق على تقسيم الفيديو إلى بقع تتم معالجتها بواسطة محول بصري، كما هو موضح في الشكل العلوي. لكن ذلك يقطع الارتباط الطبيعي بين مكونات الوجه، مما يحد من قدرة الكشف على عدم الاتساق المكاني. علاوة على ذلك، مع إمكانية تزوير المحتوى الصوتي، فإن التركيز الحصري على المعالجة البصرية قد يؤدي إلى تحيز. لذلك، اكتسب مجال الكشف السمعي-البصري متعدد الوسائط اهتمامًا كبيرًا في الأبحاث الحديثة.
توجد حاليًا عدة أساليب للكشف عن التزييف متعدد الوسائط. على سبيل المثال، يركز EmoForen (mittal2020emotions) على اكتشاف التباين العاطفي، بينما يقدم MDS (chugh2020not) مقياس التنافر الوسيطي لقياس التوافق السمعي-البصري. يستخدم VFD (cheng2023voice) آلية مطابقة بين الصوت والوجه لرصد الفيديوهات المزيفة. يستفيد AVA-CL (zhang2023joint) من الانتباه السمعي-البصري والتعلم التبايني لتعزيز دمج ومطابقة السمات من كلا الوسائط، بما يلتقط الارتباطات الجوهرية بفعالية. رغم ذلك، ركّزت الأبحاث السابقة أساسًا على دمج السمات عبر الوسائط، متجاهلة تحسين استخراج السمات داخل كل وسيط. وللتعامل مع هذا القصور، يقترح بحثنا استراتيجية بقع إطار-n لتحسين استخراج السمات الموضعية، إلى جانب وحدة DWF لموازنة دمج أدلة التزييف عبر الوسائط لتعزيز قدرات الكشف.
في هذه الدراسة، نقدم محولًا سمعي-بصري متعدد الوسائط يُعرف بـAVT^{2}-DWF، يستهدف التقاط السمات المميزة لكل وسيط وتحقيق تناغم فعال بينها. لتعزيز قدرات التمثيل واستكشاف الاتساق المكاني والزمني ضمن الفيديو، نعتمد استراتيجية ترميز بقع الإطار-n التي تركز على ملامح الوجه داخل الإطارات، مدمجة ضمن مشفر المحول البصري. وبشكلٍ موازي، نطبق عملية مماثلة في المجال السمعي لاستخراج السمات الصوتية. ثم نقترح استخدام وحدة دمج الوزن الديناميكي (DWF) في المحول متعدد الوسائط، حيث تتنبأ هذه الآلية بأوزان الوسائط السمعية والبصرية ديناميكيًا، مما يسهّل اندماجًا أكثر فعالية لميزات التزييف والسمات المشتركة، وبالتالي يعزز قدرات الكشف.
باختصار، تشمل مساهماتنا:
نعتمد استراتيجية ترميز بقع الإطار-n لتعزيز استخراج ملامح الوجه ضمن الإطارات، بما في ذلك تفاصيل التعابير وحركات الوجه الدقيقة.
نقترح محولًا متعدد الوسائط مع دمج الوزن الديناميكي (DWF) لتحسين دمج المعلومات المتباينة من الوسائط السمعية والبصرية.
نُدمج هاتين الطريقتين تحت إطار AVT^{2}-DWF، ونُظهر عبر تقييم شامل باستخدام معايير معترف بها على نطاق واسع الفعالية العالية لهذا الإطار.
الطريقة
يهدف نهجنا إلى تضخيم إشارات التزييف داخل كل وسيط وعبر الوسائط، بما يعزز قدرات الكشف بمعلومات أكثر دقة. يتألف إطار AVT^{2}-DWF من ثلاثة مكونات رئيسية: مشفر المحول البصري للوجه، مشفر المحول السمعي، ووحدة دمج الأوزان الديناميكية (DWF). أولاً، يستخلص مشفر الوجه والمشفر السمعي الخصائص البصرية والصوتية لاستخراج دلائل التزييف داخل كل وسيط. ثم تُدمج مخرجاتهما وتُمرَّر إلى وحدة DWF التي تتعلم أوزان الارتباط بين الوسائط لتسهيل الدمج وتحسين نتائج الكشف.
مشفر تحويل الوجه
يتميز مشفر تحويل الوجه عن الأبحاث السابقة (zhang2022deepfake, heo2023deepfake) من خلال استخدام استراتيجية ترميز جديدة تغطي n إطارات، كما هو موضح في الجزء السفلي من الشكل 1. توجه هذه الاستراتيجية تركيز النموذج نحو المعلومات الزمانية-المكانية الجوهرية عبر إطارات مختلفة داخل الفيديو. بالنسبة لفيديو معين V، يتم استخراج كتلة الوجه \mathbf{F} \in \mathbb{R}^{T \times C \times H \times W}. T تمثل طول الإطار، C تدل على عدد القنوات، و H \times W تتوافق مع دقة الإطار. يتم إعادة تنظيم الإطارات بترتيب زمني، مما يؤدي إلى تمثيل جديد كـ C \times (T \times H) \times W. مشابهاً لرمز [class] في ViT (dosovitskiy2020image)، يتم دمج مضمن قابل للتعلم \mathbf{F}_{class} في السلسلة، بينما يتم إضافة تضمينات الموضع القابلة للتعلم \mathbf{E}_{p}. يتم تعيين ميزات كل قطعة صورة خطياً إلى فضاء بأبعاد D قبل الدخول إلى مشفر التحويل. يتضمن مشفر التحويل طبقة انتباه ذاتي متعدد الرؤوس (MSA)، مما يمكن النموذج من تمييز الارتباطات بين المواقع المختلفة والجوانب المكانية داخل إطار الفيديو. يتم تطبيق تطبيع الطبقة (LN) قبل كل كتلة، ويتم تطبيق الاتصالات المتبقية (RC) بعد كل كتلة. يمكن التعبير عن العملية بأكملها رسمياً كما يلي:
\[ \begin{aligned} \mathbf{F}_0 &= [ \mathbf{F}_{class}\mathbf{E}_{p}; \, \mathbf{f}_1 \mathbf{E}_{p}; \, \mathbf{f}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{f}_T \mathbf{E}_{p} ], \\ \mathbf{F}_\ell &= \text{MSA}(\text{LN}(\mathbf{F}_{\ell-1})) + \mathbf{F}_{\ell-1},\quad \ell = 1, \dots, L , \end{aligned} \]
حيث يمثل \mathbf{f} \in \mathbb{R}^{(H \times W\times C) \times D} الميزة البصرية و \mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D} هو تضمين الموضع القابل للتعلم.
مشفر تحويل الصوت
للتعامل مع مكونات الصوت، يستخدم النموذج محولاً مشابهاً لمشفر تحويل الوجه، مستفيداً من آلية الانتباه الذاتي لالتقاط الاعتماديات طويلة المدى داخل الإشارة الصوتية. تستخلص الدراسة الأنماط الصوتية والديناميكيات الزمنية والميزات الصوتية المميزة من إشارة الصوت بشكل منهجي. تُحسب ميزة MFCC من الإشارة، مما ينتج مكونات \mathbf{A} \in \mathbb{R}^{T \times M}، حيث T تمثل الزمن وM تمثل عناصر التردد، ثم تُسقط خطياً إلى تضمين أحادي البعد. لالتقاط الارتباطات الهيكلية الجوهرية من الطيفيات الصوتية، يُدمج رمز فئة قابل للتعلم \mathbf{A}_{\text{class}} في التسلسل ويضاف تضمين موضعي قابل للتدريب. توضح المعادلات التالية العملية كاملة:
\[ \begin{aligned} \mathbf{A}_0 &= [ \mathbf{A}_{class} \mathbf{E}_{p}; \, \mathbf{a}_1 \mathbf{E}_{p}; \, \mathbf{a}_2 \mathbf{E}_{p}; \cdots; \, \mathbf{a}_T \mathbf{E}_{p} ], \\ \mathbf{A}_\ell &= \text{MSA}(\text{LN}(\mathbf{A}_{\ell-1})) + \mathbf{A}_{\ell-1},\quad \ell = 1, \dots, L . \end{aligned} \]
حيث \mathbf{a} \in \mathbb{R}^{(H \times W \times C) \times D} يمثل ميزة الصوت و\mathbf{E}_{p} \in \mathbb{R}^{(T + 1) \times D} هو التضمين الموضعي القابل للتعلم. تشمل المخرجات \mathbf{F}_{class} و\mathbf{A}_{class} مجموعة معلومات بصرية مكانية، ديناميكيات زمنية سمعية، ومحتوى صوتي.
المحول متعدد الوسائط مع دمج الأوزان الديناميكي
بعد استخراج الميزة الصوتية \mathbf{A}_{class} وميزة الفيديو \mathbf{F}_{class}، تولد وحدة دمج الأوزان الديناميكي (DWF) أوزاناً على مستوى الكيان W_A وW_F لكل وسيط، كما هو موضح في الشكل المحذوف. مستلهمين من (chen2023meaformer)، يتضمن تصميمنا كتلة انتباه متقاطع متعدد الرؤوس ثنائية الطبقات (MHCA) لحساب هذه الأوزان. تُستخدم الطبقة التالية، MHCA، أوزان الطبقة السابقة ولا تتطلب تهيئة. تعمل MHCA بوظيفة الانتباه في N_h رؤوس متوازية، مما يسمح للنموذج بالانتباه المشترك للمعلومات من فضاءات تمثيل فرعية مختلفة في مواقع مختلفة. يتم تحديد الرأس i بواسطة مصفوفات المشاركة الموضعية W_q^{(i)}, W_k^{(i)}, W_v^{(i)} \in \mathbb{R}^{d \times d_h}، التي تحول المدخلات متعددة الوسائط \mathbf{A}_{class}, \mathbf{F}_{class} إلى استفسارات واعية بالوضع Q_{f/a}^{(i)}، مفاتيح K_{f/a}^{(i)}، وقيم V_{f/a}^{(i)}. d يمثل بعد ميزات الإدخال، بينما d_h يمثل بعد الطبقات الخفية. لكل ميزة من الوسائط، الناتج هو:
\[ \begin{gathered} \text{MHCA}(\mathbf{F}_{class}) = \text{Concat}(W^i_F V_f) \cdot W_o, \\ \text{MHCA}(\mathbf{A}_{class}) = \text{Concat}(W^i_A V_a) \cdot W_o, \\ W^i_F = \bar{\beta}^{(i)}_{ff} + \bar{\beta}^{(i)}_{fa}, \hspace{0.6cm} W_F= {\textstyle \sum_{i=1}^{N_h}} W_F^i/N_h,\\ W^i_A = \bar{\beta}^{(i)}_{aa} + \bar{\beta}^{(i)}_{af}, \hspace{0.6cm} W_A= {\textstyle \sum_{i=1}^{N_h}} W_A^i/N_h, \end{gathered} \]
حيث W_o \in \mathbb{R}^{d \times d} و{\bar\beta}^{(i)}_{*} يمثل وزن الانتباه للرأس i. يُحسب وزن الانتباه المشترك بين الصوت والصورة {\bar\beta}^{(i)}_{fa} كما يلي:
\[ \begin{aligned} {\bar\beta}^{(i)}_{fa} = \frac{\exp(Q_f K^{\top}_a / \sqrt{d_h})} {\textstyle \sum_{n\in \{f,a\}}\exp(Q_f K^{\top}_n / \sqrt{d_h}) }, \end{aligned} \]
ويُحسب {\bar\beta}^{(i)}_{ff}، {\bar\beta}^{(i)}_{af}، و{\bar\beta}^{(i)}_{aa} بطريقة مماثلة، مع d_h=d/N_h. تُطبق LN وRC أيضًا أثناء التدريب:
\[ \begin{aligned} h_v=\text{LN} (\text{MHCA}(\mathbf{F}_{\ell-1})+\mathbf{F}_{\ell-1}),\\ h_a=\text{LN} (\text{MHCA}(\mathbf{A}_{\ell-1})+\mathbf{A}_{\ell-1}), \end{aligned} \]
حيث يُمرِّر h_v وh_a إلى الطبقة التالية من وحدة DWF لمزيد من التدريب.
دمج الوسائط. لتعظيم استخدام الميزات بين الوسائط السمعية والبصرية، نضرب الميزات السمعية المستخرجة مسبقًا \mathbf{A}_{class} وميزات الفيديو \mathbf{F}_{class} بأوزان على مستوى الكيان W_A وW_F في قطاع الدمج. يضمن هذا النهج تنوع الوسائط ويتجنب التركيز الذاتي المفرط: \[ \begin{aligned} V = W_F \mathbf{F}_{class}\oplus W_A \mathbf{A}_{class}. \end{aligned} \]
التجربة
مجموعة البيانات
شملت تجاربنا ثلاث مجموعات بيانات: (korshunov1812deepfakes)، (dolhansky2020deepfake)، و(khalid2021fakeavceleb). ونظرًا للاختلال الكبير في نسبة الفيديوهات الحقيقية إلى المزيفة، استخدمنا استراتيجيات مختلفة لموازنة العينات. يوضح الجدول [tab:tab0] نسب البيانات قبل وبعد المعالجة. ضمن مجموعة (korshunov1812deepfakes) جُمعت فيديوهات حقيقية أصلية من (sanderson2002vidtimit)، بينما استُخرجت إطارات متتابعة جزئية من فيديوهات (dolhansky2020deepfake). وبالمقابل، احتوت هذه الأخيرة على جميع الإطارات للفيديوهات الحقيقية. وللتخفيف من عدم التوازن في (khalid2021fakeavceleb)، اختيرت 19,000 فيديو حقيقي إضافي من (chung2018voxceleb2). تقسمت البيانات إلى مجموعات تدريب، تحقق، اختبار بنسبة 7:1:2، مع نسبة متوازنة 1:1 بين الحقيقية والمزيفة في مجموعة الاختبار. وأُجريت جميع التقييمات على هذه المجموعة الاختبارية حصريًا.
التنفيذ
أثناء التدريب، نقسم الفيديوهات الحقيقية والمزيفة إلى كتل بطول T (القيمة الافتراضية 30). لاكتشاف الوجوه، نستخدم كاشف الوجوه المقاوم للتغيرات القياسية بطلقة واحدة (Single Shot Scale-invariant Face Detector (S^{3}FD) (zhang2017s3fd)). ثم نحاذي الوجوه المكتشفة ونحفظها كصور بأبعاد 224\times224. في الجانب الصوتي، نحسب ميزات MFCC باستخدام نافذة Hanning مدتها 15 مللي ثانية مع انتقال 4 مللي ثانية، مما يضمن تحليلًا طيفيًا دقيقًا. جرت جميع التجارب تحت إعدادات موحدة لضمان إمكانية مقارنة النتائج بإنصاف.
مقارنات مع الأحدث في المجال
في سلسلة من التجارب الشاملة، قارننا فعالية AVT^{2}-DWF بعدد من النماذج الرائدة باستخدام مقاييس الأداء (الدقة Accuracy، ومساحة تحت المنحنى Area Under the Curve). قسمنا النماذج الأساسية إلى فئتين: بصرية (V) ومتعددة الوسائط (AV). جرى التحليل على ثلاث مجموعات بيانات، كما هو مبين في الجدول [tab:tab1]، وتم تمييز القيم الأفضل بالخط العريض. في مجموعة DF-TIMIT منخفضة الجودة (LQ)، حقق كل من AVT^{2}-DWF وAVA-CL دقة تصل إلى 99.99% و100% على التوالي، متفوقين بوضوح على الأساليب الأخرى. وفي مجموعة FakeAVCeleb الصعبة المُصممة للتزييفات المعقدة، أظهر AVA-CL المدعم بالتعلم التبايني للانتباه السمعي-البصري أداءً مكافئًا لطريقتنا AVT^{2}-DWF؛ ومع ذلك، يسجل منهجنا موثوقية أعلى بفضل توازن بيانات الاختبار. أما في مجموعة DFDC الواسعة، فقد تفوق AVT^{2}-DWF على جميع أساليب الرؤية والرؤية السمعية، محققًا دقة 88.02% ومساحة تحت المنحنى 89.20%، مما يدل على أداء استثنائي.
تقييم البيانات المتقاطعة
تركز هذه التجربة على تقييم متانة AVT^{2}-DWF عبر البيانات المتقاطعة. ولضمان تعميم النتائج، قارننا منهجنا مع أربعة نماذج بارزة: Xception (rossler2019faceforensics++)، CViT (wodajo2021deepfake)، Lipforensics (haliassos2021lips)، وMDS (mittal2020emotions). تمت التقييمات عبر ثلاث مجموعات بيانات معيارية؛ FakeAVCeleb التي تضم أربع طرق تزييف عميق، وDFDC التي تشمل ثماني تقنيات، وDF-TIMIT التي تحتوي على طريقتين للتزييف. تلخص نتائج هذا التقييم في الجدول [tab:tab2]. تظهر الطرق التقليدية أداءً محدودًا عند مواجهة أنواع جديدة من التزييف العميق. وعلى الرغم من أن CViT، المستفيد من بنية المحول، قدم نتائج مشجعة، إلا أن AVT^{2}-DWF تفوق عليه، مما يؤكد فعاليته المحسّنة في اكتشاف التزييف العميق.
دراسة الاستئصال
فائدة وحدة DWF
في تحليل استئصالي لوحدة DWF ضمن إطار AVT^{2}-DWF، قارنّا ثلاثة تكوينات: المشفر البصري وحده، والتكوين AV البسيط (دمج الميزات الصوتية والبصرية بدون DWF)، والإطار الكامل الذي يشمل وحدة DWF (VA-DWF). توضح نتائج الاختبار على مجموعتي DFDC وFakeAVCeleb في الجدول [tab:tab3] تأثير وحدة DWF. في DFDC، حيث يبقى الصوت غير مزوّر، أدى الاعتماد على الدمج البسيط للميزات إلى تراجع ملحوظ في الدقة. بالمقابل، في FakeAVCeleb، التي تتضمن تزييفًا صوتيًا مع وجه حقيقي في بعض الحالات، حسن الدمج المعتمد على DWF الأداء بشكل ملحوظ. فقد ارتفعت نسبة الكشف بنسبة 11.55% و12.89% على التوالي، مما يدل على الفائدة الكبيرة لوحدة DWF في التقاط الميزات المشتركة بين الوسائط.
فائدة ترميز الإطارات n
لتقييم تأثير استراتيجية ترميز الإطارات n، نستخرج بقعًا عشوائية غير متكررة من تسلسل إطارات الوجه، ثم ندمجها لتكوين صور إدخال كاملة. تعرض نتائج الاختبار على مجموعتي DFDC وFakeAVCeleb في الجدول [tab:tab4] تحسّن الأداء بنسبة 22.45% و3.74% على التوالي مقارنة بأسلوب البقع التقليدي. يشير هذا إلى فعالية ترميز الإطارات n في الحفاظ على المعلومات المستمرة لملامح الوجه.
الخلاصة
نقدّم في هذه الورقة إطار AVT^{2}-DWF لمعالجة الفروق المكانية الدقيقة والاتساق الزمني داخل محتوى الفيديو. نسلط الضوء على السمات الفريدة لكل وسيط عبر مشفرات محول الوجه والصوت باستخدام استراتيجية ترميز الإطار n، ثم نطبق آلية الدمج الديناميكي (DWF) لاستخراج الخصائص المشتركة. تشير نتائج تجاربنا إلى أن AVT^{2}-DWF يتفوق على الأساليب الحالية، سواء داخل البيانات نفسها أو عبر مجموعات بيانات مختلفة. تعكس هذه النتائج أهمية تحقيق تناغم شامل بين الوسائط المتعددة للكشف الفعال عن التزييف العميق في السيناريوهات الواقعية.