يقدّم هذا البحث طريقةً جديدةً لاندماج الوسائط المتعددة باستخدام آلية انتباه قناة الوضع، التي تحسّن الأداء بشكلٍ كبيرٍ على مجموعاتٍ متنوعةٍ من البيانات. ونظرًا للطبيعة المتناثرةِ لهذه البيانات في العديد من التطبيقات، فإنّ تقنيتنا توفّر وسيلةً فعّالةً لدمج المعلومات من مصادر متعددةٍ تحافظ على السياق الأساسي وتعزّز الخصائص المهمة لكل وضع.
في السنوات الأخيرة، شهدنا تقدّمًا ملحوظًا في مجال تعلم الآلة، خصوصًا في معالجة البيانات المتعددة الوسائط. يُعتبر اندماج الوسائط المتعددة تحديًا رئيسيًا ناتجًا عن تنوع البيانات والحاجة إلى الحفاظ على السياق الأساسي أثناء دمج المعلومات من مصادر متعددة. تقنية انتباه قناة الوضع (Modal Channel Attention) التي نقدمها تعالج هذه التحديات بفعالية.
يعتمد الإطار النظري لآلية انتباه قناة الوضع على فكرة أنه يمكن تحسين دقّة الدمج عبر التركيز على المعلومات الأكثر أهمية في كل وضع. ويُنفّذ ذلك من خلال تعلّم كيفية توزيع الانتباه عبر قنوات مختلفة في كل وضع، مما يساعد على تحسين التمثيل النهائي للبيانات المندمجة.
أجرينا سلسلةً متميّزةً من التجارب لتقييم أداء تقنية انتباه قناة الوضع. تُظهر النتائج تحسّنًا ملحوظًا في الأداء العام مقارنةً بالتقنيات الأخرى، وخاصةً في مهام التصنيف والتعرف على الأنماط. وتؤكد هذه النتائج فعالية تقنيتنا في التعامل مع البيانات المتعددة الوسائط.
علاوةً على ذلك، تقدّم تقنية انتباه قناة الوضع وسيلةً فعّالةً وقويةً لاندماج الوسائط المتعددة في مجال تعلم الآلة. وبفضل قدرتها على التركيز على المعلومات الأكثر أهميةٍ في كل وضع، تعزّز هذه التقنية الأداء بشكلٍ كبيرٍ وتوفر أساسًا متينًا للتطبيقات المستقبلية في هذا المجال.
تعلّمت الدراسة قدرة النماذج القائمة على المحوّل متعدد الوسائط المعتمد على انتباه القناة المقنع على استنباط فضاء تضمينٍ قويٍ عندما تكون بيانات الوسائط متفرقةً ومبعثرةً، وذلك عبر قياس جودة فضاءات التضمين المولّدة كمؤشر لتفرّق الوسائط. وقد اقترحت الدراسة توسيع نموذج المحوّل متعدد الوسائط المقنع لدمج القنوات ناقصة الوسائط في آلية الانتباه متعدد الرؤوس، التي أُطلق عليها اسم "انتباه قناة الوسائط" (MCA). واستُخدمت مجموعتا بيانات رباعية الوسائط: CMU-MOSEI للتعرّف على المشاعر، وTCGA لعلم الأوميات. أظهرت النماذج قدرتها على تعلّم فضاءات تضمينٍ موحّدةٍ ومتوافقةٍ باستخدام وسيطين فقط من أربعة وسائط في معظم العينات. ووجد أنّه، حتى بدون تفرّق الوسائط، تحسّن الآلية المقترحة (MCA) جودة فضاءات التضمين المولّدة، ومقاييس الاسترجاع، والأداء اللاحق في المهام التبعية.
انتشرت النماذج متعددة الوسائط كمعيارٍ لتطبيقات التعلم العميق (xu2023multimodal, han2023survey, liang2022foundations). وقد استخدمت العديد من الدراسات نماذجً تم تدريبها باستخدام وسيطتين متوافقتين (lynch2022mira, noriy2023clara, akbari2021vatt, singh2022flava, radford2021learning, alayrac2020self, huang2021multilingual, fei2022towards, huang2024mavil, hager2023best) بما في ذلك دمج الصور في نماذج اللغة الكبيرة (alayrac2022flamingo, rahman2020integrating). كما درست بعض الأبحاث تدريب النماذج باستخدام أكثر من وسيطتين متوافقتين (mizrahi20244m, shvetsova2022everything, recasens2023zorro, srivastava2024omnivec, shi2023m, zhang2022mmformer, akbari2021vatt)، واستكشفت الأعمال الحديثة التعلم من وسائط متعددة غير متوافقة أو متوافقة جزئيًا (yang2021multi, zhang2023learning, wang2020understanding, tran2023training, wei2023one, nakada2023understanding).
تستخدم معظم هذه الأمثلة مزيجًا من النصوص والصوت والصور والفيديو. ومع ذلك، قد تستعين بعض التطبيقات ببياناتٍ خارج هذه الأشكال التقليدية. على سبيل المثال، يشمل دمج المستشعرات المتعددة في أنظمة المراقبة المنزلية والروبوتات بياناتٍ جدولية وسلاسلَ زمنيةٍ من أنواعٍ مختلفةٍ من المستشعرات (tonkin2023multi). كما تستخدم التطبيقات البيولوجية والطبية الحيوية بياناتٍ تتكوّن من جداول وصور وبياناتٍ تسلسلية. في هذه المجالات، قد يتألف كل شكلٍ معلوماتيٍ أيضًا من وسائطٍ مختلفةٍ من نفس نوع البيانات ولكن من مصادر مختلفةٍ، كما في جداول لبياناتٍ ناتجةٍ عن تجاربٍ متنوعةٍ (cui2023deep).