نظرة عامّة
يقدّم هذا البحث مقاربة جديدة للدمج المتعدد الوسائط في السيناريوهات ذات التغطية المتناثرة عبر الوسائط، وذلك باستخدام آليّة انتباه قنوات النمط، التي تعزّز الانتقاء السياقي للمعلومات وتُحسّن الأداء على مجموعات بيانات متنوّعة. وبما أنّ بيانات كثير من التطبيقات تكون ناقصة أو غير متزامنة بين الوسائط، فإن تقنيتنا توفّر دمجاً فعّالاً يحافظ على السياق المشترك ويُبرز السمات المهمّة لكل وسيط.
مقدّمة
شهدت السنوات الأخيرة تقدّماً ملحوظاً في تعلّم الآلة، ولا سيّما في معالجة البيانات المتعدّدة الوسائط. ويُعدّ الدمج المتعدد الوسائط تحدّياً رئيسياً نابعاً من تغاير أنماط البيانات والحاجة إلى الحفاظ على السياق المشترك أثناء دمج المعلومات من مصادر متعدّدة. آليّة انتباه قنوات النمط (Modal Channel Attention) التي نقدّمها تُعالج هذه التحدّيات بكفاءة عبر توجيه الانتباه نحو الإشارات الأكثر فائدة في كل وسيط.
الأساس النظري
ترتكز آليّة انتباه قنوات النمط على فكرة أنّ جودة الدمج تتحسّن عندما نخصّص انتباه النموذج ديناميكياً للسمات الأكثر صلة في كل وسيط، مع مراعاة العلاقات عبر الوسائط. يتحقّق ذلك بتعلّم توزيع الانتباه عبر قنوات كل وسيط ضمن آليّة الانتباه متعدّد الرؤوس، بما يثري التمثيل الموحّد للبيانات المدمجة ويحافظ على المعلومات المشتركة والفارقة بين الوسائط.
التجارب والنتائج
أجرينا سلسلة من التجارب لتقييم أداء انتباه قنوات النمط في ظروف تناثر الوسائط وكذلك في الظروف القياسية. أظهرت النتائج تحسّناً ملموساً في الأداء العام مقارنةً بطرائق الدمج البديلة، ولا سيّما في مهام التصنيف والتعرّف على الأنماط والاسترجاع. وتُبرز هذه النتائج فعالية تقنيتنا في التعامل مع البيانات المتعدّدة الوسائط حتى عند فقد أو عدم تزامن بعض الوسائط.
الخاتمة
توفّر آليّة انتباه قنوات النمط طريقة قوية وفعّالة لدمج متعدد الوسائط في تعلّم الآلة، إذ تركّز على المعلومات الأهم في كل وسيط مع الحفاظ على السياق المشترك. ويؤدّي ذلك إلى تحسينات كبيرة في الأداء ويضع أساساً متيناً لتطبيقات مستقبلية في هذا المجال، بما في ذلك السيناريوهات التي تتّسم بتناثر أو نقص الوسائط.
الملخّص
ندرس قدرة معماريات المحوِّل متعددة الوسائط على تعلّم فضاءات تضمين قوية عندما تكون عينات كل وسيط متناثرة وغير متزامنة، وذلك بقياس جودة فضاءات التضمين المُولّدة كدالة لتناثر الوسائط. نقترح توسيع نموذج المحوِّل متعدد الوسائط ليُدرج قنوات وسائط مفقودة ضمن آليّة الانتباه متعدّد الرؤوس، ونطلق على ذلك "انتباه قنوات النمط" (MCA). استخدمنا مجموعتي بيانات رباعيتي الوسائط: CMU-MOSEI للتعرّف على المشاعر وTCGA لبيانات متعدّدة الأوميّات. أظهرت النماذج قدرتها على تعلّم فضاءات تضمين موحّدة ومتوافقة باستخدام وسيطين فقط من أصل أربعة في معظم العينات. كما وجدنا أنّه حتى في غياب تناثر الوسائط، تُحسّن آليّة MCA المقترحة جودة فضاءات التضمين المُولّدة، ومقاييس الاسترجاع، والأداء اللاحق في المهام التابعة.
مقدّمة
تزداد النماذج متعددة الوسائط شيوعاً كمعيار لتطبيقات التعلّم العميق (xu2023multimodal, han2023survey, liang2022foundations). وقد استخدمت دراسات عديدة نماذج دُرّبت على وسيطتين مقترنتين (lynch2022mira, noriy2023clara, akbari2021vatt, singh2022flava, radford2021learning, alayrac2020self, huang2021multilingual, fei2022towards, huang2024mavil, huang2021multilingual, hager2023best)، بما في ذلك إدماج الصور في نماذج اللغة الكبيرة (alayrac2022flamingo, rahman2020integrating). كما درست أعمال أخرى التدريب على أكثر من وسيطتين مقترنتين (mizrahi20244m, shvetsova2022everything, recasens2023zorro, srivastava2024omnivec, shi2023m, zhang2022mmformer, akbari2021vatt)، واستكشف عمل حديث التعلّم من وسائط غير مقترنة أو مقترنة جزئياً (yang2021multi, zhang2023learning, wang2020understanding, tran2023training, wei2023one, nakada2023understanding).
تستخدم معظم هذه الأمثلة مزيجاً من النصوص، والصوت، والصور، والفيديو. ومع ذلك، قد تستفيد تطبيقات أخرى من بيانات تتجاوز هذه الأشكال التقليدية. فعلى سبيل المثال، يشتمل دمج المستشعرات المتعدّدة في أنظمة المراقبة المنزلية والروبوتات على بيانات جدوليّة وسلاسل زمنية من أنواع مختلفة من المستشعرات (tonkin2023multi). كما تستخدم التطبيقات البيولوجية والطبية الحيوية بيانات تتكوّن من جداول، وصور، وبيانات تسلسلية. وفي هذه المجالات، قد يتألّف كل شكل بيانات أيضاً من وسائط متنوّعة لها النوع نفسه من البيانات ولكن من مصادر متباينة، كما في الجداول الناجمة عن تجارب مختلفة (cui2023deep).