GeoBind: ربط النصّ والصور والصوت عبر صور الأقمار الصناعيّة

Aayush Dhakal, Subash Khanal, Srikumar Sastry, Adeel Ahmad, Nathan Jacobs

مُلخَّص

في الاستشعار عن بُعد، نهتمّ بنمذجة وسائط متعدِّدة لموقعٍ جغرافيٍّ مُعيَّن. ركّزت أعمال كثيرة على تعلُّم العلاقة بين الموقع وأنواع المناظر الطبيعيّة، وقابليّة السُّكنى، والصوت، والأوصاف النصّية، وغيرها. حديثاً، صار النهج الشائع لمعالجة هذه المشكلات هو تدريب نموذج تعلُّم عميق يستند إلى صور الأقمار الصناعيّة لاستنتاج خصائص فريدة للموقع. في هذا العمل، نقدِّم نموذج تعلُّم عميق، GeoBind، يمكنه الاستدلال على وسائط متعدِّدة—وتحديداً النصّ والصور والصوت—انطلاقاً من صورة قَمَريّة لموقعٍ ما. لتحقيق ذلك، نعتمد صور الأقمار الصناعيّة كعنصر ربط، ونُحاذي تباينيّاً بين وسائطنا المختلفة وتضمينات صور الأقمار الصناعيّة. يفضي تدريبُنا إلى إنشاء فضاء تضمين مُشترَك يضمّ بيانات صور الأقمار الصناعيّة، وصور مستوى الأرض، والصوت، والنصّ. علاوة على ذلك، لا يتطلّب نهجُنا مجموعة بيانات واحدة كاملة تحتوي على جميع هذه الوسائط، بل يكتفي ببيانات مرتبطة بصور الأقمار الصناعيّة. وعلى الرغم من أنّنا نقوم بمحاذاة ثلاث وسائط فقط في هذه الورقة، فإنّنا نقدِّم إطاراً عامّاً يمكن تطبيقه لإنشاء فضاء تضمين لأيّ عددٍ من الوسائط باستخدام صور الأقمار الصناعيّة كعنصر ربط. تُظهر نتائجُنا أنّ نموذج GeoBind مُتعدِّد الاستخدامات ويمكنه التعامل مع وسائط متعدِّدة عند إدخال صورة قَمَريّة.

مُقَدِّمة

إنّ استنتاج الخصائص المختلفة المرتبطة بمواقع جغرافيّة محدَّدة مهمّة بالغة الأهمِّيّة في الاستشعار عن بُعد. تركزت الجهود البحثية السابقة أساساً على إقامة علاقات بين الموقع ووسيط واحد مثل استخدامات الأراضي، أو مقاييس قابليّة السُّكنى، أو خصائص الصوت، أو مناظر مستوى الأرض، أو الوصف النصّي (yurui2020towards, zhu2022land, khanal2023learning, basu2021investigating, dhakal2023sat2cap). وقد أدّى ذلك إلى تطوير نماذج تعلُّم عميق تستنتج خصائص فريدة اعتماداً على صورة قَمَريّة معيَّنة (greenwell2018goes, zang2021land, 9323706, sastry2024birdsat, klemmer2023satclip).

تهدف هذه الدراسة إلى توسيع هذا النهج عبر إنشاء فضاء تضمين مُشترَك يربط الوسائط المتعدِّدة بالموقع الجغرافي بسلاسة. تتمثّل مساهمتنا الرئيسة في بناء فضاء واحد مُشترَك للتضمين يمكن استخدامه لاستنتاج خصائص مختلفة للموقع اعتماداً على صور الأقمار الصناعيّة فقط. غير أنّ تدريب مثل هذا النموذج يواجه تحدّياً في تجميع بيانات مُتكاملة تُغطّي جميع الوسائط. فعلى سبيل المثال، لإنشاء فضاء يربط صور الأقمار الصناعيّة بالنصوص والصوت وصور مستوى الأرض، سنحتاج إلى مجموعة بيانات رباعيّة كاملة، وهو ما يزداد تعقيداً وصعوبةً مع زيادة عدد الوسائط.

تناولت أعمال حديثة (مثل girdhar2023imagebind) هذه المشكلة بإثبات إمكانيّة تعلُّم فضاء تضمين مُشترَك للوسائط المتعدِّدة باستخدام الصور كعنصر ربط. يستخدم ImageBind مجموعات بيانات متعدِّدة مرتبطة بالصور، ثم يقوم بمحاذاة تضمينات كل وسيط مع تضمينات الصور، ما يُنتج فضاء تمثيل مُشترَكاً يغطي جميع الوسائط. استلهاماً من ذلك، نقترح إطار عمل يعتمد على بيانات متعدِّدة مرتبطة بصور الأقمار الصناعيّة لتعلُّم فضاء تضمين مُشترَك يربط الوسائط المتعدِّدة عبر الجغرافيا، وهو فضاء مفيد لطيفٍ واسع من المهام المكانيّة. في هذا الإطار، نعتمد على نوعين من البيانات: تسجيلات صوتيّة مُقترنة بصور الأقمار الصناعيّة، وصور مستوى الأرض المُقترنة بصور الأقمار الصناعيّة. نعدّ صور الأقمار الصناعيّة نقطة الارتكاز لربط هذه الوسائط المختلفة. يتكوّن التدريب من مرحلتين: الأولى لمحاذاة تضمينات صور الأقمار الصناعيّة مع تضمينات صور مستوى الأرض (ومن ثمّ الوصف النصّي) وفقاً لأسلوب Sat2Cap (dhakal2023sat2cap)، والثانية لمحاذاة تضمينات الصوت مع تضمينات الصور القَمَريّة الناجمة عن المرحلة الأولى.

الطريقة

مجموعة البيانات

نستخدم مجموعتَيْ بيانات مرتبطتَيْن بصور الأقمار الصناعيّة. أوّلاً، مجموعة (dhakal2023sat2cap) التي تضمّ 6.1 مليون زوج من صور الأقمار الصناعيّة وصور مستوى الأرض. دقّة صور الأقمار الصناعيّة 0.6 م/بكسل، مأخوذة من خرائط Bing، وبحجم 800×800 بكسل لكل صورة. ثانياً، بيانات SoundingEarth (wu2023large) التي تحتوي على 50 ألف تسجيل صوتي مُحدَّد الموقع جغرافيّاً، مُقترن بصور أقمار صناعيّة مُتمركزة على الإحداثيّات بدقّة 0.6 م/بكسل وبحجم 800×800 بكسل، مأخوذة أيضاً من خرائط Bing.

المنهج

يتكوّن منهجُنا من خطوتَيْن أساسيتَيْن. الأولى لمحاذاة تضمينات صور الأقمار الصناعيّة مع تضمينات صور مستوى الأرض في فضاء CLIP، والثانية لمحاذاة تضمينات الصوت مع تضمينات الصور القَمَريّة الناتجة.

في الخطوة الأولى، نتّبع إجراء Sat2Cap (dhakal2023sat2cap) لمحاذاة دفعة من الصور القَمَريّة \(S_i\) وتضميناتها \(O_i\) مع تضمينات CLIP لصور مستوى الأرض \(C_i\). نستخدم خسارة InfoNCE:

\[ L = \frac{1}{k}\sum_{i=0}^{k} -\log\frac{\exp(o_i \cdot c_i / \tau)}{\sum_{j=0}^{k} \exp(o_i \cdot c_j / \tau) } \]

حيث \(\tau\) معامل الحرارة وk حجم الدُّفعة. وبما أنّ فضاء CLIP يُسقِط الصور والنصوص في فضاء دلاليٍّ مُشترَك، فإنّ محاذاة الصور القَمَريّة مع تضمينات CLIP لصور مستوى الأرض تُحاذي ضمنيّاً الأوصاف النصّية لهذه المشاهد.

في المرحلة الثانية، نستخدم بيانات SoundingEarth لتهيئة مُشفِّر الصوت. لدفعة من الصور القَمَريّة \(S_i\)، نحصل أوّلاً على تضميناتها \(O_i\) باستخدام المُشفِّر القَمَري المُدرَّب. ثم ندرّب مُشفِّر الصوت على دفعة من التسجيلات \(H_i\) لإخراج تضمينات \(A_i\)، مع تجميد المُشفِّر القَمَري، وذلك عبر خسائر تباينيّة مزدوجة:

\[ L_1 = \frac{1}{k}\sum_{i=0}^{k} -\log\frac{\exp(o_i \cdot a_i / \tau)}{\sum_{j=0}^{k} \exp(o_i \cdot a_j / \tau) } \]

\[ L_2 = \frac{1}{k}\sum_{i=0}^{k} -\log\frac{\exp(a_i \cdot o_i / \tau)}{\sum_{j=0}^{k} \exp(a_i \cdot o_j / \tau) } \]

\[ L = \frac{L_1 + L_2}{2} \]

وبتقريب تضمينات الصوت من تضمينات الصور القَمَريّة المقابلة، فإنّها تتماشى أيضاً مع صور مستوى الأرض والنصوص ذات الصلة الدلاليّة، فتتشكّل لدينا مساحة تضمين موحَّدة تُمكِّن الوسائط المختلفة من التفاعل ضمنها.

التجارب والنتائج

تفاصيل التنفيذ

نستخدم نموذج CLIP ViT-B/32 المُدرَّب مُسبقاً لتوليد تضمينات CLIP. كما نستخدم ViT-B/32 كمُشفِّر لصور الأقمار الصناعيّة، مُتهيِّئاً بمعاملات نموذج CLIP، ومُشفِّر الصوت CLAP من Hugging Face. نعتمد RandAugment (cubuk2020randaugment) بثلاث عمليات لزيادة صور الأقمار الصناعيّة أثناء التدريب. نستخدم المُحسِّن AdamW (loshchilov2017decoupled) بمعدّل تعلُّم 5e-05، \(\beta_1=0.99\)، \(\beta_2=0.98\)، وجدولة CosineAnnealing مع إعادة تشغيل دافئة (loshchilov2016sgdr). معامل الحرارة \(\tau\) قابل للتعلُّم ويُبتدَأ بقيمة 0.07.

استرجاع متعدِّد الوسائط

لإثبات أنّ فضاء التضمين المُشترَك يجمع البيانات ذات الصلة الدلاليّة، نجري تجارب استرجاع على مجموعة اختبار محجوزة من 10000 عيّنة. أوّلاً، نُظهر أنّ الفضاء يربط الصور القَمَريّة بصور مستوى الأرض من المواقع نفسها. نحسب تضمينات الصور القَمَريّة بمُشفِّرنا وتضمينات صور مستوى الأرض بمُشفِّر CLIP، ثم نحسب تشابه جيب التمام لجميع الأزواج ونستخلص مقاييس أعلى-k. ونظراً لأنّ التدريب الأوّلي مُطابق لـ Sat2Cap (dhakal2023sat2cap)، نلاحظ في (table:image_retrieval) أداء استرجاع مُتوافقاً، مع وقوع الصورة الحقيقيّة ضمن الأعلى-10 في نحو 56% من الحالات. يدلّ ذلك على توافق الصور القَمَريّة والأرضيّة دلاليّاً في فضاء التضمين المُشترَك.

ثانياً، نُقيِّم استرجاع الصوت استناداً إلى الصور القَمَريّة. نحسب تضمينات الصور القَمَريّة بمُشفِّرنا وتضمينات الصوت بمُشفِّر الصوت، ثم نستخلص مقاييس أعلى-k كما في (table:sound_retrieval). نلاحظ أنّ النتائج أدنى من استرجاع صور مستوى الأرض، وهو متوقّع لطبيعة المهمّة الأكثر صعوبة (heidler2023self). ومع ذلك، فإنّ نتائجنا قريبة من النماذج الراهنة لهذه المهمّة. يُشير ذلك إلى أنّ إطار عمل GeoBind يخلق فضاء تضمين مُشترَكاً يربط الصور القَمَريّة بالأرضيّة والصوت (وبالتالي النصّ عبر محاذاة CLIP)، ما يتيح استخدام مُشفِّرات متعدِّدة لوضع وسائط مختلفة في فضاء واحد دون الحاجة إلى نموذجٍ مُتخصِّص لكلّ مهمّة.

المناقشة والخلاصة

قدّمنا إطار عمل يُمكِّن صور الأقمار الصناعيّة من التفاعل مع أنواع متعدِّدة من البيانات. وبربط الوسائط المتعدِّدة بصور الأقمار الصناعيّة، أنشأنا فضاء تضمين مُشترَكاً يجمع النصوص الدلاليّة، وصور مستوى الأرض، والصوت، والصور القَمَريّة. ويمكن توجيه هذه الوسائط إلى فضاء واحد لحلّ مشكلات متعدِّدة دون الحاجة إلى نماذج مُخصَّصة لكلّ وضع.

يهدف هذا الإطار إلى تشجيع تطوير نماذج تعلُّم عميق عامّة ومتعدِّدة الاستخدامات للبيانات القَمَريّة. ورغم اعتمادنا على تدريب ذي مرحلتَيْن، يمكن إضافة مراحل جديدة لأيّ عددٍ من الوسائط عبر محاذاتها بصور الأقمار الصناعيّة. يفتح عملُنا الطريق لنماذج أكثر تكاملاً وكفاءةً عِوضاً عن طرُز أحاديّة الوضع ضيّقة النطاق. في الأعمال المستقبليّة، نعتزم استكشاف إضافة وسائط جديدة ودراسة الخصائص الناشئة في فضاء التضمين المُشترَك.