```html GeoBind: ربط النص والصورة والصوت عبر صور الأقمار الصناعية

GeoBind: ربط النص والصورة والصوت عبر صور الأقمار الصناعية

Aayush Dhakal, Subash Khanal, Srikumar Sastry, Adeel Ahmad, Nathan Jacobs

latex

مُلخَّص

في الاستشعار عن بُعد، نهتم بنمذجة وسائط متعددة لموقع جغرافي معيَّن. ركَّزت العديد من الأعمال على تعلم العلاقة بين الموقع وأنواع المناظر الطبيعية وصلاحية السكن والصوت والأوصاف النصية وغيرها. مؤخراً، بات النهج الشائع لمعالجة هذه المشكلات هو تدريب نموذج تعلم عميق يستند إلى صور الأقمار الصناعية لاستنتاج خصائص فريدة للموقع. في هذا العمل، نقدم نموذج تعلم عميق، GeoBind، يمكنه الاستدلال على وسائط متعددة—وتحديداً النص والصورة والصوت—انطلاقاً من صورة قمر صناعي لموقعٍ ما. للقيام بذلك، نعتمد على صور الأقمار الصناعية كعنصر ربط، وننسِّق تباينياً بين وسائطنا المختلفة وتضمينات صور الأقمار الصناعية. يؤدي تدريبنا إلى إنشاء فضاء تضمين مشترك يضم بيانات صور الأقمار الصناعية، وصور مستوى الأرض، والصوت، والنص. علاوة على ذلك، لا يتطلب نهجنا مجموعة بيانات واحدة كاملة تحتوي على جميع هذه الوسائط، بل يكتفي ببيانات مترابطة بصور الأقمار الصناعية. على الرغم من أننا نقوم بمحاذاة ثلاث وسائط فقط في هذه الورقة، فإننا نقدم إطاراً عاماً يمكن تطبيقه لإنشاء فضاء تضمين لأي عدد من الوسائط باستخدام صور الأقمار الصناعية كعنصر ربط. تظهر نتائجنا أن نموذج GeoBind متعدد الاستخدامات ويمكنه التعامل مع وسائط متعددة عند إدخال صورة قمر صناعي.

مُقَدِّمة

استنتاج الخصائص المختلفة المرتبطة بمواقع جغرافية محددة هو مهمة هامة في الاستشعار عن بُعد. تركزت الجهود البحثية السابقة بشكل رئيسي على إقامة علاقات بين الموقع ووسيط واحد مثل استخدام الأرض، أو مقاييس صلاحية السكن، أو خصائص الصوت، أو المناظر الأرضية، أو الوصف النصي (yurui2020towards, zhu2022land, khanal2023learning, basu2021investigating, dhakal2023sat2cap). أدّى ذلك إلى تطوير نماذج تعلم عميق تستنتج خصائص فريدة بناءً على صورة قمر صناعي معينة (greenwell2018goes, zang2021land, 9323706, sastry2024birdsat, klemmer2023satclip).

تهدف هذه الدراسة إلى توسيع هذا النهج عبر إنشاء فضاء تضمين مشترك يربط الوسائط المتعددة بالموقع الجغرافي بسلاسة. المساهمة الرئيسية تتمثل في إنشاء فضاء تضمين مشترك واحد يمكن استخدامه لاستنتاج خصائص مختلفة لموقع اعتماداً على صور الأقمار الصناعية فقط. ولكن تدريب مثل هذا النموذج يواجه تحدياً في تجميع بيانات عالية الأبعاد تغطي جميع الوسائط. فعلى سبيل المثال، لإنشاء فضاء يربط صور الأقمار الصناعية بالنصوص والصوت والصور الأرضية، ستحتاج إلى مجموعة بيانات رباعية كاملة، وهو ما يصعب جمعه مع تزايد عدد الوسائط.

تناولت أعمال حديثة (مثل girdhar2023imagebind) هذه المشكلة بإثبات إمكانية تعلم فضاء تضمين مشترك للوسائط المتعددة باستخدام الصور لربطها. يستخدم ImageBind مجموعات بيانات متعددة مترابطة بالصور، ثم يقوم بمحاذاة تضمينات كل وسيط مع تضمينات الصور، مما ينتج فضاء تمثيل مشترك يغطي جميع الوسائط. مستوحين من ذلك، نقترح إطار عمل يعتمد على بيانات متعددة مرتبطة بصور الأقمار الصناعية لتعلّم فضاء تضمين مشترك يربط الوسائط المتعددة عبر الجغرافيا. سيكون هذا الفضاء مفيداً لمجموعة واسعة من المهام المكانية. في هذا الإطار، نعتمد على نوعين من البيانات: تسجيلات صوتية مرفقة بصور الأقمار الصناعية، وصور مستوى الأرض المرفقة بصور جوية. نعتبر صور الأقمار الصناعية النقطة المشتركة لربط هذه الوسائط المختلفة. يتكون التدريب من مرحلتين: الأولى لمحاذاة تضمينات الصور الفضائية مع تضمينات الصور الأرضية (وبالتالي الوصف النصي) وفقاً لأسلوب Sat2Cap (dhakal2023sat2cap)، والثانية لمحاذاة تضمينات الصوت مع تضمينات الصور الفضائية التي ناتجة عن المرحلة الأولى.

الطريقة

مجموعة البيانات

نستخدم في عملنا مجموعتين من البيانات مترابطة بصور الأقمار الصناعية. أولاً، مجموعة (dhakal2023sat2cap) التي تضم 6.1 مليون زوج من صور الأقمار الصناعية وصور مستوى الأرض. دقة صور الأقمار الصناعية 0.6 م/بكسل، مأخوذة من خرائط Bing، بحجم 800×800 بكسل لكل صورة. ثانياً، بيانات SoundingEarth (wu2023large) التي تحتوي على 50 ألف تسجيل صوتي معنون جغرافياً، مرفقة بصور أقمار صناعية متمركزة بدقة 0.6 م/بكسل وبحجم 800×800 بكسل مأخوذة أيضاً من خرائط Bing.

المنهج

يتكون منهجنا من خطوتين أساسيتين. الأولى لمحاذاة تضمينات الصور الفضائية مع تضمينات الصور الأرضية في فضاء (CLIP)، والثانية لمحاذاة تضمينات الصوت مع تضمينات الصور الفضائية الناتجة.

في الخطوة الأولى، نتبع إجراء Sat2Cap (dhakal2023sat2cap) لمحاذاة دفعة من الصور الفضائية \(S_i\) وتضميناتها \(O_i\) مع تضمينات CLIP للصور الأرضية \(C_i\). نستخدم خسارة InfoNCE:

\[ L = \frac{1}{k}\sum_{i=0}^{k} -\log\frac{\exp(o_i \cdot c_i / \tau)}{\sum_{j=0}^{k} \exp(o_i \cdot c_j / \tau) } \]

حيث \(\tau\) معامل الحرارة وk حجم الدُفعة. وبما أن فضاء CLIP يوازن بين الصور الطبيعية والنصوص دلالياً، فإن محاذاة الصور الفضائية مع تضمينات CLIP للصور الأرضية تنعكس تلقائياً على الأوصاف النصية للمشاهد الأرضية.

في المرحلة الثانية، نستخدم بيانات SoundingEarth لتهيئة مشفر الصوت. لدفعة من الصور الفضائية \(S_i\)، نحصل أولاً على تضميناتها \(O_i\) باستخدام المشفر الفضائي المُدرَّب. ثم ندرب مشفر الصوت على دفعة من التسجيلات \(H_i\) لإخراج تضمينات \(A_i\)، مع تجميد المشفر الفضائي، عن طريق خسائر تباينية مزدوجة:

\[ L_1 = \frac{1}{k}\sum_{i=0}^{k} -\log\frac{\exp(o_i \cdot a_i / \tau)}{\sum_{j=0}^{k} \exp(o_i \cdot a_j / \tau) } \]

\[ L_2 = \frac{1}{k}\sum_{i=0}^{k} -\log\frac{\exp(a_i \cdot o_i / \tau)}{\sum_{j=0}^{k} \exp(a_i \cdot o_j / \tau) } \]

\[ L = \frac{L_1 + L_2}{2} \]

باقتراب تضمينات الصوت من تضمينات الصور الفضائية المقابلة، فإنها تتماشى أيضاً مع الصور الأرضية والنصوص ذات الصلة الدلالية، فتتكون لدينا مساحة تضمين موحدة تمكن الوسائط المختلفة من التفاعل ضمنها.

التجارب والنتائج

تفاصيل التنفيذ

نستخدم نموذج CLIP ViT-32B المدرب مسبقاً لتوليد تضمينات CLIP. كما نستخدم ViT-32B كمشفّر للصور الفضائية، متهيئاً بمعاملات نموذج CLIP، ومشفّر الصوت CLAP من Hugging Face. نعتمد على RandAugment (cubuk2020randaugment) مع 3 عمليات لزيادة صور الأقمار الصناعية أثناء التدريب. نستخدم محسِّن AdamW (loshchilov2017decoupled) بمعدل تعلم 5e-05، \(\beta_1=0.99\)، \(\beta_2=0.98\)، وجدولة CosineAnnealing مع إعادة تشغيل دافئة (loshchilov2016sgdr). معامل الحرارة \(\tau\) قابل للتعلّم وبدأ بقيمة 0.07.

استرجاع متعدد الوسائط

لإثبات أن فضاء التضمين المشترك يجمع البيانات ذات الصلة الدلالية، نجري تجارب استرجاع على مجموعة اختبار محجوزة من 10000 عينة. أولاً، نثبت أن الفضاء يربط الصور الفضائية بالصور الأرضية من نفس المواقع. نحسب تضمينات الصور الفضائية بمشفّرنا وتضمينات الصور الأرضية بمشفّر CLIP، ثم نحسب تشابه الجيب التمامي لجميع الأزواج ونستخلص مقاييس أعلى-k. نظراً لأن التدريب الأولي مطابق لـ Sat2Cap (dhakal2023sat2cap)، نرى في (table:image_retrieval) أداء استرجاع مطابقاً، مع وقوع الصورة الحقيقية ضمن الأعلى-10 في حوالي 56% من الحالات. هذا يدل على توافق الصور الفضائية والأرضية دلالياً في فضاء التضمين المشترك.

ثانياً، نقيّم استرجاع الصوت بناءً على الصور الفضائية. نحسب تضمينات الصور الفضائية بمشفّرنا وتضمينات الصوت بمشفّر الصوت، ثم نستخلص مقاييس أعلى-k كما في (table:sound_retrieval). نلاحظ أن النتائج أقل من استرجاع الصور الأرضية، وهو متوقع لكون المهمة أصعب بطبيعتها (heidler2023self). مع ذلك، فإن نتائجنا قريبة من النماذج الحالية لهذه المهمة. يشير ذلك إلى أن إطار عمل GeoBind يخلق فضاء تضمين مشترك يربط الصور الفضائية بالأرضية والصوت (وبالتالي النص عبر محاذاة CLIP)، مما يتيح استخدام مشفّرات متعددة لوضع وسائط مختلفة في فضاء واحد دون الحاجة لنموذج لكل مهمة.

المناقشة والخلاصة

في هذا العمل، قدمنا إطار عمل يمكّن الصور الفضائية من التفاعل مع أنواع متعددة من البيانات. بربط الوسائط المتعددة بصور الأقمار الصناعية، أنشأنا فضاء تضمين مشترك يجمع النصوص الدلالية، والصور الأرضية، والصوت، والصور الفضائية. يمكن توجيه هذه الوسائط إلى فضاء واحد لحل مشكلات متعددة دون الحاجة لنماذج مخصصة لكل وضع.

يهدف هذا الإطار إلى تشجيع تطوير نماذج تعلم عميق عامة متعددة الاستخدامات للبيانات الفضائية. رغم اعتمادنا على تدريب ثنائي المرحلة، يمكن إضافة مراحل جديدة لأي عدد من الوسائط عبر محاذاتها بصور الأقمار الصناعية. يفتح عملنا الطريق لنماذج أكثر تكاملاً وكفاءة عوضاً عن طرازات أحادية الوضع ضيقة النطاق. في الأعمال المستقبلية، نعتزم استكشاف إضافة وسائط جديدة ودراسة الخصائص الناشئة في فضاء التضمين المشترك.

``` **تمت مراجعة جميع معادلات LaTeX والتأكد من أنها مكتوبة بشكل صحيح بين أقواس `\[` و `\]`، وجميع الرموز معرفة بشكل صحيح، ولا توجد معادلات ناقصة أو بها أخطاء.**