مُلَخَّص

يُعَدّ تصنيف صور الاستشعار عن بُعد أساساً للعديد من مهام الفهم المتنوّعة، ويؤدّي دوراً محورياً في تفسير هذه الصور. وقد أدّى التقدّم الأخير في الشبكات العصبية الالتفافية والمحَوِّلات إلى تحسين دقّة التصنيف بشكل ملحوظ. ومع ذلك، لا يزال تصنيف مشاهد الاستشعار عن بُعد تحدّياً كبيراً، نظراً لتعقيد وتنوّع السيناريوهات وتغيّر الدقّة المكانية والزمانية. إنّ الفهم الشامل للصورة يوفّر دلالات دقيقة تُسهم في التمييز بين المشاهد المختلفة. في هذه الورقة، نقدّم RSMamba، وهي بنية جديدة لتصنيف صور الاستشعار عن بُعد. يعتمد RSMamba على نموذج فضاء الحالة ويتضمّن تصميماً فعّالاً وواعياً بالأجهزة يُعرَف باسم Mamba، جامعاً مزايا كلٍّ من مجال الاستقبال العالمي وتعقيد النمذجة شبه الخطي. وللتغلّب على قيود Mamba الأصلي، الذي يَنمذج تسلسلات سببية فقط ولا يتكيّف مباشرةً مع بيانات الصور ثنائية الأبعاد، نقترح آلية تفعيل ديناميكية متعدّدة المسارات لزيادة قدرة Mamba على نمذجة البيانات غير السببية والحسّاسة للموضع. يحافظ RSMamba على آلية النمذجة الأصلية لـ Mamba، لكنه يُظهر أداءً متفوّقاً عبر عدّة مجموعات بيانات لتصنيف صور الاستشعار عن بُعد. يشير ذلك إلى أنّ RSMamba يحمل إمكانات كبيرة ليكون العمود الفقري لنماذج الأساس البصرية المستقبلية. سيتوافر الكود المصدري على: https://github.com/KyanChen/RSMamba.

مُقَدِّمَة

أدّى تقدّم تكنولوجيا الاستشعار عن بُعد إلى زيادة الاهتمام بمراقبة الأرض عالية الدقّة. يُعدّ تصنيف صور الاستشعار عن بُعد، وهو الأساس لتفسير هذه الصور بذكاء، عنصراً حاسماً للمهام اللاحقة، ويلعب دوراً محورياً في تطبيقات مثل رسم الخرائط، واستخدام الأراضي، والتخطيط العمراني. ومع ذلك، فإنّ تعقيد وتنوّع سيناريوهات الاستشعار عن بُعد، إلى جانب تغيّر الدقّة المكانية والزمانية، يشكّل تحدّيات كبيرة عند تطبيق الأساليب الآلية على تصنيف هذه الصور (xia2017aid, yang2010bag, cheng2017remote, chen2022resolution).

عمل الباحثون على التخفيف من هذه التحدّيات وتعزيز قابلية تطبيق النماذج في سيناريوهات متنوّعة. ركّزت الطرق المبكّرة أساساً على بناء الميزات واستخراجها واختيارها، مستكشِفةً طرق تعلّم الآلة القائمة على هندسة الميزات مثل SIFT وLBP والهيستوغرامات اللونية وGIST وBoVW (li2018deep، إلخ). في السنوات الأخيرة، أحدث ظهور التعلّم العميق ثورة في النماذج التقليدية التي اعتمدت بشكل كبير على المعرفة البشرية المسبقة. يمتلك التعلّم العميق القدرة على استخراج الميزات الفعّالة من البيانات بشكل مستقل وإخراج احتمالات التصنيف بطريقة متكاملة. من حيث هندسة الشبكة، يمكن تصنيفها أساساً إلى شبكات التلافيف العصبية والمحَوِّلات. تقوم الأولى بتجريد ميزات الصورة طبقةً تلو أخرى عبر عمليات الالتفاف ثنائية الأبعاد، كما في ResNet (he2016deep). وتلتقط الثانية الارتباطات طويلة المدى بين المناطق المحلية للصورة بأكملها عبر آلية الانتباه، مُحرِزةً استجابة دلالية أقوى، ممثّلةً بـ ViT (dosovitskiy2020image) وSwin Transformer (liu2021swinإلخ. وقد أُحرِز أيضاً تقدّم كبير في تصنيف صور الاستشعار عن بُعد؛ على سبيل المثال، يُقطِّر ET-GSNet (xu2022vision) الأولوية الدلالية الغنية لـ ViT في ResNet18، مستفيداً من قوّة كلٍّ منهما. ويقدّم P2Net (chen2022contrastive) طريقة تعلّم تبايني غير متزامنة لمعالجة الفروقات الدقيقة بين الفئات في التصنيف الدقيق.

تعتمد دقّة التصنيف بشكل كبير على قدرة النموذج على التعامل مع تأثيرات السيناريوهات المعقّدة والمتنوّعة ومع تغيّر الدقّة المكانية والزمانية. ويُعَدّ Transformer (vaswani2017attention)، القائم على آلية الانتباه والقادر على التقاط الاستجابات من المناطق المهمّة عبر الصورة بأكملها، حلاً مثالياً لهذه التحدّيات. ومع ذلك، فإنّ حساب الانتباه لديه، ذي التعقيد التربيعي، يطرح تحدّيات كبيرة من حيث كفاءة النمذجة واستخدام الذاكرة مع زيادة طول تسلسل الإدخال أو عمق الشبكة. يوفّر نموذج فضاء الحالة (SSM) (gu2021efficiently) حلاً يعالج هذا العائق؛ إذ يُقيِّم علاقات التبعية طويلة المدى عبر انتقالات الحالة ويُطبّقها من خلال عمليات التفاف، محقّقاً تعقيداً شبه خطّي. وقد أثبتت Mamba (gu2023mamba) كفاءتها العالية في التدريب والاستدلال بفضل إدراج معاملات متغيّرة زمنياً في SSM التقليدي وتحسينات واعية بالأجهزة. وقد نجح كلٌّ من Vim (zhu2024vision) وVMamba (liu2024vmamba) في إدخال Mamba إلى المجال البصري ثنائي الأبعاد، محقّقَين توازناً ملحوظاً بين الأداء والكفاءة في مهام متعدّدة.

في هذه الورقة، نقدّم RSMamba، نموذجاً فعّالاً قائماً على SSM لتصنيف صور الاستشعار عن بُعد. وبفضل قدرته القوية على نمذجة العلاقات العالمية داخل الصورة بأكملها، يُظهر RSMamba قابلية تعميم واسعة عبر مهام مختلفة. يستند RSMamba إلى Mamba (gu2023mamba)، مع تقديم آلية تفعيل ديناميكية متعدّدة المسارات حسّاسة للموضع لتجاوز قيود Mamba التقليدي، الذي يقتصر على النمذجة السببية ويتّسم بعدم الحساسية للموضع. يحافظ RSMamba على آلية النمذجة الأصلية داخل كتلة Mamba، مع إدخال تحسينات غير سببية وحسّاسة للموضع خارجها. نبدأ بتقسيم الصورة إلى رُموز تصحيح متداخلة، ونُضيف ترميزاً موضعياً لصوغ تسلسل، ثم نبني ثلاثة مسارات (أمامي، وعكسي، وعشوائي) لنمذجة العلاقات العالمية عبر كتلة Mamba مع تشارك المُعاملات، ونُسقِط كلّ مسار بطبقة خطّية مختلفة. وبفضل كفاءة كتلة Mamba، يمكن إجراء التدريب المسبق على نطاق واسع بكلفة منخفضة.

يمكن تلخيص المساهمات الرئيسة في هذه الورقة كما يلي:

المَنْهَجِيَّة

بالاستفادة من الخصائص الأساسية لنموذج SSM، يتمتّع RSMamba بالكفاءة في التقاط الاعتماديات العالمية داخل صور الاستشعار عن بُعد، ما يوفّر معلومات وفيرة عن الفئات الدلالية. يبدأ هذا القسم بمقدّمة عن مبادئ SSM، تليها نظرة عامة على RSMamba، ثم استكشاف تفصيلي لكتلة التفعيل الديناميكية متعدّدة المسارات، وأخيراً شرح هيكل الشبكة لثلاث نسخ مختلفة من RSMamba.

المُقَدِّمات

نموذج فضاء الحالة مفهومٌ مُشتقّ من نظرية التحكّم الحديثة للنظام الخطي الثابت مع الزمن، حيث يرسم الاستثارة المستمرة \(x \in \mathbb{R}^N\) إلى استجابة \(y \in \mathbb{R}^N\). يمكن صياغة هذه العملية عبر المعادلة التفاضلية العادية الخطّية الآتية، \[ \begin{aligned} h^\prime(t) &= \textbf{A} h(t) + \textbf{B} x(t) \\ y(t) &= \textbf{C} h(t) \end{aligned} \] حيث يُستنتَج \(y\) من إشارة الإدخال \(x\) والحالة المُخفاة \(h\). تعبّر \(\textbf{A}\) عن مصفوفة انتقال الحالة، و\(\textbf{B}\) و\(\textbf{C}\) مصفوفتا الإسقاط. لتحويل النظام المستمر إلى تمثيل مُتقطِّع يندمج في التعلّم العميق، نعتمد الاحتفاظ من الرتبة الصفرية (ZOH) بزمن عيّنة \(\Delta\)، كما يلي، \[ \begin{aligned} \bar{\textbf{A}} &= \exp(\Delta \textbf{A}) \\ \bar{\textbf{B}} &= {(\Delta \textbf{A})}^{-1} (\exp(\Delta \textbf{A}) - \textbf{I}) \cdot \Delta \textbf{B} \\ \end{aligned} \]

بعد التحويل إلى الزمن المُتقطِّع، يُعاد كتابة النظام كما يلي، \[ \begin{aligned} h_k &= \bar{\textbf{A}}\,h_{k-1} + \bar{\textbf{B}}\,x_k \\ y_k &= \bar{\textbf{C}}\,h_k \end{aligned} \] حيث \(\bar{\textbf{C}}\) تماثل \(\textbf{C}\). أخيراً، يُمكن التعبير عن الناتج في تمثيل الالتفاف كما يلي، \[ \begin{aligned} \bar{\textbf{K}} &= (\bar{\textbf{C}}\bar{\textbf{B}}, \bar{\textbf{C}}\bar{\textbf{A}}\bar{\textbf{B}}, \dots, \bar{\textbf{C}}\bar{\textbf{A}}^{L-1}\bar{\textbf{B}}) \\ \textbf{y} &= \textbf{x} * \bar{\textbf{K}} \end{aligned} \] حيث \(L\) هو طول تسلسل الإدخال، و\(\bar{\textbf{K}} \in \mathbb{R}^L\) تمثّل نواة الالتفاف المنظّمة.

RSMamba

يحوّل RSMamba الصور ثنائية الأبعاد إلى تسلسلات أحادية البُعد، ثم يستخدم مُشفِّر Multi-Path SSM لالتقاط الاعتماديات طويلة المدى. بالنظر إلى صورة \(\mathcal{I} \in \mathbb{R}^{H \times W \times 3}\)، نُطبِّق تحويلة ثنائية الأبعاد بنواة \(k\) وخطوة \(s\) لرسم الخرائط المحلية إلى تمثيلات مُضمَّنة. بعد ذلك، نُسطِّح خريطة الميزات إلى تسلسل أحادي البُعد، ثم نُضيف ترميزاً موضعياً \(P\) للحفاظ على العلاقات المكانية. يمكن التعبير عن العملية كما يلي، \[ \begin{aligned} T &= \Phi_{\text{Flatten}}(\Phi_{\text{Conv2D}}(\mathcal{I}, k, s)) \\ T &= T + P \end{aligned} \] حيث \(\Phi_{\text{Conv2D}}\) تمثّل التحويلة ثنائية الأبعاد، و\(\Phi_{\text{Flatten}}\) عملية التسطيح. ويكون \(T \in \mathbb{R}^{L \times d}\) و\(P \in \mathbb{R}^{L \times d}\) تسلسل الإدخال والترميز الموضعي على التوالي.

في RSMamba، لم نعتمد الرمز [CLS] لتجميع التمثيل العالمي كما في ViT. وبدلاً من ذلك، نُدخِل التسلسل في كُتل التفعيل الديناميكية متعدّدة المسارات الخاصة بـ Mamba لنمذجة الاعتماديات طويلة المدى. ثم نستخلص الميزات الضرورية للتنبّؤ بالفئة عبر تجميع بالمتوسّط على التسلسل. يمكن التعبير عن ذلك تكرارياً كما يلي، \[ \begin{aligned} T^i &= \Phi_{\text{mp-ssm}}^{i} (T^{i-1}) + T^{i-1}\\ \hat{s} &= \Phi_{\text{proj}}(\Phi_{\text{LN}}(\Phi_{\text{mean}}(T^N))) \end{aligned} \] حيث \(T^0 = T\)، و\(\Phi_{\text{mp-ssm}}\) تمثّل كتلة التفعيل الديناميكية متعدّدة المسارات، وبإجمالي عدد طبقات \(N\). و\(\Phi_{\text{mean}}\) عملية التجميع بالمتوسّط، و\(\Phi_{\text{LN}}\) تطبيع الطبقة، و\(\Phi_{\text{proj}}\) الإسقاط الخطي من البعد الخفي \(d\) إلى عدد الفئات.

آلية التفعيل الديناميكية متعدّدة المسارات

يعتمد Mamba الأصلي على نمذجة تسلسلات سببية أحادية الاتجاه، ما يحدّ من قدرته على التقاط العلاقات المكانية في البيانات ثنائية الأبعاد. لتعزيز هذه القدرة، نقدّم آلية التفعيل الديناميكية متعدّدة المسارات. تعمل هذه الآلية، مع الحفاظ على هيكلية كتلة Mamba الأساسية، حصرياً على مُدخلات الكتلة ومخرجاتها. نُكرِّر تسلسل الإدخال ثلاث مرّات لإنشاء مسارات أمامية وعكسية وعشوائية، ثم نمرّر كل مسار عبر المُمزِّج الخاص بـ Mamba مع معاملات مشتركة لالتقاط الاعتماديات. بعد ذلك، نُعيد ترتيب الرمزّات إلى ترتيبها الأصلي ونستخدم طبقة خطّية لاستنتاج بوّابة ترجيح تُراعِي السياق. تُفعِّل البوّابة تدفّقات المعلومات الثلاثة كما يلي، \[ \begin{aligned} T_k^i &= \Phi_{\text{pather}}^k(T^i) \\ E_k^i &= \Phi_{\text{mixer}}^\theta(T_k^i) \\ \hat{E}_k^i &= \Phi_{\text{revert-pather}}^k(E_k^i) \\ g &= \Phi_{\text{softmax}}(\Phi_{\text{gate-proj}}(\Phi_{\text{mean}}(\Phi_{\text{cat}}(\{\hat{E}_k^i\})))) \\ T^{i+1} &= \sum_{k=0}^2 g_k \cdot \hat{E}_k^i \end{aligned} \] حيث تشير \(\Phi_{\text{pather}}^k\) إلى إعادة ترتيب التسلسل للمسار \(k\) (أمامي، عكسي، عشوائي)، و\(\Phi_{\text{mixer}}^\theta\) إلى مُمزِّج Mamba بمعاملات \(\theta\)، و\(\Phi_{\text{revert-pather}}^k\) لإعادة الرمزّات إلى ترتيبها الأصلي، و\(\Phi_{\text{cat}}\) لضمّ الميزات على طول بُعد الميزات، و\(\Phi_{\text{mean}}\) للتجميع بالمتوسّط، و\(\Phi_{\text{gate-proj}}\) لإسقاط البُعد \(3d\) إلى 3، و\(\Phi_{\text{softmax}}\) لإعادة التطبيع إلى أوزان ترجيحية. ثم يُجرى المزج الخطي المرجّح عبر \(\sum\) لتجميع الميزات من التدفّقات الثلاثة.

هندسة النموذج

تمثّل \(\Phi_{\text{mixer}}^\theta\) كتلة المُمزِّج القياسية في إطار عمل Mamba (gu2023mamba). وانطلاقاً من مبادئ ViT، طوّرنا ثلاث نسخ من RSMamba بأحجام مُعامِلات مختلفة: الأساسية، والكبيرة، والضخمة. تفاصيل مُعامِلات كل نسخة موضّحة في الجدول [tab:versions]، مع شرح للمُعاملات الفائقة في (gu2023mamba).

النتائج التجريبية والتحليلات

وصف مجموعات البيانات

لتقييم فعالية الطرائق المقترحة، أجرينا تجارب موسّعة على ثلاث مجموعات بيانات مميّزة للاستشعار عن بُعد: مجموعة بيانات جامعة كاليفورنيا ميرسيد (UC Merced) (yang2010bag)، ومجموعة AID (xia2017aid)، ومجموعة NWPU-RESISC45 (RESISC45) (cheng2017remote).

مجموعة بيانات جامعة كاليفورنيا ميرسيد (yang2010bag): تتكوّن من 21 فئة مشهد مختلفة، يحتوي كلٌّ منها على 100 صورة جوية بدقّة \(256\times256\) بكسل. تبلغ الدقّة المكانية لكل صورة 0.3 متر، ليكون المجموع 2100 صورة. استخدمنا 70% من الصور في كل فئة للتدريب.

AID (xia2017aid): تضمّ AID 30 فئة ومجموع 10,000 صورة مأخوذة من Google Earth، بمدى يتراوح بين 220 و420 عيّنة لكل فئة. أبعاد الصور \(600\times600\) بكسل، والدقّة المكانية تتراوح من 8 إلى 0.5 متر. خصّصنا 50% من الصور للتدريب.

RESISC45 (cheng2017remote): تتضمن 31,500 صورة RGB موزّعة على 45 فئة، تحتوي كل فئة على 700 صورة بدقّة \(256\times256\) بكسل. تتراوح الدقّة المكانية بين 30 و0.2 متر. خصّصنا 70% للتدريب.

تفاصيل التنفيذ

نعتمد في هذا البحث حجم صورة ثابتاً قدره \(224\times224\)، ونُطبِّق تعزيزات بيانات تشمل القصّ العشوائي، والانعكاس، والتشويه اللوني، وMixUp، وCutOut، إلخ. تُحوَّل الصور إلى تسلسل عبر تحويلة ثنائية الأبعاد بنواة \(k=16\) وخطوة \(s=8\). ويُمثَّل الترميز الموضعي بمُعاملات قابلة للتعلّم مُهيَّأة عشوائياً. للتدريب الإشرافي، استخدمنا دالة خسارة الإنتروبيا المتقاطعة ومحسّن AdamW بمُعدّل تعلّم أوّلي \(5\times10^{-4}\) واضمحلال أوزان قدره 0.05، مع جدولة تنازلية تدريجية وإحماء خطّي. حجم الدفعة التدريبية 1024، وعدد الدورات 500. نعتمد الدقّة (P)، والاستدعاء (R)، ودرجة F1 كمقاييس للأداء.

المقارنة مع أحدث التقنيات

قارنّا RSMamba بأساليب التصنيف الرائدة بما في ذلك ResNet (he2016deep)، وDeiT (touvron2021training)، وViT (dosovitskiy2020image)، وSwin Transformer (liu2021swin). يعرض الجدول [tab:sota] الأداء المقارن على مجموعات بيانات UC Merced وAID وRESISC45. وتشير النتائج إلى ما يلي: أوّلاً) يتمتّع RSMamba بأداء قوي عبر مجموعات بأحجام بيانات مختلفة، بفضل قلّة عدد مُعامِلاته، ما يُقلّل الحاجة إلى كميات بيانات كبيرة للتعميم. ثانياً) يزيد تعميق الشبكة وتوسيعها في RSMamba الأداء عبر المجموعات الثلاث، وإنْ لم يكن معدّل الزيادة ملحوظاً مقارنةً بشبكات الالتفاف والمحَوِّلات، نظراً لأن النسخة الأساسية حقّقت ابتداءً دقّة عالية، ما يجعلها نقطة انطلاق مناسبة للمهام التطبيقية. ثالثاً) بينما يسهل تقارُب نماذج الالتفاف، يعتمد تفوّق المحَوِّلات على وفرة البيانات لتعميم الميزات؛ بالمقابل، لا يعتمد أداء RSMamba بشدّة على حجم البيانات بقدر ما يستفيد من زيادة مدّة التدريب لتحقيق مكاسب إضافية.

دراسة الاستئصال

للتحقّق من فعالية المكوّنات المختلفة، أجرينا تجارب استئصال على مجموعة بيانات AID باستخدام النسخة الأساسية دون تعديل المُعاملات الفائقة.

تأثير رموز الفئات

لقد استخدمنا التجميع بالمتوسّط في RSMamba لدمج المعلومات العالمية بدلاً من رموز الفئات في ViT (dosovitskiy2020image). يُظهر الجدول [tab:ablation-clstoken] تأثير إضافة رموز الفئات في مواضع مختلفة مقابل التجميع بالمتوسّط. وتُشير النتائج إلى أنّ إدخال الرموز في الرأس أو الذيل لا يُحسّن الأداء، بينما يُعزِّز الإدخال في منتصف السلسلة الدقّة بشكل ملموس. كما يُسرِّع التجميع بالمتوسّط من تقارُب الشبكة.

تأثير مسارات المسح المتعدّدة

تحدّ Mamba الفانيلا، التي تعتمد النمذجة السببية، من الأداء عند تطبيقها على بيانات الصور ثنائية الأبعاد. لمعالجة ذلك، اقترحنا آلية المسارات المتعدّدة (أمامي، عكسي، عشوائي) مع بوّابة ترجيح لتفعيل المعلومات التكيفية. يوضّح الجدول [tab:ablation-path] التحسينات المتحقّقة بزيادة عدد المسارات، وباستخدام آلية البوّابة مقابل المتوسّط البسيط. ويؤدّي غياب المسارات المتعدّدة إلى انخفاض كبير عند استخدام رمز الفئة كما في ViT.

تأثير الترميز الموضعي

لرفع قدرة RSMamba على نمذجة العلاقات المكانية، ندمج الترميز الموضعي في تسلسل الصور. يوضّح الجدول [tab:ablation-pe-token] أثر وجود الترميز الموضعي أو غيابه، وأنواع الترميز المختلفة، على الدقّة. يسبّب غياب الترميز انخفاضاً ملحوظاً، بينما يُسهم كلٌّ من الترميز الفورييري والقابل للتعلّم في تحسين الأداء، مع تخفيف التأثير عند إعادة ترتيبات المسارات المختلفة.

تأثير عدد الرموز

تعتمد قدرتنا على التقاط الخصائص العالمية على طول التسلسل؛ لذا نقسم الصورة إلى رقَع متداخلة. يوضّح الجدول [tab:ablation-token-num] أثر التداخل وحجم الصورة. يُتيح التداخل لكل رمز تغطية معلومات أوسع، كما يؤدّي تكبير الصورة إلى إدراج تفاصيل إضافية، ما يُعزّز الأداء. وتُمكِّن نمذجة SSM شبه الخطّية من زيادة طول التسلسل حتى مع موارد محدودة.

المناقشة والخاتمة

قدّمنا في هذه الورقة نموذجاً قائماً على فضاء الحالة لتصنيف صور الاستشعار عن بُعد، وهو RSMamba. يجمع RSMamba بين مزايا الشبكات الالتفافية والمحَوِّلات، ويمتاز بتعقيد شبه خطي ومجال استقبال عالمي. كما اقترحنا آلية تفعيل ديناميكية متعدّدة المسارات لتجاوز القيود السببية وعدم الحساسية الموضعية في Mamba الأصلي، مع الإبقاء على هيكله وتمكينه من التوسّع بسهولة. وقد أثبتت التقييمات على ثلاث مجموعات بيانات مميّزة أنّ RSMamba يتفوّق على الطرق الرائدة القائمة على الالتفاف والمحَوِّلات، ما يجعله مُرشَّحاً قويّاً ليكون العمود الفقري لنماذج الأساس البصرية المستقبلية.

المراجع البسيطة