latex

مُلَخَّص

يُعَد تصنيف الصور الاستشعارية عن بُعد أساساً للعديد من مهام الفهم المتنوعة، ويلعب دوراً محورياً في تفسير هذه الصور. وقد أدى التقدم الأخير في الشبكات العصبية الالتفافية والمحولات إلى تحسين دقة التصنيف بشكل ملحوظ. ومع ذلك، لا يزال تصنيف المشاهد الاستشعارية عن بُعد يمثل تحدياً كبيراً، خاصة بالنظر إلى تعقيد وتنوع سيناريوهات الاستشعار عن بُعد والتغيرات في الدقة الزمانية والمكانية. يمكن للفهم الشامل للصورة أن يوفر دلالات دقيقة تُسهم في التمييز بين المشاهد المختلفة. في هذه الورقة، نقدم RSMamba، وهي بنية جديدة لتصنيف الصور الاستشعارية عن بُعد. يعتمد RSMamba على نموذج الفضاء الحالى ويتضمن تصميماً فعالاً وواعياً للأجهزة يُعرف باسم Mamba. يدمج مزايا كل من مجال الاستقبال العالمي وتعقيد النمذجة الخطية. وللتغلب على قيود Mamba الأصلية، التي يمكنها فقط نمذجة التسلسلات السببية ولا تتكيف مع بيانات الصور ثنائية الأبعاد، نقترح آلية تفعيل ديناميكية متعددة المسارات لزيادة قدرة Mamba على نمذجة البيانات غير السببية. يحافظ RSMamba على آلية النمذجة الأصلية لـ Mamba، لكنه يُظهر أداءً متفوقاً عبر مجموعات بيانات تصنيف الصور الاستشعارية عن بُعد المتعددة. يشير ذلك إلى أن RSMamba يحمل إمكانات كبيرة ليكون العمود الفقري لنماذج الأساس البصرية المستقبلية. سيتوفر كود المصدر على https://github.com/KyanChen/RSMamba.

مُقَدِّمَة

أدى تقدم تكنولوجيا الاستشعار عن بُعد إلى زيادة الاهتمام بمراقبة الأرض عالية الدقة. يُعد تصنيف صور الاستشعار عن بُعد، والذي يُعتبر الأساس لتفسير هذه الصور بذكاء، عنصراً حاسماً للمهام اللاحقة. ويلعب دوراً محورياً في تطبيقات مثل رسم الخرائط الأرضية واستخدام الأراضي والتخطيط العمراني. ومع ذلك، فإن تعقيد وتنوع سيناريوهات الاستشعار عن بُعد، إلى جانب الدقة المكانية والزمانية المتغيرة، يشكل تحديات كبيرة عند تطبيق الأساليب الآلية على تصنيف هذه الصور (xia2017aid, yang2010bag, cheng2017remote, chen2022resolution).

عمل الباحثون على التخفيف من هذه التحديات وتعزيز قابلية تطبيق النماذج في سيناريوهات متنوعة. ركزت الطرق المبكرة بشكل أساسي على بناء الميزات واستخراجها واختيارها، مستكشفة طرق تعلم الآلة الهندسية للميزات مثل SIFT وLBP والهيستوغرامات اللونية وGIST وBoVW (li2018deep، إلخ). في السنوات الأخيرة، أحدث ظهور التعلم العميق ثورة في النماذج التقليدية التي اعتمدت بشكل كبير على المعرفة البشرية المسبقة. يمتلك التعلم العميق القدرة على استخراج الميزات الفعالة من البيانات بشكل مستقل وإخراج احتمالات التصنيف بطريقة متكاملة. من حيث هندسة الشبكة، يمكن تصنيفها بشكل أساسي إلى شبكات الالتفاف العصبية وشبكات الانتباه. تقوم الأولى بتجريد ميزات الصورة طبقة تلو الأخرى من خلال عمليات الالتفاف ثنائية الأبعاد، كما هو موضح في ResNet (he2016deep). تلتقط الثانية الاعتماديات طويلة المدى بين المناطق المحلية للصورة بأكملها عبر آلية الانتباه، مما يحقق استجابة دلالية أقوى، ممثلة بـ ViT (dosovitskiy2020image) وSwinTransformer (liu2021swinإلخ. تم أيضاً إحراز تقدم كبير في تصنيف صور الاستشعار عن بُعد؛ على سبيل المثال، يقوم ET-GSNet (xu2022vision) بتقطير الأولوية الدلالية الغنية لـ ViT في ResNet18، مستفيداً من قوة كلٍّ منهما. يقدم P2Net (chen2022contrastive) طريقة تعلم تبايني غير متزامنة لمعالجة الاختلافات الصغيرة بين الفئات في التصنيف الدقيق.

تعتمد دقة التصنيف بشكل كبير على قدرة النموذج على التعامل مع تأثيرات السيناريوهات المعقدة والمتنوعة للدقة المكانية والزمانية المتغيرة. يعتمد Transformer (vaswani2017attention)، القائم على آلية الانتباه وقادر على الحصول على استجابات من المناطق الهامة في الصورة بأكملها، على حل مثالي لهذه التحديات. ومع ذلك، فإن حساب الانتباه الخاص به، الذي يتصف بتعقيد تربيعي، يطرح تحديات كبيرة من حيث كفاءة النمذجة واستخدام الذاكرة مع زيادة طول التسلسل المدخل أو عمق الشبكة. يوفر نموذج الفضاء الحالى (SSM) (gu2021efficiently) حلاً يعالج هذا العائق، إذ يقيم علاقات التبعية طويلة المدى عبر انتقالات الحالة ويطبقها من خلال عمليات تفاف، محققاً تعقيداً شبه خطي. أثبتت Mamba (gu2023mamba) كفاءتها العالية لكل من التدريب والاستدلال بفضل دمج المعلمات المتغيرة زمنياً في SSM العادي وتحسينات موجهة للأجهزة. نجح Vim (zhu2024vision) وVMamba (liu2024vmamba) في إدخال Mamba إلى المجال البصري ثنائي الأبعاد، محققين توازناً ملحوظاً بين الأداء والكفاءة في مهام متعددة.

في هذه الورقة، نقدم RSMamba، نموذج فعال قائم على SSM لتصنيف صور الاستشعار عن بُعد. بفضل قدرته القوية على نمذجة العلاقات العالمية داخل الصورة بأكملها، يمكن لـ RSMamba أن يُظهر تنوعاً واسعاً عبر مختلف المهام. يستند RSMamba إلى Mamba السابق (gu2023mamba)، مع تقديم آلية تفعيل ديناميكية متعددة المسارات حساسة للموقع لتجاوز قيود Mamba التقليدي، الذي اقتصر على النمذجة السببية واتسم بعدم الحساسية للموقع. يحافظ RSMamba على آلية النمذجة الأصلية في كتلة Mamba، مع إدخال تحسينات غير سببية وحساسة للموقع خارجها. نبدأ بتقسيم الصورة إلى رموز تصحيح متداخلة، نضيف ترميز الموقع لتكوين تسلسل، ثم نبني ثلاثة مسارات (أمامي، عكسي، وعشوائي) لنمذجة العلاقات العالمية عبر كتلة Mamba بمشاركة المعلمات، ونسلطف كل مسار بخريطة خطية مختلفة. وبفضل كفاءة كتلة Mamba، يمكن إجراء التدريب المسبق على نطاق واسع بتكلفة منخفضة.

يمكن تلخيص المساهمات الرئيسية في هذه الورقة كما يلي:

المَنْهَجِيَّة

بالاستفادة من الخصائص الأساسية لنموذج SSM، يتمتع RSMamba بالكفاءة في التقاط الاعتماديات العالمية داخل صور الاستشعار عن بُعد، مما يوفر معلومات وفيرة عن الفئات الدلالية. يبدأ هذا القسم بمقدمة عن مبادئ SSM، تليها نظرة عامة على RSMamba، ثم استكشاف تفصيلي لكتلة التفعيل الديناميكية متعددة المسارات، وأخيراً شرح هيكل الشبكة لثلاث نسخ مختلفة من RSMamba.

المُقَدِّمات

نموذج الفضاء الحالى هو مفهوم مشتق من نظرية التحكم الحديثة للنظام الخطي الثابت مع الزمن، حيث يرسم الاستثارة المستمرة \(x \in \mathbb{R}^N\) إلى استجابة \(y \in \mathbb{R}^N\). يمكن صياغة هذه العملية عبر المعادلة التفاضلية العادية الخطية التالية، \[ \begin{aligned} h^\prime(t) &= \textbf{A} h(t) + \textbf{B} x(t) \\ y(t) &= \textbf{C} h(t) \end{aligned} \] حيث يُستنتج \(y\) من إشارة الإدخال \(x\) والحالة المخفية \(h\). تعبر \(\textbf{A}\) عن مصفوفة انتقال الحالة، و\(\textbf{B}\) و\(\textbf{C}\) هما مصفوفتا الإسقاط. لتحويل النظام المستمر إلى تمثيل مفرغ يدمج في التعلم العميق، نستخدم نبذ التفريغ بالزايرو-هولدر (ZOH) بمُعامل زمني \(\Delta\)، كما يلي، \[ \begin{aligned} \bar{\textbf{A}} &= \exp(\Delta \textbf{A}) \\ \bar{\textbf{B}} &= {(\Delta \textbf{A})}^{-1} (\exp(\Delta \textbf{A}) - \textbf{I}) \cdot \Delta \textbf{B} \\ \end{aligned} \]

بعد التفريغ، يمكن إعادة كتابة النظام كما يلي، \[ \begin{aligned} h_k &= \bar{\textbf{A}}\,h_{k-1} + \bar{\textbf{B}}\,x_k \\ y_k &= \bar{\textbf{C}}\,h_k \end{aligned} \] حيث \(\bar{\textbf{C}}\) تماثل \(\textbf{C}\). أخيراً، يُمكن التعبير عن الناتج في تمثيل الالتفاف كما يلي، \[ \begin{aligned} \bar{\textbf{K}} &= (\bar{\textbf{C}}\bar{\textbf{B}}, \bar{\textbf{C}}\bar{\textbf{A}}\bar{\textbf{B}}, \dots, \bar{\textbf{C}}\bar{\textbf{A}}^{L-1}\bar{\textbf{B}}) \\ \textbf{y} &= \textbf{x} * \bar{\textbf{K}} \end{aligned} \] حيث \(L\) هو طول تسلسل الإدخال، و\(\bar{\textbf{K}} \in \mathbb{R}^L\) تمثل نواة الالتفاف المنظمة.

RSMamba

يحوّل RSMamba الصور ثنائية الأبعاد إلى تسلسلات أحادية البعد، ثم يستخدم مشفّر Multi-Path SSM لالتقاط الاعتماديات طويلة المدى. بالنظر إلى صورة \(\mathcal{I} \in \mathbb{R}^{H \times W \times 3}\)، نطبّق تحويلة ثنائية الأبعاد بنواة \(k\) وخطوة \(s\) لرسم الخرائط المحلية إلى تضمينات الأبعاد. بعد ذلك، يتم تسطيح خريطة الميزات إلى تسلسل أحادي البعد، ثم نضيف ترميز الموقع \(P\) للحفاظ على العلاقات المكانية. يمكن التعبير عن العملية كما يلي، \[ \begin{aligned} T &= \Phi_{\text{Flatten}}(\Phi_{\text{Conv2D}}(\mathcal{I}, k, s)) \\ T &= T + P \end{aligned} \] حيث \(\Phi_{\text{Conv2D}}\) تمثل التحويلة ثنائية الأبعاد، و\(\Phi_{\text{Flatten}}\) عملية التسطيح. يكون \(T \in \mathbb{R}^{L \times d}\) و\(P \in \mathbb{R}^{L \times d}\) تسلسل الإدخال وترميز الموقع على التوالي.

في RSMamba، لم نعتمد رمز [CLS] لتجميع التمثيل العالمي كما في ViT. بدلاً من ذلك، ندخل التسلسل في كتل التفعيل الديناميكية متعددة المسارات الخاصة بـ Mamba لنمذجة الاعتماديات طويلة المدى. ثم نستخلص الميزات الضرورية للتنبؤ بالفئة عبر تجميع متوسط على التسلسل. يمكن التعبير عن ذلك تكرارياً كما يلي، \[ \begin{aligned} T^i &= \Phi_{\text{mp-ssm}}^{i} (T^{i-1}) + T^{i-1}\\ \hat{s} &= \Phi_{\text{proj}}(\Phi_{\text{LN}}(\Phi_{\text{mean}}(T^N))) \end{aligned} \] حيث \(T^0 = T\)، و\(\Phi_{\text{mp-ssm}}\) تمثل كتلة التفعيل الديناميكية متعددة المسارات، بإجمالي عدد طبقات \(N\). \(\Phi_{\text{mean}}\) عملية التجميع المتوسط، و\(\Phi_{\text{LN}}\) تطبيع الطبقة، و\(\Phi_{\text{proj}}\) الإسقاط الخطي من البعد الخفي \(d\) إلى عدد الفئات.

آلية التفعيل الديناميكية متعددة المسارات

يعتمد Mamba الأصلي على نمذجة التسلسلات السببية أحادية الاتجاه، مما يحدّ من قدرته على التقاط العلاقات المكانية في البيانات ثنائية الأبعاد. لتعزيز هذه القدرة، نقدم آلية التفعيل الديناميكية متعددة المسارات. تعمل هذه الآلية، مع الحفاظ على هيكلية كتلة Mamba الأساسية، حصرياً على مدخلات الكتلة ومخرجاتها. نكرّر تسلسل الإدخال ثلاث مرات لإنشاء مسارات أمامية وعكسية وعشوائية، ثم نمرر كل مسار عبر خلاط Mamba بمعلمات مشتركة للتقاط الاعتماديات. بعد ذلك، نعيد ترتيب الرموز إلى ترتيبها الأصلي ونستخدم خر层ية خطية لتكثيف معلومات كل مسار وإنشاء بوابة تنظيمية. تُفعل البوابة تدفقات المعلومات الثلاثة كما يلي، \[ \begin{aligned} T_k^i &= \Phi_{\text{pather}}^k(T^i) \\ E_k^i &= \Phi_{\text{mixer}}^\theta(T_k^i) \\ \hat{E}_k^i &= \Phi_{\text{revert-pather}}^k(E_k^i) \\ g &= \Phi_{\text{softmax}}(\Phi_{\text{gate-proj}}(\Phi_{\text{mean}}(\Phi_{\text{cat}}(\{\hat{E}_k^i\})))) \\ T^{i+1} &= \sum_{k=0}^2 g_k \cdot \hat{E}_k^i \end{aligned} \] حيث تشير \(\Phi_{\text{pather}}^k\) إلى إعادة ترتيب التسلسل للمسار \(k\) (أمامي، عكسي، عشوائي)، و\(\Phi_{\text{mixer}}^\theta\) إلى خلاط Mamba بمعاملات \(\theta\)، و\(\Phi_{\text{revert-pather}}^k\) لإعادة الرموز إلى ترتيبها الأصلي، و\(\Phi_{\text{cat}}\) للتكثيف على طول البعد الميزة، و\(\Phi_{\text{mean}}\) للتجميع المتوسط، و\(\Phi_{\text{gate-proj}}\) لإسقاط البُعد \(3d\) إلى 3، و\(\Phi_{\text{softmax}}\) لتوزيع الأوزان، ثم يجمع \(\sum\) الميزات من التدفقات الثلاثة.

هندسة النموذج

تمثل \(\Phi_{\text{mixer}}^\theta\) كتلة الخلاط القياسية في إطار عمل Mamba (gu2023mamba). انطلاقاً من مبادئ ViT، طورنا ثلاث نسخ من RSMamba بأحجام معلمات مختلفة: الأساسية، الكبيرة، والضخمة. تفاصيل معلمات كل نسخة موضحة في الجدول [tab:versions]، مع شرح للمفاهيم الفائقة في (gu2023mamba).

النتائج التجريبية والتحليلات

وصف مجموعات البيانات

لتقييم فعالية الطرائق المقترحة، أجرينا تجارب موسعة على ثلاث مجموعات بيانات مميزة لاستشعار عن بُعد: مجموعة بيانات جامعة كاليفورنيا ميرسيد (UC Merced) (yang2010bag)، ومجموعة AID (xia2017aid)، ومجموعة NWPU-RESISC45 (RESISC45) (cheng2017remote).

مجموعة بيانات جامعة كاليفورنيا ميرسيد (yang2010bag): تتكون من 21 فئة مشهد مختلفة، ويحتوي كل منها على 100 صورة جوية بدقة \(256\times256\) بكسل. تبلغ الدقة المكانية لكل صورة 0.3 متر، ما يجعل المجموع 2100 صورة. استخدمنا 70% من الصور في كل فئة للتدريب.

AID (xia2017aid): يضم AID 30 فئة ومجموع 10,000 صورة مأخوذة من جوجل إيرث، متفاوتة بين 220 و420 عينة لكل فئة. أبعاد الصور \(600\times600\) بكسل، والدقة المكانية تتراوح من 8 إلى 0.5 متر. خصصنا 50% من الصور للتدريب.

RESISC45 (cheng2017remote): تتضمن 31,500 صورة RGB مقسمة إلى 45 فئة، حيث تحتوي كل فئة على 700 صورة بدقة \(256\times256\) بكسل. تتراوح الدقة المكانية بين 30 إلى 0.2 متر. خصصنا 70% للتدريب.

تفاصيل التنفيذ

في هذا البحث، نستخدم حجم صورة ثابت يبلغ \(224\times224\) ونطبق تعزيزات بيانات تشمل القص العشوائي، والانعكاس، والتشويه اللوني، والخلط، والقطع، إلخ. تُحول الصور إلى تسلسل عبر تحويلة ثنائية الأبعاد بنواة \(k=16\) وخطوة \(s=8\). تمثل ترميزات المواقع بمعاملات قابلة للتعلّم عشوائياً في البداية. للتدريب الإشرافي، استخدمنا دالة خسارة الانتروبيا المتقاطعة ومحسن AdamW مع معدل تعلم أولي \(5\times10^{-4}\) وتحليل وزن 0.05، مع جدول زمني تخفيض تدريجي وتسخين خطي. حجم الدفعة 1024، وعدد الدورات 500. نعتمد الدقة (P)، الاستدعاء (R)، ومعدل F1 (F1) كمقاييس للأداء.

المقارنة مع أحدث التقنيات

قارنّا RSMamba بأساليب التصنيف الرائدة بما في ذلك ResNet (he2016deep)، DeiT (touvron2021training)، ViT (dosovitskiy2020image)، وSwin Transformer (liu2021swin). يعرض الجدول [tab:sota] الأداء المقارن على مجموعات بيانات UC Merced وAID وRESISC45. تشير النتائج إلى: أولاً) يتمتع RSMamba بأداء قوي عبر مجموعات بأحجام بيانات مختلفة، بفضل معلماته النسبية الأقل التي تقلل الحاجة لبيانات واسعة للتعميم. ثانياً) يرفع رفع العمق والعرض في RSMamba الأداء عبر المجموعات الثلاث، رغم أن معدل الزيادة ليس بارزاً مقارنة بشبكات الالتفاف والمحولات، نظراً لأن النسخة الأساسية حققت أصلاً دقة عالية، مما يجعلها نقطة انطلاق مناسبة للمهام التطبيقية. ثالثاً) بينما تقارب نماذج الالتفاف سهل، يعتمد تفوق المحولات على كمية وفيرة من البيانات لتعميم الميزات. بالمقابل، لا يعتمد أداء RSMamba على حجم البيانات بقدر ما يستفيد من زيادة مدة التدريب لتحقيق مكاسب إضافية.

دراسة الاستئصال

للتحقق من فعالية المكونات المختلفة، أجرينا تجارب استئصال على مجموعة بيانات AID مع النسخة الأساسية دون تعديل المعلمات الفائقة.

تأثير رموز الفئات

لاستخدمنا التجميع المتوسط في RSMamba لدمج المعلومات العالمية بدلاً من رموز الفئات في ViT (dosovitskiy2020image). يظهر الجدول [tab:ablation-clstoken] تأثير إضافة رموز الفئات في مواقع مختلفة مقابل التجميع المتوسط. النتائج تشير إلى أن إدخال الرموز في الرأس أو الذيل لا يحسن الأداء، بينما الإدخال في منتصف السلسلة يعزز الدقة بشكل ملموس. كما يسرع التجميع المتوسط من تقارب الشبكة.

تأثير مسارات المسح المتعددة

تحدّ Mamba الفانيليا، الذي يعتمد النمذجة السببية، عند تطبيقه على بيانات الصور ثنائية الأبعاد. لمعالجة ذلك، اقترحنا آلية المسارات المتعددة (أمامية، عكسية، عشوائية) مع بوابة تنظيمية لتفعيل المعلومات التكيفية. يوضح الجدول [tab:ablation-path] التحسينات المكتسبة مع زيادة عدد المسارات وآلية البوابة مقابل المتوسط البسيط. غياب المسارات المتعددة يؤدي إلى انخفاض كبير عند استخدام رمز الفئة مثل ViT.

تأثير الترميز الموضعي

لرفع قدرة RSMamba على نمذجة العلاقات المكانية، ندمج الترميز الموضعي في تسلسل الصور. يوضح الجدول [tab:ablation-pe-token] أثر وجود أو غياب وأنواع الترميز الموضعي على الدقة. يسبب غياب الترميز انخفاضاً ملحوظاً، بينما يسهم كل من الترميز الفوريي والقابل للتعلم في تحسين الأداء، مع تلطيف التأثير عند إعادة ترتيبات المسارات المختلفة.

تأثير عدد الرموز

تعتمد قدرتنا على التقاط الخصائص العالمية على طول التسلسل؛ لذا نقسم الصورة إلى قطع متداخلة. يوضح الجدول [tab:ablation-pe-token] أثر التداخل وحجم الصورة. يتيح التداخل لكل رمز تغطية معلومات أوسع، كما يؤدي تكبير الصورة إلى إدراج تفاصيل إضافية، مما يعزز الأداء. يمكن لنمذجة SSM الخطي زيادة طول التسلسل حتى في موارد محدودة.

المناقشة والخاتمة

قدمنا في هذه الورقة نموذج فضاء حالة جديد لتصنيف صور الاستشعار عن بُعد، RSMamba. يجمع RSMamba بين مزايا الشبكات الالتفافية والمحولات، ويمتاز بتعقيد شبه خطي ومجال استقبال عالمي. اقترحنا آلية تفعيل ديناميكية متعددة المسارات لتجاوز القيود السببية وعدم الحساسية الموضعية في Mamba الأصلي، مع الاحتفاظ بهيكله وتمكينه من التوسع بسهولة. أثبتت التقييمات على ثلاث مجموعات بيانات مميزة أن RSMamba يتفوق على الطرق الرائدة القائمة على الالتفاف والمحولات، مما يجعله مرشحاً قوياً ليكون العمود الفقري لنماذج الأساس البصرية المستقبلية.

المراجع البسيطة