latex
يُعَد تصنيف الصور الاستشعارية عن بُعد أساساً للعديد من مهام الفهم المتنوعة، ويلعب دوراً محورياً في تفسير الصور الاستشعارية عن بُعد. وقد أدى التقدم الأخير في الشبكات العصبية الالتفافية والمحولات إلى تحسين دقة التصنيف بشكل ملحوظ. ومع ذلك، لا يزال تصنيف المشاهد الاستشعارية عن بُعد يمثل تحدياً كبيراً، خاصة بالنظر إلى تعقيد وتنوع سيناريوهات الاستشعار عن بُعد وتغير الدقة الزمانية والمكانية. يمكن أن يوفر الفهم الكامل للصورة دلالات دقيقة للتمييز بين المشاهد. في هذه الورقة، نقدم RSMamba، وهي بنية جديدة لتصنيف الصور الاستشعارية عن بُعد. يعتمد RSMamba على نموذج الفضاء الحالى ويتضمن تصميماً فعالاً وواعياً للأجهزة يُعرف باسم Mamba. يدمج مزايا كل من مجال الاستقبال العالمي وتعقيد النمذجة الخطية. وللتغلب على قيود Mamba الأصلية، التي يمكنها فقط نمذجة التسلسلات السببية ولا تتكيف مع بيانات الصور ثنائية الأبعاد، نقترح آلية تفعيل متعددة المسارات ديناميكية لزيادة قدرة Mamba على نمذجة البيانات غير السببية. يحافظ RSMamba على آلية النمذجة الأصلية لـ Mamba، لكنه يُظهر أداءً متفوقاً عبر مجموعات بيانات تصنيف الصور الاستشعارية عن بُعد المتعددة. يشير ذلك إلى أن RSMamba يحمل إمكانات كبيرة ليكون العمود الفقري لنماذج الأساس البصرية المستقبلية. سيتوفر الكود على https://github.com/KyanChen/RSMamba.
أدى تقدم تكنولوجيا الاستشعار عن بُعد إلى زيادة الاهتمام بمراقبة الأرض عالية الدقة. يُعد تصنيف صور الاستشعار عن بُعد، والذي يُعتبر الأساس لتفسير صور الاستشعار عن بُعد بذكاء، عنصراً حاسماً للمهام اللاحقة. ويلعب دوراً محورياً في تطبيقات مثل رسم الخرائط الأرضية، واستخدام الأراضي، والتخطيط العمراني. ومع ذلك، فإن تعقيد وتنوع سيناريوهات الاستشعار عن بُعد، إلى جانب الدقة المكانية والزمانية المتغيرة، يشكل تحديات كبيرة لتصنيف صور الاستشعار عن بُعد آلياً (xia2017aid, yang2010bag, cheng2017remote, chen2022resolution).
عمل الباحثون بجد للتخفيف من هذه التحديات وتعزيز قابلية تطبيق النماذج في سيناريوهات متنوعة. ركزت الطرق المبكرة بشكل أساسي على بناء الميزات واستخراجها واختيارها، مستكشفة طرق تعلم الآلة الهندسية للميزات مثل SIFT وLBP والهيستوغرامات اللونية وGIST وBoVW (li2018deep، إلخ). في السنوات الأخيرة، أحدث ظهور التعلم العميق ثورة في النماذج التقليدية التي اعتمدت بشكل كبير على المعرفة البشرية المتخصصة المسبقة. يمتلك التعلم العميق القدرة على استخراج الميزات الفعالة من البيانات بشكل مستقل وإخراج احتمالات التصنيف بطريقة نهائية. من حيث هندسة الشبكة، يمكن تصنيفها بشكل أساسي إلى شبكات الالتفاف العصبية وشبكات الانتباه. تقوم الأولى بتجريد ميزات الصورة طبقة تلو الأخرى من خلال عمليات الالتفاف ثنائية الأبعاد، كما هو موضح بواسطة ResNet (he2016deep). تلتقط الأخيرة الاعتماديات طويلة المدى بين المناطق المحلية للصورة بأكملها من خلال آلية الانتباه، مما يحقق استجابة دلالية أقوى، ممثلة بـ ViT (dosovitskiy2020image)، SwinTransformer (liu2021swin)، إلخ. تم أيضاً إحراز تقدم كبير في تصنيف صور الاستشعار عن بُعد. على سبيل المثال، يقوم ET-GSNet (xu2022vision) بتقطير الأولوية الدلالية الغنية لـ ViT في ResNet18، مستفيداً بشكل كامل من قوة كليهما. يقدم P2Net (chen2022contrastive) طريقة تعلم تبايني غير متزامنة لمعالجة مشكلة الاختلافات الصغيرة بين الفئات في التصنيف الدقيق.
إلى حد كبير، تعتمد دقة التصنيف بشكل كبير على قدرة النموذج على التعامل بفعالية مع تأثير السيناريوهات المعقدة والمتنوعة للاستشعار عن بُعد والدقة المكانية الزمانية المتغيرة. يعتمد Transformer (vaswani2017attention)، بناءً على آلية الانتباه وقادر على الحصول على استجابات من المناطق الهامة في الصورة بأكملها، على حل مثالي لهذه التحديات. ومع ذلك، فإن حساب الانتباه الخاص به، الذي يتميز بتعقيد تربيعي، يطرح تحديات كبيرة من حيث كفاءة النمذجة واستخدام الذاكرة مع زيادة طول تسلسل الإدخال أو عمق الشبكة. يمكن لنموذج الفضاء الحالى (SSM) (gu2021efficiently) أن يقيم علاقات التبعية طويلة المدى من خلال انتقالات الحالة وتنفيذ هذه الانتقالات من خلال حسابات الالتفاف، مما يحقق تعقيداً شبه خطي. أثبتت Mamba (gu2023mamba) كفاءتها العالية لكل من التدريب والاستدلال من خلال دمج المعلمات المتغيرة مع الزمن في SSM العادي وإجراء تحسينات على الأجهزة. لقد نجح Vim (zhu2024vision) وVMamba (liu2024vmamba) في إدخال Mamba في المجال البصري ثنائي الأبعاد، محققين توازناً ملحوظاً بين الأداء والكفاءة في مهام متعددة.
في هذه الورقة، نقدم RSMamba، نموذج فضاء حالة فعال لتصنيف صور الاستشعار عن بُعد. بفضل قدرته القوية على نمذجة العلاقات العالمية داخل الصورة بأكملها، يمكن لـ RSMamba أيضاً أن يُظهر تنوعاً محتملاً عبر طيف واسع من المهام الأخرى. يعتمد RSMamba على Mamba السابق (gu2023mamba)، لكنه قدم آلية تفعيل متعددة المسارات ديناميكية حساسة للموقع للتخفيف من القيود المفروضة على Mamba العادي، والذي كان يمكنه فقط النمذجة في اتجاه واحد وغير حساس للموقع. بشكل ملحوظ، تم تصميم RSMamba للحفاظ على آلية النمذجة الأصلية لكتلة Mamba، مع إدخال تحسينات غير سببية وإيجابية الموقع خارج الكتلة. على وجه التحديد، يتم تقسيم صورة الاستشعار عن بُعد إلى رموز تصحيح متداخلة، يتم إضافة ترميز الموقع إليها لتشكيل تسلسل. نقوم ببناء ثلاث نسخ من المسار، وهي الأمامي والعكسي والعشوائي. يتم نمذجة هذه التسلسلات لتضمين العلاقات العالمية من خلال كتلة Mamba باستخدام معلمات مشتركة، وبعد ذلك يتم تفعيلها من خلال التعيين الخطي عبر مسارات مختلفة. نظراً لكفاءة كتلة Mamba، يمكن تحقيق التدريب المسبق على نطاق واسع لـ RSMamba بتكلفة فعالة.
يمكن تلخيص المساهمات الرئيسية لهذه الورقة على النحو التالي:
i) نقترح RSMamba، منهجية فعالة لنمذجة الميزات العالمية لصور الاستشعار عن بُعد استناداً إلى نموذج الفضاء الحالى (SSM). تقدم هذه الطريقة مزايا كبيرة من حيث القدرة التمثيلية والكفاءة ومن المتوقع أن تكون حلاً قابلاً للتطبيق للتعامل مع تفسير صور الاستشعار عن بُعد على نطاق واسع.
ii) على وجه التحديد، ندمج آلية تفعيل متعددة المسارات ديناميكية حساسة للموقع لمعالجة القيود المفروضة على Mamba الأصلي، والتي كانت مقتصرة على نمذجة التسلسلات السببية وكانت غير حساسة للموقع الفضائي.
iii) أجرينا تجارب شاملة على ثلاث مجموعات بيانات متميزة لتصنيف صور الاستشعار عن بُعد. تشير النتائج إلى أن RSMamba يتمتع بمزايا كبيرة مقارنة بطرق التصنيف المبنية على الشبكات العصبية الالتفافية والمحولات.
بالاستفادة من الخصائص الأساسية لنموذج SSM، يتمتع RSMamba بالكفاءة في التقاط الاعتماديات العالمية داخل صور الاستشعار عن بُعد، مما يؤدي إلى الحصول على معلومات وفيرة عن الفئات الدلالية. سيبدأ هذا القسم بمقدمة عن المبادئ الأساسية لـ SSM، يليها نظرة عامة على RSMamba. بعد ذلك، سنستكشف كتلة تفعيل المسارات المتعددة الديناميكية بعمق. وأخيراً، سنشرح هيكل الشبكة لثلاث نسخ مختلفة من RSMamba.
نموذج الفضاء الحالى هو مفهوم مشتق من نظرية التحكم الحديثة للنظام الخطي الثابت مع الزمن الذي يرسم الاستثارة المستمرة \(x \in \mathbb{R}^N\) إلى استجابة \(y \in \mathbb{R}^N\). يمكن صياغة هذه العملية من خلال المعادلة التفاضلية العادية الخطية التالية، \[\begin{aligned} h^\prime(t) &= \textbf{A} h(t) + \textbf{B} x(t) \\ y(t) &= \textbf{C} h(t) \end{aligned} \label{eq:continous_sys}\] حيث يتم استنتاج \(y \in \mathbb{R}^N\) من إشارة الإدخال \(x \in \mathbb{R}^N\) والحالة المخفية \(h \in \mathbb{R}^N\). \(\textbf{A} \in \mathbb{R}^{N \times N}\) تشير إلى مصفوفة انتقال الحالة. \(\textbf{B} \in \mathbb{R}^{N}\) و \(\textbf{C} \in \mathbb{R}^{ N}\) هما مصفوفتا الإسقاط. لتحقيق النظام المستمر الموضح في المعادلة [eq:continous_sys] بشكل مفرغ ودمجه في طرق التعلم العميق. يتم تفريغ \(\textbf{A}\) و \(\textbf{B}\) باستخدام حامل الأمر الصفري (ZOH) مع معامل زمني \(\Delta\). تُعرض العملية على النحو التالي، \[\begin{aligned} \bar{\textbf{A}} &= \text{exp}(\Delta \textbf{A}) \\ \bar{\textbf{B}} &= {(\Delta \textbf{A})}^{-1} (\text{exp}(\Delta \textbf{A}) - \textbf{I}) \cdot \Delta \textbf{B} \\ \end{aligned}\]
بعد التفريغ، يمكن إعادة كتابة المعادلة [eq:continous_sys] كما يلي، \[\begin{aligned} h_k &= \bar{\textbf{A}} h_{k-1} + \bar{\textbf{B}} x_k \\ y_k &= \bar{\textbf{C}} h_k \end{aligned}\] حيث يُمثل \(\bar{\textbf{C}}\) \(\textbf{C}\). أخيراً، يمكن حساب الناتج في تمثيل الالتفاف، على النحو التالي، \[\begin{aligned} \bar{\textbf{K}} &= (\bar{\textbf{C}} \bar{\textbf{B}}, \bar{\textbf{C}} \bar{\textbf{A}} \bar{\textbf{B}}, \cdots, \bar{\textbf{C}} \bar{\textbf{A}}^{L-1} \bar{\textbf{B}}) \\ \textbf{y} &= \textbf{x} \ast \bar{\textbf{K}} \end{aligned}\] حيث \(L\) هو طول تسلسل الإدخال، و \(\bar{\textbf{K}} \in \mathbb{R}^L\) تشير إلى نواة الالتفاف المنظمة.
يحول RSMamba الصور ثنائية الأبعاد إلى تسلسلات أحادية البعد ويستخدم مشفر Multi-Path SSM لالتقاط الاعتماديات طويلة المدى. بالنظر إلى صورة \(\mathcal{I} \in \mathbb{R}^{H \times W \times 3}\)، نستخدم تحويلة ثنائية الأبعاد بنواة \(k\) وخطوة \(s\) لرسم الخرائط المحلية إلى تضمينات ميزات البكسل. بعد ذلك، يتم تسطيح خريطة الميزات إلى تسلسل أحادي البعد. للحفاظ على العلاقة النسبية للموقع المكاني داخل الصورة، ندمج ترميز الموقع \(P\). توضح العملية بالكامل كما يلي، \[\begin{aligned} T &= \Phi_{\text{Flatten}}(\Phi_{\text{Conv2D}}(\mathcal{I}, k, s)) \\ T &= T + P \end{aligned}\] حيث \(\Phi_{\text{Conv2D}}\) تمثل التحويلة ثنائية الأبعاد، بينما \(\Phi_{\text{Flatten}}\) تدل على عملية التسطيح. \(T \in \mathbb{R}^{L \times d}\) و\(P \in \mathbb{R}^{L \times d}\) يتوافقان مع تسلسل الإدخال أحادي البعد وترميز الموقع على التوالي.
في RSMamba، لم نستخدم رمز [CLS] لتجميع التمثيل العالمي كما يتم في ViT. بدلاً من ذلك، يتم إدخال التسلسل في كتل تفعيل متعددة الطرق ديناميكية Mamba لنمذجة الاعتماديات طويلة المدى. بعد ذلك، يتم استخراج الميزات الكثيفة اللازمة للتنبؤ بالفئة من خلال عملية تجميع المتوسط التي تطبق على التسلسل. يمكن توضيح هذا الإجراء بشكل تكراري كما يلي، \[\begin{aligned} T^i &= \Phi_{\text{mp-ssm}}^{i} (T^{i-1}) + T^{i-1}\\ \hat{s} &= \Phi_{\text{proj}}(\Phi_{\text{LN}}(\Phi_{\text{mean}}(T^N)))\\ \end{aligned}\] حيث \(i\) يشير إلى الطبقة \(i\)، بينما \(T^i\) يمثل تسلسل الإخراج للطبقة \(i\)، مع \(T^0 = T \in \mathbb{R}^{L \times d}\). \(\Phi_{\text{mp-ssm}}\) تدل على كتلة تفعيل Mamba متعددة الطرق ديناميكية، بإجمالي عدد \(N\). \(\Phi_{\text{mean}}\) ترمز إلى عملية تجميع المتوسط مع بعد التسلسل و\(\Phi_{\text{LN}}\) هو تطبيع الطبقة. \(\Phi_{\text{proj}}\) تُستخدم لإسقاط البعد الكامن \(d\) إلى عدد الفئات.
يستخدم نموذج مامبا الأساسي في نمذجة التسلسلات أحادية البعد للأسباب السببية. يواجه صعوبات في نمذجة العلاقات المكانية الموضعية والمسارات أحادية الاتجاه، مما يحد من تطبيقه على تمثيل البيانات البصرية. لزيادة قدرته على التعامل مع البيانات ثنائية الأبعاد، نقدم آلية تفعيل متعددة المسارات ديناميكية. من المهم أن هذه الآلية، للحفاظ على هيكلية كتلة مامبا الأساسية، تعمل حصرياً على مدخلات ومخرجات الكتلة. على وجه التحديد، نقوم بتكرار ثلاث نسخ من تسلسل الإدخال لإنشاء ثلاثة مسارات مختلفة، وهي المسار الأمامي، والمسار العكسي، ومسار الخلط العشوائي، ونستخدم خلاط مامبا البسيط بمعلمات مشتركة لنمذجة العلاقات التبعية بين الرموز ضمن هذه التسلسلات الثلاثة على التوالي. بعد ذلك، نعيد جميع الرموز في التسلسلات إلى الترتيب الصحيح ونستخدم طبقة خطية لتكثيف معلومات التسلسل، وبالتالي إنشاء بوابة للمسارات الثلاثة. تُستخدم هذه البوابة بعد ذلك لتفعيل تمثيل التدفقات المعلوماتية الثلاثة المختلفة كما هو موضح في الشكل. عملية الكتلة \(i\) توضح كما يلي، \[\begin{aligned} T_k^i &= \Phi_{\text{pather}}^k(T^i) \\ \hat{T}_k^i &= \Phi_{\text{mixer}}^\theta(E_k^i) \\ \hat{T}_k^i &= \Phi_{\text{revert-pather}}^k(\hat{E}_k^i) \\ g &= \Phi_{\text{softmax}}(\Phi_{\text{gate-proj}}(\Phi_{\text{mean}}(\Phi_{\text{cat}}(\{\hat{E}_k^i \})))) \\ T^{i+1} &= \sum\nolimits_{k=0}^2 g_k \cdot \hat{T}_k^i \\ \end{aligned}\] حيث \(T^i\) يمثل تسلسل الإدخال للطبقة \(i\). \(\Phi_{\text{pather}}^k, k \in \{0,1,2 \}\) يدل على مسار التسلسل \(k\)، بما في ذلك المسار الأمامي، والمسار العكسي، ومسار الخلط العشوائي. \(\Phi_{\text{mixer}}^\theta\) هو خلاط مامبا الأساسي بمعامل \(\theta\). \(\Phi_{\text{revert-pather}}^k\) يدل على العملية لإعادة جميع الرموز إلى الترتيب الأمامي. \(\Phi_{\text{cat}}\) تشير إلى تكثيف التسلسل مع بعد الميزة. \(\Phi_{\text{mean}}\) يدل على التجميع المتوسط على طول بعد طول التسلسل. \(\Phi_{\text{gate-proj}}\) يقوم بالإسقاط الخطي للبعد \(3d\) إلى 3 لتفعيل معلومات التسلسل. \(\Phi_{\text{softmax}}\) يدل على عملية Softmax. \(\sum\) يجمع الميزات من التدفقات المعلوماتية الثلاثة المختلفة.
يمثل خلاط مامبا \(\Phi_{\text{mixer}}^\theta\) الكتلة القياسية للخلاط ضمن إطار عمل مامبا (gu2023mamba). استناداً إلى مبادئ ViT، قمنا بتطوير ثلاث نسخ مميزة من RSMamba تتميز بأحجام معلمات مختلفة: الأساسية، الكبيرة، والضخمة. تفاصيل المعلمات الخاصة بكل نسخة موضحة في الجدول [tab:versions]. يمكن العثور على تفاصيل معنى المعلمات الفائقة في (gu2023mamba).
لتقييم فعالية الطريقة المقترحة، أجرينا تجارب موسعة على ثلاث مجموعات بيانات استشعار عن بُعد متميزة: مجموعة بيانات استخدام الأرض في جامعة كاليفورنيا ميرسيد (UC Merced) (yang2010bag)، وAID (xia2017aid)، ومجموعة بيانات NWPU-RESISC45 (RESISC45) (cheng2017remote). كل مجموعة تتضمن تشكيلة فريدة من الفئات وكميات الصور.
جامعة كاليفورنيا ميرسيد (yang2010bag): تتكون جامعة كاليفورنيا ميرسيد من 21 فئة مشهد مختلفة، حيث تحتوي كل فئة على 100 صورة جوية بدقة بكسل \(256 \times 256\). تمتلك الصور دقة مكانية تبلغ 0.3 متر، مما يؤدي إلى مجموع 2100 صورة. قمنا بسحب عشوائي لـ70 صورة من كل فئة للتدريب.
AID (xia2017aid): يضم AID 30 فئة ومجموع 10,000 صورة مأخوذة من جوجل إيرث. تختلف كمية العينات عبر أنواع المشاهد المختلفة، تتراوح من 220 إلى 420. تبلغ أبعاد كل صورة جوية \(600 \times 600\) بكسل، مع دقة مكانية تتراوح من 8 متر إلى 0.5 متر، مما يغطي مجموعة متنوعة من سيناريوهات الدقة. قمنا بتخصيص 50% من الصور من كل فئة كبيانات تدريب.
RESISC45 (cheng2017remote): يتألف RESISC45 من 31,500 صورة للاستشعار عن بُعد مستخرجة من جوجل إيرث، مقسمة إلى 45 فئة مشهد. تحتوي كل فئة على 700 صورة RGB بدقة بكسل \(256 \times 256\). تتقلب الدقة المكانية بين حوالي 30 متر إلى 0.2 متر لكل بكسل. خصصنا 70% من الصور من كل فئة لأغراض التدريب.
في بحثنا، نستخدم حجم صورة ثابت يبلغ \(224 \times 224\) وننفذ تقنيات تعزيز البيانات بما في ذلك القص العشوائي، الانعكاس، التشويه الضوئي، الخلط، القطع، إلخ. تتم معالجة الصور إلى بيانات متسلسلة من خلال تحويل ثنائي الأبعاد بحجم نواة يبلغ 16 (\(k=16\)) وخطوة بمقدار 8 (\(s=8\)). يتم تمثيل ترميزات المواقع بواسطة معاملات قابلة للتعلم مبدئياً بشكل عشوائي. للتدريب الإشرافي، نستخدم دالة خسارة الانتروبيا المتقاطعة ونستعمل محسن AdamW مع معدل تعلم أولي يبلغ \(5e-4\) وتحليل الوزن يبلغ 0.05. يتم تقليل معدل التعلم باستخدام جدول زمني لتخفيض تدريجي بالتوافق مع جدول دافئ خطي. يتم تحديد حجم الدفعة للتدريب عند 1024، وتمتد عملية التدريب لمجموع 500 دورة. نستخدم الدقة (P)، الاستدعاء (R)، ومعدل F1 (F1) كمقاييس للأداء.
نقوم بمقارنة طريقتنا المقترحة RSMamba مع طرق التعلم العميق السائدة الأخرى لتصنيف الصور، بما في ذلك سلسلة ResNet (he2016deep) المدعومة بمعمارية الشبكات العصبية الالتفافية، وسلسلة DeiT (touvron2021training)، و ViT (dosovitskiy2020image)، و Swin Transformer (liu2021swin)، والتي تستند جميعها إلى معمارية المحولات. يتم عرض أداء التصنيف المقارن لهذه الطرق عبر مجموعات بيانات UC Merced و AID و RESISC45 في الجدول [tab:sota]. تكشف النتائج التجريبية عن: أولاً) يُظهر RSMamba أداءً قوياً عبر مجموعات البيانات ذات الأحجام المختلفة، حيث تتأثر فعاليته بشكل طفيف بحجم بيانات التدريب. يمكن أن يُعزى ذلك إلى عدد معلماته النسبي الأقل، مما يلغي الحاجة إلى بيانات واسعة للتحيز الاستنتاجي. ثانياً) يُسهم زيادة العمق والعرض في RSMamba في تحسين الأداء عبر المجموعات الثلاث. ومع ذلك، فإن معدل التحسن ليس بارزاً مقارنة بسلسلة ResNet والمحولات. قد يكون ذلك لأن النسخة الأساسية من RSMamba قد حققت بالفعل درجة عالية من الدقة مقارنة بالطرق الأخرى، مما يشير إلى أن النسخة الأساسية يمكن أن تكون نقطة انطلاق قابلة للتطبيق لمهام تطبيقية أخرى. ثالثاً) تشير تجاربنا أيضاً إلى أنه بينما تتقارب معماريات الشبكات العصبية الالتفافية بسهولة، فإن الأداء المتفوق لمعمارية المحولات يعتمد على استقراء وتحليل الميزات العامة عبر بيانات تدريب واسعة النطاق. بالمقابل، لا يعتمد أداء RSMamba على تراكم البيانات الواسع، ولكن يمكن أن يؤدي طول مدة التدريب إلى تحقيق مكاسب كبيرة في الأداء.
للتحقق من فعالية كل مكون، تم إجراء تجارب استئصال على مجموعة بيانات AID. ما لم يُذكر خلاف ذلك، تم استخدام النسخة الأساسية من النموذج، دون إجراء أي تعديلات على المعلمات الفائقة المرتبطة.
للحصول على ميزات دلالية كثيفة للتصنيف، استفدنا من التجميع المتوسط في RSMamba لدمج المعلومات العالمية، بدلاً من استخدام رموز الفئات مثل ViT (dosovitskiy2020image). يوضح الجدول [tab:ablation-clstoken] تأثير دمج رموز الفئات في مواضع مختلفة والتجميع المتوسط على أداء التصنيف. تشير النتائج التجريبية إلى أن إدخال رموز الفئات في الرأس أو الذيل أو كليهما لا يؤدي إلى تحسين الأداء. ومع ذلك، يمكن أن يؤدي الإدخال في منتصف السلسلة إلى تحسين كبير في الأداء. علاوة على ذلك، يمكن أن يُظهر التجميع المتوسط على السلسلة أداءً مثالياً. تشير هذه الملاحظات إلى أن اتجاه تدفق المعلومات في Mamba يؤثر بشكل كبير على الأداء. في الوقت نفسه، لوحظ خلال التجربة أن التجميع المتوسط يمكن أن يسرع من تقارب الشبكة.
تشكل مامبا الفانيليا، المستمدة من نمذجة التسلسلات السببية، تحدياً كبيراً عند تطبيقها على بيانات الصور ثنائية الأبعاد التي تفتقر إلى العلاقات السببية. لمعالجة هذه المشكلة، نقترح آلية مسارات المسح المتعددة، أي الأمامية، والعكسية، والخلط العشوائي. لدمج تدفق المعلومات من هذه المسارات المتنوعة، كانت الطريقة الأبسط هي الاعتماد على التوسيط. ومع ذلك، هدفنا هو تفعيل المعلومات المستمدة من كل مسار بشكل تكيفي. ونتيجة لذلك، قمنا بتصميم بوابة لتنظيم تدفق المعلومات من المسارات المختلفة. يوضح الجدول [tab:ablation-path] التحسينات في الأداء التي تم تحقيقها من خلال هذه التصاميم. يرتبط زيادة عدد المسارات بتحسن في فعالية التصنيف. كما تقدم آلية البوابة بعض المزايا على متوسط الميزات. من المهم ملاحظة أننا استخدمنا ميزات التجميع المتوسط للتصنيف في هذه الحالة. لو كنا سنعتمد تصميم رمز الفئة المشابه لـ ViT، فإن غياب نظام المسارات المتعددة سيؤدي إلى انخفاض كبير في الأداء.
لتعزيز قدرة RSMamba على نمذجة العلاقات المكانية النسبية، ندمج الترميز الموضعي في تسلسل الصور المسطحة. يوضح الجدول [tab:ablation-pe-token] تأثير وجود، عدم وجود، ونوع الترميز الموضعي على أداء التصنيف. يؤدي عدم وجود الترميز الموضعي إلى تدهور في الأداء، بينما يسهم كل من الترميز الفوريي والترميز القابل للتعلم في تحسين الأداء. يجب الإشارة إلى أنه، بالنظر إلى قدرة RSMamba على استعادة رموز المسارات المختلفة إلى ترتيبها الأصلي، فإن تأثير وجود أو عدم وجود الترميز الموضعي يتم التخفيف منه إلى حد ما. ومع ذلك، يمكن أن يؤدي دمج الترميز الموضعي إلى تحسين طفيف إضافي.
تتميز قدرة RSMamba على استخلاص الخصائص العالمية بشكل فعال بتخفيف المشكلات المرتبطة بطول الرموز. نتيجة لذلك، نستخدم في هذه الورقة طريقة تقسيم الصورة إلى قطع متداخلة. يوضح الجدول [tab:ablation-pe-token] تأثيرات وجود أو عدم وجود تداخل، بالإضافة إلى تكبير حجم الصورة. يسمح تقسيم قطع الصورة المتداخلة لكل رمز بتغليف معلومات أكثر شمولاً، مما يؤدي إلى تحسين الأداء. يسهل تكبير حجم الصورة إدراج المزيد من التفاصيل، مما يؤدي بدوره إلى تحقيق مكاسب كبيرة في الأداء. تمكن التعقيد النمذجي الخطي الذي يستخدمه SSM من زيادة كبيرة في طول السلسلة، حتى في ظل الظروف المقيدة بالموارد.
في هذه الورقة، نقدم نموذج فضاء حالة جديد لتصنيف صور الاستشعار عن بُعد، يُشار إليه باسم RSMamba. يستفيد RSMamba في الوقت نفسه من مزايا الشبكات العصبية الالتفافية والمحولات، وخاصة تعقيدها الخطي ومجال استقبالها العالمي. نقدم آلية تفعيل متعددة المسارات ديناميكية للتخفيف من قيود النمذجة أحادية الاتجاه وعدم الحساسية للموقع المتأصلة في Mamba الأصلي. يحافظ RSMamba على الهيكل الداخلي لـ Mamba ويقدم المرونة لتوسيع المعلمات بسهولة لاستيعاب سيناريوهات التطبيق المختلفة. تُظهر التقييمات التجريبية التي أُجريت على ثلاث مجموعات بيانات متميزة لتصنيف صور الاستشعار عن بُعد أن RSMamba يمكن أن يتفوق على طرق التصنيف الأخرى الرائدة التي تعتمد على الشبكات العصبية الالتفافية والمحولات. ونتيجة لذلك، يُظهر RSMamba إمكانية كبيرة ليكون الشبكة الأساسية لنماذج الأساس البصرية للجيل القادم.