ملخص
تستند تطبيقات رصد الأرض، التي تتعامل عادةً مع مصادر بيانات معقّدة ومتنوّعة، إلى نماذج التعلّم الآلي. غير أنّ ثمّة افتراضًا شائعًا بأنّ مصادر البيانات ستكون متاحةً على نحوٍ مستمر. ويمكن لعوامل متعدّدة أن تؤثّر في توافُر مصادر رصد الأرض، مثل الضجيج، والسُّحُب في الصور البصرية، أو تعثّر مهمّات الأقمار الصناعيّة. في هذا العمل، نقوم بتقييم أثر فقدان طرائق رصد الأرض الزمنيّة والثابتة في نماذج مُدرَّبة، عبر أربع مجموعات بيانات تشمل مهامّ تصنيف وانحدار. نقارن جودة التنبؤ عبر طرائق مختلفة، فنجد أنّ بعضها أكثر قدرةً على تحمّل فقدان البيانات. وتُظهر إستراتيجية التجميع على وجه الخصوص متانةً تنبؤية قد تبلغ 100%. كما نُبيّن أنّ سيناريوهات البيانات المفقودة تمثّل تحدّيًا أكبر بكثير في مهام الانحدار مقارنةً بمهام التصنيف، وأنّ فقدان الطريقة البصريّة هو الأكثر تأثيرًا عند فقدانه منفردًا.
مقدّمة
تستفيد حلول الاستشعار عن بُعد المعتمدة على البيانات من مصادر بيانات متعدّدة (garnot2022multi, mena2022common) بهدف تعزيز وتكميل المعلومات الخاصّة بكل ملاحظة في المهمة المعطاة. وتُظهر الأدبيّات أنّ إدراج بيانات إضافيّة أمرٌ حاسم لإثراء التوصيف وتحسين جودة التنبؤ (garnot2022multi, hong2020more, mena2023comparative). إلا أنّ افتراض توافُر مصادر البيانات دومًا قد لا يكون صحيحًا.
قد لا تتوافر المصادر في حالات متعدّدة: فأجهزة الاستشعار عن بُعد ذات عمر تشغيلي محدود (مثلًا تبعًا لاستهلاك الوقود)، وقد تتأثّر بالضجيج (hong2020more) أو بالسُّحُب في حالة المستشعرات البصريّة (garnot2022multi). فضلًا عن ذلك، قد تؤدّي أعطال غير متوقَّعة إلى إنهاء العمليات مبكّرًا، كما حدث في تعثّر القمر الصناعي Sentinel-1B عام 2021.
على الرغم من تركّز الأبحاث على نماذج التعلّم مُتعدِّد الطرائق الأكثر تعقيدًا (mena2022common)، فإنّ القليل من الأعمال تناول تحدّي الطرائق المفقودة. اقترح Srivastava وآخرون (srivastava2019understanding) تقنيةً لاستبدال الطريقة المفقودة بعينة مُشابهة عند فقدان طريقة واحدة. وأظهر Hong وآخرون (hong2020more) أنّ تنبؤات النماذج مُتعدِّدة الطرائق أقلّ تأثّرًا عند فقدان بعض الطرائق. كما بيّن Gawlikowski وآخرون (gawlikowski2023handling) أنّ فقدان الطريقة البصريّة يؤثّر في التنبؤات أكثر من فقدان الطريقة الراداريّة. وعلى خلاف الأعمال السابقة، نقدّم دراسةً تشمل أربع مجموعات بيانات تدمج بيانات زمنيّة وثابتة.
نستكشف سؤال البحث التالي: ما أثر فقدان الطرائق في نماذج التعلّم مُتعدِّد الطرائق القائمة على مصادر الاستشعار عن بُعد الزمنيّة والثابتة؟ تمثّل تحليلاتنا حالةً خاصّة من تحوّل المجال، إذ يتغيّر توزيع البيانات نتيجة فقدان طرائق أثناء الاستدلال. وبناءً على نتائج متانة التنبؤ تحت فقدان البيانات، نطرح توصياتٍ لاختيار النموذج الملائم تبعًا لنوع المهمة ومدخلات الاستشعار المتاحة. علاوةً على ذلك، تُسهم هذه الدراسة في فهم حساسيّة النماذج لكل طريقة مُستخدَمة.
التعلّم مُتعدِّد الطرائق والطرائق المفقودة
يتكوّن إعداد التعلّم مُتعدِّد الطرائق من وجود طرائق عدّة كمدخلات لنموذج التعلّم الآلي لتعزيز جودة التنبؤ (mena2022common). وتمثّل الطريقة أي مجموعة من السمات أو مصادر البيانات التي تعكس منظورًا مختلفًا لكل عيّنة، مثل الصور البصريّة أو الراداريّة، مؤشّرات الغطاء النباتي، معلومات التضاريس، أو البيانات الوصفيّة.
استكشفت أعمالٌ عديدة نماذج التعلّم مُتعدِّد الطرائق باستخدام الشبكات العصبيّة لدمجٍ فعّال للبيانات (garnot2022multi, mena2023comparative). وتستخدم بعض النماذج استراتيجيات دمج على مستوى المدخل، أو السمات، أو القرار، حيث يحدّد الاسم المستوى الذي يحدث عنده الدمج (الأوّل، الأوسط، أو الأخير على التوالي). بالإضافة إلى ذلك، في إستراتيجية التجميع (mena2023comparative) تُجمَّع تنبؤات النماذج المُخصّصة لكل طريقة.
أثناء الاستدلال، يُعدّ فقدان الطرائق حالةً خاصّة من تحوّل المجال (gawlikowski2023handling)؛ إذ ينحرف توزيع المدخلات عن توزيع تدريب النموذج، ما يؤدّي إلى سيناريو لم يُدرّب عليه مباشرةً. وفيما يلي بعض الأساليب التي يمكن تطبيقها على النماذج المُدرَّبة للتخفيف من هذا الأثر:
الإحلال (Imputation): أسلوب بسيط لملء الطرائق المفقودة (hong2020more) عبر استخدام متوسّط كل طريقة في بيانات التدريب كبديل.
الاستبدال بالنموذج: بدل الإحلال الثابت، يمكن تعويض الطريقة المفقودة بعينة مُشابهة من بيانات التدريب. نعتمد أسلوب Srivastava وآخرين (srivastava2019understanding) الذي يبحث عن الطريقة المفقودة انطلاقًا من الطرائق المتاحة في فضاءٍ مشترك مُسقَط بواسطة تحليل الارتباط القانوني CCA.
التجاهل: تتكيّف بعض النماذج مع الطرائق المفقودة عبر دمجٍ ديناميكي. ففي إستراتيجية التجميع، تُحذف تنبؤات النموذج المُخصّص للطريقة المفقودة من التجميع. وبالمثل، في استراتيجيات دمج السمات، تُتجاهل سمات الطريقة المفقودة عند حساب المتوسّط. كما ندرج نموذج دمج مُوجَّه (mena2023comparative) يُعيد تطبيع الأوزان للطرائق المتاحة بعد حذف المفقودة.
التقييم
مجموعات البيانات
فيما يلي وصفٌ لأربع مجموعات بيانات استُخدمت في هذه الدراسة، ويعرض الجدول [tab:data] بعض خصائصها.
بيانات الحصاد الزراعي الثنائية: نستخدم بيانات الحصاد الزراعي للتعرّف على المحاصيل في مهمة ثنائية (tseng2021crop)، حيث نحدّد وجود محصولٍ معيّن أو عدمه في موقع محدّد خلال موسمٍ بعينه. المدخلات هي الصور البصريّة (من S2) والراداريّة (من S1)، وسلاسل زمنية للطقس. أُعيد أخذ العينات زمنيًا إلى وتيرةٍ شهرية على مدار عام، ويتوافر أيضًا وسمٌ ثابت يُمثّل التضاريس.
بيانات الحصاد الزراعي المتعدّدة: نسخة متعدّدة الفئات من بيانات الحصاد الزراعي تضمّ 10 فئات (tseng2021crop)، ونستخدم المدخلات نفسها كما في الحالة السابقة.
محتوى الرطوبة متعدّد الطرائق: مجموعة لتقدير محتوى الرطوبة النباتية (rao2020sar)، حيث نتنبّأ بنسبة الماء في النباتات إلى الكتلة الجافّة. المدخلات هي الصور البصريّة (من L8) وسلاسل زمنية راداريّة (من S1) أُعيد أخذ عيناتها شهريًا على مدى 4 أشهر، بالإضافة إلى بيانات طبوغرافية وخصائص التربة وارتفاع الغطاء النباتي وفئة تغطية الأرض.
تقدير محصول الحبوب متعدّد الطرائق: مجموعة لتقدير محصول الحبوب (perich2023pixel) في مهمة انحدار، حيث نتنبّأ بالطن/هكتار خلال موسم النمو. المدخلات هي الصور البصريّة (من S2) وسلاسل زمنية للطقس مُحاذاة التواريخ (عينة كل 5 أيام).
إعدادات التجربة
نطبّق التقييس للقيم، ونُرمِّز المتغيّرات الفئوية والترتيبية بترميز ذي-القيمة الواحدة (One-hot). نستخدم مُشفِّرات متعدّدة الطبقات للمدخلات الثابتة، وشبكات تلافيفية أحادية البُعد للسلاسل الزمنية (باستثناء بيانات الرطوبة حيث نستخدم شبكة متكرّرة بوحدات LSTM). تتألّف المُشفِّرات من طبقتين بعدد وحدات 128، ويعقبها شبكة تنبؤ متعدّدة الطبقات بطبقة مخفية واحدة من 128 وحدة. نستخدم مُحسّن Adam بحجم دفعة 128 مع إيقاف مبكّر. دالّة الخسارة هي تقاطع الإنتروبيا للتصنيف، ومتوسّط مربّع الخطأ للانحدار.
تُجرى التجارب باستخدام التحقّق المتقاطع بعشر طيّات. نقيس جودة التنبؤ بالدقّة في التصنيف، وبمعامل التحديد في الانحدار. ونُدرج نتائج Heinrich وآخرين (heinrich2023targeted) للمقارنة، عبر قياس المتانة بوصفها نسبة الخطأ مع طرائق مفقودة إلى الخطأ عندما تكون كل الطرائق متاحة.
سيناريوهات الطريقة المفقودة
ينطلق تقييمنا من نماذج مُدرَّبة باستخدام جميع الطرائق. ويُنشأ سيناريو الطرائق المفقودة عبر إجراء التنبؤات بطرائق أقلّ ممّا استُخدم في التدريب. نجري تجارب بدرجات نقص معتدلة (غياب الرادار أو غياب البصري)، ومتوسّطة (توافر الرادار والبصري فقط)، وشديدة (طريقة واحدة فقط: رادارية أو بصريّة). نقارن التقنيات الموصوفة في القسم [sec:methods]، بما في ذلك نموذجان يعتمدان الدمج على مستوى المدخلات وعلى مستوى السمات على الترتيب (Input-concat, Feature-concat)، وثلاثة نماذج بتقنيات التجاهل (Feature-avg, Ensemble-avg, Feature-gated)، ونموذجٌ واحد لدمج السمات عبر CCA (Feature-cca).
نتائج التجربة
في الجداول [tab:missing:aa:cropB]-[tab:missing:aa:cropM] نعرض جودة التنبؤ في مهامّ التصنيف. تنخفض نتائج دمج المدخلات بوضوح عند فقدان الطرائق. ويُلاحظ أنّ تقنيات دمج السمات مع التجاهل (متوسّط السمات، وبوّابة السمات) تُخفّف أثر الفقدان أكثر من أساليب الإحلال سواء البسيطة أو المستندة إلى نموذج. ومع ذلك، لا تبلغ متانةَ إستراتيجية متوسّط التجميع، التي هي الأقلّ تأثّرًا بفقدان الطرائق.
تتشابه الصورة في مهامّ الانحدار (الجداول [tab:missing:r2:lfmc]-[tab:missing:r2:yield])، باستثناء أنّ نماذج دمج السمات مع التجاهل قد تُفضي إلى R² سالب في بعض السيناريوهات. كما يُحقّق متوسّط التجميع أداءً وسطيًا \( \approx 0.3 \) في السيناريوهات غير القاسية.
في منحنيات متانة التنبؤ (الشكل [fig:prs:cropbinary] و[fig:prs:lfmc])، نؤكّد مجدّدًا الأثر الأقلّ لفقدان الطرائق عند استخدام تقنيات التجاهل. وقد بلغت متانة متوسّط التجميع قيمًا قريبة من الواحد في بعض الحالات، ما يعني أنّ الخطأ مع الفقدان لا يتجاوز الخطأ دون فقدان. ومع ذلك، توجد سيناريوهات تتدنّى فيها المتانة، مثل غياب الرادار في بيانات المحاصيل الثنائية، أو الأداء الأضعف نسبيًا في بيانات الرطوبة (بانخفاض R²). وفي مهامّ الانحدار، يُظهر دمج السمات تفوّقًا على متوسّط السمات وبوّابة السمات، بينما تعاني CCA من متانة منخفضة قد تقترب من 0 في بعض السيناريوهات.
عمومًا، يعتمد أثر الطرائق المفقودة على كلٍّ من النموذج وآلية التعامل مع الفقدان، كما أظهرت دراسات سابقة (hong2020more, garnot2022multi, gawlikowski2023handling). ويزداد الأثر السلبي بالانتقال من سيناريوهات نقص معتدلة إلى قصوى. إضافةً إلى ذلك، يتبيّن أنّ فقدان الطريقة البصريّة يؤثّر أكثر من فقدان الرادار، بما يعكس أهميتها لتطبيقات رصد الأرض. وتبقى الطرائق الثانوية، كالبيانات الثابتة والطقسية، مصادرَ معلوماتٍ قيّمة.
الخلاصة
قيّمنا في هذا العمل أثر فقدان الطرائق في نماذج التعلّم مُتعدِّد الطرائق عبر مهامّ متنوّعة تضمّ بيانات زمنيّة وثابتة. وأظهرنا أنّ فقدان طرائق بعينها (كالبصريّة) يؤدّي إلى تدهور ملحوظ في جودة التنبؤ، وأنّ الأثر يشتدّ بازدياد عدد الطرائق المفقودة. ومع ذلك، يمكن تعزيز متانة التنبؤ بتصميم آليات تتكيّف مع الطرائق المفقودة. علاوةً على ذلك، يكون فقدان الطرائق أشدّ وطأةً في مهامّ الانحدار مقارنةً بالتصنيف. وبناءً على النتائج، نوصي بما يلي لاختيار النموذج في سيناريوهات الطرائق المفقودة: إذا كانت الطرائق المتبقية كافيةً للتفريق وتحقيق دقّة مقبولة، فاعتمد إستراتيجية التجميع التي تتجاهل التنبؤات الناقصة؛ وإلا فاستخدم إستراتيجية دمج السمات مع تجاهل الطرائق المفقودة في التصنيف، أو عالج الفقدان صراحةً في مهامّ الانحدار. وينبغي أن يركّز البحث المستقبلي على تعديل تعلّم النماذج ليأخذ فقدان الطرائق في الحسبان أثناء التدريب.