يقدِّم هذا البحث تطبيقاً للذكاء الاصطناعي على بيانات مطياف الكتلة للكشف عن إمكانات الصلاحية للسكن في المريخ القديم. ورغم أنّ البيانات جُمِعت للمريخ، يمكن تكرار النهج نفسه على أيّ جِرم أرضي في نظامنا الشمسي. إضافةً إلى ذلك، يمكن تكييف المنهجيّة المقترَحة مع أيّ مجال يستخدم مطياف الكتلة. يركّز البحث على تحليل بيانات تقنيّتَين لمطياف الكتلة: تحليل الغازات المتطوِّرة-مطياف الكتلة (EGA‑MS) وكروماتوغرافيا الغاز-مطياف الكتلة (GC‑MS)، اللتان تُستخدمان لتحديد أصناف محدَّدة من المركّبات الكيميائيّة في عينات مواد جيولوجيّة. تُظهر الدراسة قابليّة توظيف بيانات EGA‑MS وGC‑MS في تحليل المواد خارج الأرض. وتشمل أبرز عناصر المنهجيّة المقترحة: تطبيق تحويل الجذر التربيعي لقيم مطياف الكتلة، وتحويل البيانات الخام إلى مطيافيّات ثنائيّة الأبعاد، واستخدام نماذج وتقنيّات تعلّم آلة مُنتقاة لتجنّب الإفراط في التخصيص على مجموعات بيانات صغيرة نسبياً. تأتي مجموعات بيانات EGA‑MS وGC‑MS من وكالة ناسا ومن مسابقتين لتعلّم الآلة شارك فيهما الكاتب واستفاد منهما. الكود الكامل لإعادة إنتاج حلّ مسابقة/مجموعة بيانات GC‑MS متاح على GitHub.1 تتضمّن بيانات مطياف الكتلة التدريبية الخام تسميات ثنائيّة [0,1] لمركّبات كيميائيّة محدّدة، مُختارة لتقديم رؤى قيّمة تُسهم في فهمنا للصلاحية المحتملة للسكن على المريخ في الماضي.
يُستخدم تعلّم الآلة في عدد متزايد من التطبيقات والمجالات. انطلاقاً من مجموعة بيانات تدريبيّة مُوسومة، تُدرَّب النماذج فتتعلّم خصائص هذه البيانات؛ وبمجرّد اكتمال التدريب، تُولَّف معلماتها الفائقة. بعدها تُحفّظ هذه النماذج المُدرَّبة ويُستدعى بها للاستدلال على بيانات مشابهة. يمكن أيضاً توظيف نماذج تعلّم الآلة في تحليل بيانات المطياف الكتلي لعينات المواد لتحديد وجود أو عدم وجود مركّبات كيميائيّة معيّنة في العينات الجيولوجيّة عبر تطبيقات متعدّدة. تتمثّل المشكلة الأساسية في تحديد جميع المركّبات المطلوب اكتشافها في كل حالة. وعلى الرغم من أنّ الطرائق المقترحة طُبِّقت على مجموعات بيانات محدّدة، إلا أنّها قابلة للتعميم على أيّ مجموعة بيانات مطياف كتلي أخرى.
لا يتناول هذا البحث الحسم فيما إذا كانت جميع المركّبات الكيميائيّة المختارة قد نتجت عبر عمليات غير حيويّة أم تمثّل دلائل على الحياة. كما أنّ المنهجيّة الحاليّة قابلة للتكييف مع أيّ مجموعة بيانات أخرى. وسيكون إضافة مركّبات جديدة أو استبعاد مركّبات حاليّة يقدّم تفسيراً أفضل لظروف الصلاحية للسكن أو يميّز بين العمليات غير الحيويّة والحياة، أمراً مفيداً لدراسات مستقبلية حول الصلاحية السابقة للسكن على المريخ.
تتجلّى أهمية الذكاء الاصطناعي وتعلّم الآلة في معالجة بيانات استكشاف الفضاء، كما أشار (varatharajan2021artificial) في الورقة البيضاء للذكاء الاصطناعي من أجل تقدّم علم الأحياء الفلكي واستكشاف العلوم القمرية والكوكبية. خلصت الدراسة إلى أنّ أدوات ومنهجيات الذكاء الاصطناعي قادرة على دعم مجتمع علم الأحياء الفلكي والكوكبي، واستغلال مجموعات البيانات المتاحة بفعالية، والمساعدة في الاستعداد للعقد القادم من العلوم والاستكشاف. كذلك عرض (slingerland2022adapting) مجموعةً من أفضل الممارسات لتعزيز الثقة وتقليل الحواجز أمام تبنّي المهام المستقلّة المستندة إلى الذكاء الاصطناعي.
تُعَدّ أدوات المطياف الكتلي مفاتيح حاسمة للبعثات التي تسعى للبحث عن مؤشّرات الصلاحية للسكن أو دلائل الحياة على الأجرام السماوية. لهذا السبب أطلقت ناسا مسابقتين لتعلّم الآلة، ليس فقط لتسريع تحليل البيانات، بل أيضاً لإظهار جدوى تطبيق علم البيانات وتعلّم الآلة على بيانات المطياف الكتلي المعقّدة في المهام القادمة. كان الهدف الكشف عن عائلات معيّنة من المركّبات الكيميائيّة في عينات مواد جيولوجيّة باستخدام بيانات EGA‑MS أو GC‑MS المُجمَّعة لبعثات استكشاف المريخ، وما يتعلّق بها من صخور ومعادن ومركّبات أيونيّة ذات صلة بفهم الصلاحية السابقة للسكن. وهدفت مجموعات بيانات المسابقتين إلى “توجيه العمليات العلميّة، وتقليل الاعتماد على التحليل على الأرض، وإعطاء الأولويّة للتواصل عبر مسافات طويلة”. ومع محدوديّة الاتصال بين المريخ والأرض، يجب دمج الاستقلاليّة المتقدّمة في المركبات الجوّالة المستقبلية (ono2022machine). ففي مهمةٍ مستقبليّة على جِرمٍ أرضي، يمكن برمجة المركبة الجوّالة لاتخاذ إجراءات إضافيّة مثل إعادة أخذ العينات دون انتظار أمرٍ صريح من الأرض، ما يزيد من القيمة العلميّة، لا سيّما على الأجرام الأبعد.
أُرسلت العديد من البعثات إلى المريخ وسوف تتبعها أخرى مستقبلاً. من بينها المركبة الجوّالة كيوريوسيتي المزوّدة بأجهزة مطياف كتلي لتحليل العينات الجيولوجيّة. تعمل كيوريوسيتي منذ 5 أغسطس 2012 وقد أثبتت إنتاجيّة عالية. على متنها أداة تحليل العيّنات على المريخ (SAM) التي تدرس العينات بطرائق المطياف الكتلي. وقد أنتجت أبحاثاً مثل تحليل الغازات المتطوِّرة لفهم حالة أكسدة الكبريت في عينات من منطقة غيل توريدون الغنيّة بالطين (wong2022oxidized)، وتحديد الجزيئات العضوية بواسطة الكروماتوغرافيا الغازيّة (millan2016situ). ولا تزال كيوريوسيتي نشطةً دون معرفة موعد انتهاء مهمّتها، ممّا يضفي أهمية كبيرة على المنهجيّة والبيانات المقدّمة لدعم مهامّ مستقبلية مشابهة.
استخدمت بعثات المريخ أطيافاً متعدّدة لدراسة البيئة المريخيّة وتقييم صلاحيتها للسكن. من هذه الطيفيات: طيف الأشعة تحت الحمراء ضمن مجموعة سوبركام على مركبة بيرسيفيرانس لتحليل المعادن والمركبات العضوية (fouchet2022supercam)، وطيف الأشعة فوق البنفسجية SPICAM على مدار “مارس إكسبريس” لدراسة الغلاف الجوي (bertaux2006spicam)، إضافةً إلى تقنيات رامان والتحليل الطيفي بالانهيار المُستحث بالليزر (clegg2014planetary).
يُعَدّ تحليل الغازات المتطوِّرة بالمطياف الكتلي تقنيةً قوية تُستخدم لتوصيف عينات متنوعة، بما فيها المواد خارج الأرض والتربة والمعادن والمركّبات العضويّة. تتضمّن هذه الطريقة تسخيناً مسيطَراً لعينةٍ في تدفّق غاز، وتسجيل درجة الحرارة، وتحليل الغازات المتطوِّرة عبر المطياف الكتلي لتحديد الأنواع الكيميائيّة المُنطلِقة وكشفها. وقد برهنت دراسات حديثة على تطبيق هذه التقنية في مجالات عدّة: من استخراج المياه عبر موارد متاحة في تربة محاكاة المريخ (clark2020jsc)، إلى تحديد المعادن الثانوية في الطين (zumaquero2020application)، وتقييم التأثيرات التآزريّة والبيانات الحركيّة في التحلّل الحراري المشترك للخشب والبلاستيك (nardella2021co). كما اقترح (verchovsky2020quantitative) نهجاً كمّياً لتحليل العينات خارج الأرض، مبرزاً أهمية فهم آليات إطلاق الغاز واعتمادها على خصائص العينة. هنا، نستخدم نماذج وتقنيات تعلّم آلي متقدّمة لتصنيف أنواع مختلفة من عينات مماثلة للمريخ، ويمكن تطبيق ذلك أيضاً على استكشاف كواكب وأقمار أخرى أو على تحليل عينات عائدة من مهام فضائية.
تُعدّ تقنية كروماتوغرافيا الغاز-مطياف الكتلة أداةً قوية تُستخدم على نطاق واسع في علوم الأغذية والكيمياء والبيئة والصيدلة. ويتيح دمجها مع تعلّم الآلة تحديداً سريعاً وموثوقاً للخلائط المعقّدة. فقد فحص (chou2021planetary) عدّة نُهُج محتملة للكشف عن علامات الحياة باستخدام المطياف الكتلي. وتشمل تطبيقاتها تصنيف المنتجات الغذائية، حيث طوّر (tan2018determining) نظام أنف إلكتروني مع شبكة عصبيّة اصطناعيّة وتقنية GC‑MS لتحديد درجة التحميص في حبوب الكاكاو، بينما استخدم (pastor2022classification) بصمات شحمية وتقنية GC‑MS وتعلّم الآلة لتصنيف دقيق الحبوب. واستخدم (aghili2022detection) GC‑MS لكشف الاحتيال في زيت السمسم بدمج الذكاء الاصطناعي مع الكيمياء الحاسوبية وتوصيف المركّبات. تُظهر هذه الأمثلة تنوّع تطبيقات GC‑MS مع الذكاء الاصطناعي كأداة تحليلية أساسية للباحثين والصناعات على حد سواء.
ينبثق هذا العمل من مشاركة الكاتب في مسابقتَي تعلّم الآلة التابعتين لوكالة ناسا على منصّة DrivenData: “مطياف المريخ: الكشف عن دلائل الصلاحية السابقة للحياة” (7 من أصل 713 مشاركاً، فبراير–أبريل 2022) و“مطياف المريخ 2: الكروماتوغرافيا الغازية” (الجائزة الثالثة، سبتمبر–أكتوبر 2022)، ممّا يؤكّد قدرات تعلّم الآلة على بيانات المطياف الكتلي لتصنيف المركّبات. وقد وُظِّفت الخبرة المُكتسَبة في المسابقة الأولى بنجاح في الثانية، إذ يشترك التعامل مع نوعَي البيانات في تشابهات وأساليب مفيدة لاستثمار بيانات المطياف الكتلي ونماذج الذكاء الاصطناعي بفعاليّة.
تُقدَّم البيانات الأولية في ملفات CSV منفصلة لكل عينة. في بيانات EGA‑MS، يظهر أدناه مثال على بداية ملف عيّنة. أمّا في بيانات GC‑MS، فلا يحتوي الملف على عمود لدرجة الحرارة، وبدلاً من ذلك يضمّ عموداً للشدّة. والفرق الرئيسي بين المجموعتَين هو غياب بُعد درجة الحرارة في بيانات GC‑MS. كما ذُكر: “يمكن استخدام الزمن كبديل لدرجة الحرارة، لكن معدل ارتفاع درجة الحرارة غير معروف بدقّة ولا يكون متماثلاً عبر العينات. دائماً ما تكون الملاحظات في الأوقات اللاحقة لمركّبات أُطلِقت عند درجات حرارة أعلى. في معظم العينات، يُتوقّع أن تبقى درجة الحرارة ثابتة للدقائق الأولى من 0 إلى 5 دقائق، ثم تزداد بمعدّل تقريبي من 5 إلى 10 درجات/دقيقة حتى تصل إلى نحو 300 درجة. ومع ذلك، نظراً لاختلاف زمن بدء الارتفاع ومعدّل التسخين بين العينات، فإن الوقت المتماثل قد يمثّل درجات حرارة مختلفة عبر العينات.” توفّر تسجيلات درجة الحرارة في EGA‑MS معلومات أدقّ عن توقيت وكميّة الغاز المُنطلِق من العيّنة.
بالنسبة لبيانات تحليل الغازات المتطوِّرة (EGA‑MS) هناك 10 فئات، بينما لبيانات GC‑MS هناك 9 فئات، يشير كل منها إلى وجود مادّة تنتمي إلى عائلة الصخور أو المعادن أو المركّبات العضوية المعنيّة في العيّنة. ونظراً لأن هذه مهامّ تصنيف مُتعدِّد العلامات، فقد تحتوي العيّنة على أكثر من فئة واحدة أو قد تخلو من أيّ فئة تماماً. يمكن الاطلاع على تفاصيل إضافية لكلتا المجموعتَين في الملحق.
تتكوّن بيانات التدريب من 1047 عيّنة من الأجهزة التجارية و12 عيّنة من نموذج اختبار SAM. إن تطوير خطّ أنابيب نمذجة يحقق أداءً جيّداً أيضاً على عينات اختبار SAM يُضيف تحدّياً وتعقيداً إضافيَّين. كما يتّضح من الرسوم البيانية في (a) و(b)، ومن خلال استكشاف البيانات بشكل أشمل، فإن نوعَي العينات لدينا مختلفان جداً؛ تبدو عينات SAM أكثر ضوضاءً وبدرجات حرارة أعلى. تشمل بيانات الاختبار 64 عيّنة من SAM و446 عيّنة تجارية، وهي نسبة أعلى من عينات SAM مقارنةً ببيانات التدريب. وأخيراً، هناك أيضاً بيانات إضافيّة تشمل 41 عيّنة من SAM و220 عيّنة تجارية (مجموعة فرعيّة بغاز ناقل He وبضغوط مختلفة)، لكن هذه البيانات بلا تسميات وتُستخدم بطريقة غير مُشرفَة (تسمية زائفة).
جُمِعت البيانات من مختبرات عدّة في مركز غودارد ومركز جونسون لرحلات الفضاء التابِعَين لناسا. واستُخدِم نوعان من الأجهزة لإجراء القياسات:
الأجهزة التجارية: بيانات من أجهزة تجارية مُعدّة كنظائر لأداة SAM في مختبرات غودارد وجونسون. جُمِعت القياسات لكامل قيم m/z من 0.0 إلى 100.0.
نموذج اختبار SAM: بيانات من نموذج اختبار SAM في غودارد، وهي نسخة من مجموعة أدوات SAM على كيوريوسيتي. جُمِعت القياسات لقيم m/z تصل إلى 534.0 أو 537.0 وأحياناً تشمل قيماً كسرية.
في إعداد البيانات للنماذج، نُجري الخطوات التالية:
استخدام أول 100 قيمة m/z (نسبة الكتلة إلى الشحنة) لتوحيد مدى البيانات القادمة من الأجهزة التجارية.
إزالة قيم m/z الكسرية عند وجودها.
إسقاط m/z 4 الذي يتوافق مع غاز الناقل الهيليوم.
طرح القيمة الدنيا للوفرة لكل أيون لتمثيل الخلفية الإحصائية (مثل التلوّث الجوي)، بحيث يصبح الحد الأدنى صفراً. (اقتراح من منظّمي المسابقة).
تطبيق تحويل الجذر التربيعي على وفَرات الأيونات؛ إذ أعطت التجارب دون تحويل أو بالتحويل اللوغاريتمي نتائج أسوأ.
تطبيع الوفرة ضمن العيّنة الواحدة إلى المدى [0,1]، ما يحافظ على الوفرة النسبيّة بين أيونات العيّنة نفسها ويُعزّز أداء الشبكات العصبيّة.
لإنشاء مجموعة البيانات الأساسية، نُجزّئ نطاق درجات الحرارة إلى صناديق (بعرض X درجة مئوية) ونحسب الوفرة النسبيّة القصوى داخل كل صندوق لكل قيمة m/z. ومع أربعة إعدادات لصناديق درجات الحرارة [50, 100, 200, 400] نولِّد أربع مجموعات بيانات أساسية. كما ننشئ مجموعة بيانات ثانوية تضمّ 7 ميزات إضافية: الوقت الأقصى، الوقت المتوسط، الانحراف المعياري للوقت، الدرجة الحرارة القصوى، الدرجة الحرارة المتوسّطة، الانحراف المعياري لدرجة الحرارة، وعدد السجلات في الملف.
جُمِعت هذه البيانات باستخدام أجهزة تجارية مُجهزة كنظائر لأداة SAM في غودارد. لِلتدريب هناك 1121 عيّنة ولِلاختبار 463. من ملفات CSV الأولية، أُنشئت ثلاث مجموعات بيانات للتدريب والاختبار، في هيئة [عدد العينات, 600 m/z, 500 خطوة زمنية]. يمكن اعتبار كل عيّنة في مجموعة البيانات المُنشأة صورةً لمخطط طيفي. ولإنشائها، نُجري عدّة خطوات: تقريب جميع قيم m/z العائمة الأولية إلى أعداد صحيحة، وملء جميع فجوات الكثافة بالصفر حتى أعلى وأدنى قيم m/z (يظهر في أسفل fig:SameSample_DifferentDataset). وبما أنّ عدد الخطوات الزمنية يختلف لكل عينة، إذا تجاوز 500 نُقصِّره، وإلا نُكرِّر القيمة القريبة لضبط الطول إلى 500.
تختلف المجموعات الثلاث الأولية في: تطبيق تحويل الجذر التربيعي أو اللوغاريتمي، وتنعيم منحنى الأيون عبر الزمن من عدمه، وقيمة القصّ العُلوي. التنعيم هنا هو متوسط متحرك بسيط بطول 3 نقاط يُكرَّر مرّتَين. أخيراً، نَحصر البيانات في المدى 0–255 ونحفظها كنوع uint8 للضغط والاستخدام اللاحق. يُطابق هذا النطاق ما تتطلّبه نماذج EfficientNet المُدرَّبة مسبقاً. ولم يؤثّر تقريب قيم m/z أو الانتقال إلى الأعداد الصحيحة بشكل ملحوظ في الأداء، ربما لأن البيانات مُشوَّشة أساساً ويعمل التقريب كمرشّح ضوضاء.
بعد تحويل قيم المطياف الكتلي إلى صور مخططات طيفية، يمكن تصوّر بياناتنا واستخدامها مع نماذج CNN ثنائيّة الأبعاد. في fig:SameSample_DifferentDataset تبدو مجموعتا البيانات 1 و1b متشابهتَين جداً، لكن المجموعة 2 المستخدمة في نماذج الشبكات تبدو مختلفة تماماً. يمثّل المحور الأفقي الزمن، والرأسي قيم m/z، بينما يمثّل لون البكسل شدّة الأيون في خطوة زمنية معيّنة. يُلاحظ وجود شريط داكن أسفل الصورة دائماً حيث لا توجد أيونات من هذا النمط في العيّنة (والصف الأول دائماً صفري لأن كتلة 0 غير موجودة).
كل النماذج الأخرى، عدا نماذج CNN ثنائيّة الأبعاد، تُدرَّب باستخدام ميزات إحصائية مُشتقّة من مجموعات البيانات الأولية. وتشمل مجموعات البيانات الإحصائية التالية:
مأخوذة من المجموعة 2 عبر حساب المتوسّط والحد الأقصى والانحراف المعياري زمنياً، والمتوسّط والانحراف المعياري أيونياً، جميعها في الفاصل [0,1].
مأخوذة من المجموعة 1 عبر حساب المتوسّط والانحراف المعياري والوسيط زمنياً والمتوسّط أيونياً، مُقَيَّسة إلى المدى [-0.5,0.5].
مأخوذة من المجموعة 1 عبر حساب المتوسّط والحد الأقصى والانحراف المعياري زمنياً والمتوسّط أيونياً، مُقَيَّسة إلى المدى [0,1].
مأخوذة من المجموعة 1b عبر حساب المتوسّط والحد الأقصى والانحراف المعياري زمنياً والمتوسّط أيونياً، مُقَيَّسة إلى المدى [0,1].
تشابه هذه المجموعات الإحصائية كبير، وتأتي الفوارق الصغيرة في نطاق القياس والإحصاءات ومصدر البيانات لزيادة تنوّع أداء النماذج الفردية. كما يُعزّز تنوّع تقديرات النماذج الأداء عند التجميع بالمتوسط.
لم تُستخدم هاتان المجموعتان من البيانات من قبل. ويمكن الاطلاع على مزيد من المعلومات حول بيانات EGA‑MS وGC‑MS على صفحات المسابقات: EGA‑MS وGC‑MS. يُذكر أنّه لم تُستخدم أي خوارزمية للكشف عن قمم الكروماتوغرافيا في كلا المجموعتَين، ولا إنشاء ميزات من القمم.
مقياس المسابقتَين هو الخسارة اللوغاريتمية المُجمَّعة القياسية ([eqn:aggLL]):
\[ AggLogLoss = -\frac{1}{M N} \sum_{m=1}^{M}\sum_{n=1}^{N} \left[ y_{nm} \log{ \hat{y}_{nm}} + (1- y_{nm}) \log{ (1-\hat{y}_{nm}) } \right] \label{eqn:aggLL} \]
نحسب الخسارة اللوغاريتمية الثنائيّة لكل فئة ولكل عيّنة ثم نأخذ المتوسط. هذه مهمّة تصنيف مُتعدِّد العلامات، حيث \(N\) عدد العينات و\(M\) عدد الفئات الممكنة. \(y_{nm}\) هي الحقيقة الأرضية و\(\hat{y}_{nm}\) احتمالات التنبؤ. وتوفّر الخسارة اللوغاريتمية عقوبة شديدة للتنبؤات الواثقة الخاطئة.
تشمل نماذج تعلّم الآلة شبكات عصبيّة تكرارية باستخدام TensorFlow وPyTorch لبيانات EGA‑MS، وأربعة نماذج (القسم [sec:GCMS_modelling]) تضمّ شبكات عصبيّة تلافيفيّة مُدرَّبة مسبقاً وشبكات عصبيّة بسيطة (TensorFlow فقط) لبيانات GC‑MS.
تتكوّن عملية النمذجة من ثلاثة أنواع نماذج، وأربع مجموعات بيانات أساسية (لصناديق درجات حرارة مختلفة)، ومستويَين من التدريب، وثلاث تكرارات لكل نموذج. النماذج المستخدمة هي:
نموذج شبكة عصبية تكرارية في Keras مُدرَّب على جميع الفئات العشر في طبقة الإخراج.
عشرة نماذج شبكات عصبية تكرارية في Keras، كل واحد منها مُدرَّب على فئة واحدة في طبقة الإخراج النهائية.
نموذج شبكة عصبية تكرارية في PyTorch مُدرَّب على جميع الفئات العشر في طبقة الإخراج.
هندسة النموذج: يتألف نموذج الشبكة العصبية التكرارية من أربع طبقات رئيسية، تشمل LSTM ثنائية الاتجاه و3 طبقات كثيفة، مع طبقة الإخراج. تُعدّ طبقات LSTM (yu2019review) مناسبةً للجانب الزمني لتسخين العيّنة. ولضمان استقلالية متطلّبات درجات الحرارة بين عينات SAM والعينات التجارية، نستخدم طبقات تجميع (max pooling وaverage pooling) لكل أيون لتمثيل القيمة القصوى والمتوسّطة ضمن ملفّه الحراري.
كانت أوزان نماذج PyTorch على طبقة التجميع النهائية صغيرة نسبياً، لكنها حقّقت أداءً أفضل على عينات SAM خارج الطيّ (OOF). كما استُخدم في خطّ أنابيب PyTorch تعزيز الخلط (zhang2017mixup)، الذي عزّز نتائج OOF، بينما لم تتحسّن نماذج Keras باستخدام الخلط.
البيانات: دُرِّبت نماذج Keras على مدخلات أولية وثانوية (مدخلان)، بينما دُرِّب نموذج PyTorch على المجموعة الأولية فقط. ومع أربع مجموعات أولية مختلفة، أُجريت أربع دورات تدريبية، ثم وُسِّطت التنبؤات بينها.
نماذج المستوى 1: دُرِّب كل نموذج على كل مجموعة بيانات باستخدام تحقق متقاطع بطبقات عشر (10-fold stratified) (stone1974cross). حُفِظت تنبؤات البيانات خارج الطيّ بالإضافة إلى تنبؤات البيانات الإضافية، ما يعزّز التعميم.
نماذج المستوى 2: التسمية الزائفة. باستخدام التنبؤات المُوسَّطة على البيانات الإضافية كأهداف، نوسّع مجموعة التدريب ونعيد التدريب بالكامل (نماذج Keras فقط). أضافت التسمية الزائفة تحسينات على OOF، خصوصاً لعينات SAM.
التكرارات: لتقوية التعميم، شُغِّل كل نموذج ثلاث مرّات، كلّ مرة ببذرة عشوائية مختلفة، باستخدام مبادئ التهيئة الافتراضية في Keras (glorot uniform) (glorot2010understanding).
التجميع: التنبؤات النهائية هي متوسط مُرجَّح لجميع النماذج، حيث يُعزّز التجميع (dietterich2000ensemble) الأداء العام.
استخدمنا لنماذج GC‑MS ما يلي:
شبكة عصبية اصطناعية بسيطة مخصّصة باستخدام Keras فوق TensorFlow.
شبكات تلافيفية مُدرَّبة مسبقاً على ImageNet (EfficientNetB0/B1/B2) باستخدام Keras (tan2019efficientnet).
الانحدار اللوجستي (berkson1944application).
تصنيف Ridge (hoerl1970ridge).
استُخدمت الغابات العشوائية (breiman2001random) لاختيار الميزات (تقليل الأبعاد) فقط، ثم استُخدمت الميزات المنتخَبة في تصنيف Ridge.
جميع النماذج ما عدا الانحدار اللوجستي دُرِّبت عدة مرات لتعزيز الاستقرار. لم تُحسِّن إضافة نماذج انحدار لوجستي متعددة الأداء. دُرِّبا نموذجا تصنيف Ridge، لكلٍّ منهما مجموعة ميزات مختلفة اختيرت اعتماداً على الغابة العشوائية لتقليل الأبعاد، ما خفّض الإفراط في التخصيص (hua2005optimal). في نماذج Keras البسيطة، استُخدمت البنية نفسها وأُعيد التدريب ثلاث مرات، بينما في نماذج CNN ثنائيّة الأبعاد استُخدمت ثلاثة إصدارات من عائلة EfficientNet.
استُخدم تحقّق متقاطع بخمس طيّات (5-fold، طبقي) بدلاً من عشر طيّات في EGA‑MS لتسريع التجارب، إذ يتطلّب تدريب نماذج CNN ثنائيّة الأبعاد جهداً حوسبيّاً أكبر. دُرِّبت نماذج الانحدار اللوجستي وتصنيف Ridge لكل فئة من الفئات التسع بشكل منفصل، بينما دُرِّبت الشبكات العصبيّة على جميع الفئات معاً. في تدريب الشبكات استُخدم جدول معدّل تعلّم دوري مُتناقِص، وحُفِظ أفضل وزن لكل طيّة. ولتدريب CNN ثنائيّة الأبعاد أضفنا تعديلاً طفيفاً داخل الطبقات على شكل إزاحة زمنية وتذبذب عشوائي (jitter).
انطلقت المنهجيّات المقترَحة من بيانات EGA‑MS أو بيانات GC‑MS المُوسومة، ثم أُجريت المعالجات اللازمة للبيانات لتناسب نماذج تعلّم الآلة، فدُرِّبت النماذج على المجموعات المُعالجة، ثم استُخدمت للتنبؤ على مجموعة البيانات الاختبارية. ويمكن تطبيق خطوات المعالجة والنمذجة نفسها على أي مجموعة بيانات مطياف كتلي مماثلة، لا سيّما عندما تكون المجموعات صغيرة.
تُعدّ النتائج وتقييم الأداء ضروريَّين لفهم الموضوع بالكامل. تظهر النتائج على مجموعات بيانات اختباريّة غير مرئية مسبقاً. عموماً، كان أداء المؤلف في كلتا المسابقتين متميّزاً. في مسابقة EGA‑MS، ركّزت الجائزة الخاصّة على الأداء على عينات اختبار مُحلِّل الغازات المتطوِّرة، حيث قدّمنا تحسّناً كبيراً باستخدام شبكات CNN ثنائيّة الأبعاد مُدرَّبة مسبقاً، وهي تقنية لم تكن متاحة لمعظم المنافسين في تلك المسابقة لكنها تكرّرت في مسابقة GC‑MS اللاحقة، ما عزّز الحلول الأولى.
أثبتت شبكات CNN المُدرَّبة مسبقاً تفوّقها على بيانات EGA‑MS أكثر من GC‑MS؛ فبينما تتّسم بيانات GC‑MS بضوضاء أعلى وبغياب قياسات درجة الحرارة، فرض ذلك تحدّيات سمحَت لنهوج متعدّدة بالتفوّق في جوانب مختلفة.
جميع الحلول المتقدّمة حسّنت المعيار بشكل ملحوظ في كلتا المسابقتين. في مسابقة EGA‑MS، انكمش الفارق الكبير بين الحلول الأخرى والمركز الأول على عينات اختبار مُحلّل الغازات المتطوِّرة حتى الاقتراب من المعيار. كان الخطأ على عينات SAM أعلى بنحو 10% مقارنةً بالتجارية، لكن الدقة انخفضت بأكثر من 50%. وتفوّقت حلولنا بشكل لافت في الدقة على عينات SAM أيضاً، مؤكّدةً قوّة شبكات CNN ثنائيّة الأبعاد المُدرَّبة مسبقاً لهذه البيانات.
بالنسبة لمسابقة GC‑MS، رغم أنّ التحسّن على المعيار لم يكن صارخاً، كانت النتائج النهائية للحلول الأولى مرتفعة جداً. مزيد من التفاصيل عن الحلول الفائزة متاح على تحليل الغازات المتطوِّرة-مطياف الكتلة وكروماتوغرافيا الغاز-مطياف الكتلة.
حسّنّا الطريقة في مسابقة GC‑MS بإضافة نماذج CNN ثنائيّة الأبعاد وبالتركيز على تجنّب الإفراط في التخصيص على مجموعات البيانات الصغيرة. كما أنّ عملية معالجة البيانات الأسرع، استناداً إلى خبرتنا من مسابقة EGA‑MS، منحت وقتاً أطول للتجربة. تتركّز النتائج الحاليّة أكثر على GC‑MS لأن منهجيّتها كانت أدقّ وأكثر متانة.
تحقّقت دقّة فردية جيّدة جداً حيث إن عدد الإيجابيات الكاذبة ليس كبيراً، لكن الاستدعاء أقل، لا سيّما للمركّبات قليلة التواجد. وبلغ معامل الارتباط بين الاستدعاء وعدد العينات الموجبة لكل فئة 95%. إن انخفاض الاستدعاء ناتج عن كثرة السلبيّات الكاذبة في تلك الفئات. هذه البيانات ليست صغيرة فحسب، بل غير متوازنة أيضاً؛ إذ يتراوح عدد العينات لكل فئة من 26 إلى 307، وهناك 450 عيّنة بدون أيّ فئة. وبوجه عام، لكل مركّب كيميائي تكون الدقّة أعلى من الاستدعاء، أمّا العيّنات التي لا تحتوي على أيّ من المركّبات التسع فالعكس صحيح، حيث يتفوّق الاستدعاء على الدقة.
تُظهِر طريقتنا دقّة عالية على الهيدروكربونات (دقّة 0.965 واستدعاء 0.909)، وهي أهداف رئيسيّة للبحث عن الجزيئات العضوية. ولتحسين الأداء لفئة الهيدروكربونات يمكن تدريب نماذج إضافية ثنائيّة الفئة (هيدروكربون/غير هيدروكربون)، أو ضبط عتبات القرار بحسب معدل الإيجابيات الكاذبة عند الحاجة.
أظهرت النتائج قدرات نماذج الذكاء الاصطناعي على بيانات المطياف الكتلي في كشف مركّبات كيميائيّة معيّنة في عينات جيولوجيّة مماثلة للمريخ. وما إذا كانت هذه النتائج تدل فعلياً على الصلاحية السابقة للسكن فهذا أمر يقرّره الخبراء. ويمكن أن توفّر هذه الأبحاث رؤى قيّمة لتصميم المهامّ الكوكبية المستقبلية التي تُجري تحليلات ميدانية على المريخ أو أي جِرم أرضي آخر، إضافةً إلى مساعدة فرق تحليل بيانات الرحلات في تقييم محتوى البيانات قبل المعالجة المتعمّقة.
قد تتّسم النماذج المُدرَّبة على مجموعات بيانات صغيرة بالإفراط في التخصيص أو الثقة المفرطة، فتؤدّي جيداً فقط عند تطابق التوزيعات. ولنهجٍ مُعمَّم ومتين، نقترح:
نماذج تصنيف Ridge مع تنظيم L2 لتقليل الإفراط في التخصيص، جرى تحسينها عبر استخدام الغابة العشوائية لاختيار أهمّ الميزات.
الانحدار اللوجستي الذي يتطلّب تعديل معلمة واحدة (C) وأثبت فعاليته عموماً.
نماذج CNN مُدرَّبة مسبقاً على ImageNet تبدأ تدريبها من نقطة غنيّة بالمعلومات؛ اخترنا EfficientNetB0/B1/B2 لسرعتها ودقّتها.
ضمّن نموذج GC‑MS أيضاً شبكة عصبيّة بسيطة حقّقت أداءً جيداً خارج الطيّ (OOF) لكنها ربما تخصّصت أكثر من اللازم، لذا قلّلنا وزنها في التجميع النهائي، رغم أنّ التحقّق المتقاطع أشار إلى أنّ وزنها كان ينبغي أن يكون أعلى بنحو 2.5 مرّة من بقية النماذج.
إضافةً إلى القوة، كانت سرعة الاستدلال دون فقدان الدقّة موضع اهتمام، إذ يمكن استخدام هذه النماذج في مهام فضائيّة. عند الاستدلال على “Intel(R) Xeon(R) CPU @ 2.20GHz” بأربعة أنوية، كانت ثلاثة من النماذج سريعة جداً، وبقيت نماذج CNN ثنائيّة الأبعاد بسرعة مقبولة على CPU دون الحاجة إلى GPU أو مسرّعات أخرى. يستغرق إنشاء جميع مجموعات البيانات الضرورية نحو 64 دقيقة لـ1584 عينة (متوسط 2.42 ثانية/عينة بخيط واحد). ويحتاج الاستدلال إلى نحو 0.025 ثانية/عينة في الشبكات البسيطة و0.3 ثانية/عينة في CNN ثنائيّة الأبعاد. ويمكن خفض وقت الاستدلال خمس مرات إذا استُخدم تدريب واحد كامل بدلاً من 5 طيّات، وباستخدام المعالجة متعددّة الخيوط. يستهلك خطّ الأنابيب أقل من 3 ثوانٍ/عينة للانتقال من المطياف الكتلي الخام إلى نتيجة التصنيف باستخدام Python، في حين أن التطبيقات المكتوبة بـC/C++ ستكون أسرع بكثير، كما هو شائع في المهام الفضائية.
إنّ إضافة نظام آليّ لتطبيق نماذج الذكاء الاصطناعي على بيانات المطياف الكتلي على متن مركبة فضائية كوكبية أمرٌ قابل للتحقّق وسيُفيد المهام القادمة. ويمكن تحسين قدرات المعالجة في المركبات الجوّالة مستقبلاً بمواكبة التقدّم التكنولوجي، إذ لا يتطلّب النهج الحالي موارد عالية ويمكن تشغيله على معالجات أبطأ.
اختبرنا عدّة نماذج وتقنيات أدّت إلى نتائج أسوأ ولم تُدرَج في النظام النهائي كما يتّضح في الملحق.
أُجريت تجارب كثيرة، وأُقصيت نماذج واعدة في المراحل الأولى حين تحسّن أداء الشبكات العصبية. في GC‑MS أجرينا تجارب أكثر استناداً لخبرتنا السابقة مع EGA‑MS، واستخدام 5 طيّات بدلاً من 10 سرّع التجارب، رغم أن المزيد من الطيّات قد يعزّز الأمان على المجموعات الصغيرة. لم تُحقّق التسمية الزائفة فائدة كبيرة في GC‑MS، كما أن خلط القيم أضاف ضوضاء. كذلك فإنّ خفض عدد الأيونات أو تغيير الخطوات الزمنية أو بُعد الشكل الطيفي أدّى إلى نتائج أسوأ.
هاتان المجموعتان من البيانات أصيلتان ومثيرتان للاهتمام. للمستقبل، سيكون من المفيد توافر مزيد من البيانات للتدريب، إذ إنّ كِلاهما صغير نسبياً. قد تنجح نماذج فشلت سابقاً مع مزيد من البيانات، أو تُستبدل النماذج الحالية بأخرى أفضل. ويمكن أن يشمل العمل المستمر:
استخدام مزيد من هياكل CNN المُدرَّبة مسبقاً،
تجربة نماذج CNN مُدرَّبة مسبقاً مع PyTorch،
المزيد من التجارب باستخدام إطار عمل PyTorch،
استخدام كشف الذروة لاستخراج الميزات،
إزالة ضوضاء الخلفية بطرح قيمة الكثافة التي تسبق أو تلي الذروة مباشرة (اقتراح منظّم المسابقة)،
تجربة قيم m/z العائمة الأولية أو طرائق تقريب مختلفة،
مراجعة جميع الأمور التي لم تنجح سابقاً.
تُستخدم تقنيات تعلّم الآلة كنماذج حسابية تتعلّم مباشرةً من البيانات من دون معادلات مُسبقة، محوِّلةً البيانات الخام إلى رؤى قابلة للتنفيذ. باستخدام نماذج ذكاء اصطناعي مختلفة على بيانات مطياف الكتلة، حقّقنا نتائج دقيقة في وقت قصير. وهذا مهمّ في المهام المستقبلية لمعالجة بيانات المطياف الكتلي أثناء الرحلة. كان تحويل الجذر لقيم الشدّة/الوفرة مهمّاً لتعزيز الدقّة، بينما أتاح إنشاء المطيافيّات الثنائيّة الأبعاد استخدام شبكات CNN مُدرَّبة مسبقاً بأداء استثنائي. يُعَدّ التعميم عنصراً أساسياً مع المجموعات الصغيرة؛ فاختيار النماذج وتجميعها وإجراءات التدريب المناسبة كان حاسماً لتقليل الإفراط في التخصيص والثقة الزائدة. ومع توافر مزيد من البيانات ستتحسّن الدقّة. وعلى الرغم من أنّ النماذج دُرِّبت أساساً على بيانات من الأجهزة التجارية، فقد كان أداء التنبؤ على EGA‑MS الخاصّ بأداة SAM جيّداً. يشكّل تحليل الغازات المتطوِّرة وGC‑MS مع تعلّم الآلة شراكاتٍ قيّمة لتحليل رواسب المريخ وعلى أيّ جِرم أرضي آخر في نظامنا الشمسي. ويمكن تشغيل هذه التحليلات الذكيّة على الحافة بكفاءة للاستفادة منها في المهام القادمة.
يُقرّ المؤلف بأنّه لا يملك مصالح مالية تنافسيّة معروفة أو علاقات شخصية يُظَنّ أنّها قد تؤثّر في العمل المُبلَّغ عنه في هذه الورقة.
قدّمت NASA الدعم لتطوير SAM. تم توفير مجموعات البيانات لهذين التحدّيين من قبل مركز NASA Goddard ومركز NASA Johnson لرحلات الفضاء. جُمِعت البيانات بمعاونة علماء تحليل العيّنات على المريخ (SAM): Doug Archer، Charles Malespin، Caroline Freissinet، Stephanie Getty، Luoth Chou، Eric Lyness، Victoria Da Poian، وفريق DrivenData. أُرشِفت بيانات جميع تجارب SAM في نظام البيانات الكوكبية (pds.nasa.gov).
نُشرت المجموعتان أيضاً بعد المسابقتين في (website:opendata.awsNASA-EGAMS) و(website:opendata.awsNASA-GCMS).