```html
latex
يقدم هذا البحث تطبيقاً للذكاء الاصطناعي على بيانات مطياف الكتلة للكشف عن إمكانية السكن في المريخ القديم. على الرغم من أن البيانات جُمعت لكوكب المريخ، يمكن تكرار نفس النهج لأي جسم أرضي في نظامنا الشمسي. بالإضافة إلى ذلك، يمكن تكييف المنهجية المقترحة لأي مجال يستخدم مطياف الكتلة. يركز هذا البحث على تحليل بيانات تقنيتين لمطياف الكتلة، تحليل الغاز المتطور (EGA-MS) وكروماتوغرافيا الغاز (GC-MS)، واللتين تُستخدمان لتحديد المركبات الكيميائية الخاصة في عينات المواد الجيولوجية. توضح الدراسة قابلية تطبيق بيانات EGA-MS و GC-MS على تحليل المواد خارج الأرض. تشمل أهم ميزات المنهجية المقترحة تحويل الجذر التربيعي لقيم مطياف الكتلة، وتحويل البيانات الخام إلى مطيافيات ثنائية الأبعاد، واستخدام نماذج وتقنيات تعلم الآلة المحددة لتجنب الإفراط في التخصيص على مجموعات البيانات الصغيرة نسبياً. تأتي مجموعات بيانات EGA-MS و GC-MS من وكالة ناسا ومن مسابقتين لتعلم الآلة شارك فيهما الكاتب واستفاد منهما. الكود الكامل لتشغيل مجموعة بيانات/مسابقة GC-MS متاح على GitHub.1 تتضمن بيانات مطياف الكتلة التدريبية الخام تسميات [0,1] للمركبات الكيميائية المحددة، المختارة لتقديم رؤى قيمة والمساهمة في فهمنا لإمكانية السكن المحتملة في المريخ في الماضي.
يُستخدم التعلم الآلي في عدد متزايد من التطبيقات والمجالات. انطلاقاً من مجموعة بيانات تدريبية موسومة، يمكن تدريب نماذج التعلم الآلي فتتعلم خصائص هذه البيانات؛ وبمجرد انتهاء التدريب، تضبط معلماتها الفائقة. بعدها يمكن تخزين هذه النماذج المدربة واستدعاؤها للاستدلال على بيانات مشابهة. يمكن أيضاً توظيف نماذج التعلم الآلي في تحليل بيانات الطيف الكتلي لعينات المواد لتحديد وجود أو عدم وجود مركبات كيميائية معينة في العينات الجيولوجية عبر تطبيقات متعددة. تحدد المشكلة الأساسية جميع المركبات التي يتوجب اكتشافها في كل حالة. وعلى الرغم من أن الطرق المقترحة طُبقت على مجموعات بيانات محددة، إلا أنها قابلة للتعميم على أي مجموعة بيانات مطياف كتلي أخرى.
لم يتناول هذا البحث تحديد ما إذا كانت جميع المركبات الكيميائية المختارة قد نتجت عبر عمليات غير حيوية أم تمثل دليلاً على الحياة. كما أن المنهجية الحالية قابلة للتكييف مع أي مجموعة بيانات أخرى. وسيكون إضافة مركب أو أكثر جديد أو استبعاد مركبات حالية يمكن أن تفسر ظروف الصلاحية للسكن بشكل أفضل أو تميز بين العمليات غير الحيوية والحياة مفيداً في دراسات مستقبلية حول صلاحية السكن السابقة في المريخ.
تتمثل أهمية الذكاء الاصطناعي والتعلم الآلي في معالجة بيانات استكشاف الفضاء في إحداث نقلة نوعية، كما أشار (varatharajan2021artificial) في الورقة البيضاء للذكاء الاصطناعي لتقدم علم الأحياء الفلكية واستكشاف العلوم القمرية والكوكبية. خلصت الدراسة إلى أن أدوات ومنهجيات الذكاء الاصطناعي يمكن أن تدعم مجتمع علم الأحياء الفلكية والكوكبية، واستغلال مجموعات البيانات المتاحة بفعالية، والمساعدة في الاستعداد للعقد القادم من العلوم والاستكشاف. بالإضافة إلى ذلك، عرض (slingerland2022adapting) مجموعة من أفضل الممارسات لتعزيز الثقة وتقليل الحواجز أمام تبني المهام المستقلة المستندة إلى الذكاء الاصطناعي.
أدوات الطيف الكتلي هي مفاتيح حاسمة للبعثات التي تسعى للبحث عن علامات الصلاحية للسكن أو مؤشرات الحياة على الأجسام السماوية. لهذا السبب أطلقت ناسا مسابقتين للتعلم الآلي، ليس فقط لتسريع تحليل البيانات، ولكن أيضاً لإظهار جدوى تطبيق علم البيانات والتعلم الآلي على بيانات الطيف الكتلي المعقدة في المهام القادمة. كان الهدف الكشف عن عائلات معينة من المركبات الكيميائية في عينات المواد الجيولوجية باستخدام بيانات EGA-MS أو GC-MS المجمعة لمهام استكشاف المريخ، وما يتعلق بها من صخور ومعادن ومركبات أيونية ذات صلة بفهم إمكانية الصلاحية السابقة للسكن. وهدفت مجموعات بيانات المسابقات إلى “توجيه العمليات العلمية، وتقليل الاعتماد على التحليل المتداخل مع الأرض، وإعطاء الأولوية للنقل عبر مسافات طويلة”. مع محدودية الاتصال بين المريخ والأرض، يجب دمج الاستقلالية المتقدمة في المركبات الجوالة المستقبلية (ono2022machine). ففي مهمة مستقبلية على جسم أرضي، يمكن برمجة المركبة الجوالة لاتخاذ إجراءات إضافية مثل إعادة أخذ العينات دون انتظار أمر صريح من الأرض، ما يزيد من القيمة العلمية لا سيما على الأجسام الأبعد.
أُرسلت العديد من البعثات إلى المريخ ومستقبلاً ستتبعها مزيد. من بينها المركبة الجوالة كيوريوسيتي المزوّدة بأجهزة مطياف كتلي لتحليل العينات الجيولوجية. عملت كيوريوسيتي منذ 5 أغسطس 2012 وأثبتت إنتاجية عالية. على متنها جهاز تحليل العينات في المريخ الذي يدرس العينات باستخدام طرق مطياف الكتلة. وقد أنتجت الأبحاث مثل تحليل الغازات المتطورة لفهم حالة أكسدة الكبريت في عينات من منطقة جيلين توريدون الغنية بالطين (wong2022oxidized) وتحديد الجزيئات العضوية بواسطة الكروماتوغرافيا الغازية (millan2016situ). ولا يزال كيوريوسيتي نشطاً دون معرفة موعد انتهاء مهمته، مما يضفي أهمية كبيرة على المنهجية والبيانات المقدمة لدعم المهام المستقبلية المشابهة.
استخدمت بعثات المريخ أدوات طيفية متعددة لدراسة البيئة المريخية وتقييم صلاحيتها للسكن. من هذه الطيفيات طيف الأشعة تحت الحمراء “سوبركام” على مركبة بيرسيفيرانس لتحليل المعادن والمركبات العضوية (fouchet2022supercam)، وطيف الأشعة فوق البنفسجية SPICAM على مدار المريخ إكسبريس لدراسة الغلاف الجوي المريخي (bertaux2006spicam)، إضافة إلى تقنيات الرامان والطيف الانهياري الضوئي المستحث بالليزر (clegg2014planetary).
يُعد تحليل الغازات المتطورة بالطيف الكتلي تقنية قوية تُستخدم لتوصيف عينات متنوعة، بما فيها المواد خارج الأرض والتربة والمعادن والمركبات العضوية. تتضمن هذه الطريقة تسخيناً مسيطراً لعينة في تدفق غاز وتسجيل درجة الحرارة وتحليل الغازات المتطورة عبر الطيف الكتلي لتحديد وكشف الأنواع الكيميائية المنطلقة. وقد برهنت الدراسات الأخيرة على تطبيق هذه التقنية في مجالات عدة، من استخراج المياه عبر موارد موجودة في تربة محاكاة المريخ (clark2020jsc)، إلى تحديد المعادن الثانوية في الطين (zumaquero2020application)، وتقييم التأثيرات التآزرية والبيانات الحركية في التحلل الحراري المشترك للخشب والبلاستيك (nardella2021co). كما اقترح (verchovsky2020quantitative) نهجاً كمياً لتحليل العينات خارج الأرض، مما يبرز أهمية فهم آليات إطلاق الغاز واعتمادها على خصائص العينة. هنا، نستخدم نماذج وتقنيات التعلم الآلي المتطورة لتصنيف أنواع مختلفة من عينات مماثلة للمريخ، ويمكن تطبيق هذا أيضاً على استكشاف كواكب وأقمار أخرى أو تحليل عينات عائدة من مهمات فضائية.
تُعد تقنية كروماتوغرافيا الغاز والطيف الكتلي تقنية قوية تستخدم على نطاق واسع في علوم الأغذية والكيمياء وتحليل البيئة والصيدلة. يوفر دمج هذه التقنية مع التعلم الآلي تحديداً سريعاً وموثوقاً للخلائط المعقدة. فقد فحص (chou2021planetary) عدة نهج محتملة للكشف عن علامات الحياة المحايدة باستخدام الطيف الكتلي. وتشمل تطبيقاتها تصنيف المنتجات الغذائية، حيث طور (tan2018determining) نظام أنف إلكتروني مع شبكة عصبية اصطناعية وتقنية GC-MS لتحديد درجة التحميص في حبوب الكاكاو، بينما استخدم (pastor2022classification) بصمات شحمية وتقنية GC-MS والتعلم الآلي لتصنيف دقيق الحبوب. واستخدم (aghili2022detection) GC-MS للكشف عن الاحتيال في زيت السمسم بدمج الذكاء الاصطناعي مع الكيمياء الحاسوبية وتوصيف المركبات. تُظهر هذه الأمثلة تنوع تطبيقات GC-MS مع الذكاء الاصطناعي كأداة تحليلية أساسية للباحثين والصناعات على حد سواء.
ينبثق هذا العمل من مشاركة الكاتب في مسابقات تعلم الآلة التابعة لوكالة ناسا، “طيفية المريخ: الكشف عن دلائل للصلاحية السابقة للحياة” (7 من بين 713 مشاركاً، فبراير–أبريل 2022) و“طيفية المريخ 2: الكروماتوغرافيا الغازية” (الجائزة الثالثة، سبتمبر–أكتوبر 2022)، على منصة DrivenData، مما يؤكد قدرات التعلم الآلي على بيانات الطيف الكتلي لتصنيف المركبات. وقد أُوِظفت الخبرة المكتسبة في المسابقة الأولى بنجاح في الثانية، إذ يجمع التعامل مع النوعين من البيانات تشابهات وأساليب مفيدة لاستخدام بيانات المطياف الكتلي ونماذج الذكاء الاصطناعي بفعالية.
تُقدَّم البيانات الأولية في ملفات CSV منفصلة لكل عينة. في بيانات EGA-MS، يظهر أدناه مثال على بداية ملف عينة. أما في بيانات GC-MS، فلا يحتوي الملف على عمود لدرجة الحرارة، وبدلاً من ذلك يضم عموداً يعبر عن الشدة. والفرق الرئيسي بين المجموعتين هو غياب بُعد درجة الحرارة في بيانات GC-MS. كما ذُكر، “يمكن استخدام الزمن كبديل لدرجة الحرارة، لكن معدل ارتفاع درجة الحرارة غير معروف بدقة ولا يكون متماثلاً عبر العينات. دائماً ما تكون الملاحظات في الأوقات اللاحقة لمركبات أطلقت عند درجات حرارة أعلى. في معظم العينات، يُتوقع أن تظل درجة الحرارة ثابتة للدقائق الأولى من 0 إلى 5 دقائق، ثم تزداد بمعدل تقريبي من 5 إلى 10 درجات في الدقيقة حتى تصل إلى حوالي 300 درجة. ومع ذلك، نظراً لاختلاف زمن بدء الارتفاع ومعدل التسخين بين العينات، فإن الوقت المماثل قد يمثل درجات حرارة مختلفة عبر العينات.” توفر تسجيلات درجة الحرارة في EGA-MS معلومات أكثر دقة حول توقيت وكمية الغاز المنطلق من العينة.
بالنسبة لبيانات تحليل الغاز المتطور (EGA-MS)، هناك 10 فئات، بينما لبيانات GC-MS هناك 9 فئات، يشير كل منها إلى وجود مادة تنتمي إلى عائلة الصخور أو المعادن أو المركبات العضوية المعنية في العينة. ونظراً لأن هذه مهام متعددة التصنيفات، فقد تحتوي العينة على أكثر من فئة واحدة أو قد تكون بدون أي فئة على الإطلاق. يمكن الاطلاع على تفاصيل مفصلة لكلتا المجموعتين في الملحق.
تتكون بيانات التدريب من 1047 عينة من الأجهزة التجارية و12 عينة من نموذج اختبار SAM. إن تطوير خط أنابيب النمذجة الذي يحقق أداءً جيداً أيضاً على عينات اختبار SAM يضيف تحدياً وتعقيداً إضافياً. كما يمكن ملاحظته في الرسوم البيانية في (a) و(b)، ومن خلال استكشاف البيانات بشكل أكثر شمولاً، فإن نوعي العينات لدينا مختلفان جداً. يبدو أن عينات SAM تحتوي على المزيد من الضوضاء ودرجات حرارة أعلى. تشمل بيانات الاختبار 64 عينة من SAM و446 عينة تجارية، وهي نسبة أعلى من عينات SAM مقارنة ببيانات التدريب. وأخيراً، هناك أيضاً بعض البيانات الإضافية التي تشمل 41 عينة من SAM و220 عينة تجارية (مجموعة فرعية مع غاز الناقل “he” ولا ضغط مختلف)، ولكن هذه البيانات لا تحتوي على تسميات وتُستخدم بطريقة غير مشرفة (تسمية زائفة).
تم جمع البيانات من مختبرات متعددة في مركز غودارد ومركز جونسون لرحلات الفضاء التابعين لناسا. واستخدمنا نوعين من الأجهزة لإجراء القياسات:
الأجهزة التجارية – بيانات من أجهزة تجارية مُعدة كنظائر لأداة SAM في مختبرات غودارد وجونسون. جُمعت القياسات لكامل قيم m/z من 0.0 إلى 100.0.
نموذج اختبار SAM – بيانات من نموذج اختبار SAM في غودارد، وهي نسخة من مجموعة أدوات SAM على كيوريوسيتي. جُمعت القياسات لقيم m/z تصل إلى 534.0 أو 537.0 وأحياناً تشمل قيماً كسرية.
في إعداد البيانات للنماذج، نقوم بالخطوات التالية:
استخدام أول 100 قيمة m/z (نسبة الكتلة إلى الشحنة) لتوحيد مدى البيانات القادم من الأجهزة التجارية.
إزالة قيم m/z الكسرية عند وجودها.
إسقاط m/z 4 الذي يتوافق مع غاز الناقل الهيليوم.
طرح القيمة الدنيا للوفرة لكل أيون لتمثيل الخلفية الإحصائية (مثل التلوث الجوي)، بحيث يصبح الحد الأدنى للصفر. (اقتراح من منظمي المسابقة).
تطبيق تحويل الجذر التربيعي على وفورات الأيونات. التجارب بدون أي تحويل أو باستخدام التحويل اللوغاريتمي أعطت نتائج أسوأ.
تطبيع الوفرة ضمن العينة الواحدة إلى المدى [0,1]، ما يحافظ على الوفرة النسبية بين أيونات العينة نفسها ويعزز أداء الشبكات العصبية.
لإنشاء مجموعة البيانات الأساسية، نجزّئ نطاق درجات الحرارة إلى صناديق (بعرض درجات X) ونحسب الوفرة النسبية القصوى داخل كل صندوق لكل قيمة m/z. مع أربعة إعدادات لصناديق درجات الحرارة [50, 100, 200, 400]، نولد أربع مجموعات بيانات أساسية. كما ننشئ مجموعة بيانات ثانوية تضم 7 ميزات إضافية: الوقت الأقصى، الانحراف المعياري للوقت، الدرجة الحرارة القصوى، الدرجة الحرارة المتوسطة، الانحراف المعياري لدرجة الحرارة، وعدد السجلات في الملف.
جُمعت هذه البيانات باستخدام أجهزة تجارية مُجهزة كنظائر لأداة SAM في غودارد. للتدريب هناك 1121 عينة وللاختبار 463. من ملفات CSV الأولية، تم إنشاء ثلاث مجموعات بيانات للتدريب والاختبار، تتخذ شكل [عدد العينات, 600 m/z, 500 خطوة زمنية]. يمكن اعتبار كل عينة في مجموعة البيانات المنشأة كصورة مخطط طيفي. ولإنشائها، نجري عدة خطوات: تقريب جميع قيم m/z الأولية العائمة إلى أعداد صحيحة، وملء جميع فجوات الكثافة بالصفر حتى أعلى أو أقل قيم m/z (يظهر في أسفل fig:SameSample_DifferentDataset). وبما أن عدد الخطوات الزمنية يختلف لكل عينة، إذا تجاوز 500 فإننا نقلصه، وإلا نكرر القيمة القريبة لضبط الطول إلى 500.
تختلف المجموعات الثلاث الأولية في تطبيق التحويلات الجذرية والثانوية (لوغاريتمية)، وتنعيم منحنى الأيون على الزمن أم لا، وقيمة القطع العلوية. التنعيم هو متوسط متحرك بسيط بطول 3 نقاط، يتكرر مرتين. أخيراً، نحصر البيانات في المدى 0–255 ونحفظها كنوع uint8 للضغط والاستخدام اللاحق. يُطابق هذا النطاق ما تتطلبه نماذج EfficientNet المدربة مسبقاً. ولم يؤثر تقريب قيم m/z أو الانتقال إلى الأعداد الصحيحة بشكل ملحوظ على الأداء، ربما لأن البيانات كانت مزعجة بالفعل وتُعمل كفلتر للضوضاء.
بعد تحويل قيم الطيف الكتلي إلى صور مخططات طيفية، يمكن تصوّر بياناتنا واستخدامها مع نماذج CNN ثنائية الأبعاد. في fig:SameSample_DifferentDataset تبدو مجموعات البيانات 1 و1b متشابهة جداً، لكن المجموعة 2 المستخدمة في نماذج الشبكات تبدو مختلفة تماماً. يتمثل المحور الأفقي بالوقت والرأسي بالقيم m/z، بينما يمثل لون البكسل شدة الأيون في خطوة زمنية معينة. لاحظ وجود شريط داكن أسفل الصورة دائماً حيث لا توجد أيونات من هذا النوع في العينة (والصف الأول دائماً صفري لأن كتلة 0 غير موجودة).
كل النماذج الأخرى، عدا نماذج CNN ثنائية الأبعاد، تُدرَّب باستخدام الميزات الإحصائية المشتقة من مجموعات البيانات الأولية. وتشمل مجموعات البيانات الإحصائية التالية:
مأخوذة من المجموعة 2 عبر حساب المتوسط والحد الأقصى والانحراف المعياري زمنياً، والمتوسط والانحراف المعياري أيونياً، جميعها في الفاصل [0,1].
مأخوذة من المجموعة 1 عبر حساب المتوسط والانحراف المعياري والوسيط زمنياً والمتوسط أيونياً، مقيمة إلى المدى [-0.5,0.5].
مأخوذة من المجموعة 1 عبر حساب المتوسط والحد الأقصى والانحراف المعياري زمنياً والمتوسط أيونياً، مقيمة إلى المدى [0,1].
مأخوذة من المجموعة 1b عبر حساب المتوسط والحد الأقصى والانحراف المعياري زمنياً والمتوسط أيونياً، مقيمة إلى المدى [0,1].
تشابه مجموعات البيانات الإحصائية هذه كبير، وتأتي الاختلافات الصغيرة في نطاق التحجيم والإحصائيات ومصدر البيانات لزيادة تنوع أداء النماذج الفردية. كما أن تنوّع تقديرات النماذج يعزز الأداء عند التجميع المتوسط.
لم تُستخدم هاتان المجموعتان من البيانات من قبل. ويمكن الاطلاع على مزيد من المعلومات حول بيانات EGA-MS وGC-MS على صفحات المسابقات: EGA-MS وGC-MS. لاحظ أنه لم يُستخدم أي خوارزمية للكشف عن قمم الكروماتوغرافيا في كلا المجموعتين، ولا إنشاء ميزات من القمم.
مقياس مسابقاتنا هو الخسارة اللوغاريتمية المجمعة المتعارف عليها ([eqn:aggLL]) \[ \displaystyle AggLogLoss = -\frac{1}{M N} \sum_{m=1}^{M}\sum_{n=1}^{N} \left[ y_{nm} \log{ \hat{y}_{nm}} + (1- y_{nm}) \log{ (1-\hat{y}_{nm}) } \right] \label{eqn:aggLL} \]
نحسب الخسارة اللوغاريتمية الثنائية لكل فئة ولكل عينة ثم نأخذ المتوسط. هذه مهمة تصنيف متعدد العلامات، حيث \(N\) عدد العينات و\(M\) عدد الفئات الممكنة. \(y_{nm}\) هي الحقيقة الأرضية و\(\hat{y}_{nm}\) احتمالات التنبؤ. توفر الخسارة اللوغاريتمية عقوبة شديدة للتنبؤات الواثقة والخاطئة.
تتضمن نماذج التعلم الآلي شبكات عصبية متكررة باستخدام أطر tensorflow وpytorch لبيانات EGA-MS، وأربعة نماذج (القسم [sec:GCMS_modelling]) تشمل شبكات عصبية تلافيفية مدرَّبة مسبقاً وشبكات عصبية بسيطة (tensorflow فقط) لبيانات GC-MS.
عملية النمذجة تتكون من ثلاثة أنواع من النماذج، وأربع مجموعات بيانات أساسية (لصناديق درجات حرارة مختلفة)، ومستويين من التدريب، وثلاث تكرارات لكل نموذج. النماذج المستخدمة هي:
نموذج شبكة عصبية متكررة في Keras مدرب على جميع الفئات العشر في طبقة الإخراج.
عشرة نماذج شبكة عصبية متكررة في Keras، كل واحد مدرب على فئة واحدة في طبقة الإخراج النهائية.
نموذج شبكة عصبية متكررة في Pytorch مدرب على جميع الفئات العشر في طبقة الإخراج.
هندسة النموذج: يتكون نموذج الشبكة العصبية المتكررة من أربع طبقات كاملة، تشمل LSTM ثنائية الاتجاه و3 طبقات كثيفة، مع طبقة الإخراج. تُعد طبقات LSTM (yu2019review) الأمثل للجانب الزمني لتسخين العينة. ولضمان استقلالية متطلبات درجات الحرارة بين عينات SAM والعينات التجارية، نستخدم طبقات تجميع (maxpooling وaveragepooling) لكل أيون لتمثيل القيمة القصوى والمتوسطة ضمن ملفه الحراري.
أوزان نماذج Pytorch على طبقة التجميع النهائية صغيرة نسبياً لكنها حققت أداء أفضل على عينات SAM خارج الطي (OOF). كما استخدمنا في خط أنابيب Pytorch تعزيز الخلط (zhang2017mixup)، الذي عزز نتائج OOF، بينما لم تتحسن نماذج Keras باستخدام الخلط.
البيانات: دُرِّبت نماذج Keras على مدخلات أولية وثانوية (مدخلان)، بينما دُرِّب نموذج Pytorch على المجموعة الأولية فقط. مع أربع مجموعات أولية مختلفة، أجرينا أربع دورات تدريبية، ثم وسّطنا التنبؤات بينها.
نماذج المستوى 1: دربنا كل نموذج على كل مجموعة بيانات باستخدام تحقق متقاطع من 10 طيات مصنفة (stone1974cross). نحفظ تنبؤات البيانات خارج الطي بالإضافة إلى تنبؤات البيانات الإضافية، ما يعزز التعميم.
نماذج المستوى 2: التسمية الزائفة. باستخدام التنبؤات المتوسطة على البيانات الإضافية كأهداف، نوسع مجموعة التدريب ونعيد التدريب بالكامل (نماذج Keras فقط). أضافت التسمية الزائفة تحسينات على OOF خاصة لعينات SAM.
التكرارات: لتقوية التعميم، شغّلنا كل نموذج ثلاث مرات، كل مرة ببذرة عشوائية مختلفة، باستخدام مبادئ التهيئة الافتراضية في Keras (glorot uniform) (glorot2010understanding).
التجميع: التنبؤات النهائية هي متوسط مرجح لجميع النماذج، حيث يعزز التجميع (dietterich2000ensemble) الأداء العام.
لنماذج GC-MS استخدمنا التالية:
شبكة عصبية اصطناعية بسيطة مخصصة باستخدام Keras فوق TensorFlow.
شبكات تلافيفية مسبقة التدريب على ImageNet (EfficientNetB0/1/2) باستخدام Keras (tan2019efficientnet).
الانحدار اللوجستي (berkson1944application).
تصنيف الحافة (Ridge) (hoerl1970ridge).
استخدمنا الغابات العشوائية (breiman2001random) لاختيار الميزات (تقليل الأبعاد) فقط، ثم استعنا بها في تصنيف الحافة.
جميع النماذج ما عدا الانحدار اللوجستي دُربت عدة مرات لتعزيز الاستقرار. لم تحسن إضافة نماذج انحدار لوجستي متعددة الأداء. درّبنا نموذجين لتصنيف الحافة، كل واحد بمجموعة ميزات مختلفة اختيرت بالاعتماد على الغابة العشوائية لتقليل الأبعاد، ما خفض الإفراط في التخصيص (hua2005optimal). في نماذج Keras البسيطة، استخدمنا نفس البنية وكررنا التدريب ثلاث مرات، بينما في نماذج CNN 2D استخدمنا ثلاث إصدارات من عائلة EfficientNet.
استخدمنا تحققاً متقاطعاً موزوناً من 5 طيات عوضاً عن 10 طيات في EGA-MS لتسريع التجربة، إذ يتطلب تدريب نماذج CNN 2D حسابياً مزيداً. دُربت نماذج الانحدار اللوجستي وتصنيف الحافة لكل فئة من التسع فئات، بينما دُربت الشبكات العصبية على جميع الفئات معاً. في تدريب الشبكات استخدمنا جدول معدل تعلم تنازلي دوري وحفظنا أفضل وزن لكل طية. ولتدريب CNN 2D أضفنا تعديلاً طفيفاً داخل الطبقة لتحويل الزمن وتفاوت عشوائي.
انطلقت المنهجيات المقترحة من بيانات تحليل الغازات المتطورة من ناسا أو بيانات GC-MS الموسومة، ثم جُمعت المعالجة اللازمة للبيانات لتناسب نماذج التعلم الآلي، وتم تدريب النماذج على مجموعات البيانات المعالجة، ثم استُخدمت للتنبؤ على مجموعة البيانات الاختبارية. ويمكن تطبيق نفس خطوات المعالجة والنمذجة على أي مجموعة بيانات مطياف كتلي مماثلة، لا سيما عندما تكون المجموعات صغيرة.
تُعد نتائج وتقييم الأداء ضروريين لفهم الموضوع بشكل كامل. تظهر نتائج المنهجيات الموصوفة على مجموعات بيانات اختبارية غير مرئية. بشكل عام، كان أداء المؤلف في كلتا المسابقتين متميزاً. في مسابقة تحليل الغازات المتطورة-مطياف الكتلة، ركزت الجائزة الخاصة على الأداء على عينات اختبار محلل الغازات المتطورة، حيث قدمنا تحسناً كبيراً باستخدام شبكات CNN ثنائية الأبعاد مدربة مسبقاً، وهي تقنية لم تكن متاحة لمعظم المنافسين في تلك المسابقة لكنها تكررت في مسابقة GC-MS التالية، ما عزز الحلول الأولى.
أثبتت شبكات CNN المدربة مسبقاً تفوقها على بيانات EGA-MS أكثر من GC-MS؛ فرغم الضوضاء الأكثر وغياب قياسات درجات الحرارة في GC-MS، فرض هذا تحديات متنوعة سمحت لنهج متعددة بالتميّز.
جميع الحلول المتقدمة حسّنت المعيار بشكل كبير في كلتا المسابقتين. في مسابقة EGA-MS، اختفى الفارق الكبير بين الحلول الأخرى والمركز الأول على عينات اختبار محلل الغازات المتطورة بما يقترب من المعيار. كان الخطأ على عينات SAM أعلى بنحو 10% مقارنة بالتجارية، لكن الدقة انخفضت بأكثر من 50%. وتفوقت حلولنا بشكل لافت في الدقة على عينات SAM أيضاً، مما برهن مرة أخرى على قوة شبكات CNN ثانية الأبعاد المدربة مسبقاً لهذه البيانات.
بالنسبة لمسابقة GC-MS، رغم أن التحسن على المعيار لم يكن بارزاً للغاية، كانت النتائج النهائية للحلول الأولى مرتفعة جداً. مزيد من التفاصيل عن الحل الفائز متاحة على (تحليل الغازات المتطورة-مطياف الكتلة) و(مطياف الكتلة الغازية).
حسّنا الطريقة في مسابقة GC-MS بإضافة نماذج CNN ثنائية الأبعاد والاهتمام بتجنب الإفراط في التخصيص على مجموعات البيانات الصغيرة. وعملية معالجة البيانات الأسرع استناداً إلى خبرتنا من مسابقة EGA-MS منحت وقتاً أطول للتجربة. تركز النتائج الحالية أكثر على GC-MS لأن منهجيته أكثر دقة ومتانة.
تحققت دقة فردية جيدة جداً حيث أن عدد الإيجابيات الكاذبة ليس كبيراً، لكن الاستدعاء أقل، لا سيما للمركبات قليلة الوجود. وبلغ معامل الارتباط بين الاستدعاء وعدد المركبات 95%. إن الاستدعاء المرتفع ناتج عن كثرة السلبيات الكاذبة في تلك الفئات. هذه البيانات ليست صغيرة فحسب، بل غير متوازنة أيضاً؛ يتراوح عدد العينات لكل فئة من 26 إلى 307، وهناك 450 عينة بدون أي فئة. وبوجه عام، لكل مركب كيميائي تكون الدقة أعلى من الاستدعاء، أما العينات التي لا تحتوي على أي من المركبات التسعة فحدث العكس مع تفوق الاستدعاء على الدقة.
تباهي طريقةنا بدقة عالية على الهيدروكربونات (دقة 0.965 واستدعاء 0.909)، وهي أهداف رئيسية للبحث عن الجزيئات العضوية. ولتحسين الأداء لفئة الهيدروكربونات يمكن تدريب نماذج إضافية ثنائية الفئة (هيدروكربون/غير هيدروكربون)، أو استخدام مقاييس تعاقب الإيجابيات الكاذبة حسب الحاجة.
أظهرت النتائج قدرات نماذج الذكاء الاصطناعي على بيانات الطيف الكتلي للكشف عن مركبات كيميائية معينة في عينات جيولوجية مماثلة للمريخ. وما إذا كانت هذه النتائج تدل فعلياً على إمكانية السكن في الماضي فهذا أمر يقرره الخبراء. ويمكن أن توفر هذه الأبحاث رؤى قيمة لتصميم المهام الكوكبية المستقبلية التي تنفذ تحليلات ميدانية على المريخ أو أي جسم أرضي آخر، إضافة إلى مساعدة فرق تحليل بيانات الرحلات الجوية في تقييم محتوى البيانات قبل المعالجة المتعمقة.
قد تتسم النماذج المدربة على مجموعات بيانات صغيرة بالتخصيص الزائد أو الثقة المفرطة، فتؤدي جيداً فقط عند تطابق التوزيعات. ولنهج معمم ومتين، نقترح:
نماذج تصنيف الحافة مع تنظيم L2 لتقليل الإفراط في التخصيص، جرى تحسينها عبر استخدام الغابة العشوائية لاختيار أهم الميزات.
الانحدار اللوجستي الذي يتطلب تعديل معلمة واحدة (C) وثبت فعاليته بشكل عام.
نماذج CNN مدربة مسبقاً على ImageNet تبدأ تدريبها من نقطة ما بعد التعلم على آلاف الصور المختلفة؛ اخترنا EfficientNetB0/B1/B2 لسرعتها ودقتها.
ضمّن نموذج GC-MS أيضاً شبكة عصبية بسيطة حققت أداءً جيداً على OOF لكنها ربما تخصصت أكثر من اللازم، لذا قللنا وزنها في التجميع النهائي، رغم أن التحقق المتقاطع أشار إلى أن وزنها كان ينبغي أن يكون 2.5 مرة أعلى من بقية النماذج.
بصرف النظر عن القوة، كانت سرعة الاستدلال دون فقدان الدقة مصدر قلق، إذ يمكن استخدام هذه النماذج في مهمات فضائية. عند الاستدلال على “Intel(R) Xeon(R) CPU @ 2.20GHz” بأربعة نوى، كانت ثلاث من النماذج سريعة جداً ويمكن حتى تشغيل نماذج CNN 2D بسرعة مقبولة على CPU دون الحاجة إلى GPU أو مسرعات أخرى. يستغرق إنشاء جميع مجموعات البيانات الضرورية حوالي 64 دقيقة لـ1584 عينة (متوسط 2.42 ثانية للعينة بخيط واحد). ويحتاج الاستدلال إلى 0.025 ثانية لعينة في الشبكات البسيطة و0.3 ثانية في CNN 2D. ويمكن خفض وقت الاستدلال خمس مرات إذا استخدمنا تدريباً واحداً كاملاً بدلاً من 5 طيات، وباستخدام المعالجة متعددة الخيوط. يستهلك الأنبوب أقل من 3 ثوانٍ لعينة من الطيف الكتلي الخام إلى نتيجة التصنيف باستخدام python، في حين أن التطبيقات المكتوبة بـC/C++ ستكون أسرع بكثير، كما هو شائع في المهام الفضائية.
إن إضافة نظام آلي لتطبيق نماذج الذكاء الاصطناعي على بيانات الطيف الكتلي في مركبة فضائية كوكبية قابل للتحقق سيفيد المهام القادمة. يمكن تحسين قدرات المعالجة في المركبات الجوالة مستقبلاً بمتابعة التقدم التكنولوجي، إذ لا يتطلب النهج الحالي موارد عالية ويمكن استخدامه مع معالجات أبطأ.
اختبرنا عدة نماذج وتقنيات أدت إلى نتائج أسوأ ولم تُدرج في النظام النهائي كما يتضح في الملحق.
أجرينا تجارب كثيرة، وأُقصيت النماذج الواعدة في المراحل الأولى عند تحسن أداء الشبكات العصبية. في GC-MS أجرينا تجارب أكثر استناداً لخبرتنا السابقة مع EGA-MS، واستخدام 5 طيات بدلاً من 10 طيات سرعت التجارب رغم أن المزيد من الطيات قد يعزز الأمان على المجموعات الصغيرة. لم تجنِ التسمية الزائفة فوائد كبيرة في GC-MS وخلط القيم أضاف ضوضاء. كذلك خفض عدد أيونات أو تغيير الخطوات الزمنية أو الشكل الطيفي أدى إلى نتائج أسوأ.
هاتان المجموعتان من البيانات أصليتان ومثيرة للاهتمام. للمستقبل، سيكون من المفيد توفر مزيد من البيانات للتدريب، إذ أن كلاهما صغير نسبياً. قد تعمل نماذج فشلت سابقاً مع مزيد من البيانات، أو قد تستبدل النماذج الحالية بأخرى أفضل. ويمكن أن يشمل العمل المستمر:
استخدام مزيد من هياكل CNN المدربة مسبقاً،
تجربة نماذج CNN مدربة مسبقاً مع pytorch،
المزيد من التجارب باستخدام إطار عمل pytorch،
استخدام كشف الذروة لاستخراج الميزات،
إزالة الضوضاء الخلفية بطرح قيمة الكثافة التي تسبق أو تلي الذروة مباشرة (اقتراح منظم المسابقة)،
تجربة قيم m/z العائمة الأولية أو طرق تقريب مختلفة،
مراجعة جميع الأمور التي لم تنجح سابقاً.
تُستخدم تقنيات التعلم الآلي كنماذج حسابية للتعلم مباشرة من البيانات بدون معادلات مسبقة، محولة البيانات الخام إلى رؤى قابلة للتنفيذ. باستخدام نماذج الذكاء الاصطناعي المختلفة على بيانات مطياف الكتلة، حققنا نتائج دقيقة في وقت قصير. وهذا مهم في المهام المستقبلية لمعالجة بيانات الطيف الكتلي أثناء الرحلة. كان تحويل الجذر لقيم الشدة/الوفرة مهماً لتعزيز الدقة، في حين أتاح إنشاء الطيفيات الثنائية الأبعاد استخدام شبكات CNN مدربة مسبقاً بأداء استثنائي. التعميم عنصر أساسي مع المجموعات الصغيرة؛ فاختيار النماذج وتجميعها وإجراءات التدريب المناسبة كان حاسماً لتقليل الإفراط في التخصيص والثقة الزائدة. ومع حصولنا على مزيد من البيانات ستتحسن الدقة. على الرغم من أن النماذج درّبت أساساً على بيانات من الأجهزة التجارية، فقد كان أداء التنبؤ على SAM EGA-MS جيداً. يشكل تحليل الغازات المتطورة وGC-MS مع التعلم الآلي شركات قيمة لتحليل رواسب المريخ وعلى أي جسم أرضي آخر في نظامنا الشمسي. ويمكن تشغيل هذه التحليلات الذكية على الحافة بفعالية للاستفادة منها في المهام القادمة.
يعلن المؤلف أنه لا توجد لديه مصالح مالية تنافسية معروفة أو علاقات شخصية يمكن أن يُظن أنها تؤثر على العمل المبلغ عنه في هذه الورقة.
قدمت NASA الدعم لتطوير SAM. تم توفير مجموعات البيانات لهذين التحديين من قبل مركز NASA Goddard ومركز NASA Johnson لرحلات الفضاء. جُمعت البيانات بمعاونة علماء تحليل العينات في المريخ (SAM): Doug Archer، Charles Malespin، Caroline Freissinet، Stephanie Getty، Luoth Chou، Eric Lyness، Victoria Da Poian، وفريق DrivenData. أُرشفّت بيانات جميع تجارب SAM في نظام البيانات الكوكبية (pds.nasa.gov).
نُشرت المجموعتان أيضاً بعد المسابقات في (website:opendata.awsNASA-EGAMS) و(website:opendata.awsNASA-GCMS).