تحليل بيانات مطياف الكتلة باستخدام الذكاء الاصطناعي لفهم قابلية السكن في المريخ القديم وتقديم رؤى للمهام المستقبلية

Ioannis Nasios

latex

مُلَخَّص

يقدم هذا البحث تطبيقاً للذكاء الاصطناعي على بيانات مطياف الكتلة للكشف عن إمكانية السكن في المريخ القديم. على الرغم من أن البيانات جُمعت لكوكب المريخ، يمكن تكرار نفس النهج لأي جسم أرضي في نظامنا الشمسي. بالإضافة إلى ذلك، يمكن تكييف المنهجية المقترحة لأي مجال يستخدم مطياف الكتلة. يركز هذا البحث على تحليل بيانات تقنيتين لمطياف الكتلة، تحليل الغاز المتطور (EGA-MS) وكروماتوغرافيا الغاز (GC-MS)، واللتين تُستخدمان لتحديد المركبات الكيميائية الخاصة في عينات المواد الجيولوجية. توضح الدراسة قابلية تطبيق بيانات EGA-MS و GC-MS على تحليل المواد خارج الأرض. تشمل أهم ميزات المنهجية المقترحة تحويل الجذر التربيعي لقيم مطياف الكتلة، وتحويل البيانات الخام إلى مطيافات ثنائية الأبعاد، واستخدام نماذج وتقنيات تعلم الآلة المحددة لتجنب الإفراط في التخصيص على مجموعات البيانات الصغيرة نسبياً. تأتي مجموعات بيانات EGA-MS و GC-MS من وكالة ناسا ومن مسابقتين لتعلم الآلة شارك فيهما الكاتب واستفاد منهما. الكود الكامل لتشغيل مجموعة بيانات/مسابقة GC-MS متاح على GitHub.1 تتضمن بيانات مطياف الكتلة التدريبية الخام تسميات [0,1] للمركبات الكيميائية المحددة، المختارة لتقديم رؤى قيمة والمساهمة في فهمنا لإمكانية السكن المحتملة في المريخ في الماضي.

مقدمة

يُستخدم التعلم الآلي في المزيد من التطبيقات والمجالات. بدءاً من مجموعة بيانات تدريبية موسومة، يمكن تدريب نماذج التعلم الآلي (الخوارزميات)، ويمكنها تعلم مجموعة البيانات. عند انتهاء تدريب النموذج، يتم ضبط معلماته الفائقة. يمكن بعد ذلك تخزين النماذج المدربة وتحميلها للاستدلال على أي بيانات مماثلة. يمكن أيضاً استخدام نماذج التعلم الآلي لتعلم بيانات الطيف الكتلي لعينات المواد. يمكن استخدام الكشف عن وجود أو عدم وجود مركبات كيميائية محددة في العينات الجيولوجية في العديد من التطبيقات المختلفة. المركبات التي يجب اكتشافها تحددها المشكلة التي يجب معالجتها في كل مرة. الطرق المقدمة هنا، رغم أنها مضبوطة لمجموعات بيانات محددة، يمكن أيضاً استخدامها لمجموعات بيانات الطيف الكتلي الأخرى.

تم توفير البيانات الأولية لهذا البحث من قبل ناسا. سواء كان يمكن إنتاج جميع المركبات الكيميائية المختارة بواسطة عمليات غير حيوية أو توفير دليل على الحياة ليس موضوع هذه المخطوطة. يمكن تكييف المنهجية الحالية لأي مجموعة بيانات أخرى. سيكون من المفيد إدراج مركب(ات) جديد(ة) أو استبعاد مركب(ات) موجود(ة) يمكن أن تفسر بشكل أفضل ظروف الصلاحية للسكن أو تميز العمليات غير الحيوية عن الحياة، في دراسة الصلاحية السابقة للسكن في المريخ.

أهمية الذكاء الاصطناعي/التعلم الآلي في معالجة بيانات الفضاء كبيرة للغاية. هذا واضح في ورقة العمل البيضاء للذكاء الاصطناعي لتقدم علم الأحياء الفلكية واستكشاف العلوم القمرية والكوكبية للعقد (varatharajan2021artificial) والمراجع المذكورة فيها. كما خلصت الدراسة، فإن الأدوات والمنهجيات المدفوعة بالذكاء الاصطناعي لها القدرة على دعم مجتمع علم الأحياء الفلكية والكوكبية، واستغلال مجموعات البيانات المتاحة حالياً بفعالية، والمساعدة في الاستعداد للعقد القادم من العلوم والاستكشاف. بالإضافة إلى ذلك، قدمت (slingerland2022adapting) مجموعة من أفضل الممارسات لمساعدة دراسة الاستقلالية المستندة إلى الذكاء الاصطناعي التي تعزز الثقة وتقلل الحواجز أمام تبني المهمة.

أدوات الطيف الكتلي هي أدوات حاسمة للبعثات التي تسعى للبحث عن علامات محتملة للصلاحية للسكن أو حتى للكشف عن مؤشرات الحياة على الأجسام السماوية. لهذا، أجرت ناسا مسابقتين للتعلم الآلي ليس فقط لمساعدة الباحثين في تسريع تحليلهم للبيانات، ولكن أيضاً لإظهار جدوى تطبيق نهج علم البيانات والتعلم الآلي على بيانات الطيف الكتلي المعقدة في المهام القادمة. الهدف كان الكشف عن وجود عائلات معينة من المركبات الكيميائية في عينات المواد الجيولوجية باستخدام بيانات الطيف الكتلي لتحليل الغازات المتطورة (EGA-MS) أو الطيف الكتلي للكروماتوغرافيا الغازية (GC-MS)، التي تم جمعها لمهام استكشاف المريخ. هذه العائلات من الصخور والمعادن والمركبات الأيونية ذات الصلة بفهم إمكانيات الصلاحية السابقة للسكن في المريخ. تهدف مجموعات بيانات المسابقات البحثية كما ذكر، إلى “توجيه العمليات العلمية، وتقليل الاعتماد على التحليل المتداخل مع الأرض، وإعطاء الأولوية للنقل عبر مسافات طويلة”. مع التواصل المحدود للغاية بين المريخ والأرض من حيث توفر الوقت وعرض النطاق، يجب دمج الاستقلالية المتقدمة في المركبات الجوالة المستقبلية (ono2022machine). في مهمة مستقبلية على جسم أرضي، يمكن برمجة المركبة الجوالة لاستخدام هذه التحليلات لاتخاذ إجراءات إضافية مثل إعادة أخذ العينات من مكان دون الانتظار لتلقي أمر صريح. سيكون هذا أكثر قيمة للأجسام الأبعد بسبب تأخير الوقت الأكبر في الاتصال.

تم إرسال العديد من البعثات إلى المريخ ومن المخطط إرسال المزيد في المستقبل القريب. من بين هذه البعثات، هناك المركبة الجوالة كيوريوسيتي التي مزودة بأجهزة الطيف الكتلي لتحليل العينات الجيولوجية. المركبة الجوالة كيوريوسيتي، التي كانت على المريخ منذ 5 أغسطس 2012، أثبتت أنها ذات إنتاجية عالية. على متن كيوريوسيتي يوجد جهاز تحليل العينات في المريخ الذي يحلل العينات الجيولوجية باستخدام طرق الطيف الكتلي. أنتجت أجهزة جهاز تحليل العينات في المريخ أبحاثاً علمية واسعة مثل تحليل الغازات المتطورة لفهم حالة الأكسدة للكبريت في العينات من منطقة جيلين توريدون الغنية بالطين (wong2022oxidized) وتحديد الجزيئات العضوية بواسطة الكروماتوغرافيا الغازية (millan2016situ). لا يزال كيوريوسيتي نشطاً ولا يُعرف بالضبط متى سيتم تعطيله. على الرغم من أن المنهجية والبيانات المقدمة لأجهزة جهاز تحليل العينات في المريخ، فإنه من الأهم أن توفر رؤى قيمة للمهام المستقبلية التي تحتوي على أجهزة مماثلة.

استخدمت العديد من بعثات المريخ أجهزة الطيف المختلفة لدراسة البيئة المريخية وتقييم صلاحيتها للسكن. قام العديد من الباحثين بتحليل وتجريب هذه البيانات. أنواع الطيف المستخدمة للمريخ تشمل طيف الأشعة تحت الحمراء سوبركام على المركبة الجوالة بيرسيفيرانس والذي صُمم لتحليل المعادن والمركبات العضوية في عينات الصخور والتربة (fouchet2022supercam)، والطيف الأشعة فوق البنفسجية SPICAM على المدار المريخ إكسبريس الذي يركز على دراسة الغلاف الجوي المريخي (bertaux2006spicam) وتقنيات الطيف الأخرى مثل الطيف الرامان والطيف الانهيار الضوئي المستحث بالليزر (clegg2014planetary).

يُعد تحليل الغازات المتطورة بالطيف الكتلي تقنية قوية تُستخدم لتوصيف أنواع مختلفة من العينات، بما في ذلك المواد خارج الأرض والتربة والمعادن والمركبات العضوية. تتضمن هذه الطريقة تسخيناً مضبوطاً (يتم تسجيل درجات الحرارة) لعينة في تدفق غاز وتحليل الغازات المتطورة باستخدام الطيف الكتلي لتحديد وتقدير الأنواع الكيميائية المنطلقة. أظهرت الدراسات الحديثة قابلية تطبيق تحليل الغازات المتطورة بالطيف الكتلي في مجموعة واسعة من المجالات، من دراسات استخراج المياه باستخدام الموارد الموجودة في الموقع على تربة محاكاة المريخ (clark2020jsc)، إلى تحديد المعادن الثانوية في الطين (zumaquero2020application) وتقييم التأثيرات التآزرية والبيانات الحركية في التحلل الحراري المشترك للخشب والبلاستيك (nardella2021co). كما اقترح (verchovsky2020quantitative) نهجاً كمياً لتحليل العينات خارج الأرض، مما يبرز أهمية فهم شامل لآليات إطلاق الغاز واعتمادها على خصائص العينة. هنا، يتم استخدام نماذج وتقنيات التعلم الآلي المتطورة لتصنيف أنواع مختلفة من عينات المريخ التماثلية. يمكن أيضاً استخدام هذا للحصول على رؤى حول الاستخدام المحتمل للطيف الكتلي لاستكشاف كواكب وأقمار أخرى في النظام الشمسي، ولتحليل العينات التي تعود من المهام الفضائية.

تقنية كروماتوغرافيا الغاز والطيف الكتلي

تُعتبر تقنية كروماتوغرافيا الغاز والطيف الكتلي أيضاً تقنية قوية تُستخدم على نطاق واسع في مجالات متعددة، بما في ذلك علوم الأغذية، والكيمياء، وتحليل البيئة والصيدلة. يوفر دمج تقنية كروماتوغرافيا الغاز والطيف الكتلي مع التعلم الآلي تحديداً سريعاً للخلائط المعقدة. (chou2021planetary) فحص عدة نهج ممكنة للكشف عن الحياة المحايدة باستخدام الطيف الكتلي. تشمل تطبيقات تقنية كروماتوغرافيا الغاز والطيف الكتلي تصنيف المنتجات الغذائية. (tan2018determining) طور نظام أنف إلكتروني يعتمد على الشبكة العصبية الاصطناعية مقترناً بتقنية كروماتوغرافيا الغاز والطيف الكتلي لتحديد درجة التحميص في حبوب الكاكاو، بينما (pastor2022classification) استخدم بصمات الأصابع الشحمية لتقنية كروماتوغرافيا الغاز والطيف الكتلي والتعلم الآلي لتصنيف عينات دقيق الحبوب. (aghili2022detection) استخدم أيضاً تقنية كروماتوغرافيا الغاز والطيف الكتلي للكشف عن النشاط الاحتيالي في زيت السمسم من خلال دمج الذكاء الاصطناعي مع طرق الكيمياء الحاسوبية وتوصيف المركبات الكيميائية. هذا يُظهر تنوع تقنية كروماتوغرافيا الغاز والطيف الكتلي في توفير تحليل دقيق وحساس وصحيح في مجالات متعددة، والتي بالاقتران مع الذكاء الاصطناعي يمكن أن تشكل أداة تحليلية أساسية للباحثين والصناعات على حد سواء.

المواد والطرق

تأتي هذه البحوث بعد مشاركة الكاتب في مسابقات تعلم الآلة التابعة لوكالة ناسا، “طيفية المريخ: الكشف عن دلائل للصلاحية السابقة للحياة” (7 من بين 713 مشاركاً، فبراير-أبريل 2022) و“طيفية المريخ 2: الكروماتوغرافيا الغازية” (الجائزة الثالثة، سبتمبر-أكتوبر 2022)، على منصة درايفنداتا، كتأكيد لقدرات التعلم الآلي على بيانات الطيف الكتلي لتصنيف المركبات. الخبرة المكتسبة في المسابقة الأولى تم تطبيقها بنجاح في الثانية. العمل مع كلا نوعي البيانات يشترك في تشابهات ويمكن أن يعطي فهماً أفضل وأوسع لكيفية استخدام بيانات الطيف الكتلي ونماذج الذكاء الاصطناعي بفعالية.

إعداد مجموعات البيانات للنماذج

تأتي البيانات الأولية على شكل ملف csv واحد لكل عينة. بالنسبة لبيانات EGA-MS، يمكننا أن نرى في الأسفل بداية ملف عينة. بالنسبة لبيانات GC-MS، لا يوجد عمود لدرجة الحرارة وبدلاً من عمود الوفرة يوجد عمود مكافئ للشدة. الفرق الرئيسي بين المجموعتين من البيانات هو بُعد درجة الحرارة الذي لا يوجد في بيانات GC-MS. كما ذكر لبيانات GC-MS، “يمكن استخدام الزمن كبديل لدرجة الحرارة، لكن معدل ارتفاع درجة الحرارة غير معروف بدقة ولا يكون متماثلاً عبر العينات. دائماً ما يكون الحال أن الملاحظات في الأوقات اللاحقة تكون لمركبات تم إطلاقها عند درجات حرارة أعلى. في معظم العينات، من المتوقع أن تظل درجة الحرارة ثابتة للدقائق الأولى من 0 إلى 5 دقائق، ثم تزداد بمعدل تقريبي من 5 إلى 10 درجات في الدقيقة حتى تصل إلى حوالي 300 درجة. ومع ذلك، نظراً لأن الوقت قبل بدء الارتفاع ومعدل زيادة درجة الحرارة يختلفان بين العينات، فإن نفس الوقت سيمثل درجات حرارة مختلفة عبر العينات”. توفر تسجيلات درجة الحرارة في EGA-MS معرفة أكثر تفصيلاً وفهماً لمتى وكمية الغاز المنطلق من العينة.

تصنيفات البيانات

بالنسبة لبيانات تحليل الغازات والكتل الجزيئية بالطريقة الكهربائية، هناك 10 فئات، بينما لبيانات تحليل الغازات والكتل الجزيئية بالطريقة الكروماتوغرافية، هناك 9 فئات، كل منها يشير إلى وجود مادة تنتمي إلى عائلات الصخور، المعادن، أو المركبات العضوية المعنية في العينة. نظراً لأن هذه المهام متعددة التصنيفات، يمكن أن يكون هناك أكثر من فئة واحدة موجودة في عينة واحدة أو يمكن أن تكون هناك عينات بدون أي فئة على الإطلاق. يمكن الاطلاع على تفاصيل مفصلة لكلتا المجموعتين في .

مجموعة بيانات EGA-MS

تتكون بيانات التدريب من 1047 عينة من الأجهزة التجارية و 12 عينة من نموذج أداة اختبار SAM. إن بناء خط أنابيب نمذجة يؤدي بشكل جيد أيضاً على عينات اختبار SAM ويضيف صعوبة وتعقيداً إضافيين. كما يمكن ملاحظته في الرسوم البيانية في (a) و ، ومن خلال استكشاف البيانات بشكل أكثر شمولاً، فإن نوعي العينات لدينا مختلفان جداً. يبدو أن هناك المزيد من الضوضاء ودرجات الحرارة الأعلى في عينات SAM. تشمل بيانات الاختبار 64 عينة من SAM و 446 تجارية، وهي نسبة أعلى من عينات SAM مقارنة ببيانات التدريب. وأخيراً، هناك أيضاً بعض البيانات الإضافية التي تشمل 41 عينة من SAM و 220 تجارية (مجموعة فرعية مع غاز الناقل “he” ولا ضغط مختلف) ولكن هذه البيانات لا تحتوي على تسميات وتستخدم فقط بطريقة غير مشرفة (تسمية زائفة).

تم جمع البيانات من مختبرات متعددة من مركز غودارد لرحلات الفضاء ومركز جونسون للفضاء التابعين لناسا. تم استخدام نوعين من الأجهزة لإجراء القياسات:

  1. الأجهزة التجارية - تأتي البيانات من أجهزة تم تصنيعها تجارياً وتم تكوينها كنظائر لـ SAM في مختبرات غودارد وجونسون. تم جمع البيانات كعدد كامل من قيم m/z تتراوح من 0.0 إلى 100.0.

  2. نموذج اختبار SAM - تأتي البيانات من نموذج اختبار SAM في غودارد، وهو نسخة من مجموعة أدوات SAM على كيوريوسيتي. تم جمع البيانات لقيم m/z تصل إلى 534.0 أو 537.0 وأحياناً تشمل قيماً كسرية.

في إعداد البيانات للنماذج، يتم اتخاذ الخطوات التالية:

  1. استخدام أول 100 قيمة m/z (نسبة الكتلة إلى الشحنة) لمجموعة بيانات موحدة يقودها الأجهزة التجارية بمدى محدود.

  2. يتم إزالة قيم m/z الكسرية عند وجودها.

  3. يتم أيضاً إسقاط m/z 4، والذي يتوافق مع غاز الناقل الهيليوم.

  4. لكل أيون في العينة يتم طرح القيمة الدنيا للوفرة حيث تمثل هذه الوجود الخلفي للأيون. يمكن أن يحدث هذا لأسباب مختلفة، مثل التلوث من الغلاف الجوي. الحد الأدنى الجديد لكل أيون في العينة هو صفر. (خطوة اقترحها منظمو المسابقة، ولم يتم إجراء أي تجربة بخلاف ذلك).

  5. يتم تطبيق تحويل الجذر التربيعي. التجارب التي أُجريت مثل عدم استخدام أي تحويل أو استخدام تحويل اللوغاريتم بدلاً من ذلك أعطت نتائج أسوأ.

  6. يتم تطبيع الوفرة من 0 إلى 1 داخل عينة واحدة. التطبيع تقريباً في كل مرة وهنا أيضاً، هو عنصر مهم في أداء الشبكات العصبية. مع هذا التحجيم، يتم فقدان الوفرة النسبية بين العينات ولكن الأهم هو الحفاظ على الوفرة النسبية بين أيونات العينة نفسها.

لإنشاء مجموعة البيانات الأساسية، يتم الحصول على نطاق درجة الحرارة الكلي في صناديق (بدرجات X) وحساب الوفرة النسبية القصوى داخل تلك الصناديق لكل قيمة m/z. مع أربعة عروض مختلفة لصناديق درجة الحرارة [50, 100, 200, 400], يتم إنشاء أربع مجموعات بيانات أساسية. داخل كل صندوق، يتم الحصول على القيمة القصوى للوفرة. كما يتم إنشاء مجموعة بيانات ثانوية تحتوي على 7 ميزات غير الوفرة: الوقت الأقصى، الانحراف المعياري للوقت، درجة الحرارة القصوى، درجة الحرارة المتوسطة، الانحراف المعياري لدرجة الحرارة وعدد السجلات في الملف.

تحليل الغازات والطيف الكتلي

تم جمع هذه البيانات فقط باستخدام أجهزة مصنعة تجارياً والتي تم تكوينها كنظائر لـ SAM في جودارد. للتدريب، هناك 1121 عينة وللاختبار 463. من ملفات csv الأولية، تم إنشاء ثلاث مجموعات من مجموعات البيانات للتدريب والاختبار. شكل هذه المجموعات هو [number of samples, 600 m/z, 500 خطوات زمنية]. يمكن اعتبار كل عينة في مجموعة البيانات المنشأة كصورة، كمخطط طيفي. لإنشاء هذه المجموعات، مطلوب مجموعة من خطوات المعالجة. أولاً، يتم تقريب جميع قيم m/z الأولية العائمة إلى أعداد صحيحة. نظراً لأن عدد m/z المختلفة لكل عينة يختلف، يتم ملء جميع فجوات الكثافة بالصفر (ملء بالصفر عند أعلى أو أحياناً أقل قيم m/z، يظهر كشريط داكن في الأسفل في fig:SameSample_DifferentDataset). نظراً لأن عدد الخطوات الزمنية لكل عينة يختلف، إذا كان أكبر من 500، فأستخدم القيمة القصوى بينهما، وإلا كرر القيمة التالية أو السابقة.

تختلف المجموعات الثلاث الأولية عن بعضها البعض فيما إذا كانت تحولات الجذر التربيعي واللوغاريتمية الثانوية قد تم تطبيقها أم لا، إذا تم تنعيم منحنى الأيون على مر الزمن أم لا وقيمة القطع العلوية. التنعيم هو متوسط متحرك بسيط بطول 3، يتكرر مرتين. أخيراً، يتم تحجيم المجموعات في نطاق 0-255 وحفظها كنوع بيانات uint8 للضغط والاستخدام لاحقاً. الأعداد في نطاق 0-255 هي نطاق البيانات الذي تستخدمه نماذج EfficientNet المدربة مسبقاً. هذا التأثير الضاغط، من تحويل الأعداد العائمة إلى أعداد صحيحة، بالإضافة إلى فقدان البيانات من تقريب قيم m/z العائمة الأولية، على الرغم من أنه لم يتم قياسه (على نماذج CNN ثنائية الأبعاد غيرها)، لم يكن من المتوقع أن يؤثر بشكل كبير على الأداء لأن البيانات كانت مزعجة وقد تكون قد عملت كمزيل للضوضاء. ومع ذلك، قد يكون شيئاً يستحق الاختبار في عمل مستقبلي.

بعد تحويل قيم الطيف الكتلي إلى صور مخططات طيفية، يمكن تصور بياناتنا واستخدامها بواسطة نماذج CNN ثنائية الأبعاد. في fig:SameSample_DifferentDataset، تبدو مخططات الطيف للمجموعة 1 والمجموعة 1b متشابهة جداً ولكن المجموعة 2، التي تستخدمها نماذج الشبكة العصبية، تبدو مختلفة تماماً. المحور الأفقي يمثل الزمن والمحور الرأسي يمثل الأيون (m/z). قيمة البكسل هي شدة أيون في خطوة زمنية معينة. لاحظ أنه في الأسفل دائماً يوجد شريط داكن من القيم الصفرية عندما لا توجد أيونات من هذا النوع m/z في العينة (الصف الأول دائماً صفر أيضاً، حيث لا يوجد أيون بكتلة 0).

جميع النماذج الأخرى، باستثناء نماذج CNN ثنائية الأبعاد، يتم تدريبها باستخدام الميزات الإحصائية المشتقة من مجموعات البيانات الأولية. تُستخدم مجموعات البيانات الإحصائية التالية لتدريب النموذج:

\(\bullet\) الميزات الإحصائية A

تأتي المجموعة من المجموعة 2، من خلال أخذ المتوسط، الحد الأقصى والانحراف المعياري لكل عينة زمنياً والمتوسط والانحراف المعياري أيونياً، جميعها مقيمة إلى الفاصل [0,1].

\(\bullet\) الميزات الإحصائية B

تأتي المجموعة من المجموعة 1، من خلال أخذ المتوسط، الانحراف المعياري والانحراف لكل عينة زمنياً والمتوسط أيونياً، مقيمة إلى الفاصل [-0.5,0.5].

\(\bullet\) الميزات الإحصائية C

تأتي المجموعة من المجموعة 1، من خلال أخذ المتوسط، الحد الأقصى والانحراف المعياري لكل عينة زمنياً والمتوسط أيونياً، مقيمة إلى الفاصل [0,1].

\(\bullet\) الميزات الإحصائية D

تأتي المجموعة من المجموعة 1b، من خلال أخذ المتوسط، الحد الأقصى والانحراف المعياري لكل عينة زمنياً والمتوسط أيونياً، مقيمة إلى الفاصل [0,1].

تتشابه مجموعات البيانات الإحصائية هذه إلى حد كبير. تهدف الاختلافات الصغيرة بينها مثل نطاق التحجيم، الإحصائيات المستخدمة ومجموعة البيانات الأولية إلى زيادة أداء النموذج الفردي حيث أدت نماذج مختلفة بشكل أفضل مع نوع معين من مجموعة البيانات الإحصائية (كما من التجربة). بالإضافة إلى ذلك، تباينت تقديرات النماذج الفردية بين النماذج، مما يحسن التقديرات النهائية للمجموعة (المتوسط).

كانت كلتا المجموعتين أصليتين ولم يتم استخدامهما من قبل. يمكن العثور على مزيد من المعلومات حول بيانات الطيف الكتلي الأولية على صفحات الويب للمسابقات، EGA-MS و GC-MS. وأخيراً، يجدر بالذكر أنه لم يتم استخدام أي خوارزمية للكشف عن الذروة الكروماتوغرافية لكل من مجموعات البيانات EGA و GC، ولا أي إنشاء ميزة من الذروات.

المقياس

مقياس بحثنا ومسابقاتنا هو الخسارة اللوغاريتمية المجمعة للمعادلة ([eqn:aggLL]) \[\displaystyle AggLogLoss = -\frac{1}{M*N} \sum\limits_{m=1}^{M}\sum\limits_{n=1}^{N} \left((y_{nm} * \log{ \hat{y}_{nm}})+ ( 1- y_{nm}) * (1-\log{ \hat{y}_{nm}}) \right) \label{eqn:aggLL}\]

يتم حساب الخسارة اللوغاريتمية الثنائية لكل فئة ممكنة ولكل عينة، ثم يتم إرجاع متوسط النتائج. هذه مهمة تصنيف متعددة العلامات حيث تمثل \(N\) عدد العينات و \(M\) عدد الفئات الممكنة. \(y_{nm}\) هي قيم الحقيقة الأرضية و \(\hat{y}_{nm}\) هي احتمالات التنبؤ. توفر الخسارة اللوغاريتمية عقوبة شديدة للتنبؤات التي تكون واثقة وخاطئة.

النمذجة

تتكون نماذج التعلم الآلي من شبكات عصبية متكررة باستخدام إطارات عمل tensorflow وpytorch لبيانات EGA-MS وأربعة نماذج (القسم [sec:GCMS_modelling])، بدون شبكة عصبية متكررة، ولكن تشمل شبكات عصبية تلافيفية مدربة مسبقاً وشبكات عصبية بسيطة (tensorflow فقط) لمجموعة بيانات GC-MS.

EGA-MS

النمذجة تتكون من 3 أنواع من النماذج، 4 مجموعات بيانات (صناديق مختلفة)، مستويين و3 تكرارات. النماذج المستخدمة هي:

\(\bullet\)

نموذج الشبكة العصبية المتكررة في Keras مدرب على جميع الفئات الـ 10 في طبقة الإخراج النهائية

\(\bullet\)

نموذج الشبكة العصبية المتكررة في Keras مدرب على فئة واحدة في طبقة الإخراج النهائية. (10 نماذج)

\(\bullet\)

نموذج الشبكة العصبية المتكررة في Pytorch مدرب على جميع الفئات الـ 10 في طبقة الإخراج النهائية

هندسة النموذج: نموذج الشبكة العصبية المتكررة يتكون من 4 طبقات كاملة مع 1 LSTM ثنائية الاتجاه و3 طبقات كثيفة بما في ذلك طبقة الإخراج. طبقات LSTM، (yu2019review)، هي الأفضل لالتقاط الجانب الزمني لزيادة درجة الحرارة ضمن الشبكات العصبية المتكررة. بالإضافة إلى ذلك، من أجل الحفاظ على جانب استقلالية درجة الحرارة، حيث أن ملف تعريف درجة الحرارة على عينات SAM يختلف عن تلك التجارية، يتم استخدام طبقات التجميع (maxpooling و averagepooling) لكل أيون، ممثلة القيمة القصوى والمتوسطة للأيون ضمن ملفه الحراري.

أوزان نماذج Pytorch على التجميع النهائي صغيرة نسبياً لكنها أدت أفضل على عينات SAM خارج الطي (OOF). أيضاً، ضمن خط أنابيب تدريب Pytorch، يتم استخدام تعزيز ضعيف للخلط (zhang2017mixup)، حيث أن هذا زاد من درجة OOF (لم تتحسن نماذج Keras مع الخلط).

البيانات: تم تدريب نماذج Keras بمدخلات بيانات أولية وثانوية (مدخلان) بينما تم تدريب نموذج Pytorch فقط بمجموعة البيانات الأولية. يتم استخدام أربع مجموعات بيانات أولية مختلفة، لذا يتم إجراء 4 تدريبات مختلفة. يتم توسيط التنبؤات على هذه الأربع تشغيلات المختلفة.

نماذج المستوى 1. يتم تدريب كل نموذج مع كل مجموعة بيانات باستخدام تقسيم تحقق متقاطع مكون من 10 طيات مصنفة، (stone1974cross). يتم حفظ التنبؤات خارج الطي بالإضافة إلى تنبؤات البيانات الإضافية. التنبؤات خارج الطي هي التنبؤات للبيانات التدريبية التي تم إجراؤها عن طريق تقسيم مجموعة البيانات بأكملها إلى 10 أجزاء، التدريب باستخدام 9 منها والتنبؤ بالجزء الأخير. يتم تكرار هذا 10 مرات مع ترك جزء مختلف خارج التدريب في كل مرة. التنبؤات خارج الطي هي التنبؤات للبيانات التدريبية من النماذج المدربة في جزء مختلف من البيانات.

نماذج المستوى 2، التسمية الزائفة. باستخدام التنبؤات المتوسطة على البيانات الإضافية كأهداف، يتم توسيع مجموعة البيانات التدريبية ويتم تكرار التدريب بالكامل (نماذج Keras فقط). مع التسمية الزائفة، وهي تقنية تعلم آلي مستخدمة على نطاق واسع، غالباً ما يزداد أداء النموذج، (lee2013pseudo). هنا، تدريب نماذج إضافية بما في ذلك التسمية الزائفة على البيانات الإضافية حيث تكون عينات SAM أكثر، قد حسنت نتائج OOF خاصة لعينات SAM.

التكرارات: لتحسين التعميم، يتم تشغيل كل نموذج 3 مرات، كل مرة ببذرة مختلفة لحالة عشوائية أولية مختلفة، باستخدام مبادئات الطبقات الافتراضية في Keras والتي لأكثر طبقة كثيفة شائعة هي طريقة glorot uniform، (glorot2010understanding).

التجميع التنبؤات النهائية هي متوسط مرجح لجميع النماذج. مع التجميع (dietterich2000ensemble)، وهي تقنية تعلم آلي شائعة، يزيد توسيط احتمالات التنبؤ للنماذج من الأداء العام.

تحليل الغازات والكروماتوغرافيا الكتلية

لبيانات تحليل الغازات والكروماتوغرافيا الكتلية، تم استخدام النماذج التالية:

\(\bullet\)

شبكة عصبية اصطناعية بسيطة مخصصة باستخدام keras فوق tensorflow

\(\bullet\)

شبكة عصبية محددة مسبقاً على imagenet CNN (EfficientNetB0/1/2 keras فوق tensorflow)، (tan2019efficientnet)

\(\bullet\)

الانحدار اللوجستي، (berkson1944application)

\(\bullet\)

تصنيف الحافة، (hoerl1970ridge)

تُستخدم نماذج الغابات العشوائية (breiman2001random) لغرض اختيار الميزات (تقليل الأبعاد) فقط ولذلك لا تكون جزءاً مباشراً في النموذج النهائي المجمع. الميزات المختارة تُستخدم فقط بواسطة نماذج تصنيف الحافة.

جميع النماذج باستثناء الانحدار اللوجستي تم تدريبها عدة مرات. هذا ساعد على استقرار وأداء النموذج الفردي. إضافة المزيد من نماذج الانحدار اللوجستي لم تحسن الأداء العام. تم تدريب نموذجين لتصنيف الحافة، كل واحد باستخدام مجموعة بيانات تدريبية مختلفة. كلا النموذجين استخدما الغابات العشوائية لتقليل عدد الميزات لزيادة الأداء وتقليل التخصيص الزائد، حيث أن استخدام العديد من الميزات يزيد من احتمال التخصيص الزائد، خاصة عندما يكون عدد العينات صغيراً (hua2005optimal). بالنسبة لنماذج keras البسيطة، يتم استخدام نفس النموذج ويتم توسيطه 3 مرات ولنماذج keras 2D CNN، يتم استخدام 3 أساسيات مختلفة، جميعها تنتمي إلى عائلة efficientnet.

تم التدريب باستخدام تقسيم متقاطع موزون من 5 أضعاف بدلاً من التقسيم من 10 أضعاف المستخدم في EGA-MS لتسريع التجربة حيث من المتوقع أن يكون تدريب نموذج 2D CNN لبيانات تحليل الغازات والكروماتوغرافيا الكتلية أثقل حسابياً من النماذج الأبسط. يتم تدريب نماذج الانحدار اللوجستي وتصنيف الحافة عدة مرات، واحدة لكل من 9 فئات (مخرج واحد في كل مرة) بينما يتم تدريب نماذج الشبكات العصبية مع جميع الفئات الـ9 معاً. بالنسبة لتدريب الشبكات العصبية، يتم استخدام جدول معدل التعلم المتناقص الدوري ويتم حفظ أفضل وزن لكل طية للاستدلال. أخيراً، لتدريب نموذج 2D CNN، يتم استخدام تعديل طفيف داخل الطبقة يتكون من طبقة لتحويل الوقت وطبقة للتباين العشوائي.

النتائج والمناقشة

بدأت المنهجيات المقدمة هنا بتحليل الغازات المتطورة من ناسا أو بيانات مطياف الكتلة الغازية الموسومة. تم معالجة هذه البيانات لاستخدامها بواسطة نماذج التعلم الآلي ثم تم تدريب النماذج باستخدام مجموعات البيانات المعالجة. أخيراً، تم استخدام النماذج المدربة للتنبؤ على مجموعة البيانات الاختبارية. يمكن تطبيق نفس معالجة البيانات ونمذجة التعلم الآلي على أي مجموعة بيانات مطياف كتلي مماثلة. خاصة بالنسبة لمجموعات البيانات التدريبية الصغيرة، يمكن أن توفر النماذج والتقنيات المستخدمة هنا رؤى قيمة.

تُعتبر نتائج وتقييم الأداء ضروريين لفهم الموضوع بشكل كامل. تظهر نتائج المنهجيات الموصوفة على مجموعات البيانات الاختبارية غير المرئية. بشكل عام، أداء المؤلف في كلتا المسابقتين. بالنسبة لمسابقة تحليل الغازات المتطورة-مطياف الكتلة، كانت الجائزة الخاصة والعنصر الرئيسي هو الأداء على عينات اختبار محلل الغازات المتطورة. الفائز في مسابقة تحليل الغازات المتطورة-مطياف الكتلة قدم أداء أفضل بكثير باستخدام شبكة الخلايا العصبية التلافيفية ثنائية الأبعاد المدربة مسبقاً، وهي تقنية لم تكن متوفرة لدى جميع المنافسين الآخرين في هذه المسابقة ولكن كانت متوفرة في مسابقة مطياف الكتلة الغازية التالية، مما عزز الحلول الأولى.

عملت شبكة الخلايا العصبية التلافيفية المدربة مسبقاً بشكل أفضل لبيانات تحليل الغازات المتطورة-مطياف الكتلة من مطياف الكتلة الغازية. طبيعة البيانات الأكثر ضوضاء مع عدم وجود قياسات درجة الحرارة لبيانات مطياف الكتلة الغازية قيدت سيطرة شبكات الخلايا العصبية التلافيفية ثنائية الأبعاد بين الحلول الأولى وأتاحت المجال لمجموعة متنوعة من النهج الأخرى للتميز.

جميع النتائج العليا حسنت المعيار بشكل كبير في كلتا المسابقتين. بالنسبة لمسابقة تحليل الغازات المتطورة-مطياف الكتلة، اختفى الفارق الكبير بين جميع الحلول الأخرى والمركز الأول على عينات اختبار محلل الغازات المتطورة بالنسبة لمقياس المسابقة. كان الخطأ على عينات محلل الغازات المتطورة حوالي 10% أعلى من العينات التجارية ولكن الدقة (دقة المتوسط الدقيق) انخفضت بشكل كبير، أكثر من 50%. تمكن الحل الأول من التفوق بشكل كبير على جميع الحلول الأخرى من حيث الدقة على عينات محلل الغازات المتطورة أيضاً، مما أثبت مرة أخرى قوة شبكات الخلايا العصبية التلافيفية ثنائية الأبعاد المدربة مسبقاً على هذه المجموعة من البيانات.

بالنسبة لمسابقة مطياف الكتلة الغازية، على الرغم من أن التحسن من المعيار لم يكن مثيراً للإعجاب، فإن النتائج النهائية للحلول الأولى كانت عالية جداً. المزيد من المعلومات حول الحل الفائز متاحة على (تحليل الغازات المتطورة-مطياف الكتلة) و (مطياف الكتلة الغازية).

تم تحسين الطريقة في مسابقة مطياف الكتلة الغازية. كانت إضافة نماذج شبكة الخلايا العصبية التلافيفية ثنائية الأبعاد بالإضافة إلى الاهتمام الإضافي بتجنب التخصيص المفرط على مجموعات البيانات الصغيرة أمراً ضرورياً. علاوة على ذلك، سمحت معالجة البيانات الأسرع بفضل الخبرة المكتسبة في مسابقة تحليل الغازات المتطورة-مطياف الكتلة بمزيد من الوقت المتاح للتجربة. النتائج المقدمة هنا تركز أكثر على مجموعة بيانات مطياف الكتلة الغازية حيث أن المنهجية المقابلة أكثر دقة ومتانة.

الدقة الفردية للفئة

الدقة الفردية للفئة جيدة جداً حيث أن الإيجابيات الكاذبة ليست كثيرة، ولكن الاستدعاء ليس جيداً، خاصة للمركبات ذات التواجد المنخفض (95% ارتباط بين الاستدعاء وعدد المركبات). قيم الاستدعاء المرتفعة ناتجة عن السلبيات الكاذبة النسبية الكثيرة لتلك الفئات. هذه المجموعة البيانية ليست صغيرة فحسب، بل غير متوازنة أيضاً. تتراوح عدد الفئات من 26 إلى 307 وعلاوة على ذلك هناك 450 عينة لا تحتوي على أي فئة. بالنسبة لكل مركب كيميائي، تكون درجة الدقة أعلى من الاستدعاء، ولكن بالنسبة للعينات التي لم تحتوي على أي من التسعة مركبات يكون هناك انعكاس حيث تكون درجة الاستدعاء أعلى من الدقة.

الدقة العالية للطريقة على الهيدروكربونات بدرجة دقة 0.965 واستدعاء 0.909 مثيرة للإعجاب، حيث أن هذه هي الأهداف الرئيسية للبحث عن الجزيئات العضوية. لتحسين الأداء لهذه الفئة يمكن تدريب مجموعة جديدة من النماذج مع احتمالين للفئات بدلاً من تسعة، سواء كانت العينة هيدروكربون أم لا. علاوة على ذلك، في الحالات التي يكون فيها تقليل الإيجابيات الكاذبة لفئة الهيدروكربون ضرورياً، يمكن استخدام مقياس جديد، مثل درجة الدقة التي تعاقب الإيجابيات الكاذبة.

النتائج المقدمة

أظهرت النتائج المقدمة قدرات نماذج الذكاء الاصطناعي على بيانات الطيف الكتلي للكشف عن وجود مركبات كيميائية محددة في عينات المواد الجيولوجية التي تماثل كوكب المريخ. ما إذا كانت هذه النتائج تشير إلى إمكانية السكن في الماضي أم لا، فهذا أمر يقرره الخبراء. يمكن أن توفر الأبحاث الحالية رؤى قيمة لتصاميم المهام الكوكبية المستقبلية التي تؤدي تحليلات ميدانية على المريخ أو أي جسم أرضي آخر. علاوة على ذلك، يمكن استخدامها لمساعدة فرق تحليل بيانات الرحلات الجوية من خلال تقييم محتوى البيانات قبل المعالجة المتعمقة.

التعميم وكفاءة نماذج التعلم الآلي المستخدمة

النماذج المدربة على مجموعات بيانات صغيرة كهذه قد تتسم بالتخصيص الزائد أو الثقة الزائدة وتؤدي جيداً فقط مع مجموعات بيانات ذات توزيعات مشابهة جداً. نحو نهج معمم ومتين، يُقترح استخدام النماذج التالية:

نمذجة GC-MS شملت أيضاً شبكة عصبية بسيطة التي أدت بشكل أفضل بكثير على OOF، ولكن قد تكون قد تخصصت بشكل أكبر قليلاً من النماذج الأخرى وبالتالي تم التقليل من وزنها في الدمج النهائي. جميع النماذج متساوية الوزن على الرغم من أن التحقق المتقاطع أشار إلى زيادة الوزن للشبكة العصبية البسيطة، 2.5 مرات أكثر من بقية النماذج.

بصرف النظر عن القوة، كانت سرعة الاستدلال دون فقدان الدقة أيضاً مصدر قلق، حيث يمكن استخدام هذه النماذج في المهام الفضائية. في وقت الاستدلال، كانت 3 من 4 نماذج سريعة جداً باستخدام “Intel(R) Xeon(R) CPU @ 2.20GHz” مع 4 نوى CPU وحتى نماذج 2D CNN يمكن استخدامها مع CPU بسرعة كبيرة. لا حاجة لـ GPU أو أي مسرع آخر للاستدلال. إنشاء جميع مجموعات البيانات الضرورية يستغرق 64 دقيقة لجميع عينات التدريب والاختبار البالغ عددها 1584 وهذا متوسط 2.42 ثانية لكل عينة (خيط واحد). أيضاً للنماذج الثلاثة الأولى يلزم وقت استدلال متوسط 0.025 ثانية لكل عينة وتستغرق نماذج 2D CNN الأثقل 0.3 ثانية لكل عينة. يمكن تقليل وقت الاستدلال بمقدار 5 مرات إذا تم استبدال التدريب المكون من 5 طيات بتدريب كامل واحد وعلاوة على ذلك يمكن إنشاء مجموعة البيانات باستخدام المعالجة متعددة الخيوط (للمعالجات المدعومة). الأنبوب كما هو يحتاج أقل من 3 ثوانٍ لعينة واحدة للانتقال من بيانات الطيف الضوئي الخام إلى نتيجة التصنيف باستخدام python، لغة سيناريو جيدة للنماذج الأولية ولكنها بطيئة نسبياً للإنتاج. التطبيقات المكتوبة بلغة C أو C++، كما هو شائع في المهام الجوية، ستكون أسرع بعدة مرات.

إضافة نظام أتمتة لاستخدام نماذج الذكاء الاصطناعي على بيانات الطيف الكتلي لمركبة فضائية كوكبية قابلة للتحقيق للمهام القادمة. يمكن أن توفر معالجة البيانات والنماذج المقدمة رؤى قيمة في هذا المسعى. يمكن تحسين قوة المعالجة في المركبات الجوالة المستقبلية باتباع التقدم التكنولوجي. النهج الحالي ليس متطلباً بموارد عالية ويمكن استخدامه مع المعالجات الأبطأ.

الأمور التي لم تنجح والآفاق

تم اختبار العديد من النماذج والتقنيات ولكنها أدت إلى نتائج أسوأ ولم تُدرج في النظام النهائي كما يظهر في .

تم تجربة العديد من النماذج والتقنيات على طول الطريق ولكن لم يتم استخدامها في النهاية. النماذج التي بدت واعدة في المراحل الأولى من التجربة تم استبعادها تدريجياً مع تحسن أداء الشبكات العصبية. بالنسبة لبيانات GC-MS، تم إجراء تجارب أكثر من EGA-MS حيث أن الخبرة السابقة مع بيانات EGA-MS قدمت الأساس وتركت المزيد من الوقت متاحاً للتجارب المتقدمة. علاوة على ذلك، استخدام التحقق المتقاطع بـ 5-fold بدلاً من 10-fold زاد من سرعة التجربة، على الرغم من أن استخدام المزيد من التقسيمات كان يجب أن يكون أكثر أماناً لتطبيقه على مجموعات البيانات الصغيرة. لم يكن يجب استخدام التسمية الزائفة لأنها زادت من تعقيد النمذجة وقللت من الأداء لبيانات GC-MS بينما كانت الفائدة طفيفة لبيانات EGA-MS. أضافت تقنية الخلط المعزز المزيد من الضوضاء في مجموعة بيانات مزعجة بالفعل وساءت النتائج. أخيراً، صنع الطيف الضوئي بأيونات أقل أو بخطوات زمنية أقل أو أكثر، وشكل مختلف للطيف الضوئي، جعل النتائج أسوأ أيضاً.

هاتان مجموعتان من البيانات مثيرتان للاهتمام وأصيليتان. لمواصلة العمل، سيكون من المفيد جداً للنتائج إذا توفرت المزيد من البيانات للتدريب، حيث أن كلتا المجموعتين صغيرتان. قد تعمل النماذج التي لم تنجح من قبل مع بيانات إضافية و/أو قد لا تكون النماذج التي تم استخدامها أخيراً مطلوبة بعد الآن. يمكن أن يشمل العمل المستمر مع هذه البيانات:

الاستنتاجات

تُستخدم تقنيات التعلم الآلي كنماذج حسابية لـ “التعلم” من المعلومات مباشرة من البيانات دون الاعتماد على معادلات محددة مسبقاً وتحويل البيانات الخام إلى رؤى قابلة للتنفيذ. باستخدام نماذج الذكاء الاصطناعي المختلفة على بيانات مطياف الكتلة، تم الحصول على نتائج دقيقة في وقت قصير. يمكن أن يكون هذا ذا أهمية كبيرة في المهام المستقبلية لمعالجة بيانات مطياف الكتلة أثناء الرحلة. لزيادة الدقة، كان تحويل الجذر لقيم شدة/وفرة مطياف الكتلة مهماً. علاوة على ذلك، سمح إنشاء الطيفيات ثنائية الأبعاد باستخدام شبكات CNN المدربة مسبقاً والتي أدت بشكل استثنائي. التعميم هو عنصر أساسي عند العمل مع مجموعات البيانات الصغيرة. استخدام نماذج التعلم الآلي المناسبة وتجميع النماذج وإجراءات التدريب الصحيحة كان حاسماً لتقليل التخصيص الزائد والثقة الزائدة. للحصول على نتائج أكثر دقة، لكلتا المهمتين، هناك حاجة إلى المزيد من البيانات ومع توفر بيانات أكثر، ستتحسن النتائج. على الرغم من أن النماذج تم تدريبها غالباً ببيانات من الأجهزة التجارية، كان أداء التنبؤات على SAM EGA-MS جيداً. تحليل الغازات المتطورة بالإضافة إلى مطياف الكتلة للكروماتوغرافيا الغازية مع التعلم الآلي كلاهما ذو قيمة في تحليل الرواسب من كوكب المريخ وبنفس الطريقة من أي جسم أرضي آخر في نظامنا الشمسي. يمكن تشغيل تحليل بيانات مطياف الكتلة بالذكاء الاصطناعي على الحافة بفعالية ويمكن للمهام المستقبلية الاستفادة من ذلك.

إعلان عن تضارب المصالح

يعلن المؤلف أنه لا توجد لديه مصالح مالية تنافسية معروفة أو علاقات شخصية يمكن أن يُظن أنها تؤثر على العمل المبلغ عنه في هذه الورقة.

الشكر والتقدير

قدمت NASA الدعم لتطوير SAM. تم توفير مجموعات البيانات لهذين التحديين من قبل مركز NASA Goddard لرحلات الفضاء ومركز NASA Johnson للفضاء. تم جمعها من قبل علماء تحليل العينات في المريخ (SAM) وتمت معالجتها خصيصاً لهذه التحديات بمساعدة العلماء من NASA: Doug Archer، Charles Malespin، Caroline Freissinet، Stephanie Getty، Luoth Chou، Eric Lyness، و Victoria Da Poian، وفريق DrivenData. تم أرشفة البيانات من جميع تجارب SAM في نظام البيانات الكوكبية (pds.nasa.gov).

توفر البيانات

تم نشر كلتا المجموعتين أيضاً بعد انتهاء المسابقات في (website:opendata.awsNASA-EGAMS) وفي (website:opendata.awsNASA-GCMS).


  1. https://github.com/IoannisNasios/MarsSpectrometry2_GasChromatography