ArXiv ID: 2407.04449v1
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2407.04449v1_extracted/main.tex
تاريخ التحويل: 2025-06-06 13:15:52

نموذج تعلم عميق للكشف المبكر عن الزهايمر من صور الرنين المغناطيسي


قسم هندسة الحاسوب
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة
قسم هندسة الحاسوب
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة
قسم هندسة الحاسوب
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة
\(^*\) هؤلاء المؤلفون ساهموا بالتساوي في هذا العمل

الملخص

تعتمد أساليب التعلم الذاتي الإشراف للصور الطبية بشكل أساسي على نوع الصورة أثناء مرحلة ما قبل التدريب. ورغم أن هذه الأساليب تحقق نتائج واعدة، إلا أنها لا تستفيد من معلومات المريض أو بيانات الفحص المرتبطة والموجودة في السجلات الصحية الإلكترونية (EHR). في هذا العمل، نقترح دمج بيانات السجلات الصحية الإلكترونية أثناء مرحلة ما قبل التدريب الذاتي الإشراف باستخدام شبكة سيامية مقنعة (MSN) بهدف تعزيز جودة تمثيلات صور الأشعة السينية للصدر. قمنا بدراسة ثلاثة أنواع من بيانات السجلات الصحية الإلكترونية، تشمل المعلومات الديموغرافية، وبيانات الفحص، ومعلومات الإقامة في المستشفى. تم تقييم منهجيتنا على ثلاث مجموعات بيانات عامة لصور أشعة الصدر: MIMIC-CXR وCheXpert وNIH-14، باستخدام هيكلين مختلفين من محولات الرؤية (ViT)، هما ViT-Tiny وViT-Small. عند تقييم جودة التمثيلات من خلال التقييم الخطي، أظهر منهجنا المقترح تحسناً ملحوظاً مقارنةً بـ MSN التقليدي وأحدث أساليب التعلم الذاتي الإشراف. يبرز عملنا إمكانات مرحلة ما قبل التدريب الذاتي الإشراف المعزز ببيانات السجلات الصحية الإلكترونية في التصوير الطبي. الكود متاح للجمهور عبر الرابط: https://github.com/nyuad-cai/CXR-EHR-MSN

المقدمة

يتطلب تدريب الشبكات العصبية العميقة تحت إشراف كميات كبيرة من البيانات المصنفة عالية الجودة . إلا أن ذلك ليس بالأمر السهل في التطبيقات السريرية، نظراً للوقت والتكلفة والجهد والخبرة اللازمة لجمع البيانات المصنفة . في الآونة الأخيرة، أظهر التعلم الذاتي الإشراف نجاحاً كبيراً في الاستفادة من البيانات غير المصنفة، كما في معالجة اللغة الطبيعية ورؤية الحاسوب . تهدف هذه الأطر إلى تعلم تمثيلات داخلية مفيدة أثناء مرحلة ما قبل التدريب دون الحاجة إلى تسميات، ليتم استخدامها لاحقاً في مهام التنبؤ عبر التقييم الخطي الخاضع للإشراف.

بالنظر إلى الأداء المتقدم لمرحلة ما قبل التدريب الذاتي الإشراف باستخدام بيانات غير مصنفة ضخمة مقارنة بالتعلم الخاضع للإشراف من البداية، سعت العديد من التطبيقات الحديثة في الرعاية الصحية إلى الاستفادة من قوة التعلم الذاتي الإشراف من خلال التركيز على نوع بيانات محدد، غالباً وسيط واحد فقط . على سبيل المثال، استخدم تعزيزات مكانية لتجزئة الصور ثلاثية الأبعاد، بينما طبق تحويلات على صور أشعة الصدر وصور الأمراض الجلدية للتنبؤ بتسميات الأشعة والحالات الجلدية على التوالي. كما حافظ على اتساق التردد الزمني في بيانات السلاسل الزمنية لمهام مثل اكتشاف الصرع، في حين استغل إشارات تخطيط القلب لتعلم تمثيلات مخصصة للمريض لتصنيف اضطرابات نظم القلب.

في الممارسة السريرية، يعتمد الأطباء على عدة مصادر للمعلومات عند التشخيص أو تفسير الصور الطبية . فعلى سبيل المثال، قد يكون جنس المريض عاملاً حاسماً في التشخيص والاستجابة للعلاج ، كما أن عمر المريض قد يؤثر في اتخاذ القرار السريري في بعض الحالات . عادةً ما يأخذ الأطباء في الاعتبار مدخلات إضافية مثل العلامات الحيوية ونتائج التحاليل المخبرية لتعزيز فهمهم للأمراض المختلفة. وبالتالي، فإن البيانات الطبية بطبيعتها متعددة الوسائط، وتشمل أنواعاً مختلفة مثل الصور الطبية، والسجلات الصحية الإلكترونية، والملاحظات السريرية، وبيانات الأوميكس . بناءً عليه، نفترض أن الاستفادة من وسائط إضافية أثناء مرحلة ما قبل التدريب الذاتي الإشراف يمكن أن يحسن جودة التمثيلات لمهام التصنيف اللاحقة .

لذا، نقترح دمج بيانات السجلات الصحية الإلكترونية أثناء مرحلة ما قبل التدريب الذاتي الإشراف باستخدام شبكة سيامية مقنعة لتعلم تمثيلات صور أشعة الصدر. باختصار، يتضمن إطار عملنا للتدريب المسبق مشفرين بصريين مأخوذين من MSN التقليدي، ومشفر غير صوري للسجلات الصحية الإلكترونية، ووحدة إسقاط تدمج الوسائط لتمثيل كل زوج من صورة الأشعة وبيانات السجلات الصحية. قمنا بدراسة دمج ثلاثة أنواع من بيانات السجلات الصحية الإلكترونية: (أ) المتغيرات الديموغرافية، (ب) بيانات الفحص، و(ج) معلومات الإقامة في المستشفى. يمكن تلخيص مساهماتنا الرئيسية كما يلي:

نلخص الأدبيات ذات الصلة في القسم 2، ومنهجيتنا المقترحة في القسم 3، وإعدادات التجارب في القسم 4، والنتائج في القسم 5، وأخيراً المناقشة والاستنتاجات في القسم 6.

المنهجية

صياغة المشكلة

لنعتبر \(x_{cxr}\in \mathbb{R}^{h\times w}\) صورة أشعة صدر مأخوذة من مريض أثناء إقامته في المستشفى، حيث \(h\) و\(w\) تمثلان ارتفاع وعرض الصورة. الهدف هو التنبؤ بمجموعة من تسميات الأمراض \(y_{cxr}\). نفترض أن كل \(x_{cxr}\) مرتبطة بـ \(x_{ehr} \in \mathbb{R}^{n}\)، وهو متجه من الخصائص الثابتة المستخرجة من بيانات السجلات الصحية الإلكترونية للمريض، حيث \(n\) هو عدد المتغيرات. نستخدم كلا الوسيطين لتعلم تمثيل صورة الأشعة ضمن إطار التدريب المسبق لدينا. يوضح الشكل 1 نظرة عامة على بنية MSN متعددة الوسائط لمرحلة ما قبل التدريب. تتكون الشبكة من مكونين: (1) المشفرات البصرية لصور الأشعة، (2) فرع متعدد الوسائط يدمج بيانات السجلات الصحية الإلكترونية، كما هو موضح في الأقسام التالية.

تصور لاستراتيجيات الإخفاء. (أ) الصورة الأصلية. (ب) الإخفاء العشوائي: يحذف رقعاً في مواقع عشوائية داخل الصورة. (ج) الإخفاء البؤري: يحتفظ بمجموعة من الرقع المجاورة ويحذف الباقي.

شبكة سيامية مقنعة

اعتمدنا MSN كنموذج أساسي لإطارنا المقترح نظراً لقابليته العالية للتوسع الحسابي والحاجة إلى تدريب المحولات بكفاءة. بالنسبة لصورة غير مصنفة، الهدف هو مواءمة وجهتي النظر "المرساة" و"الهدف"، المشار إليهما بـ \(x^{anchor}_{cxr}\) و\(x^{target}_{cxr}\) على التوالي. لكل صورة، يتم استخدام دالة تحويل عشوائية \(T(.)\) لتوليد مجموعة من \(M\) وجهات نظر مرساة ووجهة نظر هدف واحدة. تشمل التحويلات: تغيير حجم الصورة، واقتصاص عشوائي مع تغيير الحجم، وانعكاس أفقي عشوائي باحتمالية \(0.5\)، كما في . استبعدنا التلاعب بالألوان والتغبيش الغاوسي، حيث أن الأول لا ينطبق على الصور الرمادية، والثاني قد يشوه المعلومات المتعلقة بالأمراض . بما أن وجهات النظر تُقسّم إلى رقع لتكون مدخلاً لمحولات الرؤية، يتم إخفاء وجهات النظر المرساة عبر حذف الرقع (عشوائي أو بؤري كما في الشكل 2)، بينما تظل وجهة النظر الهدف غير مخفية.

يتم تدريب مشفرين، \(f_{anchor}\) و\(f_{target}\)، بمعمارية محول الرؤية ، لإنتاج تضمينات الصور: \[v_{cxr} = f_{anchor}(x^{anchor}_{cxr}) \And v_{cxr+} = f_{target}(x^{target}_{cxr}).\]

يتم معالجة تضمين الهدف \(v_{cxr+}\) عبر رأس إسقاط \(h^+\) للحصول على \(z^+\)، بينما يُستخدم \(v_{cxr}\) في التعيين متعدد الوسائط كما هو موضح في القسم التالي. لا تحسب MSN الخسارة مباشرة على التضمينات المنتجة بناءً على مقياس تشابه معين، بل تستخدم مجموعة من النماذج الأولية وتسعى لتعيين التضمينات المسقطة لعينة معينة إلى نفس النموذج الأولي المتعلم، حيث تُستخدم هذه التعيينات لحساب الخسارة. مزيد من التفاصيل في الملحق [section:pretrain-setup].

مرحلة ما قبل التدريب متعددة الوسائط

بدلاً من الاعتماد فقط على صور الأشعة، يشجع إطارنا المقترح MSN على الاستفادة من معلومات إضافية مستخرجة من السجلات الصحية الإلكترونية للمريض. أضفنا ثلاثة مكونات إضافية إلى بنية MSN التقليدية. أولاً، نقوم بترميز بيانات السجلات الصحية الإلكترونية الثابتة باستخدام \(f_{ehr}\) لتعلم متجه تمثيلي، بحيث: \[v_{ehr} = f_{ehr}(x_{ehr}).\]

بعد ذلك، نقوم بدمج (\(\oplus\)) التمثيلات الكامنة للسجلات الصحية الإلكترونية وصورة الأشعة، \(v_{ehr}\) و\(v_{cxr}\). في هذه المرحلة، يوجد عدم تطابق في الأبعاد بين التمثيلات المدمجة و\(v_{cxr+}\). لمعالجة ذلك، نقوم بإسقاط التمثيل المدمج إلى نفس الفضاء البعدي لـ\(v_{cxr+}\) باستخدام رأس الإسقاط \(g\)، لنحصل على \(v_{fused}\): \[v_{fused} = g(v_{ehr} \oplus v_{cxr}).\]

أخيراً، تتم معالجة التمثيل المدمج عبر رأس إسقاط \(h(.)\) لحساب \(z\). يُستخدم كل من \(z\) و\(z^+\) في تجميع النماذج الأولية أثناء مرحلة ما قبل التدريب. بشكل عام، يتعلم هذا الإجراء البسيط تمثيلاً مشتركاً لبيانات السجلات الصحية الإلكترونية وتضمينات المرساة، بهدف تحسين قدرة MSN على التعيين أثناء مرحلة ما قبل التدريب.

تصنيف المهام اللاحقة

بعد تدريب المشفرات \(f_{target}\) و\(f_{anchor}\) و\(f_{ehr}\)، نستخدم \(f_{target}\) كمستخرج للميزات. ثم نضيف نموذج تصنيف \(f_c\) للتنبؤ بتسميات الصور: \[\hat{y}_{cxr} = f_c(v_{cxr+})\]

الافتراض الرئيسي في منهجيتنا هو أن إدخال بيانات إضافية متعلقة بالمريض أو الفحص أثناء مرحلة ما قبل التدريب يوفر للنموذج معلومات سياقية قيمة، مما يساهم في تحسين جودة التمثيلات المكتسبة لمهام التصنيف اللاحقة.

c c c c c c c المجموعة & الميزة &النوع & القيم & البعد
& العمر & رقمي & \(\{ x \in \mathbb{N} | 18 \leq x \leq 100 \}\) & \(x_{age} \in \mathbb{R}^{1}\)
& الجنس & ثنائي & \(\{ذكر، أنثى\}\) & \(x_{sex} \in \mathbb{R}^{2}\)
& زاوية التصوير & متعدد الفئات & & \(x_{view} \in \mathbb{R}^{4}\)
& الوضعية & ثنائي & \(\{واقف، مستلقي\}\) & \(x_{pos} \in \mathbb{R}^{2}\)
& دخول العناية المركزة & ثنائي & \(\{سلبي، إيجابي\}\) & \(x_{icu} \in \mathbb{R}^{2}\)
& الوفاة داخل المستشفى & ثنائي & \(\{سلبي، إيجابي\}\) & \(x_{mort} \in \mathbb{R}^{2}\)

ملخص مجموعات البيانات وتقسيماتها. نلخص حجم مجموعات التدريب والتحقق والاختبار من حيث عدد الصور المستخدمة في تجاربنا. استخدمنا MIMIC-CXR لمرحلة ما قبل التدريب الذاتي الإشراف والتصنيف اللاحق، وCheXPert كمجموعة اختبار خارجية فقط. بالنسبة لـ NIH-14، استخدمنا مجموعة التدريب أثناء التصنيف اللاحق نظراً لاختلاف التسميات عن MIMIC-CXR.
مجموعة البيانات الغرض تدريب تحقق اختبار
MIMIC-CXR تحقق داخلي 325,188 15,282 36,625
ChexPert تحقق خارجي - - 688
NIH-14 تحقق خارجي 32,457 3,567 15,735


تم تحويل هذه النسخة من LaTeX إلى HTML تلقائياً.
تم عرض المعادلات الرياضية باستخدام MathJax.