تعتمد أساليب التعلّم ذاتي الإشراف للصور الطبية غالباً على وسيط الصورة فقط أثناء مرحلة ما قبل التدريب. ورغم أنّ هذه الأساليب تُظهر نتائج واعدة، فإنّها لا تستفيد من معلومات المريض أو بيانات الفحص المرتبطة والموجودة في السجلات الصحية الإلكترونية (EHR). في هذا العمل، نقترح دمج بيانات السجلات الصحية الإلكترونية في مرحلة ما قبل التدريب ذاتي الإشراف باستخدام شبكة سيامية مُقنَّعة (MSN) بهدف تعزيز جودة تمثيلات صور أشعّة الصدر. درسنا ثلاثة أنواع من بيانات السجلات الصحية الإلكترونية تشمل المعلومات الديموغرافية، وبيانات الفحص، ومعلومات الإقامة في المستشفى. قُمنا بتقييم منهجيتنا على ثلاث مجموعات بيانات عامة لصور أشعّة الصدر: MIMIC-CXR وCheXpert وNIH-14، باستخدام هيكلين مختلفين من محوّلات الرؤية (ViT)، هما ViT-Tiny وViT-Small. وعند تقييم جودة التمثيلات عبر التقييم الخطي، أظهر نهجنا المقترح تحسُّناً ملحوظاً مقارنةً بـ MSN التقليدي وأحدث أساليب التعلّم ذاتي الإشراف. يُبرز عملُنا إمكانات مرحلة ما قبل التدريب ذاتي الإشراف المُعزَّز ببيانات السجلات الصحية الإلكترونية في التصوير الطبي. الكود متاح للعامة عبر الرابط: https://github.com/nyuad-cai/CXR-EHR-MSN
يتطلّب تدريب الشبكات العصبية العميقة بإشرافٍ بشري كمياتٍ كبيرة من البيانات المصنّفة عالية الجودة . غير أنّ ذلك ليس سهلاً في التطبيقات السريرية، نظرًا للوقت والتكلفة والجهد والخبرة اللازمة لجمع البيانات المصنّفة . في الآونة الأخيرة، أظهر التعلّم ذاتي الإشراف نجاحًا كبيرًا في الاستفادة من البيانات غير المصنّفة، كما في معالجة اللغة الطبيعية ورؤية الحاسوب . تهدف هذه الأطر إلى تعلّم تمثيلات داخلية مفيدة أثناء مرحلة ما قبل التدريب من دون الحاجة إلى تسميات، لتُستَخدم لاحقًا في مهام التنبؤ عبر التقييم الخطي الخاضع للإشراف.
نظرًا للأداء المتقدّم لمرحلة ما قبل التدريب ذاتي الإشراف باستخدام بيانات غير مصنّفة ضخمة مقارنةً بالتعلّم الخاضع للإشراف من البداية، سعت تطبيقات حديثة عديدة في الرعاية الصحية إلى الاستفادة من قوة التعلّم ذاتي الإشراف مع التركيز على وسيط بيانات محدّد، غالبًا وسيط واحد فقط . على سبيل المثال، استخدم تعزيزات مكانية لتجزئة الصور ثلاثية الأبعاد، بينما طبّق تحويلات على صور أشعّة الصدر وصور الأمراض الجلدية للتنبؤ بتسميات الأشعّة والحالات الجلدية على التوالي. كما حافظ على اتساق التردد الزمني في بيانات السلاسل الزمنية لمهام مثل اكتشاف الصرع، في حين استغلّ إشارات تخطيط القلب لتعلّم تمثيلات مُخصّصة للمريض لتصنيف اضطرابات نظم القلب.
في الممارسة السريرية، يعتمد الأطباء على عدة مصادر للمعلومات عند التشخيص أو تفسير الصور الطبية . فعلى سبيل المثال، قد يكون جنس المريض عاملاً حاسمًا في التشخيص والاستجابة للعلاج ، كما أنّ عمر المريض قد يؤثّر في اتخاذ القرار السريري في بعض الحالات . عادةً ما يأخذ الأطباء في الاعتبار مُدخلات إضافية مثل العلامات الحيوية ونتائج التحاليل المخبرية لتعزيز فهمهم للأمراض المختلفة. وبالتالي، فإنّ البيانات الطبية بطبيعتها متعدّدة الوسائط، وتشمل أنواعًا مختلفة مثل الصور الطبية، والسجلات الصحية الإلكترونية، والملاحظات السريرية، وبيانات الأوميكس . بناءً عليه، نفترض أنّ الاستفادة من وسائط إضافية أثناء مرحلة ما قبل التدريب ذاتي الإشراف يمكن أن تُحسّن جودة التمثيلات لمهام التصنيف اللاحقة .
لذا، نقترح إدماج بيانات السجلات الصحية الإلكترونية خلال مرحلة ما قبل التدريب ذاتي الإشراف باستخدام شبكة سيامية مُقنَّعة لتعلّم تمثيلات صور أشعّة الصدر. باختصار، يتكوّن إطار العمل المُقترَح من مُشفّرَين بصريَّين مأخوذين من MSN التقليدية، ومشفّر غير صوري للسجلات الصحية الإلكترونية، ووحدة إسقاط تُمزِج الوسائط لتمثيل كل زوج من صورة الأشعّة وبيانات السجلات الصحية. درسنا دمج ثلاثة أنواع من بيانات السجلات الصحية الإلكترونية: (أ) المتغيّرات الديموغرافية، (ب) بيانات الفحص، و(ج) معلومات الإقامة في المستشفى. يمكن تلخيص مساهماتنا الرئيسية كما يلي:
نلخّص الأدبيات ذات الصلة في القسم 2، ونقدّم منهجيتنا المقترحة في القسم 3، وإعدادات التجارب في القسم 4، والنتائج في القسم 5، وأخيرًا المناقشة والاستنتاجات في القسم 6.
لنعتبر \(x_{cxr}\in \mathbb{R}^{h\times w}\) صورة أشعّة صدر مأخوذة لمريض أثناء إقامته في المستشفى، حيث \(h\) و\(w\) يُمثّلان ارتفاع الصورة وعرضها. الهدف هو التنبؤ بمجموعةٍ من تسميات الأمراض \(y_{cxr}\). نفترض أنّ كل \(x_{cxr}\) مرتبطة بـ \(x_{ehr} \in \mathbb{R}^{n}\)، وهو متجه من الخصائص الثابتة المستخرجة من بيانات السجلات الصحية الإلكترونية للمريض، حيث \(n\) هو عدد المتغيّرات. نستخدم كلا الوسيطين لتعلّم تمثيل صورة الأشعّة ضمن إطار التدريب المُسبق لدينا. يوضّح الشكل 1 نظرة عامة على بنية MSN متعدّدة الوسائط لمرحلة ما قبل التدريب. تتكوّن الشبكة من مكوّنَين: (1) المشفّرات البصرية لصور الأشعّة، (2) فرع متعدّد الوسائط يدمج بيانات السجلات الصحية الإلكترونية، كما هو موضّح في الأقسام التالية.
اعتمدنا MSN كنموذجٍ أساسي لإطارنا المقترح نظرًا لقابليته العالية للتوسّع الحسابي والحاجة إلى تدريب المحوّلات بكفاءة. لصورةٍ غير مصنّفة، يكون الهدف مواءمة وجهتَي النظر «المرساة» و«الهدف»، المشار إليهما بـ \(x^{anchor}_{cxr}\) و\(x^{target}_{cxr}\) على التوالي. لكل صورة، نستخدم دالة تحويل عشوائية \(T(.)\) لتوليد مجموعة من \(M\) وجهات نظر مرساة ووجهة نظر هدف واحدة. تشمل التحويلات: تغيير الحجم، والاقتصاص العشوائي مع تغيير الحجم، والانعكاس الأفقي العشوائي باحتمالية \(0.5\)، كما في . استبعدنا التلاعب بالألوان والتمويه الغاوسي، إذ إنّ الأوّل لا ينطبق على الصور الرمادية، والثاني قد يُشوّه المعلومات المتعلقة بالأمراض . وبما أنّ وجهات النظر تُقسَّم إلى رقع لتكون مدخلًا لمحوّلات الرؤية، تُخفى وجهات نظر المرساة عبر حذف الرقع (عشوائيًا أو بؤريًا كما في الشكل 2)، بينما تظل وجهة النظر الهدف غير مُخفاة.
يُدرَّب مُشفّران، \(f_{anchor}\) و\(f_{target}\)، بمعمارية محوّل الرؤية لإنتاج تضمينات الصور: \[v_{cxr} = f_{anchor}(x^{anchor}_{cxr}), \quad v_{cxr+} = f_{target}(x^{target}_{cxr}).\]
يُعالَج تضمين الهدف \(v_{cxr+}\) عبر رأس إسقاط \(h^+\) للحصول على \(z^+\)، بينما يُستخدَم \(v_{cxr}\) في التعيين متعدّد الوسائط كما سيأتي. لا تحسب MSN الخسارة مباشرةً على التضمينات المُنتَجة بالاستناد إلى مقياس تشابهٍ معيّن، بل تستخدم مجموعةً من النماذج الأوّلية وتسعى إلى تعيين التضمينات المُسقطة لعينةٍ معيّنة إلى النموذج الأوّلي ذاته المُتعلَّم، حيث تُستخدم هذه التعيينات لحساب الخسارة. مزيدٌ من التفاصيل في الملحق [section:pretrain-setup].
بدلًا من الاعتماد فقط على صور الأشعّة، يُشجّع إطارنا المقترح MSN على الاستفادة من معلومات إضافية مُستخرجة من السجلات الصحية الإلكترونية للمريض. أضفنا ثلاثة مكوّنات إضافية إلى بنية MSN التقليدية. أولًا، نقوم بترميز بيانات السجلات الصحية الإلكترونية الثابتة باستخدام \(f_{ehr}\) لتعلّم متجه تمثيلي، بحيث: \[v_{ehr} = f_{ehr}(x_{ehr}).\]
بعد ذلك، نقوم بدمج (\(\oplus\)) التمثيلات الكامنة للسجلات الصحية الإلكترونية وصورة الأشعّة، \(v_{ehr}\) و\(v_{cxr}\). في هذه المرحلة، يوجد عدمُ تطابقٍ في الأبعاد بين التمثيلات المُدمَجة و\(v_{cxr+}\). ولمعالجة ذلك، نقوم بإسقاط التمثيل المُدمَج إلى الفضاء البُعدي نفسه لـ\(v_{cxr+}\) باستخدام رأس الإسقاط \(g\)، لنحصل على \(v_{fused}\): \[v_{fused} = g(v_{ehr} \oplus v_{cxr}).\]
أخيرًا، تتم معالجة التمثيل المُدمَج عبر رأس إسقاط \(h(.)\) لحساب \(z\). يُستخدَم كلٌّ من \(z\) و\(z^+\) في تجميع النماذج الأوّلية أثناء مرحلة ما قبل التدريب. بوجهٍ عام، يتعلّم هذا الإجراء البسيط تمثيلًا مشتركًا لبيانات السجلات الصحية الإلكترونية وتضمينات المرساة، بهدف تحسين قدرة MSN على التعيين أثناء مرحلة ما قبل التدريب.
بعد تدريب المُشفّرات \(f_{target}\) و\(f_{anchor}\) و\(f_{ehr}\)، نستخدم \(f_{target}\) كمستخرجٍ للميزات. ثم نضيف نموذج تصنيف \(f_c\) للتنبؤ بتسميات الصور: \[\hat{y}_{cxr} = f_c(v_{cxr+})\]
الافتراض الرئيسي في منهجيتنا هو أنّ إدخال بيانات إضافية متعلّقة بالمريض أو بالفحص أثناء مرحلة ما قبل التدريب يُزوِّد النموذج بمعلومات سياقية قيّمة، ما يُسهم في تحسين جودة التمثيلات المُكتسَبة لمهام التصنيف اللاحقة.
المجموعة | الميزة | النوع | القيم | البُعد |
---|---|---|---|---|
ديموغرافيا | العُمر | رقمي | \(\{ x \in \mathbb{N} \mid 18 \leq x \leq 100 \}\) | \(x_{age} \in \mathbb{R}^{1}\) |
ديموغرافيا | الجنس | ثنائي | \(\{\text{ذكر}، \text{أنثى}\}\) | \(x_{sex} \in \mathbb{R}^{2}\) |
بيانات الصورة | زاوية/اتجاه التصوير | متعدّد الفئات | — | \(x_{view} \in \mathbb{R}^{4}\) |
بيانات الصورة | الوضعية | ثنائي | \(\{\text{واقف}، \text{مستلقي}\}\) | \(x_{pos} \in \mathbb{R}^{2}\) |
إقامة بالمستشفى | الدخول إلى العناية المركّزة | ثنائي | \(\{\text{سلبي}، \text{إيجابي}\}\) | \(x_{icu} \in \mathbb{R}^{2}\) |
إقامة بالمستشفى | الوفاة داخل المستشفى | ثنائي | \(\{\text{سلبي}، \text{إيجابي}\}\) | \(x_{mort} \in \mathbb{R}^{2}\) |
مجموعة البيانات | الغرض | تدريب | تحقّق | اختبار |
---|---|---|---|---|
MIMIC-CXR | تحقّق داخلي | 325,188 | 15,282 | 36,625 |
CheXpert | تحقّق خارجي | — | — | 688 |
NIH-14 | تحقّق خارجي | 32,457 | 3,567 | 15,735 |