معرّف ArXiv: 2207.07027v2
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2207.07027v2_extracted/main.tex
تم التحويل: 2025-06-06 13:13:48

MedFuse - الدمج متعدد الوسائط للبيانات السريرية وصور الأشعة لتنبؤ الوفيات

1
قسم الهندسة
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة
قسم الأشعة
كلية الطب بجامعة نيويورك جروسمان
نيويورك، الولايات المتحدة الأمريكية
قسم الهندسة
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة

الملخص

تهدف تقنيات الدمج متعدد الوسائط إلى تكامل المعلومات المستخلصة من مصادر بيانات مختلفة. بخلاف مجموعات البيانات الطبيعية، مثل تطبيقات الصوت والصورة، حيث تتكون العينات عادة من وسائط "مقترنة"، غالبًا ما يتم جمع البيانات في الرعاية الصحية بشكل غير متزامن. لذا، فإن اشتراط توفر جميع الوسائط لكل عينة ليس واقعيًا في المهام السريرية، ويحد بشكل كبير من حجم مجموعة البيانات أثناء التدريب. في هذا البحث، نقترح MedFuse، وهو وحدة دمج قائمة على LSTM بسيطة من الناحية المفاهيمية وواعدة في الأداء، قادرة على التعامل مع المدخلات أحادية أو متعددة الوسائط. نقوم بتقييم طريقة الدمج هذه ونقدم نتائج معيارية جديدة لتنبؤ الوفيات داخل المستشفى وتصنيف الأنماط المرضية، باستخدام بيانات زمنية سريرية من مجموعة بيانات MIMIC-IV وصور الأشعة السينية للصدر من MIMIC-CXR. بالمقارنة مع استراتيجيات الدمج متعدد الوسائط الأكثر تعقيدًا، يوفر MedFuse تحسنًا كبيرًا في الأداء على مجموعة الاختبار المقترنة بالكامل، كما يبقى قويًا عند اختبار العينات التي تفتقد صور الأشعة السينية للصدر. نطرح الشيفرة البرمجية الخاصة بنا لتعزيز إمكانية إعادة إنتاج النتائج وتمكين تقييم النماذج المنافسة مستقبلاً.

المقدمة

يدرك الإنسان العالم من حوله من خلال بيانات متعددة الوسائط . حتى الآن، تعتمد معظم النماذج الناجحة في تعلم البيانات الإدراكية في الرعاية الصحية على وسيط واحد فقط . لقد تم استكشاف التعلم متعدد الوسائط على نطاق واسع في سياق تطبيقات الصوت والصورة ومجموعات بيانات الصور الطبيعية ، إلا أن تطبيقاته في الرعاية الصحية ما تزال محدودة. الهدف الرئيسي من الدمج متعدد الوسائط هو استغلال المعلومات ذات الصلة من وسائط مختلفة لتحسين الأداء في المهام اللاحقة . يمكن تصنيف استراتيجيات الدمج إلى دمج مبكر أو مشترك أو متأخر . ويُعد الدمج المشترك الأكثر وعدًا، إذ يركز على نمذجة التفاعلات بين تمثيلات الوسائط المدخلة.

نبرز هنا تحديين رئيسيين يواجهان الدمج المشترك متعدد الوسائط في الرعاية الصحية. أولاً، تفترض العديد من الأساليب الحديثة توفر جميع الوسائط لكل عينة أثناء التدريب أو الاستدلال أو كليهما . رغم أن بعض الدراسات السريرية تتبع هذا الافتراض ، إلا أن الحصول على بيانات مقترنة غير عملي لأن الممارسة السريرية اليومية تنتج بيانات غير متجانسة وبكثافة متفاوتة. فعلى سبيل المثال، تُجمع البيانات الفسيولوجية بشكل أكثر تكرارًا من صور الأشعة السينية للصدر في وحدات العناية المركزة. هاتان الوسيطتان هما محور دراستنا لما لهما من أهمية في مهام التنبؤ السريري . كما أن تطوير نموذج دمج موحد لهاتين الوسيطتين يطرح تحديات إضافية، منها: (1) اختلاف أبعاد المدخلات بشكل كبير، (2) الحاجة إلى مستخلصات ميزات خاصة بكل وسيط بسبب اختلاف المعلومات والضجيج ، و(3) عدم التزامن الزمني بين الوسيطتين، مما يصعب اقترانهما. بناءً على هذه التحديات، هدفنا الأساسي هو اقتراح بنية دمج قادرة على التعامل مع البيانات المقترنة جزئيًا لتحقيق أداء جيد في مهام التنبؤ.

التحدي الثاني هو غياب معايير عامة متعددة الوسائط متاحة علنًا في المجال السريري. لذا، تعتمد معظم الدراسات على وسيط بيانات واحد ، أو على مجموعات بيانات متعددة الوسائط خاصة . هنا، هدفنا الثانوي هو تقديم نتائج معيارية جديدة لمهمتين سريريتين شائعتين باستخدام مجموعتي بيانات MIMIC-IV وMIMIC-CXR المتاحتين للجمهور، مع توفير الشيفرة البرمجية لضمان إعادة الإنتاج. نقارن منهجيتنا مع الدمج المبكر والمشترك التقليدي، بالإضافة إلى أحدث الأساليب مفتوحة المصدر . باختصار، نقدم المساهمات التالية:

نظرة عامة على العمل المقترح. نقوم أولاً باستخراج وربط مجموعات البيانات من MIMIC-IV وMIMIC-CXR بناءً على تعريف المهمة (أي تنبؤ الوفيات داخل المستشفى أو تصنيف الأنماط المرضية). يتم تلخيص تقسيمات بيانات التدريب والتحقق والاختبار لكل مهمة، كما يتم عرض انتشار العلامات الإيجابية والسلبية لتنبؤ الوفيات داخل المستشفى. يتضمن تصنيف الأنماط المرضية 25 علامة كما هو موضح في الجدول [tab:phenotype_wise].

رؤى عامة حول تعلم الآلة في سياق الرعاية الصحية

عادةً ما تركز تقنيات الدمج متعدد الوسائط الحديثة على مصادر معلومات متزامنة باستخدام مجموعات بيانات طبيعية مثل الصوت والصورة والنص. في الرعاية الصحية، غالبًا ما تكون البيانات متفرقة وغير متجانسة، وبالتالي لا تكون الوسائط مقترنة دائمًا. يتغلب عملنا على تحدي البيانات المفقودة من خلال اقتراح نهج دمج مرن لا يعتمد على نوع المشفّر الخاص بكل وسيط. لذا يمكن تطبيقه على أنواع أخرى من البيانات، وليس فقط صور الأشعة السينية للصدر والبيانات الزمنية السريرية. كما يبرز أهمية معالجة سلسلة من التمثيلات أحادية الوسيط مقارنة باستراتيجية الدمج التقليدية في الدمج المشترك. بشكل عام، يبرز العمل إمكانيات الدمج متعدد الوسائط في الرعاية الصحية لتحسين الأداء في المهام السريرية.

المنهجية

نعرّف نهجًا من مرحلتين: (1) تعلم نماذج إدراكية خاصة بكل وسيط لاستخلاص الميزات الكامنة (انظر القسم 3.1)، و(2) دمج هذه الميزات عبر وحدة دمج متعددة الوسائط مشتركة، MedFuse (انظر القسم 3.2). تظهر البنية الكلية في الشكل [fig:main_fig]. نركز هنا على وسيطين فقط: البيانات الزمنية السريرية (ehr) وصور الأشعة السينية للصدر (cxr) عند شرح المنهجية.

المشفّرات الخاصة بكل وسيط

أحد مصادر عدم التجانس الرئيسية في الرعاية الصحية هو اختلاف أبعاد وسائط الإدخال، مما يصعّب تطوير مشفّر موحد لجميع الوسائط. كما تختلف مساحة الأهداف، إذ لا نفترض أن جميع الوسائط يجب أن تشترك في نفس مجموعة العلامات. لذا، نعرّف مشفّرات خاصة بكل وسيط كما يلي.

بالنسبة لعينة معينة، لنفترض أن \(\mathbf{x}_{ehr}\in \mathbb{R}^{t\times d}\) تمثل البيانات الزمنية السريرية المرتبطة بعلامات حقيقية \(\textbf{y}_{ehr}\)، حيث \(t\) هو عدد الخطوات الزمنية و\(d\) هو عدد الميزات المستخرجة من المتغيرات السريرية. نطبق المشفّر \(f_{ehr}\) كشبكة LSTM مكونة من طبقتين مع طبقة إسقاط. نحسب تمثيلًا كامنًا \(\mathbf{v}_{ehr} \in \mathbb{R}^m\) يمثل الحالة المخفية الأخيرة من LSTM، حيث \(m=256\). ثم نطبق مصنفًا \(g_{ehr}\) لحساب التنبؤات: \(\hat{\mathbf{y}}_{ehr} = g_{ehr}(\mathbf{v}_{ehr})\). لتحسين المشفّر، نستخدم دالة الخسارة التالية: \[\mathbb{L}_{ehr}(\mathbf{y}_{ehr}, \mathbf{\hat{y}}_{ehr}) = BCE(\mathbf{y}_{ehr}, \mathbf{\hat{y}}_{ehr}),\] حيث \(BCE\) هي خسارة الانتروبيا الثنائية.

لنفرض أن \(\mathbf{x}_{cxr} \in \mathbb{R}^{w\times h \times c}\) تمثل صورة الأشعة السينية للصدر لنفس العينة مع العلامات الحقيقية \(\textbf{y}_{cxr}\)، حيث \(w\) هو العرض، \(h\) هو الارتفاع، و\(c\) هو عدد القنوات. في جميع تجاربنا، \(h=224\)، \(w=224\)، و\(c=3\)، حيث نكرر كل صورة عبر ثلاث قنوات. نطبق المشفّر \(f_{cxr}\) كشبكة ResNet-34 لحساب \(\mathbf{v}_{cxr} \in \mathbb{R}^n\)، وهو تمثيل الميزات بعد طبقة التجميع المتوسط في الشبكة الالتفافية حيث \(n=512\). بالمثل، نطبق مصنفًا \(g_{cxr}\) لحساب التنبؤات: \(\hat{\mathbf{y}}_{cxr} = g_{cxr}(\mathbf{v}_{cxr})\) ونستخدم دالة الخسارة التالية لتحسين المشفّر: \[\mathbb{L}_{cxr}(\mathbf{y}_{cxr}, \mathbf{\hat{y}}_{cxr}) = BCE(\mathbf{y}_{cxr}, \mathbf{\hat{y}}_{cxr}).\]

يمكن بالتالي تدريب المشفّرات بشكل مستقل باستخدام العلامات والخسائر الخاصة بكل وسيط.

وحدة MedFuse

لدمج الوسائط، نستبعد أولاً المصنفات \(g_{ehr}\) و\(g_{cxr}\) ونحتفظ بالمشفّرات المدربة مسبقًا \(f_{ehr}\) و\(f_{cxr}\). وبما أن أبعاد الفضاء الكامن للوسيطين مختلفة، نستخدم طبقة إسقاط \(\mathbf{\phi}\) لإسقاط \(\mathbf{v}_{cxr}\) إلى نفس أبعاد \(\mathbf{v}_{ehr}\): \[\mathbf{v}_{cxr}^* = {\phi(\mathbf{v}_{cxr})}\] بحيث \(\mathbf{v_{cxr}^*}\in \mathbb{R}^m\). بعد ذلك، ننشئ تسلسلًا من تمثيلات الميزات أحادية الوسيط للعينة: \[\mathbf{v}_{fusion} = [\mathbf{v}_{ehr}, \mathbf{v}_{cxr}^*].\] نحدد شبكة دمج متعددة الوسائط \(f_{fusion}\) كطبقة LSTM واحدة بمدخل 256 وبُعد مخفي 512، تقوم بتجميع التسلسل متعدد الوسائط عبر التكرار. الدافع لاستخدام LSTM مزدوج: أولاً، يتبع منطق اتخاذ القرار السريري، حيث يقوم الأطباء بفحص كل وسيط على حدة. هذا يسمح لوحدة LSTM بالتعلم أولاً من \(\mathbf{v}_{ehr}\) ثم تحديث حالتها الداخلية باستخدام \(\mathbf{v}_{cxr}^*\). ثانيًا، يمكنها التعامل مع تسلسلات مدخلات بعدد متغير من الوسائط، وبالتالي تتعامل تلقائيًا مع الوسائط المفقودة. في حال غياب صورة الأشعة السينية أثناء التدريب أو الاستدلال، تعالج الشبكة تسلسلًا مكونًا من عنصر واحد فقط \([\mathbf{v}_{ehr}]\).

تتم معالجة الحالة المخفية الأخيرة \(\textbf{h}_{fusion}\) من \(f_{fusion}\) عبر مصنف \(g_{fusion}\) لحساب التنبؤات النهائية: \(\mathbf{\hat{y}}_{fusion}=g_{fusion}(\mathbf{h}_{fusion})\). نقوم بتدريب المشفّرات \(f_{ehr}\) و\(f_{cxr}\) وطبقة الإسقاط \(\phi\) ووحدة الدمج \(f_{fusion}\) والمصنف \(g_{fusion}\) معًا عبر تحسين دالة الخسارة التالية: \[\mathbb{L}_{fusion}(\mathbf{y}_{fusion}, \mathbf{\hat{y}}_{fusion}) = BCE(\mathbf{y}_{fusion}, \mathbf{\hat{y}}_{fusion}),\] حيث \(\textbf{y}_{fusion}=\textbf{y}_{ehr}\)، إذ نفترض أن البيانات الزمنية السريرية هي الوسيط الأساسي المرتبط بمهمة التنبؤ، وهي متوفرة دائمًا أثناء التدريب والاستدلال. جميع المصنفات \(g_{ehr}\) و\(g_{cxr}\) و\(g_{fusion}\) تتكون من طبقة خطية واحدة متبوعة بتفعيل سيجمويد.

التجارب

مجموعات البيانات والمهام المعيارية

في تجاربنا، استخرجنا البيانات الزمنية السريرية من MIMIC-IV مع صور الأشعة السينية للصدر المرتبطة بها من MIMIC-CXR . نوضح هنا المهمتين ونقدم تفاصيل إضافية:

  • تصنيف الأنماط المرضية: الهدف من هذه المهمة متعددة العلامات هو التنبؤ بما إذا كان قد تم تشخيص 25 حالة مرضية مزمنة أو مختلطة أو حادة للمريض خلال إقامته في وحدة العناية المركزة. لكل عينة، تحتوي \(\mathbf{x}_{ehr}\) على بيانات زمنية سريرية تم جمعها خلال كامل فترة الإقامة، و\(\mathbf{y}_{ehr}\) هي متجه ثنائي من 25 علامة. نربط كل عينة بآخر صورة أشعة سينية تم جمعها خلال نفس الإقامة. تحتوي MIMIC-III على رموز ICD-9، بينما تحتوي MIMIC-IV على رموز ICD-9 وICD-10. في الورقة المعيارية الأصلية ، تم تعريف العلامات الـ25 باستخدام برنامج التصنيف السريري لـICD-9 . قمنا بتحويل جميع رموز ICD-10 إلى ICD-9 وفقًا لإرشادات مراكز الرعاية الطبية والخدمات الطبية2، ثم ربطناها بفئات CCS. نقيم هذه المهمة باستخدام منحنى المساحة تحت منحنى الاستقبال (AUROC) ومنحنى المساحة تحت منحنى الاسترجاع (AUPRC).

  • تنبؤ الوفيات داخل المستشفى: الهدف من هذه المهمة الثنائية هو التنبؤ بحدوث الوفاة داخل المستشفى بعد أول 48 ساعة في وحدة العناية المركزة. لكل عينة، تحتوي \(\mathbf{x}_{ehr}\) على بيانات زمنية سريرية تم جمعها خلال أول 48 ساعة، و\(\mathbf{y}_{ehr}\) هي علامة ثنائية تشير إلى الوفاة. نستبعد الإقامات التي تقل عن 48 ساعة. نربط كل عينة بآخر صورة أشعة سينية تم جمعها خلال الإقامة. نقيم هذه المهمة باستخدام AUROC وAUPRC.

معالجة البيانات الزمنية السريرية

قمنا بتعديل خط أنابيب استخراج البيانات ومعالجتها ، الذي كان مطبقًا أصلاً في TensorFlow ، وقدمنا نسخة جديدة لـMIMIC-IV باستخدام Pytorch . لضمان المقارنة العادلة وإبراز فعالية التعلم متعدد الوسائط، استخدمنا نفس مجموعة المتغيرات السريرية البالغ عددها 17. من بينها خمسة متغيرات فئوية (معدل إعادة تعبئة الشعيرات الدموية، مقياس غلاسكو لفتح العين، الاستجابة الحركية، الاستجابة اللفظية، والمجموع الكلي)، و12 متغيرًا مستمرًا (ضغط الدم الانبساطي، نسبة الأكسجين المستنشق، الجلوكوز، معدل ضربات القلب، الطول، ضغط الدم المتوسط، تشبع الأكسجين، معدل التنفس، ضغط الدم الانقباضي، درجة الحرارة، الوزن، وpH). لجميع المهام، قمنا بأخذ عينات منتظمة كل ساعتين، وتقطيع وتوحيد المتغيرات السريرية للحصول على مدخلات \(f_{ehr}\) كما في الأعمال السابقة . بعد المعالجة والترميز الأحادي للميزات الفئوية، نحصل على تمثيل متجه بحجم 76 في كل خطوة زمنية، بحيث \(\mathbf{x}_{ehr}\in\mathbb{R}^{t\times76}\) و\(t\) يعتمد على العينة والمهمة.

تقسيمات البيانات

باستخدام معرف المريض للبيانات الزمنية السريرية، قمنا بتقسيم البيانات عشوائيًا إلى 70% للتدريب، 10% للتحقق، و20% للاختبار، كما هو موضح في الشكل 1. نبلغ عن النتائج النهائية على مجموعات الاختبار ونحسب فترات الثقة 95% عبر طريقة bootstrap مع 1000 تكرار . نرمز للبيانات الزمنية السريرية بـ\(\mathbf{EHR}\) ولصور الأشعة السينية بـ\(\mathbf{CXR}\). \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) تحتوي على عينات مقترنة وجزئياً مقترنة (أي عينات تفتقد صورة الأشعة السينية). \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\) تحتوي فقط على العينات التي تتوفر فيها الوسيطتان. على سبيل المثال، مجموعة التدريب \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) لمهمة تصنيف الأنماط المرضية تحتوي على 7756 عينة مرتبطة بصور أشعة سينية من أصل 42628 عينة.

استخرجنا من MIMIC-CXR صور الأشعة السينية وقسمناها بناءً على تقسيم عشوائي للمرضى. ثم نقلنا الصور من مجموعة التدريب إلى التحقق أو الاختبار إذا كانت مرتبطة بمرضى في تلك المجموعات. نتج عن ذلك 325188 صورة في التدريب، 15282 في التحقق، و36625 في الاختبار. نعرّف \(\mathbf{y}_{cxr}\) كمتجه من 14 علامة ثنائية مستخرجة من تقارير الأشعة عبر CheXpert . نرمز لهذه المجموعة أحادية الوسيط بـ\(\mathbf{CXR}_{\mathbf{UNI}}\) وهي ثابتة عبر جميع المهام. نستخدم أيضًا \(\mathbf{CXR}_{\mathbf{PAIRED}}\) التي تشمل فقط الصور ضمن \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\)، و\(\mathbf{EHR}_{\mathbf{PARTIAL}}\) التي تشمل فقط البيانات الزمنية ضمن \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\).

استراتيجية التدريب مع وحدة MedFuse

تتكون استراتيجية التدريب من خطوتين: تدريب مسبق لمشفّرات الوسائط، ثم تحسين مشترك للمشفّرات ووحدة الدمج. أثناء التدريب المسبق، ندرب مشفّر الصور باستخدام مجموعة التدريب أحادية الوسيط \(\mathbf{CXR}_{\mathbf{UNI}}\) مع العلامات الشعاعية الـ14. كما ندرب مشفّر البيانات الزمنية السريرية لكل مهمة بشكل مستقل باستخدام \(\mathbf{EHR}_{\mathbf{PARTIAL}}\)، حيث أن لكل مهمة مدخلاتها وعلاماتها الخاصة. بعد التدريب المسبق، نستبعد المصنفات أحادية الوسيط ونحسن المشفّرات وطبقة الإسقاط وMedFuse باستخدام \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\). نقارن هذه الاستراتيجية مع تحسين وحدة الدمج مع مستخلصات ميزات عشوائية التهيئة.

النماذج الأساسية

نقارن أداء نهجنا متعدد الوسائط المقترح مع عدة نماذج أساسية:

  • الدمج المبكر: يعتمد الدمج المبكر التقليدي المستخدم في الأعمال الحديثة (انظر الشكل 2 (يسار)) على توفر بيانات مقترنة أثناء التدريب والاستدلال. ندرب نسختين: في الأولى، ندرب الشبكات الخاصة بكل وسيط بشكل مستقل: \(f_{cxr}\) و\(g_{cxr}\) مع \(\mathbf{CXR}_\mathbf{PAIRED}\)، و\(f_{ehr}\) و\(g_{ehr}\) مع \(\mathbf{EHR}_\mathbf{PAIRED}\). ثم نثبت المشفّرات، ندمج تمثيلاتهما الكامنة، ونحسن طبقة إسقاط وشبكة تصنيف باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\). في النسخة الثانية، نستخدم \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) للتحسين، ونستبدل الوسيط المفقود بمتجه قابل للتعلم كما في .

  • الدمج المشترك: في هذا الإعداد، ندرب شبكة من البداية تشمل المشفّرات الخاصة بكل وسيط وشبكة تصنيف تطبق على التمثيلات المدمجة (انظر الشكل 2 (يمين)). ندرب نسختين: الأولى باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\)، والثانية باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) مع متجه قابل للتعلم للوسيط المفقود.

  • وحدة النقل متعددة الوسائط (MMTM): تم اقتراحها في وتفترض بيانات مقترنة. نطبق وحدة MMTM بعد أول طبقة LSTM في البيانات الزمنية، وبعد الطبقة الثالثة أو الرابعة في ResNet. ندرب الشبكة من البداية باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\) ونتبع استراتيجية التدريب الأصلية.3

  • تحويل الخريطة المميزة الديناميكي (DAFT): يتطلب أيضًا بيانات مقترنة، ويستخدم وحدة DAFT لإعادة تحجيم وتحويل التمثيلات بعد أول طبقة LSTM باستخدام تمثيل الأشعة السينية المحسوب من ResNet. ندرب باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\) ونتبع استراتيجية التدريب الأصلية.4

نقارن أيضًا مع شبكة LSTM ثنائية الطبقات مدربة فقط على البيانات الزمنية السريرية، ومع طريقة (Unified) المدربة باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\).

تدريب النماذج واختيارها

قمنا بضبط القيم الفائقة عبر 10 تكرارات لكل نموذج من النماذج المقترحة والأساسية. في كل تكرار، نختار معدل تعلم عشوائيًا بين \(10^{-5}\) و\(10^{-3}\)، ثم نختار النموذج ومعدل التعلم الذي يحقق أفضل AUROC على مجموعة التحقق. بالنسبة للنماذج ذات الخيارات المعمارية (MMTM وDAFT)، نختار البنية التي تحقق أفضل أداء على التحقق ونبلغ عن نتائجها على الاختبار. استخدمنا خوارزمية Adam في جميع التجارب بحجم دفعة 16. حددنا الحد الأقصى لعدد العصور بـ50 واستخدمنا الإيقاف المبكر إذا لم يتحسن AUROC للتحقق خلال 15 عصرًا. طبقنا أيضًا تحسينات الصور كما هو موضح في الملحق 7.1.

مع أفضل معدل تعلم تم اختياره، قمنا بتغيير نسبة العينات أحادية الوسيط في مجموعة التدريب \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\)، وحسّنا MedFuse وفقًا لذلك وقيّمناه على مجموعة التحقق. اخترنا أفضل نموذج بناءً على أفضل أداء AUROC على مجموعة التحقق \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\)، وبلغنا عن نتائجه على مجموعة الاختبار. نرمز لهذا النموذج بـMedFuse (OPTIMAL).

النتائج

في هذا القسم، نعرض نتائج عدة تجارب لتوضيح فعالية النهج المقترح. تم تلخيص معدلات التعلم التي حققت أفضل النتائج في الملحق 7.2 لجميع النماذج. تظهر نتائج التحقق عند تغيير نسبة العينات أحادية الوسيط أثناء التدريب في الملحق 7.3. النسب المثلى هي 10% لتنبؤ الوفيات و20% لتصنيف الأنماط المرضية.

نتائج الأداء في الإعدادات أحادية ومتعددة الوسائط

في الجدول [tab:univsmulti]، نقارن النهج المقترح مع LSTM أحادي الوسيط. كما هو متوقع، نلاحظ أولاً أن أداء LSTM أحادي الوسيط يتحسن على مجموعة اختبار \(\mathbf{EHR}_{\mathbf{PAIRED}}\) من حيث AUROC وAUPRC لكلا المهمتين عند استخدام مجموعة التدريب الأكبر \(\mathbf{EHR}_{\mathbf{PARTIAL}}\). يحقق النهج المقترح باستخدام MedFuse أفضل أداء على مجموعة الاختبار المقترنة عند استخدام صور الأشعة السينية كوسيط مساعد أثناء التدريب والاستدلال (0.770 AUROC و0.481 AUPRC لتصنيف الأنماط المرضية، و0.865 AUROC و0.594 AUPRC لتنبؤ الوفيات). نلاحظ اتجاهات مشابهة ولكن أقل وضوحًا في مجموعة الاختبار الأكبر المقترنة جزئيًا، ربما بسبب أن 18.8% و26.2% فقط من العينات مقترنة في مجموعات اختبار التصنيف وتنبؤ الوفيات على التوالي.

نتائج الأداء في الإعداد المقترن

نظرًا لأن النماذج الأساسية صممت أصلاً للمدخلات المقترنة، قمنا بتقييم جميع النماذج على مجموعة اختبار (\(\mathbf{EHR+CXR})_{\mathbf{PAIRED}}\) كما هو موضح في الجدول [tab:paired_res]. أولاً، نلاحظ أن الدمج المبكر والمشترك يقدمان أداءً متقاربًا في كلا المهمتين عند التدريب على (\(\mathbf{EHR+CXR})_{\mathbf{PAIRED}}\)، مع تفوق طفيف للدمج المبكر في AUROC. كما نلاحظ أن تدريب الدمج المبكر باستخدام (\(\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\) يؤدي إلى انخفاض في AUROC وAUPRC في كلا المهمتين، بينما يتحسن الدمج المشترك فقط في التصنيف. ثانيًا، نلاحظ أن نهج Unified يحقق أفضل أداء بين النماذج الأساسية (0.765 AUROC و0.461 AUPRC للتصنيف، و0.835 AUROC و0.495 AUPRC لتنبؤ الوفيات). ثالثًا، يحقق النهج المقترح MedFuse (OPTIMAL) أفضل أداء في كلا المهمتين (0.770 AUROC و0.481 AUPRC للتصنيف، و0.865 AUROC و0.594 AUPRC لتنبؤ الوفيات). أجرينا أيضًا دراسة حذف عشوائي للوسيط الشعاعي في مجموعة الاختبار المقترنة، والنتائج في الملحق 7.4. كما قارنا بين استبدال الوسيط المفقود بأصفار أو متجه قابل للتعلم في الدمج المبكر والمشترك، والنتائج في الملحق 7.5. كلا الطريقتين تقدمان أداءً متقاربًا.

نتائج الأداء في الإعداد المقترن جزئياً

في الجدول [tab:partialresults]، نقيم النهج المقترح MedFuse بالإضافة إلى الدمج المبكر والمشترك على مجموعة الاختبار المقترنة جزئيًا. بالمقارنة مع الدمج المبكر، يحقق النهج المقترح أداءً أفضل في تصنيف الأنماط المرضية (0.758 مقابل 0.748 AUROC و0.418 مقابل 0.394 AUPRC). ويقدم أداءً مقاربًا في تنبؤ الوفيات، رغم تفوق الدمج المبكر في AUPRC. يتفوق نهجنا على الدمج المشترك في تنبؤ الوفيات (0.861 مقابل 0.841 AUROC و0.501 مقابل 0.482 AUPRC)، ويقدم أداءً مقاربًا في التصنيف. بشكل عام، يحقق MedFuse (OPTIMAL) المدرب مع عينات مقترنة و10% فقط من العينات أحادية الوسيط لتنبؤ الوفيات و20% للتصنيف أفضل أداء (0.768 AUROC و0.429 AUPRC للتصنيف، و0.874 AUROC و0.567 AUPRC لتنبؤ الوفيات). أجرينا أيضًا دراسة حذف عشوائي لنسبة العينات أحادية الوسيط في الإعداد المقترن جزئيًا، والنتائج في الملحق 7.6.

كما قارنا أداء MedFuse مع تجميع من نموذجين: (1) MedFuse للعينات المقترنة، و(2) LSTM أحادي الوسيط للعينات التي تفتقد الأشعة السينية. النتائج متقاربة، كما هو موضح في الملحق 7.7، مما يشير إلى أن تجميع نماذج قوية قد يكون أفضل لبعض المهام مثل التصنيف، لكنه يتطلب تدريب نموذجين.

تحليل حسب الأنماط المرضية

في الشكل [fig:types_bar]، نعرض نتائج AUROC (يسار) وAUPRC (يمين) عبر فئات الأنماط المرضية: الحادة، المختلطة، والمزمنة. أنواع العلامات وانتشارها موضحة في الجدول [tab:phenotype_wise]. نلاحظ أن نهجنا يحسن الأداء بشكل ملحوظ في الحالات المختلطة والمزمنة، والتي يصعب عادة التنبؤ بها عبر البيانات الزمنية فقط . على وجه الخصوص، في الحالات المختلطة، يرتفع AUROC من 0.749 إلى 0.800 وAUPRC من 0.458 إلى 0.565. في الحالات المزمنة، يرتفع AUROC من 0.717 إلى 0.745 وAUPRC من 0.487 إلى 0.512. أما في الحالات الحادة، فالتحسن أقل وضوحًا (AUROC من 0.761 إلى 0.772 وAUPRC من 0.432 إلى 0.433). في الجدول [tab:phenotype_wise]، نبلغ عن الأداء عبر جميع العلامات الـ25 لمجموعة الاختبار المقترنة باستخدام البيانات أحادية ومتعددة الوسائط. نلاحظ تحسنًا في عدة أنماط مرتبطة بالصدر مثل الالتهاب الرئوي والتهاب غشاء الجنب، والتي يتم تقييمها سريريًا غالبًا عبر التصوير الشعاعي . هذا يبرز أهمية استخدام صور الأشعة السينية كمصدر معلومات إضافي مع البيانات الزمنية السريرية.

تحليل الوفيات داخل المستشفى حسب الفئة العمرية

قمنا بتقييم أداء النهج عبر الفئات العمرية المختلفة، كما هو موضح في الجدول [tab:age_analysis]، وقارنّاه مع LSTM أحادي الوسيط. نلاحظ أن AUROC وAUPRC يتحسنان في الفئات 40-60، 60-80، وأكثر من 80 عامًا، بينما ينخفض AUROC للفئة 18-40 عامًا. يحتاج هذا الأخير لمزيد من الدراسة مع مجموعة بيانات أكبر، إذ تحتوي مجموعة الاختبار على 11 عينة إيجابية فقط للفئة الأصغر. كما توجد فروق في نسب التحسن، فمثلاً يرتفع AUPRC بنسبة 24% للفئة 40-60 عامًا، مقابل 1.3% للفئة 60-80 عامًا.

المناقشة

في هذا البحث، قدمنا نهج دمج متعدد الوسائط باسم MedFuse ونتائج معيارية جديدة لدمج البيانات الزمنية السريرية وصور الأشعة السينية للصدر المقترنة جزئيًا. قمنا بتقييمه في مهمتين معياريتين شائعتين: تنبؤ الوفيات داخل المستشفى وتصنيف الأنماط المرضية، باستخدام مجموعتي بيانات MIMIC-IV وMIMIC-CXR المتاحتين للجمهور.

لدراستنا عدة نقاط قوة. أولاً، النهج المقترح بسيط وسهل التطبيق. أظهرت النتائج أن النهج يتفوق على LSTM أحادي الوسيط، إذ يستفيد من صور الأشعة السينية كمصدر إضافي عند توفرها. كما يتفوق على عدة نماذج أساسية، ويوفر تحليل الأنماط المرضية والفئات العمرية رؤى حول مواضع التحسن. نستنتج أن الطريقة المقترحة هي الخيار الأفضل لأنها (1) تتعامل تلقائيًا مع البيانات المفقودة (أي العينات المقترنة جزئيًا)، و(2) أن الجمع بين البنية واستراتيجية التدريب يوفر مكاسب في الأداء. لا يبدو أن حجم مجموعة التدريب المقترنة جزئيًا مرتبط بتحسن الأداء، كما هو موضح في نتائج التحقق في الملحق 7.3. تبرز النتائج بشكل عام إمكانيات الدمج متعدد الوسائط في تحسين أداء النماذج السريرية. كما أن التعلم متعدد الوسائط يتماشى مع عملية اتخاذ القرار السريري، حيث يأخذ الأطباء في الاعتبار مصادر متعددة للمعلومات عند تقييم المريض.

علاوة على ذلك، بخلاف الأساليب التقليدية التي تفترض مدخلات مقترنة، فإن طريقتنا أكثر مرونة إذ يمكنها معالجة العينات التي تفتقد صور الأشعة السينية. هناك اهتمام متزايد بتعلم التفاعلات بين الوسائط أثناء التدريب وإعادة بناء الوسائط المفقودة . بخلاف مجموعات البيانات الطبيعية، فإن افتراض وجود ترابط عالٍ بين الوسائط ليس أمرًا بديهيًا في الرعاية الصحية، خاصة عندما لا تشترك الوسائط في نفس العلامات، وهذا مجال للبحث المستقبلي. الصعوبة تنبع من الطبيعة المتفرقة وغير المتزامنة للبيانات الطبية، أي أنه من الصعب استخدام تقرير خزعة جلدية لإعادة بناء ميزات أمراض الصدر . كما أن بعض الأعمال الحالية تفترض توفر جميع الوسائط أثناء التدريب .

ميزة أخرى هي أن النهج يمكن توسيعه بسهولة لأكثر من وسيطين دون تعديل دالة الخسارة، بخلاف الأعمال السابقة التي تزداد تعقيدها مع زيادة عدد الوسائط . إلا أن ذلك يتطلب تقييمًا مستقبليًا. كما لا نفترض أي ترابط بين الوسائط من حيث المعلومات أو العلامات.

بالإضافة إلى ذلك، قدمنا نتائج معيارية جديدة لمهمتين شائعتين غالبًا ما يتم تقييمهما باستخدام البيانات الزمنية فقط . من خلال إتاحة مجموعتي بيانات MIMIC-IV وMIMIC-CXR ، يمكن للباحثين الاستفادة من خط أنابيب معالجة البيانات مفتوح المصدر وتقديم نتائج جديدة للمقارنة المباشرة.

القيود

للدراسة بعض القيود. أولاً، ركزنا على دمج البيانات الزمنية السريرية وصور الأشعة السينية من مصدر واحد، وقيمنا العمل على مهمتين فقط بسبب محدودية الموارد. العمل الأصلي يشمل مهمتين إضافيتين (تنبؤ فك التثبيت وتنبؤ مدة الإقامة)، نخطط لتقييم طريقتنا عليهما مستقبلاً. يجب أيضًا دراسة مهمة تنبؤ الوفيات في سياق استبعاد صور الأشعة السينية المأخوذة بعد أول 48 ساعة. لم نجري تجارب على حالات غياب البيانات الزمنية مع توفر الأشعة السينية، وهذا يتطلب تعريف مهام معيارية جديدة حيث تكون الأشعة السينية هي الوسيط الأساسي. كما أن النموذج الحالي يفتقر للتفسيرية، إذ ركزنا على الدمج فقط. نخطط لاحقًا لإدخال طبقات انتباه على مستوى المدخلات لتقييم أهمية الميزات داخل كل وسيط، وداخل وحدة الدمج لتقييم أهمية كل وسيط. كما يمكن أن يستفيد العمل من تحليل على مستوى العينة، إلا أن ذلك يتطلب خبرة سريرية تربط بين تحليل الصور والبيانات الزمنية، وهو ما نفتقده حاليًا. لتحقيق الاستفادة الكاملة من التعلم متعدد الوسائط، هناك حاجة لمزيد من الفهم للأسس السريرية للدمج. بشكل عام، تبرز الدراسة أهمية مواصلة استكشاف إمكانيات التعلم متعدد الوسائط في الرعاية الصحية مع تزايد تنوع وكمية البيانات الطبية.

الشكر والتقدير

تم دعم هذا العمل جزئيًا من قبل مركز الذكاء الاصطناعي والروبوتات بجامعة نيويورك أبوظبي، الممول من تمكين ضمن جائزة معهد أبحاث جامعة نيويورك أبوظبي CG010. كما نشكر فريق الحوسبة عالية الأداء (HPC) في جامعة نيويورك أبوظبي على دعمهم.

الملحق

تحسينات الصور

بالنسبة لصور الأشعة السينية، طبقنا سلسلة من التحويلات أثناء التدريب المسبق والتحسين في جميع التجارب. قمنا بتغيير حجم كل صورة إلى \(256 \times 256\) بكسل، وتطبيق قلب أفقي عشوائي، وتحويلات عشوائية مثل التدوير والتحجيم والقص والترجمة. ثم أخذنا اقتصاصًا عشوائيًا للحصول على صورة بحجم \(224 \times 224\) بكسل. أثناء التحقق والاختبار، قمنا بتغيير الحجم إلى \(256 \times 256\) وتطبيق اقتصاص مركزي إلى \(224 \times 224\) بكسل.

نتائج البحث عن القيم الفائقة

نتائج ضبط القيم الفائقة موضحة في الجدول [tab:learning_rates]. نلخص معدلات التعلم التي حققت أفضل أداء لكل نموذج.

نسبة العينات أحادية الوسيط ضمن مجموعة التدريب

أجرينا تجارب بتغيير نسبة العينات أحادية الوسيط أثناء التحسين. أفضل نتائج AUROC لكلا المهمتين على مجموعة التحقق موضحة في الشكل 3. بالنسبة لتنبؤ الوفيات (بالأحمر)، نلاحظ أن نسبة صغيرة (10%) تحقق أفضل أداء. بالنسبة للتصنيف (بالأزرق)، نلاحظ اتجاهًا مشابهًا حيث تحقق أفضل AUROC عند 20%. نثبت النسبة التي تحقق أفضل AUROC في جميع التجارب، ما لم يُذكر خلاف ذلك. هذا يبرز أن أفضل مكاسب MedFuse تتحقق حتى مع نسبة صغيرة من العينات أحادية الوسيط.

نسبة العينات أحادية الوسيط ضمن مجموعة الاختبار المقترنة

أجرينا دراسة حذف عشوائي للوسيط الشعاعي في مجموعة الاختبار المقترنة. النتائج في الشكل 4. نلاحظ أنه مع زيادة نسبة الحذف، ينخفض AUROC في كلا المهمتين.

الوسيط المفقود مع الدمج المبكر والمشترك

أجرينا تجارب أولية لمقارنة المتجه القابل للتعلم مع تعويض الأصفار للوسيط المفقود. النتائج في الجدول [tab:missing-modality]. نلاحظ أن النتائج متقاربة دون فروق واضحة.

نسبة العينات أحادية الوسيط ضمن مجموعة الاختبار المقترنة جزئياً

أجرينا دراسة حذف عشوائي لنسبة العينات أحادية الوسيط في مجموعة الاختبار المقترنة جزئيًا. النتائج في الشكل 5. عند تضمين 0% من العينات أحادية الوسيط، يكون ذلك مكافئًا لمجموعة الاختبار المقترنة بالكامل. نلاحظ زيادة في AUROC في مهمة تنبؤ الوفيات مع زيادة النسبة، بينما يبقى AUROC أكثر استقرارًا في التصنيف. كما نلاحظ أن عرض فترات الثقة ينخفض مع زيادة النسبة في كلا المهمتين.

تجميع النماذج أحادية ومتعددة الوسائط

أجرينا تجربة لمقارنة أداء MedFuse مع تجميع من نموذجين: نموذج EHR فقط للعينات غير المرتبطة بصورة أشعة سينية باستخدام LSTM، ونموذج مقترن للعينات المقترنة باستخدام MedFuse. النتائج في الجدول [tab:medfuse_unimodal]. نلاحظ أن التجميع يتفوق قليلاً على MedFuse في التصنيف فقط، ما يشير إلى أن تجميع نماذج قوية قد يكون أفضل لبعض المهام مثل التصنيف، لكنه يتطلب تدريب نموذجين.


  1. يعمل حالياً في G42 للرعاية الصحية.↩︎

  2. مراكز الرعاية الطبية والخدمات الطبية، https://www.cms.gov/Medicare/Coding/ICD10/2018-ICD-10-CM-and-GEMs↩︎

  3. https://github.com/haamoon/mmtm↩︎

  4. https://github.com/ai-med/DAFT/↩︎


تم تحويل هذا الإصدار من LaTeX إلى HTML تلقائيًا.
تم عرض المعادلات الرياضية باستخدام MathJax.