معرّف ArXiv: 2207.07027v2
LaTeX الأصلي: ./nyuad_arxiv_papers/nyuad_papers_comprehensive/source_code/2207.07027v2_extracted/main.tex
تمّ التحويل: 2025-06-06 13:13:48

MedFuse - الدَّمج المُتعدِّد الوسائط للبيانات السريرية وصور الأشعَّة لتنبُّؤ الوفيّات

1
قسم الهندسة
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة
قسم الأشعّة
كلية الطب بجامعة نيويورك جروسمان
نيويورك، الولايات المتحدة الأمريكية
قسم الهندسة
جامعة نيويورك أبوظبي
أبوظبي، الإمارات العربية المتحدة

الملخّص

تستهدف تقنيات الدَّمج المُتعدِّد الوسائط تكامل المعلومات المُستخلَصة من مصادر بيانات مُتنوِّعة. وعلى خلاف مجموعات البيانات الطبيعيّة (كالصوت والصورة) حيث تتكوّن العيّنات عادةً من وسائط «مُقترَنة»، فإنّ بيانات الرعاية الصحيّة غالبًا ما تُجمَع على نحوٍ غير مُتزامِن. لذا فإنّ الاشتراط على توافُر جميع الوسائط لكلّ عيّنة أمر غير واقعي في المهامّ السريريّة، ويحدّ بصورة كبيرة من حجم البيانات المُتاحة أثناء التدريب. نقترح في هذا البحث MedFuse، وهي وحدة دَمج قائمة على LSTM بسيطة من حيث الفكرة وقويّة من حيث الأداء، وقادرة على التعامُل مع المُدخلات الأحاديّة أو المُتعدِّدة الوسائط. نقوم بتقييم منهجيّة الدمج هذه ونقدّم نتائج معياريّة جديدة لتنبُّؤ الوفيّات داخل المستشفى وتصنيف الأنماط المرضيّة، بالاستفادة من بيانات سريريّة طوليّة من مجموعة MIMIC-IV وصور أشعّة صدريّة من MIMIC-CXR. مقارنةً باستراتيجيات الدَّمج المُتعدِّد الوسائط الأكثر تعقيدًا، يُقدّم MedFuse تحسُّنًا ملحوظًا على مجموعة الاختبار المُقترَنة بالكامل، كما يبقى مُتماسِك الأداء عند اختبار عيّنات تفتقد صور الأشعّة السينيّة للصدر. نُتيح الشيفرة البرمجيّة خاصّتنا دعمًا لإعادة إنتاج النتائج وتمكين تقييم نماذج منافسة مستقبلًا.

الكلمات المفتاحيّة: التعلُّم المُتعدِّد الوسائط؛ دَمج الوسائط؛ السجلات الصحيّة الإلكترونيّة (EHR)؛ صور الأشعّة السينيّة للصدر (CXR)؛ تنبُّؤ الوفيّات داخل المستشفى؛ تصنيف الأنماط المرضيّة؛ LSTM؛ MIMIC-IV؛ MIMIC-CXR.

المقدّمة

يُدرِك الإنسان العالم من حوله عبر بيانات مُتعدِّدة الوسائط . حتى الآن، تعتمد معظم النماذج الناجحة في تعلُّم البيانات الإدراكيّة في الرعاية الصحيّة على وسيطٍ واحد فقط . ورغم أن التعلُّم المُتعدِّد الوسائط قد استُكشف على نطاقٍ واسع في سياقات الصوت والصورة وعلى مجموعات الصور الطبيعيّة ، لا تزال تطبيقاته في الرعاية الصحيّة محدودة. الهدف الرئيس من الدَّمج المُتعدِّد الوسائط هو استغلال المعلومات ذات الصلة من وسائط مختلفة لتعزيز الأداء في المهامّ اللاحقة . ويمكن تصنيف استراتيجيات الدَّمج إلى: دَمج مُبكِّر، ودَمج مُشترك، ودَمج مُتأخِّر ؛ ويُعدّ الدَّمج المُشترك أكثر وعودًا إذ يُنمذج التفاعلات بين تمثيلات الوسائط المُدخلة.

نُبرز هنا تحدّيَين رئيسين يواجهان الدَّمج المُشترك المُتعدِّد الوسائط في الرعاية الصحيّة. أولًا، تفترض كثير من الأساليب الحديثة توافُر جميع الوسائط لكلّ عيّنة أثناء التدريب أو الاستدلال أو كليهما . وبرغم أن بعض الدراسات السريريّة تستوفي هذا الافتراض ، فإن الحصول على بيانات مُقترَنة على الدوام غير عمليّ لأن الممارسة السريريّة اليوميّة تُنتِج بيانات غير مُتجانسة وبكثافات زمنيّة متفاوتة. فعلى سبيل المثال، تُجمَع القياسات الفسيولوجيّة بوتيرة أعلى بكثير من صور الأشعّة السينيّة للصدر في وحدات العناية المركّزة. وهاتان الوسيطتان هما محور دراستنا لما لهما من أهميّة في مهامّ التنبؤ السريري . كما أن تطوير نموذج دَمج موحّد لهاتين الوسيطتين يطرح تحدّيات إضافيّة، من أبرزها: (1) اختلاف أبعاد المُدخلات على نحوٍ كبير، (2) الحاجة إلى مُستخلِص ميزات خاصّ بكلّ وسيط نظرًا لاختلاف طبيعة المعلومات والضجيج ، و(3) عدم التزامُن الزمني بين الوسائط، ما يُصعِّب اقترانها. بناءً على ذلك، هدفنا الأساسي هو اقتراح بنية دَمج قادرة على التعامُل مع البيانات المُقترَنة جزئيًّا مع تحقيق أداءٍ قويّ في المهامّ التنبّؤية.

التحدّي الثاني هو غياب معايير عامّة مُتعدِّدة الوسائط مُتاحة علنًا في المجال السريري. لذا تعتمد معظم الدراسات على وسيط بيانات واحد ، أو على مجموعات بيانات مُتعدِّدة الوسائط خاصّة . هنا، هدفنا الثانوي هو تقديم نتائج معياريّة جديدة لمهمّتَين سريريّتَين شائعتَين باستخدام مجموعتَي البيانات المتاحتَين للجمهور MIMIC-IV وMIMIC-CXR ، مع إتاحة الشيفرة البرمجيّة لضمان إمكانيّة إعادة الإنتاج. نقارن منهجيّتنا بالدَّمج المُبكِّر والمُشترك التقليديَّين، إضافةً إلى أحدث الأساليب مفتوحة المصدر . وإجمالًا، نقدّم المساهمات التالية:

نظرة عامة على خطّ الأنابيب: استخراج وربط بيانات MIMIC-IV وMIMIC-CXR وفق تعريف المهمّة، مع تلخيص تقسيمات المجموعات وتوزّع العلامات.

رؤى عامّة حول تعلُّم الآلة في سياق الرعاية الصحيّة

تركّز تقنيات الدَّمج المُتعدِّد الوسائط الحديثة غالبًا على مصادر معلومات مُتزامنة باستخدام بيانات طبيعيّة مثل الصوت والصورة والنص. أمّا في الرعاية الصحيّة، فالبيانات متفرِّقة وغير مُتجانسة، وبالتالي لا تكون الوسائط مُقترَنة دائمًا. يتجاوز عملُنا تحدّي البيانات المفقودة عبر نهج دَمج مرن لا يعتمد على نوع المُشفِّر الخاصّ بكلّ وسيط، ممّا يُتيح تطبيقه على أنواع بيانات أخرى، وليس فقط صور الأشعّة السينيّة للصدر والبيانات الزمنيّة السريريّة. كما يُبرز فاعليّة معالجة سلسلة من التمثيلات الأحاديّة للوسائط مقارنةً باستراتيجيات الدَّمج التقليدي في الدَّمج المُشترك. إجمالًا، يُظهر العمل إمكانات الدَّمج المُتعدِّد الوسائط لتحسين الأداء في المهام السريريّة.

المنهجيّة

نُعرّف نهجًا على مرحلتَين: (1) تعلُّم نماذج إدراكيّة خاصّة بكلّ وسيط لاستخلاص الميزات الكامنة (انظر القسم 3.1)، و(2) دَمج هذه الميزات عبر وحدة دَمج مُتعدِّدة الوسائط مُشتركة، MedFuse (انظر القسم 3.2). تظهر البنية الكلّية في الشكل [fig:main_fig]. نركّز هنا على وسيطَين: البيانات الزمنيّة السريريّة (ehr) وصور الأشعّة السينيّة للصدر (cxr) لدى شرح المنهجيّة.

المُشفِّرات الخاصّة بكلّ وسيط

أحد مصادر عدم التجانس الرئيسة في الرعاية الصحيّة هو اختلاف أبعاد وسائط المُدخلات، ما يُعقِّد تطوير مُشفِّر موحّد لجميع الوسائط. كما تختلف مساحة الأهداف؛ إذ لا نفترض اشتراك جميع الوسائط في مجموعة العلامات نفسها. لذا نُعرِّف مُشفِّرات خاصّة بكلّ وسيط كما يلي.

لعينةٍ ما، لنفترض أنّ \(\mathbf{x}_{ehr}\in \mathbb{R}^{t\times d}\) تمثّل البيانات الزمنيّة السريريّة المرتبطة بعلامات حقيقيّة \(\textbf{y}_{ehr}\)، حيث \(t\) هو عدد الخطوات الزمنيّة و\(d\) هو عدد الميزات المُستخلَصة من المتغيّرات السريريّة. نُطبِّق المُشفِّر \(f_{ehr}\) كشبكة LSTM ثنائيّة الطبقات مع طبقة إسقاط. نَحسب تمثيلًا كامنًا \(\mathbf{v}_{ehr} \in \mathbb{R}^m\) يمثّل الحالة المُخفية الأخيرة من LSTM، حيث \(m=256\). ثم نُطبِّق مُصنِّفًا \(g_{ehr}\) لحساب التنبؤات: \(\hat{\mathbf{y}}_{ehr} = g_{ehr}(\mathbf{v}_{ehr})\). لتحسين المُشفِّر، نستخدم دالّة الخسارة: \[\mathbb{L}_{ehr}(\mathbf{y}_{ehr}, \mathbf{\hat{y}}_{ehr}) = BCE(\mathbf{y}_{ehr}, \mathbf{\hat{y}}_{ehr}),\] حيث تُشير \(BCE\) إلى خسارة الانتروبيّا المُتقاطعة الثنائيّة.

ولتكن \(\mathbf{x}_{cxr} \in \mathbb{R}^{w\times h \times c}\) صورة أشعّة سينيّة للصدر للعينة نفسها مع العلامات الحقيقية \(\textbf{y}_{cxr}\)، حيث \(w\) العرض و\(h\) الارتفاع و\(c\) عدد القنوات. في جميع التجارب: \(h=224\) و\(w=224\) و\(c=3\)، إذ نُكرِّر كلّ صورة عبر ثلاث قنوات. نُطبِّق المُشفِّر \(f_{cxr}\) كشبكة ResNet-34 لحساب \(\mathbf{v}_{cxr} \in \mathbb{R}^n\)، وهو تمثيل الميزات بعد طبقة التجميع المتوسِّط في الشبكة الالتفافيّة حيث \(n=512\). وبالمثل، نُطبِّق مُصنِّفًا \(g_{cxr}\) للتنبؤ: \(\hat{\mathbf{y}}_{cxr} = g_{cxr}(\mathbf{v}_{cxr})\)، ونستخدم دالّة الخسارة التالية لتحسين المُشفِّر: \[\mathbb{L}_{cxr}(\mathbf{y}_{cxr}, \mathbf{\hat{y}}_{cxr}) = BCE(\mathbf{y}_{cxr}, \mathbf{\hat{y}}_{cxr}).\]

يمكن بالتالي تدريب المُشفِّرات بصورة مستقلّة باستخدام العلامات والخسائر الخاصّة بكلّ وسيط.

وحدة MedFuse

لدَمج الوسائط، نستبعد أوّلًا المُصنِّفَين \(g_{ehr}\) و\(g_{cxr}\) ونحتفظ بالمُشفِّرَين المُدرَّبين مُسبقًا \(f_{ehr}\) و\(f_{cxr}\). وبما أنّ أبعاد الفضاء الكامن للوسيطَين مختلفة، نستخدم طبقة إسقاط \(\mathbf{\phi}\) لإسقاط \(\mathbf{v}_{cxr}\) إلى الأبعاد نفسها لِـ\(\mathbf{v}_{ehr}\): \[\mathbf{v}_{cxr}^* = {\phi(\mathbf{v}_{cxr})}\] بحيث \(\mathbf{v_{cxr}^*}\in \mathbb{R}^m\). بعد ذلك، نُنشئ تسلسلًا من تمثيلات الميزات الأحاديّة للوسائط لكلّ عيّنة: \[\mathbf{v}_{fusion} = [\mathbf{v}_{ehr}, \mathbf{v}_{cxr}^*].\] نُعرِّف شبكة دَمج مُتعدِّدة الوسائط \(f_{fusion}\) كطبقة LSTM واحدة بمدخل 256 وبُعد مُخفي 512، تقوم بتجميع التسلسل مُتعدِّد الوسائط عبر التكرار. الدافع لاستخدام LSTM مزدوج: أوّلًا، يتّبع منطق اتخاذ القرار السريري، إذ يفحص الأطباء كلّ وسيط على حدة؛ ما يُتيح للوحدة التعلُّم من \(\mathbf{v}_{ehr}\) ثم تحديث حالتها الداخليّة باستخدام \(\mathbf{v}_{cxr}^*\). ثانيًا، يمكنها التعامُل مع تسلسلات مُدخلات بعددٍ مُتغيِّر من الوسائط، وبالتالي تُعالِج تلقائيًّا حالات غياب وسيطٍ ما. ففي حال غياب صورة أشعّة صدريّة أثناء التدريب أو الاستدلال، تُعالِج الشبكة تسلسلًا من عنصرٍ واحد \([\mathbf{v}_{ehr}]\).

تُمرَّر الحالة المُخفية الأخيرة \(\textbf{h}_{fusion}\) الناتجة عن \(f_{fusion}\) عبر مُصنِّف \(g_{fusion}\) لحساب التنبؤات النهائيّة: \(\mathbf{\hat{y}}_{fusion}=g_{fusion}(\mathbf{h}_{fusion})\). نقوم بتدريب المُشفِّرَين \(f_{ehr}\) و\(f_{cxr}\) وطبقة الإسقاط \(\phi\) ووحدة الدَّمج \(f_{fusion}\) والمُصنِّف \(g_{fusion}\) معًا عبر تحسين دالّة الخسارة: \[\mathbb{L}_{fusion}(\mathbf{y}_{fusion}, \mathbf{\hat{y}}_{fusion}) = BCE(\mathbf{y}_{fusion}, \mathbf{\hat{y}}_{fusion}),\] حيث \(\textbf{y}_{fusion}=\textbf{y}_{ehr}\)، إذ نفترض أنّ البيانات الزمنيّة السريريّة هي الوسيط الأساسي المرتبط بالمهمّة التنبّؤية وهي متوافرة دائمًا أثناء التدريب والاستدلال. جميع المُصنِّفات \(g_{ehr}\) و\(g_{cxr}\) و\(g_{fusion}\) عبارة عن طبقة خطيّة واحدة تليها دالّة تفعيل سيغمويد.

التجارب

مجموعات البيانات والمهام المعياريّة

في تجاربنا، استخرجنا البيانات الزمنيّة السريريّة من MIMIC-IV مع صور الأشعّة السينيّة للصدر المرتبطة بها من MIMIC-CXR . نُلخِّص هنا المهمّتَين ونقدّم تفاصيل إضافيّة:

  • تصنيف الأنماط المرضيّة: مهمّة مُتعدِّدة العلامات تهدف إلى التنبّؤ بما إذا كان قد تمّ تشخيص 25 حالة مرضيّة (مزمنة/مختلطة/حادّة) للمريض خلال إقامته في وحدة العناية المركّزة. لكلّ عيّنة، تحتوي \(\mathbf{x}_{ehr}\) على بيانات زمنيّة سريريّة مجمّعة خلال كامل الإقامة، و\(\mathbf{y}_{ehr}\) متّجه ثنائي بطول 25. نربط كلّ عيّنة بآخر صورة أشعّة سينيّة مُلتقطة خلال الإقامة نفسها. تحتوي MIMIC-III على رموز ICD-9، فيما تحتوي MIMIC-IV على رموز ICD-9 وICD-10. في الورقة المعياريّة الأصليّة ، تمّ تعريف العلامات الـ25 باستخدام برنامج التصنيف السريري لـICD-9 . قمنا بتحويل جميع رموز ICD-10 إلى ICD-9 وفقًا لإرشادات مراكز الرعاية الطبيّة والخدمات الطبيّة2، ثم ربطناها بفئات CCS. نقوم بالتقييم باستخدام المساحة تحت منحنى الاستقبال (AUROC) والمساحة تحت منحنى الاسترجاع (AUPRC).

  • تنبُّؤ الوفيّات داخل المستشفى: مهمّة ثنائيّة تهدف إلى التنبُّؤ بحدوث الوفاة داخل المستشفى بعد أول 48 ساعة في وحدة العناية المركّزة. لكلّ عيّنة، تحتوي \(\mathbf{x}_{ehr}\) على بيانات زمنيّة سريريّة مجمّعة خلال أول 48 ساعة، و\(\mathbf{y}_{ehr}\) علامة ثنائيّة تُشير إلى الوفاة. نستبعد الإقامات التي تقلّ عن 48 ساعة. نربط كلّ عيّنة بآخر صورة أشعّة سينيّة مُلتقطة خلال الإقامة. نقوم بالتقييم باستخدام AUROC وAUPRC.

معالجة البيانات الزمنيّة السريريّة

قمنا بتعديل خطّ أنابيب استخراج البيانات ومعالجتها ، الذي كان مطبّقًا في الأصل باستخدام TensorFlow ، وقدمنا نسخة مُحدّثة لمجموعة MIMIC-IV باستخدام PyTorch . لضمان المقارنة العادلة وإبراز فعّاليّة التعلُّم المُتعدِّد الوسائط، استخدمنا المجموعة نفسها من المتغيّرات السريريّة (17 متغيّرًا): خمسة فئويّة (زمن إعادة تعبئة الشعيرات، درجات مقياس غلاسكو لفتح العين والاستجابة الحركيّة واللفظيّة والمجموع الكلّي) و12 متغيّرًا مستمرًّا (الانبساطي، نسبة الأكسجين المُستنشق، الغلوكوز، معدّل ضربات القلب، الطول، الضغط المتوسِّط، تشبّع الأكسجين، معدّل التنفّس، الانقباضي، الحرارة، الوزن، وpH). ولجميع المهام، قمنا بأخذ عينات منتظمة كلّ ساعتين، ثم تقطيع وتوحيد المتغيّرات للحصول على مُدخلات \(f_{ehr}\) كما في الأعمال السابقة . بعد المعالجة والترميز الأحادي للميزات الفئويّة، نحصل على متّجه بحجم 76 عند كلّ خطوة زمنيّة، بحيث \(\mathbf{x}_{ehr}\in\mathbb{R}^{t\times76}\) و\(t\) يعتمد على العيّنة والمهمّة.

تقسيمات البيانات

باستخدام مُعرّف المريض لبيانات السلاسل الزمنيّة السريريّة، قسّمنا البيانات عشوائيًّا إلى 70% تدريب، و10% تحقُّق، و20% اختبار، كما هو موضّح في الشكل 1. نُبلِّغ عن النتائج النهائيّة على مجموعات الاختبار ونحسب فترات الثقة 95% بطريقة bootstrap مع 1000 تكرار . نرمز للبيانات الزمنيّة السريريّة بـ\(\mathbf{EHR}\) ولصور الأشعّة السينيّة بـ\(\mathbf{CXR}\). تتضمّن \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) عيّنات مُقترَنة وأخرى مُقترَنة جزئيًّا (أي تفتقد صورة الأشعّة)، بينما تحتوي \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\) فقط على العيّنات التي تتوافر فيها الوسيطتان معًا. على سبيل المثال، مجموعة التدريب \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) لمهمّة تصنيف الأنماط المرضيّة تضم 7756 عيّنة مرتبطة بصور أشعّة من أصل 42628 عيّنة.

استخرجنا من MIMIC-CXR صور الأشعّة السينيّة وقسمناها بناءً على تقسيمٍ عشوائي حسب المرضى. ثم نقلنا الصور من مجموعة التدريب إلى التحقّق أو الاختبار إذا كانت مُرتبطة بمرضى في تلك المجموعات. نتج عن ذلك 325188 صورة للتدريب، و15282 للتحقّق، و36625 للاختبار. نُعرّف \(\mathbf{y}_{cxr}\) كمتّجه من 14 علامة ثنائيّة مُستخرجة من تقارير الأشعّة باستخدام CheXpert . نرمز لهذه المجموعة أحاديّة الوسيط بـ\(\mathbf{CXR}_{\mathbf{UNI}}\) وهي ثابتة عبر جميع المهام. نستخدم أيضًا \(\mathbf{CXR}_{\mathbf{PAIRED}}\) التي تشمل فقط الصور ضمن \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\)، و\(\mathbf{EHR}_{\mathbf{PARTIAL}}\) التي تشمل فقط السلاسل الزمنيّة ضمن \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\).

استراتيجيّة التدريب مع وحدة MedFuse

تتكوّن الاستراتيجيّة من خطوتَين: تدريب مُسبق لمُشفِّرات الوسائط، ثم تحسين مُشترك للمُشفِّرات ووحدة الدَّمج. أثناء التدريب المُسبق، نُدرِّب مُشفِّر الصور باستخدام مجموعة التدريب الأحاديّة \(\mathbf{CXR}_{\mathbf{UNI}}\) مع العلامات الشعاعيّة الـ14. كما نُدرِّب مُشفِّر البيانات الزمنيّة السريريّة لكلّ مهمّة على حدة باستخدام \(\mathbf{EHR}_{\mathbf{PARTIAL}}\)، إذ لكلّ مهمّة مُدخلاتها وعلاماتها الخاصّة. بعد التدريب المُسبق، نستبعد المُصنِّفات الأحاديّة ونُحسِّن المُشفِّرات وطبقة الإسقاط وMedFuse باستخدام \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\). نقارن هذه الاستراتيجيّة مع تحسين وحدة الدَّمج باستخدام مُستخلِصات ميزات مُهيّأة عشوائيًّا.

النماذج الأساسيّة

نُقارن أداء نهجنا المُقترح مُتعدِّد الوسائط مع عدّة خطوط أساس:

  • الدَّمج المُبكِّر: يعتمد على توافُر بيانات مُقترَنة في التدريب والاستدلال (انظر الشكل 2 يسار). نُدرِّب نسختَين: الأولى بتدريب الشبكتَين الخاصّتَين بكلّ وسيط مستقلًّا: \(f_{cxr}\) و\(g_{cxr}\) على \(\mathbf{CXR}_\mathbf{PAIRED}\)، و\(f_{ehr}\) و\(g_{ehr}\) على \(\mathbf{EHR}_\mathbf{PAIRED}\). ثم نُثبّت المُشفِّرات، ونَجمع تمثيلاتهما الكامنة، ونُحسِّن طبقة إسقاط ومُصنِّفًا باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\). في النسخة الثانية، نستخدم \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) مع استبدال الوسيط المفقود بمتّجه قابل للتعلُّم كما في .

  • الدَّمج المُشترك: نُدرِّب شبكة من البداية تشمل مُشفِّرات كلّ وسيط ومُصنِّفًا على التمثيلات المُدمجة (انظر الشكل 2 يمين). نُدرِّب نسختَين: الأولى باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\)، والثانية باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\) مع متّجه قابل للتعلُّم للوسيط المفقود.

  • وحدة النقل مُتعدِّدة الوسائط (MMTM): كما في وتفترض بيانات مُقترَنة. نُدرج وحدة MMTM بعد أوّل طبقة LSTM في بيانات EHR، وبعد الطبقة الثالثة أو الرابعة في ResNet. نُدرِّب من البداية باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\) ونتّبع استراتيجية التدريب الأصليّة.3

  • تحويل الخريطة المميِّزة الديناميكي (DAFT): يتطلّب أيضًا بيانات مُقترَنة، ويستخدم وحدة DAFT لإعادة تحجيم وتحويل التمثيلات بعد أوّل طبقة LSTM بالاستناد إلى تمثيل CXR المُستخرج من ResNet. نُدرِّب باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PAIRED}\) وفق الاستراتيجية الأصليّة.4

نُقارن أيضًا مع شبكة LSTM ثنائيّة الطبقات مُدرَّبة على بيانات EHR فقط، ومع طريقة (Unified) المُدرَّبة باستخدام \((\mathbf{EHR}+\mathbf{CXR})_\mathbf{PARTIAL}\).

تدريب النماذج واختيارها

قمنا بضبط القِيَم الفائقة عبر 10 تكرارات لكلّ نموذج من النماذج المقترحة والأساسيّة. في كلّ تكرار، نختار مُعدّل تعلُّم عشوائيًّا بين \(10^{-5}\) و\(10^{-3}\)، ثم ننتقي النموذج ومُعدّل التعلُّم الذي يُحقّق أفضل AUROC على مجموعة التحقُّق. بالنماذج ذات الخيارات المعماريّة (MMTM وDAFT)، نختار البنية التي تُحقّق أفضل أداء على التحقُّق ونُبلِّغ عن نتائجها على الاختبار. استخدمنا خوارزمية Adam بحجم دُفعة 16 في جميع التجارب. حدّدنا 50 عصرًا كحدّ أقصى، مع إيقاف مُبكِّر إذا لم يتحسّن AUROC للتحقُّق خلال 15 عصرًا. طُبِّقت كذلك تحسينات الصور كما في الملحق 7.1.

مع أفضل مُعدّل تعلُّم مُختار، غيّرنا نسبة العيّنات أحاديّة الوسيط ضمن مجموعة تدريب \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\)، وحسّنّا MedFuse وفقًا لذلك وقيّمناه على مجموعة التحقُّق. اخترنا أفضل نموذج وفق أفضل AUROC على مجموعة تحقُّق \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\)، وبلّغنا عن نتائجه على مجموعة الاختبار. نرمز لهذا النموذج بـMedFuse (OPTIMAL).

النتائج

نعرض في هذا القسم نتائج تجارب متعدِّدة لتوضيح فاعليّة النهج المقترح. خُلاصة مُعدّلات التعلُّم المُثلى واردة في الملحق 7.2. وتظهر نتائج التحقُّق عند تغيير نسبة العيّنات أحاديّة الوسيط أثناء التدريب في الملحق 7.3. النِّسَب المُثلى هي 10% لتنبُّؤ الوفيّات و20% لتصنيف الأنماط المرضيّة.

نتائج الأداء في السيناريوَين الأحاديّ والمُتعدِّد الوسائط

في الجدول [tab:univsmulti]، نقارن النهج المقترح مع LSTM أحاديّ الوسيط. كما هو متوقّع، نلاحظ أوّلًا تحسُّن أداء LSTM أحاديّ الوسيط على مجموعة اختبار \(\mathbf{EHR}_{\mathbf{PAIRED}}\) من حيث AUROC وAUPRC لكلا المهمّتَين عند استخدام مجموعة التدريب الأكبر \(\mathbf{EHR}_{\mathbf{PARTIAL}}\). ويُحقّق النهج المقترح باستخدام MedFuse أفضل أداء على مجموعة الاختبار المُقترَنة عند استخدام صور CXR كوسيط مُساعِد في التدريب والاستدلال (0.770 AUROC و0.481 AUPRC لتصنيف الأنماط المرضيّة، و0.865 AUROC و0.594 AUPRC لتنبُّؤ الوفيّات). ونلحظ اتجاهات مُشابهة لكن أقلّ وضوحًا في مجموعة الاختبار الأكبر المُقترَنة جزئيًّا، ربما لأن 18.8% و26.2% فقط من العيّنات مُقترَنة في مجموعتَي اختبار التصنيف وتنبُّؤ الوفيّات على التوالي.

نتائج الأداء في الإعداد المُقترَن

نظرًا لأنّ النماذج الأساسيّة صُمِّمت في الأصل للمدخلات المُقترَنة، قيّمنا جميع النماذج على مجموعة اختبار \((\mathbf{EHR+CXR})_{\mathbf{PAIRED}}\) كما هو موضح في الجدول [tab:paired_res]. أوّلًا، نلاحظ أنّ الدَّمج المُبكِّر والمُشترك يُنتجان أداءً مُتقاربًا في كلا المهمّتَين عند التدريب على \((\mathbf{EHR+CXR})_{\mathbf{PAIRED}}\)، مع تفوّق طفيف للدَّمج المُبكِّر في AUROC. كما نلاحظ أنّ تدريب الدَّمج المُبكِّر باستخدام \((\mathbf{EHR+CXR})_{\mathbf{PARTIAL}}\) يُفضي إلى انخفاض في AUROC وAUPRC في كلا المهمّتَين، بينما يتحسّن الدَّمج المُشترك فقط في التصنيف. ثانيًا، نلاحظ أنّ نهج Unified يُحقّق أفضل أداء بين الخطوط الأساسيّة (0.765 AUROC و0.461 AUPRC للتصنيف، و0.835 AUROC و0.495 AUPRC لتنبُّؤ الوفيّات). ثالثًا، يُحقّق النهج المقترح MedFuse (OPTIMAL) أفضل أداء في كلا المهمّتَين (0.770 AUROC و0.481 AUPRC للتصنيف، و0.865 AUROC و0.594 AUPRC لتنبُّؤ الوفيّات). أجرينا كذلك دراسة حذف عشوائي للوسيط الشعاعي في مجموعة الاختبار المُقترَنة، والنتائج في الملحق 7.4. كما قارَنّا بين استبدال الوسيط المفقود بأصفار أو بمتّجه قابل للتعلُّم في الدَّمج المُبكِّر والمُشترك، والنتائج في الملحق 7.5، حيث كان الأداء مُتقاربًا.

نتائج الأداء في الإعداد المُقترَن جزئيًّا

في الجدول [tab:partialresults]، نقيم النهج MedFuse إلى جانب الدَّمج المُبكِّر والمُشترك على مجموعة الاختبار المُقترَنة جزئيًّا. مقارنةً بالدَّمج المُبكِّر، يُحقّق النهج المقترح أداءً أفضل في تصنيف الأنماط المرضيّة (0.758 مقابل 0.748 AUROC و0.418 مقابل 0.394 AUPRC). وهو يُقدّم أداءً مُقاربًا في تنبُّؤ الوفيّات مع تفوّقٍ بسيط للدَّمج المُبكِّر في AUPRC. ويتفوّق نهجنا على الدَّمج المُشترك في تنبُّؤ الوفيّات (0.861 مقابل 0.841 AUROC و0.501 مقابل 0.482 AUPRC)، ويُقدّم أداءً مُقاربًا في التصنيف. إجمالًا، يُحقّق MedFuse (OPTIMAL) المُدرَّب مع عيّنات مُقترَنة و10% فقط من العيّنات أحاديّة الوسيط لتنبُّؤ الوفيّات و20% للتصنيف أفضل أداء (0.768 AUROC و0.429 AUPRC للتصنيف، و0.874 AUROC و0.567 AUPRC لتنبُّؤ الوفيّات). أجرينا كذلك دراسة حذف عشوائي لنسبة العيّنات أحاديّة الوسيط في الإعداد المُقترَن جزئيًّا، والنتائج في الملحق 7.6.

وقارَنّا أيضًا أداء MedFuse مع تجميعة من نموذجين: (1) MedFuse للعيّنات المُقترَنة، و(2) LSTM أحاديّ الوسيط للعيّنات التي تفتقد CXR. جاءت النتائج مُتقاربة كما في الملحق 7.7، ما يُشير إلى أنّ تجميع نماذج قويّة قد يكون مُفضّلًا في بعض المهام كالتصنيف، لكنه يتطلّب تدريب نموذجَين.

تحليل بحسب الأنماط المرضيّة

يوضّح الشكل [fig:types_bar] نتائج AUROC (يسار) وAUPRC (يمين) عبر فئات الأنماط المرضيّة: الحادّة، والمُختلطة، والمزمنة. أنواع العلامات وانتشارها مُوضّحة في الجدول [tab:phenotype_wise]. نلاحظ أنّ نهجنا يُحسِّن الأداء على نحوٍ ملحوظ في الحالات المُختلطة والمزمنة، والتي يصعب عادةً التنبّؤ بها اعتمادًا على بيانات EHR فقط . فمثلًا في الحالات المُختلطة يرتفع AUROC من 0.749 إلى 0.800 وAUPRC من 0.458 إلى 0.565. أمّا في الحالات المزمنة، فيرتفع AUROC من 0.717 إلى 0.745 وAUPRC من 0.487 إلى 0.512. وفي الحالات الحادّة، يكون التحسُّن أقلّ وضوحًا (AUROC من 0.761 إلى 0.772 وAUPRC من 0.432 إلى 0.433). وفي الجدول [tab:phenotype_wise]، نُبلّغ عن الأداء عبر جميع العلامات الـ25 على مجموعة الاختبار المُقترَنة باستخدام البيانات الأحاديّة والمُتعدِّدة. نُلاحظ تحسُّنًا في أنماط مرتبطة بالصدر مثل الالتهاب الرئوي والتهاب غشاء الجنب، التي تُقيَّم سريريًّا غالبًا بالتصوير الشعاعي ، ما يُبرز أهميّة استخدام صور الأشعّة السينيّة كمصدر إضافي مع بيانات EHR.

تحليل تنبُّؤ الوفيّات داخل المستشفى بحسب الفئات العمريّة

قيّمنا أداء النهج عبر الفئات العمريّة المختلفة كما هو مُبيَّن في الجدول [tab:age_analysis]، وقارَنّاه مع LSTM أحاديّ الوسيط. نلاحظ تحسُّنًا في AUROC وAUPRC للفئات 40–60 و60–80 وأكثر من 80 عامًا، بينما ينخفض AUROC للفئة 18–40 عامًا. يستلزم الأخير مزيدًا من الدراسة مع مجموعة بيانات أكبر، إذ تحتوي مجموعة الاختبار على 11 عيّنة إيجابيّة فقط لهذه الفئة. كما تتباين نسب التحسُّن؛ فمثلًا يرتفع AUPRC بنسبة 24% لفئة 40–60 عامًا، مقابل 1.3% لفئة 60–80 عامًا.

المناقشة

قدّمنا في هذا البحث نهج دَمج مُتعدِّد الوسائط باسم MedFuse ونتائج معياريّة جديدة لدَمج البيانات الزمنيّة السريريّة وصور الأشعّة السينيّة للصدر المُقترَنة جزئيًّا. قيّمنا النهج في مهمّتَين معياريّتَين شائعتَين: تنبُّؤ الوفيّات داخل المستشفى وتصنيف الأنماط المرضيّة، باستخدام مجموعتَي البيانات العامّتَين MIMIC-IV وMIMIC-CXR.

لدراستنا عدّة نقاط قوّة. أوّلًا، النهج المقترح بسيط وسهل التطبيق. أظهرت النتائج أنّه يتفوّق على LSTM الأحاديّ باستفادة من CXR كوسيط إضافي متى توافر، كما يتفوّق على عدّة خطوط أساس. ويُوفِّر تحليلُ الأنماط المرضيّة والفئات العمريّة رؤى حول مواضع التحسُّن. نستنتج أنّ الطريقة المقترحة مُفضّلة لأنها (1) تتعامل تلقائيًّا مع البيانات المفقودة (أي العيّنات المُقترَنة جزئيًّا)، و(2) تجمع بين البنية واستراتيجيّة التدريب بما يُحقّق مكاسب في الأداء. ولا يبدو أنّ حجم مجموعة التدريب المُقترَنة جزئيًّا مرتبط بتحسُّن الأداء، كما تُبيّنه نتائج التحقُّق في الملحق 7.3. إجمالًا، تُبرز النتائج إمكانات الدَّمج المُتعدِّد الوسائط في تحسين أداء النماذج السريريّة، كما يتّسق هذا التوجّه مع آليّة اتخاذ القرار الطبي التي تَستند إلى مصادر متعدِّدة للمعلومات.

فضلًا عن ذلك، وبخلاف الأساليب التقليديّة التي تفترض مُدخلات مُقترَنة، فإنّ طريقتنا أكثر مرونة، إذ تُعالِج العيّنات التي تفتقد صور CXR. وهناك اهتمام متزايد بتعلُّم التفاعلات بين الوسائط أثناء التدريب وإعادة بناء الوسائط المفقودة . لكن بخلاف مجموعات البيانات الطبيعيّة، لا يُعدّ افتراض ترابُط عالٍ بين الوسائط أمرًا بديهيًّا في الرعاية الصحيّة، خاصةً عندما لا تشترك الوسائط في العلامات نفسها؛ وهو ما يستدعي بحثًا مُستقبليًّا. تنبع الصعوبة من طبيعة البيانات الطبيّة المتفرّقة وغير المُتزامنة؛ فمن العسير مثلًا استخدام تقرير خزعة جلديّة لإعادة بناء ميزات أمراض صدرية . كما تفترض بعض الأعمال الحاليّة توافُر جميع الوسائط أثناء التدريب .

ميزة أخرى هي سهولة توسيع النهج إلى أكثر من وسيطَين دون تعديل دالّة الخسارة، بخلاف أعمالٍ سابقة تتعقّد مع ازدياد عدد الوسائط ؛ وإنْ كان ذلك يتطلّب تقييمًا لاحقًا. كما لا نفترض ترابُطًا مسبقًا بين الوسائط من حيث المعلومات أو العلامات.

بالإضافة إلى ذلك، قدّمنا نتائج معياريّة جديدة لمهمّتَين شائعتَين غالبًا ما تُقيَّمان باستخدام بيانات EHR فقط . وبإتاحة مجموعتَي MIMIC-IV وMIMIC-CXR وخطّ الأنابيب مفتوح المصدر، يمكن للباحثين تقديم نتائج جديدة ومقارنات مباشرة.

القيود

للدراسة بعض القيود. أوّلًا، ركّزنا على دَمج بيانات EHR وصور الأشعّة الصدريّة من مصدرٍ واحد، وقيمنا العمل على مهمّتَين فقط بسبب محدوديّة الموارد. يتضمّن العمل الأصلي مهمّتَين إضافيّتَين (تنبُّؤ فكّ التثبيت وتنبُّؤ مدة الإقامة)، ونخطّط لتقييم طريقتنا عليهما مستقبلًا. كما ينبغي دراسة مهمّة تنبُّؤ الوفيّات في سياق استبعاد صور الأشعّة المُلتقطة بعد أول 48 ساعة. ولم نجْرِ تجارب لِحالة غياب بيانات EHR مع توافُر CXR، وهو ما يستلزم تعريف مهامّ معياريّة جديدة حيث تكون CXR الوسيط الأساس. كذلك، يفتقر النموذج الحالي إلى التفسيرية إذ ركّزنا على الدَّمج فحسب. نخطّط لاحقًا لإدراج طبقات انتباه على مستوى المُدخلات لتقييم أهميّة الميزات داخل كلّ وسيط، وداخل وحدة الدَّمج لتقييم أهميّة كلّ وسيط. وقد يستفيد العمل من تحليلٍ على مستوى العيّنة، لكن ذلك يتطلّب خبرة سريريّة تربط بين تحليل الصور والبيانات الزمنيّة، وهو ما نفتقده حاليًّا. ولتحقيق الاستفادة الكاملة من التعلُّم المُتعدِّد الوسائط، نحن بحاجة إلى فهمٍ أعمق للأسس السريريّة للدَّمج. إجمالًا، تُبرز الدراسة أهميّة مواصلة استكشاف إمكانات التعلُّم المُتعدِّد الوسائط في الرعاية الصحيّة مع تزايد تنوّع وكميّة البيانات الطبيّة.

الشكر والتقدير

تمّ دعم هذا العمل جزئيًّا من قبل مركز الذكاء الاصطناعي والروبوتات بجامعة نيويورك أبوظبي، المُموَّل من «تمكين» ضمن جائزة معهد أبحاث جامعة نيويورك أبوظبي CG010. كما نشكر فريق الحوسبة عالية الأداء (HPC) في جامعة نيويورك أبوظبي على دعمهم.

الملحق

تحسينات الصور

بالنسبة لصور CXR، طبّقنا سلسلة تحويلات أثناء التدريب المُسبق والتحسين في جميع التجارب. قمنا بتغيير حجم كلّ صورة إلى \(256 \times 256\) بكسل، وتطبيق قلب أفقي عشوائي، وتحويلات عشوائيّة مثل التدوير والتحجيم والقصّ والترجمة. ثم أخذنا اقتصاصًا عشوائيًّا إلى \(224 \times 224\) بكسل. أثناء التحقُّق والاختبار، قمنا بتغيير الحجم إلى \(256 \times 256\) مع اقتصاص مركزي إلى \(224 \times 224\) بكسل.

نتائج البحث عن القِيَم الفائقة

نتائج ضبط القِيَم الفائقة مُوضّحة في الجدول [tab:learning_rates]. نُلخِّص مُعدّلات التعلُّم التي حقّقت أفضل أداء لكلّ نموذج.

نسبة العيّنات أحاديّة الوسيط ضمن مجموعة التدريب

أجرينا تجارب بتغيير نسبة العيّنات أحاديّة الوسيط أثناء التحسين. أفضل نتائج AUROC لكلا المهمّتَين على مجموعة التحقُّق مُبيَّنة في الشكل 3. بالنسبة لتنبُّؤ الوفيّات (بالأحمر)، تُحقّق نسبة صغيرة (10%) أفضل أداء. وبالنسبة للتصنيف (بالأزرق)، نُلاحظ اتجاهًا مُشابهًا مع أفضل AUROC عند 20%. نُثبّت النسبة المُثلى في جميع التجارب ما لم يُذكر خلاف ذلك. يُظهر ذلك أنّ مكاسب MedFuse تتحقّق حتى مع نسبة صغيرة من العيّنات أحاديّة الوسيط.

نسبة العيّنات أحاديّة الوسيط ضمن مجموعة الاختبار المُقترَن

أجرينا دراسة حذف عشوائي للوسيط الشعاعي في مجموعة الاختبار المُقترَنة. النتائج في الشكل 4. مع ازدياد نسبة الحذف، ينخفض AUROC في كلا المهمّتَين.

التعامُل مع الوسيط المفقود في الدَّمج المُبكِّر والمُشترك

أجرينا مقارنة أوليّة بين استخدام متّجه قابل للتعلُّم مقابل تعويض الأصفار للوسيط المفقود. النتائج في الجدول [tab:missing-modality]، وكانت مُتقاربة دون فروق جوهريّة.

نسبة العيّنات أحاديّة الوسيط ضمن مجموعة الاختبار المُقترَن جزئيًّا

أجرينا دراسة حذف عشوائي لنسبة العيّنات أحاديّة الوسيط في مجموعة الاختبار المُقترَنة جزئيًّا. النتائج في الشكل 5. عند 0%، يُعادِل ذلك مجموعة اختبار مُقترَنة بالكامل. نلاحظ زيادة في AUROC في مهمّة تنبُّؤ الوفيّات مع ازدياد النسبة، بينما يبقى AUROC أكثر استقرارًا في التصنيف. كما ينخفض عرض فترات الثقة مع ازدياد النسبة في كلا المهمّتَين.

تجميع النماذج الأحاديّة والمُتعدِّدة الوسائط

قارنّا أداء MedFuse مع تجميعة من نموذجين: نموذج EHR فقط (LSTM) للعيّنات غير المرتبطة بصورة CXR، ونموذج مُقترَن (MedFuse) للعيّنات المُقترَنة. النتائج في الجدول [tab:medfuse_unimodal]. يتفوّق التجميع قليلًا في التصنيف فقط، ما يوحي بأن تجميع نماذج قويّة قد يُناسب بعض المهام، لكنه يتطلّب تدريب نموذجين.


  1. يعمل حاليًّا في G42 للرعاية الصحيّة. ↩︎

  2. مراكز الرعاية الطبيّة والخدمات الطبيّة، https://www.cms.gov/Medicare/Coding/ICD10/2018-ICD-10-CM-and-GEMs ↩︎

  3. https://github.com/haamoon/mmtm ↩︎

  4. https://github.com/ai-med/DAFT/ ↩︎


تمّ تحويل هذا الإصدار من LaTeX إلى HTML تلقائيًّا.
تمّ عرض المعادلات الرياضيّة باستخدام MathJax.